Taula de continguts[Amaga][Espectacle]
GPT-3, la gran xarxa neuronal del moment, va ser publicada el maig de 2020 per OpenAI, la startup d'IA cofundada per Elon Musk i Sam Altman. GPT-3 és un model de llenguatge d'avantguarda amb 175 milions de paràmetres en comparació amb els 1,5 milions de paràmetres del seu predecessor GPT-2.
GPT-3 va superar el model NLG Turing de Microsoft (Turing Natural Language Generation), que anteriorment havia tingut el rècord de la xarxa neuronal més gran amb 17 milions de paràmetres.
El model lingüístic ha estat lloat, criticat i fins i tot escrutat; també ha generat usos nous i intrigants. I ara hi ha informes que GPT-4, la propera edició de l'OpenAI model lingüístic, de fet arribarà aviat.
Heu arribat al lloc adequat si voleu obtenir més informació sobre el GPT-4. Veurem el GPT-4 en profunditat en aquest article, cobrint els seus paràmetres, com es compara amb altres models i molt més.
Aleshores, què és GPT-4?
Per entendre l'abast de GPT-4, primer hem d'entendre GPT-3, el seu precursor. GPT-3 (Generative Pre-Trained Transformer, tercera generació) és una eina autònoma de generació de contingut.
Els usuaris introdueixen dades en a màquina d'aprenentatge model, que posteriorment pot produir quantitats massives d'escriptura rellevant com a resposta, segons OpenAI. GPT-4 serà significativament millor a la multitasca en condicions de poques fotografies, una mena de màquina d'aprenentatge – apropar encara més els resultats als humans.
GPT-3 costa centenars de milions de lliures de construir, però es preveu que GPT-4 costarà molt més perquè serà cinc-centes vegades més gran. Per posar això en perspectiva,
GPT-4 pot tenir tantes característiques com sinapsis al cervell. GPT-4 utilitzarà principalment els mateixos mètodes que GPT-3, per tant, en lloc de ser un salt de paradigma, GPT-4 ampliarà el que aconsegueix actualment GPT-3, però amb una capacitat d'inferència significativament més gran.
GPT-3 permetia als usuaris entrar en llenguatge natural amb finalitats pràctiques, però encara necessitava una mica d'experiència per dissenyar un missatge que donava bons resultats. GPT-4 serà significativament millor per predir les intencions dels usuaris.
Quins seran els paràmetres GPT-4?
Tot i ser un dels avenços de la IA més esperats, no se sap res del GPT-4: com serà, quines característiques tindrà i quins poders tindrà.
L'any passat, Altman va fer una pregunta i resposta i va revelar alguns detalls sobre les ambicions d'OpenAI per a GPT-4. No seria més gran que GPT-3, segons Altman. És poc probable que GPT-4 sigui el més utilitzat model lingüístic. Tot i que el model serà enorme en comparació amb les generacions anteriors xarxes neuronals, la seva mida no serà la seva característica distintiva. GPT-3 i Gopher són els candidats més plausibles (175B-280B).
Nvidia i Megatron-Turing NLG de Microsoft van mantenir el rècord de la xarxa neuronal més densa paràmetres a 530B, tres vegades més que GPT-3, fins fa poc quan el PaLM de Google el va prendre a 540B. Sorprenentment, una gran quantitat de models menors van superar el MT-NLG.
Segons una connexió de llei d'energia, Jared Kaplan d'OpenAI i els seus col·legues van determinar l'any 2020 que quan els augments del pressupost de processament es dediquen principalment a augmentar el nombre de paràmetres, el rendiment millora més. Google, Nvidia, Microsoft, OpenAI, DeepMind i altres empreses de modelatge lingüístic van seguir amb obediència les regulacions.
Altman va indicar que ja no es concentraven a construir models massius, sinó a maximitzar el rendiment de models més petits.
Els investigadors d'OpenAI van ser els primers defensors de la hipòtesi de l'escala, però poden haver descobert que camins addicionals no descoberts anteriorment podrien conduir a models superiors. GPT-4 no serà significativament més gran que GPT-3 per aquests motius.
OpenAI centrarà més en altres aspectes, com ara les dades, els algorismes, la parametrització i l'alineació, que tenen el potencial de produir beneficis significatius més ràpidament. Haurem d'esperar i veure què pot fer un model amb paràmetres 100T.
Punts clau:
- Mida del model: El GPT-4 serà més gran que el GPT-3, però no gaire (MT-NLG 530B i PaLM 540B). La mida del model no serà remarcable.
- Optimitat: GPT-4 utilitzarà més recursos que GPT-3. Implementarà nous coneixements d'optimitat sobre parametrització (hiperparàmetres òptims) i mètodes d'escalat (el nombre de fitxes d'entrenament és tan important com la mida del model).
- Multimodalitat: El GPT-4 només podrà enviar i rebre missatges de text (no multimodal). OpenAI busca empènyer els models lingüístics als seus límits abans de passar a models multimodals com ara DALLA 2, que prediuen que finalment superarà els sistemes unimodals.
- Esparsa: GPT-4, com els seus predecessors GPT-2 i GPT-3, serà un model dens (tots els paràmetres s'utilitzaran per processar qualsevol entrada). En el futur, l'escassetat serà més important.
- Alineació: GPT-4 s'acostarà més a nosaltres que GPT-3. Posarà el que ha après d'InstructGPT, que es va desenvolupar amb aportacions humanes. Tot i així, la convergència de la IA està molt lluny, i els esforços s'han d'avaluar acuradament en lloc d'exagerar.
Conclusió
Intel·ligència general artificial. És un gran objectiu, però els desenvolupadors d'OpenAI estan treballant per aconseguir-ho. L'objectiu d'AGI és crear un model o "agent" capaç d'entendre i fer qualsevol activitat que una persona pugui.
GPT-4 pot ser el següent pas per assolir aquest objectiu, i sembla una pel·lícula de ciència ficció. Podríeu estar preguntant-vos com de realista és assolir l'AGI.
Aconseguirem aquesta fita el 2029, segons Ray Kurzweil, director d'enginyeria de Google. Tenint això en compte, aprofundim en GPT-4 i les ramificacions d'aquest model a mesura que ens acostem a l'AGI (Intel·ligència General Artificial).
Deixa un comentari