Cuprins[Ascunde][Spectacol]
GPT-3, marea rețea neuronală a momentului, a fost publicată în mai 2020 de OpenAI, startup-ul AI co-fondat de Elon Musk și Sam Altman. GPT-3 este un model de limbaj de ultimă oră, cu 175 de miliarde de parametri, comparativ cu 1,5 miliarde de parametri din predecesorul GPT-2.
GPT-3 a depășit modelul Microsoft NLG Turing (Turing Natural Language Generation), care deținea anterior recordul pentru cea mai mare rețea neuronală cu 17 miliarde de parametri.
Modelul de limbaj a fost lăudat, criticat și chiar analizat; a generat, de asemenea, utilizări noi și interesante. Și acum există rapoarte că GPT-4, următoarea ediție a OpenAI model de limbaj, într-adevăr va veni în curând.
Ați ajuns pe site-ul potrivit dacă doriți să aflați mai multe despre GPT-4. Ne vom uita la GPT-4 în profunzime în acest articol, acoperind parametrii acestuia, cum se compară cu alte modele și multe altele.
Deci, ce este GPT-4?
Pentru a înțelege scopul GPT-4, trebuie să înțelegem mai întâi GPT-3, precursorul său. GPT-3 (Generative Pre-trained Transformer, a treia generație) este un instrument autonom de generare de conținut.
Utilizatorii introduc date într-un masina de învățare model, care poate produce ulterior cantități masive de scriere relevantă ca răspuns, conform OpenAI. GPT-4 va fi semnificativ mai bun la multitasking în condiții de câteva fotografii - un tip de masina de învățare – aducerea rezultatelor și mai aproape de cele ale oamenilor.
GPT-3 costă sute de milioane de lire sterline pentru a construi, dar se preconizează că GPT-4 va costa semnificativ mai mult, deoarece va fi de cinci sute de ori mai mare la scară. Pentru a pune acest lucru în perspectivă,
GPT-4 poate avea la fel de multe caracteristici ca și sinapse din creier. GPT-4 va folosi în principal aceleași metode ca GPT-3, astfel încât, în loc să fie un salt de paradigmă, GPT-4 se va extinde asupra a ceea ce realizează GPT-3 în prezent, dar cu o capacitate de inferență semnificativ mai mare.
GPT-3 le-a permis utilizatorilor să introducă limbajul natural în scopuri practice, dar mai avea nevoie de ceva experiență pentru a proiecta un prompt care să ofere rezultate bune. GPT-4 va fi semnificativ mai bun la prezicerea intențiilor utilizatorilor.
Care vor fi parametrii GPT-4?
În ciuda faptului că este unul dintre cele mai așteptate progrese ale AI, nu se știe nimic despre GPT-4: cum va arăta, ce caracteristici va avea și ce puteri va avea.
Anul trecut, Altman a făcut un întrebări și răspunsuri și a dezvăluit câteva detalii despre ambițiile OpenAI pentru GPT-4. Nu ar fi mai mare decât GPT-3, potrivit Altman. GPT-4 este puțin probabil să fie cel mai utilizat model de limbaj. Deși modelul va fi uriaș în comparație cu generațiile anterioare de rețele neuronale, dimensiunea sa nu va fi caracteristica sa distinctivă. GPT-3 și Gopher sunt cei mai plauzibili candidați (175B-280B).
Nvidia și Megatron-Turing NLG de la Microsoft au deținut recordul pentru cea mai densă rețea neuronală parametrii la 530B – de trei ori mai mari decât GPT-3 – până de curând, când PaLM de la Google a luat-o la 540B. În mod surprinzător, o mulțime de modele mai mici au depășit MT-NLG.
Conform unei conexiuni de putere, Jared Kaplan și colegii de la OpenAI au stabilit în 2020 că atunci când procesarea creșterilor bugetare sunt cheltuite mai ales pentru creșterea numărului de parametri, performanța se îmbunătățește cel mai mult. Google, Nvidia, Microsoft, OpenAI, DeepMind și alte companii de modelare lingvistică au respectat cu supunere regulamentele.
Altman a indicat că nu se mai concentrau pe construirea de modele masive, ci mai degrabă pe maximizarea performanței modelelor mai mici.
Cercetătorii OpenAI au fost primii susținători ai ipotezei de scalare, dar este posibil să fi descoperit că căi suplimentare, nedescoperite anterior, ar putea duce la modele superioare. GPT-4 nu va fi semnificativ mai mare decât GPT-3 din aceste motive.
OpenAI va pune un accent mai mare pe alte aspecte, cum ar fi datele, algoritmii, parametrizarea și alinierea, care au potențialul de a produce beneficii semnificative mai rapid. Va trebui să așteptăm și să vedem ce poate face un model cu parametri 100T.
Puncte cheie:
- Dimensiunea modelului: GPT-4 va fi mai mare decât GPT-3, dar nu cu mult (MT-NLG 530B și PaLM 540B). Dimensiunea modelului va fi neremarcabilă.
- Optimalitate: GPT-4 va folosi mai multe resurse decât GPT-3. Acesta va implementa noi perspective de optimizare în parametrizare (hiperparametri optimi) și metode de scalare (numărul de jetoane de antrenament este la fel de important ca dimensiunea modelului).
- Multimodalitate: GPT-4 va putea trimite și primi doar mesaje text (nu multimodal). OpenAI încearcă să împingă modelele lingvistice la limite înainte de a trece la modele multimodale precum DALA 2, despre care ei prevăd că vor depăși în cele din urmă sistemele unimodale.
- raritate: GPT-4, ca și predecesorii săi GPT-2 și GPT-3, va fi un model dens (toți parametrii vor fi utilizați pentru a procesa orice intrare). În viitor, raritatea va deveni mai importantă.
- Aliniere: GPT-4 ne va aborda mai îndeaproape decât GPT-3. Va pune ceea ce a învățat de la InstructGPT, care a fost dezvoltat cu aport uman. Totuși, convergența AI este departe, iar eforturile ar trebui evaluate cu atenție, mai degrabă decât exagerate.
Concluzie
Informații generale artificiale. Este un obiectiv mare, dar dezvoltatorii OpenAI lucrează pentru a-l atinge. Scopul AGI este de a crea un model sau „agent” capabil să înțeleagă și să facă orice activitate pe care o poate face o persoană.
GPT-4 poate fi următorul pas în atingerea acestui obiectiv și sună ca ceva dintr-un film științifico-fantastic. S-ar putea să vă întrebați cât de realist este să obțineți AGI.
Vom atinge această etapă până în 2029, potrivit lui Ray Kurzweil, directorul de inginerie al Google. Având în vedere acest lucru, să aruncăm o privire mai profundă asupra GPT-4 și a ramificațiilor acestui model pe măsură ce ne apropiem de AGI (Inteligenta Generală Artificială).
Lasă un comentariu