Sadržaj[Sakrij][Prikaži]
GPT-3, velika neuronska mreža tog trenutka, objavljena je u maju 2020. godine od strane OpenAI, AI startup čiji su suosnivači Elon Musk i Sam Altman. GPT-3 je vrhunski jezički model sa 175 milijardi parametara u poređenju sa 1,5 milijardi parametara u svom prethodniku GPT-2.
GPT-3 je nadmašio Microsoftov NLG Turing model (Turing Natural Language Generation), koji je prethodno držao rekord za najveću neuronsku mrežu sa 17 milijardi parametara.
Jezički model je hvaljen, kritikovan, pa čak i ispitan; također je iznjedrio nove i intrigantne upotrebe. A sada postoje izvještaji da je GPT-4, sljedeće izdanje OpenAI jezički model, zaista će uskoro doći.
Stigli ste na pravo mjesto ako želite saznati više o GPT-4. U ovom članku ćemo detaljno pogledati GPT-4, pokrivajući njegove parametre, upoređujući ga s drugim modelima i još mnogo toga.
Dakle, šta je GPT-4?
Da bismo razumeli opseg GPT-4, prvo moramo razumeti GPT-3, njegovog prethodnika. GPT-3 (Generative Pre-trained Transformer, treća generacija) je autonomni alat za generiranje sadržaja.
Korisnici unose podatke u a mašinsko učenje model, koji može naknadno proizvesti ogromne količine relevantnog pisanja kao odgovor, prema OpenAI. GPT-4 će biti znatno bolji u multitaskingu u uslovima nekoliko snimaka - vrsta mašinsko učenje – još više približavajući rezultate onima kod ljudi.
Izrada GPT-3 košta stotine miliona funti, ali se predviđa da će GPT-4 koštati znatno više jer će biti petsto puta veći po veličini. Da ovo stavim u perspektivu,
GPT-4 može imati onoliko karakteristika koliko i sinapse u mozgu. GPT-4 će uglavnom koristiti iste metode kao GPT-3, tako da umjesto da bude paradigmski skok, GPT-4 će proširiti ono što GPT-3 trenutno postiže – ali sa znatno većom sposobnošću zaključivanja.
GPT-3 je omogućio korisnicima da uđu u prirodni jezik u praktične svrhe, ali je i dalje bila potrebna određena stručnost da bi se dizajnirao prompt koji bi dao dobre rezultate. GPT-4 će biti znatno bolji u predviđanju namjera korisnika.
Koji će biti GPT-4 parametri?
Uprkos tome što je jedan od najiščekivanijih napretka AI, ništa se ne zna o GPT-4: kako će izgledati, koje karakteristike će imati i koje će moći imati.
Prošle godine, Altman je postavio pitanja i odgovore i otkrio nekoliko detalja o OpenAI-jevim ambicijama za GPT-4. Prema Altmanu, ne bi bio veći od GPT-3. Malo je vjerovatno da će GPT-4 biti najčešće korišten jezički model. Iako će model biti ogroman u odnosu na prethodne generacije neuronske mreže, njegova veličina neće biti njegova prepoznatljiva karakteristika. GPT-3 i Gopher su najvjerovatniji kandidati (175B-280B).
Nvidia i Microsoftov Megatron-Turing NLG držali su rekord najgušća neuronska mreža parametri na 530B – tri puta više od GPT-3 – sve do nedavno kada ga je Google PaLM uzeo na 540B. Iznenađujuće, mnoštvo manjih modela nadmašilo je MT-NLG.
Prema zakonskoj vezi, Jared Kaplan i kolege iz OpenAI-a su 2020. godine utvrdili da kada se povećanja budžeta za obradu troše uglavnom na povećanje broja parametara, performanse se najviše poboljšavaju. Google, Nvidia, Microsoft, OpenAI, DeepMind i druge kompanije za modeliranje jezika poslušno su slijedile propise.
Altman je naveo da se više ne koncentrišu na konstruisanje masivnih modela, već radije na maksimiziranje performansi manjih modela.
OpenAI istraživači su bili rani zagovornici hipoteze o skaliranju, ali su možda otkrili da dodatni, prethodno neotkriveni putevi mogu dovesti do superiornih modela. GPT-4 neće biti značajno veći od GPT-3 iz ovih razloga.
OpenAI će staviti veći fokus na druge aspekte, kao što su podaci, algoritmi, parametrizacija i usklađivanje, koji imaju potencijal da brže donesu značajne prednosti. Moraćemo da sačekamo i vidimo šta model sa 100T parametrima može da uradi.
Ključne točke:
- Veličina modela: GPT-4 će biti veći od GPT-3, ali ne mnogo (MT-NLG 530B i PaLM 540B). Veličina modela će biti neupadljiva.
- Optimalnost: GPT-4 će koristiti više resursa od GPT-3. On će implementirati nove uvide u optimalnost u parametrizaciju (optimalni hiperparametri) i metode skaliranja (broj tokena za obuku je važan koliko i veličina modela).
- Multimodalnost: GPT-4 će moći samo slati i primati tekstualne poruke (ne multimodalne). OpenAI nastoji gurnuti jezičke modele do njihovih granica prije prelaska na multimodalne modele kao što su PLOČA 2, za koji predviđaju da će na kraju nadmašiti unimodalne sisteme.
- Sparsity: GPT-4, kao i njegovi prethodnici GPT-2 i GPT-3, će biti gust model (svi parametri će se koristiti za obradu bilo kojeg datog ulaza). U budućnosti će retkost postati važnija.
- Poravnanje: GPT-4 će nam se približiti bliže nego GPT-3. Staviće ono što je naučio od InstructGPT-a, koji je razvijen uz pomoć ljudi. Ipak, konvergencija AI je daleko, a napore treba pažljivo procijeniti, a ne preuveličavati.
zaključak
Opća umjetna inteligencija. To je veliki cilj, ali OpenAI programeri rade na tome da ga postignu. Cilj AGI je stvoriti model ili „agenta“ sposobnog za razumijevanje i obavljanje bilo koje aktivnosti koju osoba može.
GPT-4 bi mogao biti sljedeći korak u postizanju ovog cilja, a zvuči kao nešto iz naučnofantastičnog filma. Mogli biste se pitati koliko je realno postići AGI.
Dostići ćemo ovu prekretnicu do 2029. godine, kaže Ray Kurzweil, Googleov direktor inženjeringa. Imajući to na umu, pogledajmo dublje GPT-4 i posljedice ovog modela kako se približavamo AGI (vještačkoj općoj inteligenciji).
Ostavite odgovor