Kazalo[Skrij][Pokaži]
GPT-3, trenutno veliko nevronsko mrežo, je maja 2020 objavil OpenAI, startup AI, ki sta ga soustanovila Elon Musk in Sam Altman. GPT-3 je najsodobnejši jezikovni model s 175 milijardami parametrov v primerjavi z 1,5 milijarde parametrov v predhodniku GPT-2.
GPT-3 je presegel Microsoftov model NLG Turing (Turing Natural Language Generation), ki je bil pred tem rekorder za največjo nevronsko mrežo s 17 milijardami parametrov.
Jezikovni model je bil hvaljen, kritiziran in celo pod drobnogledom; sprožila je tudi nove in zanimive uporabe. In zdaj obstajajo poročila, da je GPT-4, naslednja izdaja OpenAI jezikovni model, bo res kmalu.
Prišli ste na pravo stran, če želite izvedeti več o GPT-4. V tem članku si bomo poglobljeno ogledali GPT-4, ki zajema njegove parametre, primerjavo z drugimi modeli in še več.
Torej, kaj je GPT-4?
Da bi razumeli obseg GPT-4, moramo najprej razumeti GPT-3, njegovega predhodnika. GPT-3 (Generative Pre-trained Transformer, tretja generacija) je avtonomno orodje za ustvarjanje vsebine.
Uporabniki vnašajo podatke v a strojno učenje model, ki lahko nato ustvari ogromne količine ustreznega pisanja kot odgovor, glede na OpenAI. GPT-4 bo bistveno boljši pri večopravilnosti v pogojih nekaj posnetkov - vrsta strojno učenje – še bolj približati rezultate človeškim.
Izdelava GPT-3 stane na stotine milijonov funtov, vendar naj bi GPT-4 stala bistveno več, ker bo po obsegu petstokrat večji. Da to postavim v perspektivo,
GPT-4 ima lahko toliko lastnosti kot sinapse v možganih. GPT-4 bo večinoma uporabljal enake metode kot GPT-3, zato bo GPT-4 namesto paradigmskega preskoka razširil tisto, kar GPT-3 trenutno dosega - vendar z bistveno večjo sposobnostjo sklepanja.
GPT-3 je uporabnikom omogočal vnos naravnega jezika za praktične namene, vendar je še vedno potreboval nekaj strokovnega znanja za oblikovanje poziva, ki bi prinesel dobre rezultate. GPT-4 bo bistveno boljši pri napovedovanju namenov uporabnikov.
Kakšni bodo parametri GPT-4?
Kljub temu, da je eden najbolj pričakovanih napredkov umetne inteligence, o GPT-4 ni nič znanega: kako bo izgledal, kakšne lastnosti bo imel in kakšne moči bo imel.
Lansko leto je Altman postavil vprašanja in odgovore in razkril nekaj podrobnosti o ambicijah OpenAI za GPT-4. Po Altmanu ne bi bil večji od GPT-3. GPT-4 verjetno ne bo najbolj razširjen jezikovni model. Čeprav bo model ogromen v primerjavi s prejšnjimi generacijami nevronske mreže, njegova velikost ne bo njena prepoznavna značilnost. GPT-3 in Gopher sta najbolj verjetna kandidata (175B-280B).
Nvidia in Microsoftov Megatron-Turing NLG sta imela rekord za najgostejša nevronska mreža parametrov pri 530B – trikrat več kot GPT-3 – do nedavnega, ko ga je Googlov PaLM prevzel pri 540B. Presenetljivo je, da je množica manjših modelov presegla MT-NLG.
Glede na povezavo z zakonodajo moči so Jared Kaplan iz OpenAI in sodelavci leta 2020 ugotovili, da se pri povečanju proračuna za obdelavo porabi večinoma za povečanje števila parametrov, se učinkovitost najbolj izboljša. Google, Nvidia, Microsoft, OpenAI, DeepMind in druga podjetja za jezikovno modeliranje so poslušno sledila predpisom.
Altman je navedel, da se ne osredotočajo več na konstruiranje masivnih modelov, temveč na maksimiranje zmogljivosti manjših modelov.
Raziskovalci OpenAI so bili zgodnji zagovorniki hipoteze o skaliranju, vendar so morda odkrili, da bi dodatne, prej neodkrite poti lahko vodile do vrhunskih modelov. GPT-4 iz teh razlogov ne bo bistveno večji od GPT-3.
OpenAI se bo bolj osredotočil na druge vidike, kot so podatki, algoritmi, parametriranje in poravnava, ki lahko hitreje prinesejo pomembne koristi. Počakati bomo morali in videti, kaj lahko naredi model s parametri 100T.
Ključne točke:
- Velikost modela: GPT-4 bo večji od GPT-3, vendar ne veliko (MT-NLG 530B in PaLM 540B). Velikost modela bo nepomembna.
- Optimalnost: GPT-4 bo porabil več virov kot GPT-3. Izvajal bo nove vpoglede v optimalnost v parametrizacijo (optimalni hiperparametri) in metode skaliranja (število žetonov za usposabljanje je enako pomembno kot velikost modela).
- Multimodalnost: GPT-4 bo lahko pošiljal in prejemal samo besedilna sporočila (ne multimodalna). OpenAI skuša jezikovne modele potisniti do njihovih meja, preden preide na multimodalne modele, kot je npr PLOŠČA 2, za katerega napovedujejo, da bo sčasoma presegel unimodalne sisteme.
- Redkost: GPT-4, tako kot njegova predhodnika GPT-2 in GPT-3, bo gost model (vsi parametri bodo uporabljeni za obdelavo katerega koli podanega vhoda). V prihodnosti bo redkost postala pomembnejša.
- Poravnava: GPT-4 se nam bo bolj približal kot GPT-3. Postavil bo, kar se je naučil od InstructGPT, ki je bil razvit s človeškim vložkom. Kljub temu je konvergenca umetne inteligence daleč in prizadevanja je treba skrbno oceniti in ne pretiravati.
zaključek
Umetna splošna inteligenca. To je velik cilj, vendar razvijalci OpenAI delajo, da bi ga dosegli. Cilj AGI je ustvariti model ali "agenta", ki je sposoben razumeti in izvajati katero koli dejavnost, ki jo oseba lahko.
GPT-4 je morda naslednji korak pri doseganju tega cilja in zveni kot nekaj iz znanstvenofantastičnega filma. Morda se sprašujete, kako realno je doseči AGI.
Ta mejnik bomo dosegli do leta 2029, pravi Ray Kurzweil, Googlov direktor inženiringa. Glede na to si poglejmo globlje GPT-4 in posledice tega modela, ko se približujemo AGI (umetna splošna inteligenca).
Pustite Odgovori