Tartalomjegyzék[Elrejt][Előadás]
A GPT-3-at, a pillanatnyi nagy neurális hálózatot 2020 májusában tette közzé OpenAI, az Elon Musk és Sam Altman által társalapító AI startup. A GPT-3 egy élvonalbeli nyelvi modell 175 milliárd paraméterrel szemben az előd GPT-1,5 2 milliárd paraméterével.
A GPT-3 felülmúlta a Microsoft NLG Turing modelljét (Turing Natural Language Generation), amely korábban a legnagyobb neurális hálózat rekordját tartotta 17 milliárd paraméterrel.
A nyelvi modellt dicsérték, bírálták, sőt górcső alá is vették; új és érdekes felhasználási módokat is szült. És most vannak olyan jelentések, hogy a GPT-4, az OpenAI következő kiadása nyelvi modell, valóban hamarosan megérkezik.
A megfelelő oldalra érkezett, ha többet szeretne megtudni a GPT-4-ről. Ebben a cikkben részletesen megvizsgáljuk a GPT-4-et, lefedve annak paramétereit, összehasonlítását más modellekkel stb.
Szóval, mi az a GPT-4?
Ahhoz, hogy megértsük a GPT-4 hatókörét, először is meg kell értenünk a GPT-3-at, az előfutárát. A GPT-3 (Generative Pre-train Transformer, harmadik generációs) egy autonóm tartalomgeneráló eszköz.
A felhasználók adatokat adnak meg a gépi tanulás modellt, amely az OpenAI szerint ezt követően hatalmas mennyiségű releváns írást képes létrehozni. A GPT-4 lényegesen jobb lesz a többfeladatos munkavégzésben néhány felvétel körülményei között – ez egyfajta gépi tanulás – az eredményeket még közelebb hozva az emberekéhez.
A GPT-3 megépítése több száz millió fontba kerül, de az előrejelzések szerint a GPT-4 jóval többe fog kerülni, mivel ötszázszor nagyobb léptékű lesz. Hogy ezt perspektívába helyezzük,
A GPT-4-nek annyi jellemzője lehet, mint az agyban lévő szinapszisoknak. A GPT-4 főként ugyanazokat a módszereket fogja alkalmazni, mint a GPT-3, így ahelyett, hogy paradigmaugrás lenne, a GPT-4 kibővíti a GPT-3 jelenlegi teljesítményét – de lényegesen nagyobb következtetési képességgel.
A GPT-3 lehetővé tette a felhasználók számára, hogy gyakorlati célból természetes nyelvet írjanak be, de még mindig szükség volt némi szakértelemre a jó eredményeket hozó prompt megtervezéséhez. A GPT-4 lényegesen jobban megjósolja a felhasználók szándékait.
Mik lesznek a GPT-4 paraméterei?
Annak ellenére, hogy ez az egyik legszélesebb körben várt mesterséges intelligencia fejlesztés, semmit sem tudunk a GPT-4-ről: hogyan fog kinézni, milyen jellemzői lesznek, és milyen képességekkel rendelkezik.
Tavaly Altman kérdezett és válaszolt, és elárult néhány részletet az OpenAI GPT-4-gyel kapcsolatos ambícióiról. Altman szerint nem lenne nagyobb, mint a GPT-3. A GPT-4 valószínűleg nem a legszélesebb körben használt nyelvi modell. Bár a modell hatalmas lesz az előző generációkhoz képest neurális hálózatok, nem a mérete lesz a megkülönböztető jellemzője. A GPT-3 és a Gopher a legvalószínűbb jelöltek (175B-280B).
Az Nvidia és a Microsoft Megatron-Turing NLG cége tartotta a rekordot legsűrűbb neurális hálózat paraméterek 530B-n – a GPT-3 háromszorosa – egészen a közelmúltig, amikor a Google PaLM-je 540B-re tette. Meglepő módon egy csomó kisebb modell jobban teljesített, mint az MT-NLG.
Egy hatványtörvényes összefüggés szerint az OpenAI-s Jared Kaplan és munkatársai 2020-ban megállapították, hogy amikor a feldolgozási költségvetés növekedését leginkább a paraméterek számának növelésére fordítják, akkor a teljesítmény javul a legjobban. A Google, az Nvidia, a Microsoft, az OpenAI, a DeepMind és más nyelvmodellező cégek engedelmesen betartották az előírásokat.
Altman jelezte, hogy már nem a masszív modellek megalkotására koncentrálnak, hanem a kisebb modellek teljesítményének maximalizálására.
Az OpenAI kutatói a skálázási hipotézis korai támogatói voltak, de felfedezhették, hogy további, korábban fel nem fedezett utak kiváló modellekhez vezethetnek. A GPT-4 ezen okok miatt nem lesz lényegesen nagyobb, mint a GPT-3.
Az OpenAI nagyobb hangsúlyt fektet más szempontokra, mint például az adatokra, az algoritmusokra, a paraméterezésre és az igazításra, amelyek gyorsabban hozhatnak jelentős előnyöket. Várnunk kell, mire képes egy 100T paraméterekkel rendelkező modell.
Főbb pontok:
- A modell mérete: A GPT-4 nagyobb lesz, mint a GPT-3, de nem sokkal (MT-NLG 530B és PaLM 540B). A modell mérete figyelemre méltó lesz.
- Optimalitás: A GPT-4 több erőforrást használ, mint a GPT-3. Új optimalitási betekintést fog megvalósítani a paraméterezésben (optimális hiperparaméterek) és a skálázási módszerekben (a képzési tokenek száma ugyanolyan fontos, mint a modell mérete).
- Multimodalitás: A GPT-4 csak szöveges üzenetek küldésére és fogadására lesz képes (multimodális nem). Az OpenAI arra törekszik, hogy a nyelvi modelleket a határaikra szorítsa, mielőtt áttérne olyan multimodális modellekre, mint például 2. FÖLD, amely előrejelzésük szerint végül felülmúlja az unimodális rendszereket.
- Ritkaság: A GPT-4 elődeihez hasonlóan a GPT-2-hez és a GPT-3-hoz is sűrű modell lesz (az összes paramétert használni fogják bármely adott bemenet feldolgozásához). A jövőben a ritkaság egyre fontosabb lesz.
- Alignment: A GPT-4 közelebb kerül hozzánk, mint a GPT-3. Az emberi közreműködéssel kifejlesztett InstructGPT-ből tanultakat fogja felvenni. A mesterséges intelligencia konvergenciája azonban még nagyon messze van, és az erőfeszítéseket gondosan fel kell mérni, nem pedig eltúlozni.
Következtetés
Mesterséges általános intelligencia. Ez egy nagy cél, de az OpenAI fejlesztői azon dolgoznak, hogy elérjék. Az AGI célja egy olyan modell vagy „ügynök” létrehozása, amely képes megérteni és elvégezni minden olyan tevékenységet, amelyre egy személy képes.
A GPT-4 lehet a következő lépés e cél elérése felé, és úgy hangzik, mint valami sci-fi filmben. Kíváncsi lehet, mennyire reális az AGI elérése.
Ray Kurzweil, a Google mérnöki igazgatója szerint 2029-re elérjük ezt a mérföldkövet. Ezt szem előtt tartva, vessünk egy mélyebb pillantást a GPT-4-re és ennek a modellnek a következményeire, ahogy közelebb kerülünk az AGI-hez (Artificial General Intelligence).
Hagy egy Válaszol