INHOUDSOPGAWE[Versteek][Wys]
GPT-3, die groot neurale netwerk van die oomblik, is in Mei 2020 gepubliseer deur OpenAI, die KI-opstart wat saamgestig is deur Elon Musk en Sam Altman. GPT-3 is 'n toonaangewende taalmodel met 175 miljard parameters vergeleke met 1,5 miljard parameters in sy voorganger GPT-2.
GPT-3 het beter gevaar as Microsoft se NLG Turing-model (Turing Natural Language Generation), wat voorheen die rekord gehou het vir die grootste neurale netwerk met 17 miljard parameters.
Die taalmodel is geprys, gekritiseer en selfs onder die loep geneem; dit het ook nuwe en interessante gebruike tot gevolg gehad. En nou is daar berigte dat GPT-4, die volgende uitgawe van die OpenAI taalmodel, sal inderdaad binnekort kom.
Jy het by die regte webwerf aangekom as jy meer wil leer oor die GPT-4. Ons sal die GPT-4 in diepte in hierdie artikel kyk, wat sy parameters dek, hoe dit met ander modelle vergelyk, en meer.
So, wat is GPT-4?
Om die omvang van GPT-4 te verstaan, moet ons eers GPT-3, sy voorloper, verstaan. GPT-3 (Generative Pre-trained Transformer, derde generasie) is 'n outonome inhoud-genererende instrument.
Gebruikers voer data in in 'n machine learning model, wat daarna groot hoeveelhede relevante skryfwerk in reaksie kan produseer, volgens OpenAI. GPT-4 sal aansienlik beter wees in multitasking in min skoot toestande - 'n tipe van machine learning – om die uitkomste selfs nader aan dié van mense te bring.
GPT-3 kos honderde miljoene ponde om te bou, maar daar word voorspel dat GPT-4 aansienlik meer sal kos omdat dit vyfhonderd keer groter in skaal sal wees. Om dit in perspektief te plaas,
GPT-4 kan soveel eienskappe hê as sinapse in die brein. GPT-4 sal hoofsaaklik dieselfde metodes as GPT-3 gebruik, dus eerder as om 'n paradigmasprong te wees, sal GPT-4 uitbrei oor wat GPT-3 tans bereik - maar met aansienlik groter afleidingsvermoë.
GPT-3 het gebruikers toegelaat om natuurlike taal vir praktiese doeleindes in te voer, maar dit het steeds 'n mate van kundigheid nodig gehad om 'n boodskap te ontwerp wat goeie resultate sou lewer. GPT-4 sal aansienlik beter wees om die bedoelings van gebruikers te voorspel.
Wat sal die GPT-4-parameters wees?
Ten spyte daarvan dat dit een van die mees verwagte KI-vooruitgang is, is niks bekend oor GPT-4 nie: hoe dit sal lyk, watter eienskappe dit sal hê en watter kragte dit sal hê.
Verlede jaar het Altman 'n V&A gedoen en 'n paar besonderhede oor OpenAI se ambisies vir GPT-4 onthul. Dit sou nie groter as GPT-3 wees nie, volgens Altman. Dit is onwaarskynlik dat GPT-4 die algemeenste sal wees taalmodel. Alhoewel die model groot sal wees in vergelyking met vorige generasies van neurale netwerke, sal sy grootte nie sy onderskeidende kenmerk wees nie. GPT-3 en Gopher is die mees aanneemlike kandidate (175B-280B).
Nvidia en Microsoft se Megatron-Turing NLG het die rekord gehou vir die digste neurale netwerk parameters by 530B – drie keer dié van GPT-3 – tot onlangs toe Google se PaLM dit op 540B geneem het. Verbasend genoeg het 'n rits mindere modelle beter as die MT-NLG gevaar.
Volgens 'n krag-wet verband het OpenAI se Jared Kaplan en kollegas in 2020 vasgestel dat wanneer die verwerking van begrotingsverhogings meestal bestee word aan die verhoging van die aantal parameters, prestasie die grootste verbeter. Google, Nvidia, Microsoft, OpenAI, DeepMind en ander taalmodelleringsmaatskappye het die regulasies gehoorsaam gevolg.
Altman het aangedui dat hulle nie meer daarop konsentreer om massiewe modelle te bou nie, maar eerder om die werkverrigting van kleiner modelle te maksimeer.
OpenAI-navorsers was vroeë voorstanders van die skaalhipotese, maar hulle het dalk ontdek dat bykomende, voorheen onontdekte paaie tot voortreflike modelle kan lei. GPT-4 sal om hierdie redes nie aansienlik groter as GPT-3 wees nie.
OpenAI sal 'n groter fokus plaas op ander aspekte, soos data, algoritmes, parameterisering en belyning, wat die potensiaal het om aansienlike voordele vinniger op te lewer. Ons sal moet wag en sien wat 'n model met 100T-parameters kan doen.
Belangrike punte:
- Grootte van die model: Die GPT-4 sal groter as die GPT-3 wees, maar nie veel nie (MT-NLG 530B en PaLM 540B). Die model se grootte sal onmerkbaar wees.
- Optimaliteit: GPT-4 sal meer hulpbronne as GPT-3 gebruik. Dit sal nuwe optimaliteitsinsigte in parameterisering (optimale hiperparameters) en skaalmetodes implementeer (aantal opleidingtokens is net so belangrik soos modelgrootte).
- Multimodaliteit: Die GPT-4 sal slegs teksboodskappe kan stuur en ontvang (nie multimodaal nie). OpenAI poog om taalmodelle tot hul grense te druk voordat hulle oorgaan na multimodale modelle soos DALLE 2, wat hulle voorspel uiteindelik unimodale stelsels sal oortref.
- Spaarsaamheid: GPT-4, soos sy voorgangers GPT-2 en GPT-3, sal 'n digte model wees (alle parameters sal gebruik word om enige gegewe insette te verwerk). In die toekoms sal yl meer belangrik word.
- Alignment: GPT-4 sal ons nader as GPT-3 nader. Dit sal sit wat dit geleer het uit InstructGPT, wat met menslike insette ontwikkel is. Tog is KI-konvergensie ver weg, en pogings moet noukeurig beoordeel word eerder as oordryf.
Gevolgtrekking
Kunsmatige Algemene Intelligensie. Dit is 'n groot doelwit, maar OpenAI-ontwikkelaars werk daaraan om dit te bereik. Die doel van AGI is om 'n model of "agent" te skep wat in staat is om enige aktiwiteit te verstaan en te doen wat 'n persoon kan.
GPT-4 kan die volgende stap wees om hierdie doel te bereik, en dit klink soos iets uit 'n wetenskapfiksiefliek. Jy kan wonder hoe realisties dit is om AGI te bereik.
Ons sal hierdie mylpaal teen 2029 bereik, volgens Ray Kurzweil, Google se Direkteur van Ingenieurswese. Met dit in gedagte, laat ons 'n dieper kyk na GPT-4 en die gevolge van hierdie model namate ons nader aan AGI (kunsmatige algemene intelligensie) kom.
Lewer Kommentaar