Innholdsfortegnelse[Gjemme seg][Forestilling]
GPT-3, det store nevrale nettverket for øyeblikket, ble publisert i mai 2020 av OpenAI, AI-oppstarten som ble grunnlagt av Elon Musk og Sam Altman. GPT-3 er en banebrytende språkmodell med 175 milliarder parametere sammenlignet med 1,5 milliarder parametere i forgjengeren GPT-2.
GPT-3 overgikk Microsofts NLG Turing-modell (Turing Natural Language Generation), som tidligere hadde hatt rekorden for det største nevrale nettverket med 17 milliarder parametere.
Språkmodellen har blitt rost, kritisert og til og med gransket; det har også skapt nye og spennende bruksområder. Og nå er det rapporter om at GPT-4, den neste utgaven av OpenAI språkmodell, kommer faktisk snart.
Du har kommet til riktig side hvis du vil lære mer om GPT-4. Vi vil se på GPT-4 i dybden i denne artikkelen, og dekker parameterne, hvordan den sammenlignes med andre modeller og mer.
Så, hva er GPT-4?
For å forstå omfanget av GPT-4, må vi først forstå GPT-3, dens forløper. GPT-3 (Generative Pre-trained Transformer, tredje generasjon) er et autonomt innholdsgenererende verktøy.
Brukere legger inn data i en maskinlæring modell, som senere kan produsere enorme mengder relevant skrift som svar, ifølge OpenAI. GPT-4 vil være betydelig bedre til å multitasking i forhold med få skudd - en type maskinlæring – bringe resultatene enda nærmere menneskers.
GPT-3 koster hundrevis av millioner pund å bygge, men GPT-4 er spådd å koste betydelig mer fordi den vil være fem hundre ganger større i skala. For å sette dette i perspektiv,
GPT-4 kan ha like mange egenskaper som synapser i hjernen. GPT-4 vil hovedsakelig bruke de samme metodene som GPT-3, og i stedet for å være et paradigmesprang, vil GPT-4 utvide det GPT-3 for tiden oppnår - men med betydelig større slutningsevne.
GPT-3 tillot brukere å skrive inn naturlig språk for praktiske formål, men det trengte fortsatt litt ekspertise for å designe en ledetekst som ville gi gode resultater. GPT-4 vil bli betydelig bedre til å forutsi brukernes intensjoner.
Hva blir GPT-4-parametrene?
Til tross for at det er et av de mest etterlengtede AI-fremskritt, er ingenting kjent om GPT-4: hvordan den vil se ut, hvilke egenskaper den vil ha og hvilke krefter den vil ha.
I fjor gjorde Altman en Q&A og avslørte noen få detaljer om OpenAIs ambisjoner for GPT-4. Den ville ikke vært større enn GPT-3, ifølge Altman. GPT-4 er neppe den mest brukte språkmodell. Selv om modellen vil være enorm i forhold til tidligere generasjoner av nevrale nettverk, vil størrelsen ikke være dens kjennetegn. GPT-3 og Gopher er de mest plausible kandidatene (175B-280B).
Nvidia og Microsofts Megatron-Turing NLG hadde rekorden for tetteste nevrale nettverk parametere ved 530B – tre ganger større enn GPT-3 – inntil nylig da Googles PaLM tok det på 540B. Overraskende nok overgikk en rekke mindre modeller MT-NLG.
I følge en maktlovsforbindelse bestemte OpenAIs Jared Kaplan og kolleger i 2020 at når behandling av budsjettøkninger hovedsakelig brukes på å øke antall parametere, forbedres ytelsen størst. Google, Nvidia, Microsoft, OpenAI, DeepMind og andre språkmodelleringsselskaper fulgte lydig regelverket.
Altman indikerte at de ikke lenger konsentrerte seg om å konstruere massive modeller, men heller om å maksimere ytelsen til mindre modeller.
OpenAI-forskere var tidlige tilhengere av skaleringshypotesen, men de kan ha oppdaget at flere, tidligere uoppdagede veier kan føre til overlegne modeller. GPT-4 vil ikke være vesentlig større enn GPT-3 av disse grunnene.
OpenAI vil sette et større fokus på andre aspekter, som data, algoritmer, parameterisering og justering, som har potensial til å gi betydelige fordeler raskere. Vi får vente og se hva en modell med 100T-parametere kan gjøre.
Viktige punkter:
- Størrelse på modellen: GPT-4 vil være større enn GPT-3, men ikke mye (MT-NLG 530B og PaLM 540B). Modellens størrelse vil være umerkelig.
- Optimalitet: GPT-4 vil bruke flere ressurser enn GPT-3. Den vil implementere ny optimalitetsinnsikt i parameterisering (optimale hyperparametre) og skaleringsmetoder (antall treningssymboler er like viktig som modellstørrelse).
- Multimodalitet: GPT-4 vil kun kunne sende og motta tekstmeldinger (ikke multimodal). OpenAI søker å presse språkmodeller til sine grenser før de går over til multimodale modeller som PLATE 2, som de spår vil til slutt overgå unimodale systemer.
- Sparsomhet: GPT-4, i likhet med forgjengerne GPT-2 og GPT-3, vil være en tett modell (alle parametere vil være i bruk for å behandle alle gitte input). I fremtiden vil sparsomhet bli viktigere.
- Justering: GPT-4 vil nærme seg oss nærmere enn GPT-3. Den vil legge inn det den har lært fra InstructGPT, som ble utviklet med menneskelig innspill. Likevel er AI-konvergens langt unna, og innsatsen bør vurderes nøye i stedet for å overdrive.
konklusjonen
Kunstig generell intelligens. Det er et stort mål, men OpenAI-utviklere jobber for å oppnå det. Målet med AGI er å lage en modell eller "agent" som er i stand til å forstå og utføre enhver aktivitet som en person kan.
GPT-4 kan være neste steg i å nå dette målet, og det høres ut som noe fra en science fiction-film. Du kan lure på hvor realistisk det er å oppnå AGI.
Vi vil nå denne milepælen innen 2029, ifølge Ray Kurzweil, Googles ingeniørdirektør. Med dette i tankene, la oss ta en dypere titt på GPT-4 og konsekvensene av denne modellen når vi kommer nærmere AGI (Artificial General Intelligence).
Legg igjen en kommentar