Inhoudsopgave[Zich verstoppen][Laten zien]
GPT-3, het grote neurale netwerk van dit moment, is in mei 2020 gepubliceerd door OpenAI, de AI-startup mede opgericht door Elon Musk en Sam Altman. GPT-3 is een geavanceerd taalmodel met 175 miljard parameters vergeleken met 1,5 miljard parameters in zijn voorganger GPT-2.
GPT-3 presteerde beter dan het NLG Turing-model van Microsoft (Turing Natural Language Generation), dat eerder het record had voor het grootste neurale netwerk met 17 miljard parameters.
Het taalmodel is geprezen, bekritiseerd en zelfs onder de loep genomen; het heeft ook geleid tot nieuwe en intrigerende toepassingen. En nu zijn er berichten dat GPT-4, de volgende editie van de OpenAI taalmodel, zal inderdaad spoedig komen.
Als u meer wilt weten over de GPT-4, bent u op de juiste site beland. In dit artikel gaan we dieper in op de GPT-4, over de parameters, hoe deze zich verhoudt tot andere modellen en meer.
Wat is GPT-4?
Om de reikwijdte van GPT-4 te begrijpen, moeten we eerst GPT-3, de voorloper ervan, begrijpen. GPT-3 (Generative Pre-trained Transformer, derde generatie) is een autonoom hulpmiddel voor het genereren van inhoud.
Gebruikers voeren gegevens in een machine learning model, dat volgens OpenAI vervolgens enorme hoeveelheden relevant schrijven kan produceren. GPT-4 zal aanzienlijk beter zijn in multitasking in omstandigheden met weinig schoten - een soort machine learning – de uitkomsten nog dichter bij die van mensen brengen.
GPT-3 kost honderden miljoenen ponden om te bouwen, maar GPT-4 zal naar verwachting aanzienlijk meer kosten omdat het vijfhonderd keer zo groot zal zijn. Om dit in perspectief te plaatsen,
GPT-4 kan evenveel kenmerken hebben als synapsen in de hersenen. GPT-4 zal voornamelijk dezelfde methoden gebruiken als GPT-3, dus in plaats van een paradigmasprong te zijn, zal GPT-4 uitbreiden op wat GPT-3 momenteel bereikt, maar met een aanzienlijk groter inferentievermogen.
GPT-3 stelde gebruikers in staat natuurlijke taal in te voeren voor praktische doeleinden, maar er was nog enige expertise voor nodig om een prompt te ontwerpen die goede resultaten zou opleveren. GPT-4 zal aanzienlijk beter zijn in het voorspellen van de intenties van gebruikers.
Wat zullen de GPT-4-parameters zijn?
Ondanks dat het een van de langverwachte AI-ontwikkelingen is, is er nog niets bekend over GPT-4: hoe het eruit zal zien, welke kenmerken het zal hebben en welke krachten het zal hebben.
Vorig jaar deed Altman een Q&A en onthulde enkele details over de ambities van OpenAI voor GPT-4. Het zou volgens Altman niet groter zijn dan GPT-3. GPT-4 is waarschijnlijk niet de meest gebruikte taalmodel. Hoewel het model enorm zal zijn in vergelijking met eerdere generaties neurale netwerken, zal de grootte niet het onderscheidende kenmerk zijn. GPT-3 en Gopher zijn de meest plausibele kandidaten (175B-280B).
Nvidia en Microsoft's Megatron-Turing NLG hadden het record voor de dichtste neurale netwerk parameters op 530B - drie keer die van GPT-3 - tot onlangs toen Google's PaLM het op 540B nam. Verrassend genoeg presteerde een hele reeks mindere modellen beter dan de MT-NLG.
Volgens een power-law-verbinding stelden Jared Kaplan en collega's van OpenAI in 2020 vast dat wanneer de verwerking van budgetverhogingen voornamelijk wordt besteed aan het vergroten van het aantal parameters, de prestaties het beste verbeteren. Google, Nvidia, Microsoft, OpenAI, DeepMind en andere taalmodellerende bedrijven volgden gehoorzaam de voorschriften.
Altman gaf aan dat ze zich niet langer concentreerden op het bouwen van enorme modellen, maar eerder op het maximaliseren van de prestaties van kleinere modellen.
OpenAI-onderzoekers waren vroege voorstanders van de schalingshypothese, maar ze hebben mogelijk ontdekt dat aanvullende, voorheen onontdekte paden kunnen leiden tot superieure modellen. GPT-4 zal om deze redenen niet significant groter zijn dan GPT-3.
OpenAI zal meer aandacht besteden aan andere aspecten, zoals data, algoritmen, parametrisering en afstemming, die in potentie sneller aanzienlijke voordelen kunnen opleveren. We zullen moeten afwachten wat een model met 100T-parameters kan doen.
Sleutelpunten:
- Grootte van het model: De GPT-4 zal groter zijn dan de GPT-3, maar niet veel (MT-NLG 530B en PaLM 540B). De grootte van het model zal onopvallend zijn.
- Optimaliteit: GPT-4 gebruikt meer bronnen dan GPT-3. Het zal nieuwe optimalisatie-inzichten implementeren in parametrisering (optimale hyperparameters) en schaalmethoden (het aantal trainingstokens is net zo belangrijk als de modelgrootte).
- Multimodaliteit: De GPT-4 kan alleen tekstberichten verzenden en ontvangen (niet multimodaal). OpenAI probeert taalmodellen tot het uiterste te drijven voordat ze overgaan op multimodale modellen zoals SLAB 2, waarvan ze voorspellen dat ze uiteindelijk unimodale systemen zullen overtreffen.
- schaarste: GPT-4 zal, net als zijn voorgangers GPT-2 en GPT-3, een compact model zijn (alle parameters zullen worden gebruikt om een bepaalde invoer te verwerken). In de toekomst zal schaarsheid belangrijker worden.
- Uitlijning: GPT-4 zal ons nader benaderen dan GPT-3. Het zal plaatsen wat het heeft geleerd van InstructGPT, dat is ontwikkeld met menselijke input. Toch is AI-convergentie nog ver weg en moeten de inspanningen zorgvuldig worden beoordeeld in plaats van overdreven.
Conclusie
Algemene kunstmatige intelligentie. Het is een groot doel, maar OpenAI-ontwikkelaars werken eraan om het te bereiken. Het doel van AGI is om een model of "agent" te creëren die in staat is om elke activiteit te begrijpen en uit te voeren die een persoon kan.
GPT-4 zou de volgende stap kunnen zijn om dit doel te bereiken, en het klinkt als iets uit een sciencefictionfilm. Je vraagt je misschien af hoe realistisch het is om AGI te bereiken.
Volgens Ray Kurzweil, Google's Director of Engineering, bereiken we deze mijlpaal in 2029. Laten we, met dit in gedachten, GPT-4 en de vertakkingen van dit model nader bekijken naarmate we dichter bij AGI (Artificial General Intelligence) komen.
Laat een reactie achter