Grote neurale netwerken die zijn getraind voor taalherkenning en -generatie hebben de afgelopen jaren uitstekende resultaten laten zien in een verscheidenheid aan taken. GPT-3 bewees dat grote taalmodellen (LLM's) kunnen worden gebruikt voor een paar keer leren en uitstekende resultaten behalen zonder uitgebreide taakspecifieke gegevens of het wijzigen van modelparameters.
Google, de technische gigant uit Silicon Valley, heeft PaLM, of Pathways Language Model, geïntroduceerd in de wereldwijde technologie-industrie als het AI-taalmodel van de volgende generatie. Google heeft een nieuwe kunstmatige intelligentie architectuur in PaLM met strategische doelen om de kwaliteit van het AI-taalmodel te verbeteren.
In dit bericht zullen we het Palm-algoritme in detail onderzoeken, inclusief de parameters die worden gebruikt om het te trainen, het probleem dat het oplost en nog veel meer.
Wat is Google's PaLM-algoritme?
Pathways Taalmodel is wat Palm betekent. Dit is een nieuw algoritme dat door Google is ontwikkeld om de Pathways AI-architectuur te versterken. Het belangrijkste doel van de structuur is om een miljoen verschillende activiteiten tegelijk uit te voeren.
Deze omvatten alles van het ontcijferen van complexe gegevens tot deductief redeneren. PaLM heeft het vermogen om zowel de huidige AI-state-of-the-art als de mens te overtreffen in taal- en redeneertaken.
Dit omvat Few-Shot Learning, dat nabootst hoe mensen nieuwe dingen leren en verschillende stukjes kennis combineren om nieuwe uitdagingen aan te gaan die nog nooit eerder zijn gezien, met het voordeel van een machine die al zijn kennis kan gebruiken om nieuwe uitdagingen op te lossen; een voorbeeld van deze vaardigheid in PaLM is het vermogen om een grap uit te leggen die hij nog nooit eerder heeft gehoord.
PaLM demonstreerde veel baanbrekende vaardigheden op een verscheidenheid aan uitdagende taken, waaronder taalbegrip en -creatie, meerstaps rekenkundige code-gerelateerde activiteiten, gezond verstand redeneren, vertalen en nog veel meer.
Het heeft zijn vermogen bewezen om gecompliceerde problemen op te lossen met behulp van meertalige NLP-sets. PaLM kan door de wereldwijde technologiemarkt worden gebruikt om oorzaak en gevolg, conceptuele combinaties, verschillende games en vele andere dingen te onderscheiden.
Het kan ook diepgaande verklaringen genereren voor veel contexten met behulp van meerstaps logische gevolgtrekking, diepgaande taal, wereldwijde kennis en andere technieken.
Hoe heeft Google het PaLM-algoritme ontwikkeld?
Voor de baanbrekende prestaties van Google in PaLM zijn er trajecten gepland om op te schalen tot 540 miljard parameters. Het wordt erkend als het enige model dat efficiënt en effectief kan generaliseren over tal van domeinen. Pathways bij Google is toegewijd aan het ontwikkelen van gedistribueerde computing voor accelerators.
PaLM is een transformatormodel met alleen decoders dat is getraind met behulp van het Pathways-systeem. Volgens Google heeft PaLM met succes state-of-the-art 'weinig-shot'-prestaties bereikt voor verschillende workloads. PaLM heeft het Pathways-systeem gebruikt om de training uit te breiden naar de grootste op TPU gebaseerde systeemconfiguratie, voor het eerst bekend als 6144-chips.
Een trainingsdataset voor het AI-taalmodel bestaat uit een mix van Engelse en andere meertalige datasets. Met een "lossless" vocabulaire bevat het hoogwaardige webinhoud, discussies, boeken, GitHub-code, Wikipedia en nog veel meer. Lossless-vocabulaire wordt erkend voor het behouden van witruimte en het splitsen van Unicode-tekens die niet in het vocabulaire staan in bytes.
PaLM is ontwikkeld door Google en Pathways met behulp van een standaard transformatormodelarchitectuur en een decoderconfiguratie die SwiGLU-activering, parallelle lagen, RoPE-inbeddingen, gedeelde input-output-inbeddingen, multi-query-aandacht en geen vooroordelen of woordenschat omvatte. PaLM daarentegen is klaar om een solide basis te bieden voor het AI-taalmodel van Google en Pathways.
Parameters die worden gebruikt om PaLM . te trainen
Vorig jaar lanceerde Google Pathways, een enkel model dat kan worden getraind om duizenden, zo niet miljoenen dingen te doen - ook wel de "next-generation AI-architectuur" genoemd, omdat het de beperkingen van bestaande modellen kan overwinnen om te worden getraind om slechts één ding te doen . In plaats van de mogelijkheden van de huidige modellen uit te breiden, worden nieuwe modellen vaak van onderaf gebouwd om een enkele taak uit te voeren.
Als resultaat hebben ze tienduizenden modellen gemaakt voor tienduizenden verschillende activiteiten. Dit is een tijdrovende en arbeidsintensieve taak.
Google bewees via Pathways dat een enkel model een verscheidenheid aan activiteiten aankan en huidige talenten kan gebruiken en combineren om nieuwe taken sneller en efficiënter te leren.
Multimodale modellen die tegelijkertijd zicht, taalbegrip en auditieve verwerking omvatten, kunnen via paden mogelijk worden gemaakt. Pathways Language Model (PaLM) maakt de training van een enkel model over meerdere TPU v4-pods mogelijk dankzij het 540 miljard parametermodel.
PaLM, een Transformer-model met alleen een compacte decoder, presteert beter dan state-of-the-art little-shot-prestaties bij een breed scala aan workloads. PaLM wordt getraind op twee TPU v4 Pods die zijn gekoppeld via een datacenternetwerk (DCN).
Het maakt gebruik van zowel model- als dataparallellisme. De onderzoekers gebruikten 3072 TPU v4-processors in elke Pod voor PaLM, die waren verbonden met 768 hosts. Volgens de onderzoekers is dit de grootste TPU-configuratie die tot nu toe is bekendgemaakt, waardoor ze training kunnen schalen zonder parallellisme in de pijplijn te gebruiken.
Pijpvoering is het proces van het verzamelen van instructies van de CPU via een pijpleiding in het algemeen. De lagen van het model zijn verdeeld in fasen die parallel kunnen worden verwerkt via pijplijnmodelparallellisme (of pijplijnparallellisme).
Het activeringsgeheugen wordt naar de volgende stap gestuurd wanneer een fase de voorwaartse doorgang voor een microbatch voltooit. De hellingen worden vervolgens naar achteren gestuurd wanneer de volgende fase zijn achterwaartse voortplanting voltooit.
PaLM-doorbraakmogelijkheden
PaLM toont baanbrekende vaardigheden in een reeks moeilijke taken. Hier zijn verschillende voorbeelden:
1. Creëren en begrijpen van taal
PaLM werd op de proef gesteld op 29 verschillende NLP-taken in het Engels.
Op een paar-shot-basis presteerde de PaLM 540B beter dan eerdere grote modellen zoals GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla en LaMDA op 28 van de 29 taken, inclusief open-domein gesloten-boek variant vraagbeantwoordende taken , cloze- en zinsaanvullingstaken, Winograd-achtige taken, in-context begrijpend lezen taken, gezond verstand redeneertaken, SuperGLUE-taken en natuurlijke gevolgtrekking.
Op verschillende BIG-bench-taken demonstreert PaLM uitstekende natuurlijke taalinterpretatie en generatievaardigheden. Het model kan bijvoorbeeld onderscheid maken tussen oorzaak en gevolg, conceptuele combinaties in bepaalde situaties begrijpen en zelfs de film raden vanuit een emoji. Hoewel slechts 22% van het trainingscorpus niet-Engels is, presteert PaLM goed op meertalige NLP-benchmarks, inclusief vertaling, naast Engelse NLP-taken.
2. Redeneren
PaLM combineert modelgrootte met gedachteketens om baanbrekende vaardigheden te demonstreren bij redeneeruitdagingen die meerstaps rekenkunde of gezond verstand vereisen.
Eerdere LLM's, zoals Gopher, profiteerden minder van de modelgrootte in termen van prestatieverbetering. De PaLM 540B met chain-of-gedachte-aanwijzing deed het goed op drie rekenkundige en twee gezond verstand denkende datasets.
PaLM presteert beter dan de vorige beste score van 55%, die werd verkregen door het GPT-3 175B-model te verfijnen met een trainingsset van 7500 problemen en deze te combineren met een externe rekenmachine en verificator om 58 procent van de problemen in GSM8K op te lossen, een benchmark van duizenden moeilijke wiskundevragen op basisschoolniveau met behulp van 8-shot prompts.
Deze nieuwe score is vooral opmerkelijk omdat deze het 60%-gemiddelde van obstakels dat 9-12-jarigen ervaren, benadert. Het kan ook reageren op originele grappen die niet beschikbaar zijn op internet.
3. Code generatie
Van LLM's is ook aangetoond dat ze goed presteren bij codeertaken, waaronder het genereren van code uit een natuurlijke taalbeschrijving (tekst-naar-code), het vertalen van code tussen talen en het oplossen van compilatiefouten. Ondanks dat de PaLM 5B slechts 540% code bevat in de pre-training dataset, presteert hij goed op zowel codeer- als natuurlijke taaltaken in één enkel model.
De weinige-shot-prestaties zijn ongelooflijk, omdat het overeenkomt met de verfijnde Codex 12B tijdens het trainen met 50 keer minder Python-code. Deze bevinding komt overeen met eerdere bevindingen dat grotere modellen steekproefefficiënter kunnen zijn dan kleinere modellen, omdat ze het leren van meerdere modellen effectiever kunnen overdragen programmeertalen en duidelijke taalgegevens.
Conclusie
PaLM toont de capaciteit van het Pathways-systeem om op te schalen naar duizenden acceleratorprocessors over twee TPU v4-pods door een 540 miljard parametermodel effectief te trainen met een goed bestudeerd, gevestigd recept van een Transformer-model met alleen een compacte decoder.
Door de grenzen van de modelschaal te verleggen, bereikt het baanbrekende prestaties in een paar schoten in een reeks natuurlijke taalverwerkings-, redenerings- en coderingsuitdagingen.
Laat een reactie achter