Grouss Sproochmodeller: Alles wat Dir wësse musst

Inhaltsverzeechnes[Verstoppen][Show]

Wat ass e grousse Sproochmodell?
Wéi ginn LLMs trainéiert?+- Déi
- Pre-Training mat enger Transformer Architektur
- Fein tuning
Aschränkungen vun grouss Sprooch Modeller+- Déi
Konklusioun

E klassesche Problem an der kënschtlecher Intelligenz ass d'Verfollegung vun enger Maschinn déi mënschlech Sprooch versteet.

Zum Beispill, wann Dir no "Nopesch italienesche Restauranten" op Ärem Liiblings Sichmotor sicht, muss en Algorithmus all Wuert an Ärer Ufro analyséieren an déi relevant Resultater ausginn. Eng uerdentlech Iwwersetzungsapp muss de Kontext vun engem bestëmmte Wuert op Englesch verstoen an iergendwéi d'Differenzen an der Grammatik tëscht de Sprooche berücksichtegen.

All dës Aufgaben a vill méi falen ënner dem Ënnerfeld vun der Informatik bekannt als Natural Sprooch Processing oder NLP. Fortschrëtter an der NLP hunn zu enger grousser Palette vu prakteschen Uwendungen gefouert vu virtuellen Assistenten wéi Amazon's Alexa bis Spamfilter déi béiswëlleg E-Mail erkennen.

De leschten Duerchbroch am NLP ass d'Iddi vun engem grousse Sproochmodell oder LLM. LLMs wéi GPT-3 si sou mächteg ginn datt se an bal all NLP Aufgab oder Benotzungsfall erfollegräich schéngen.

An dësem Artikel wäerte mir kucken wat genau LLMs sinn, wéi dës Modeller trainéiert ginn an déi aktuell Aschränkungen déi se hunn.

Wat ass e grousse Sproochmodell?

Am Kär ass e Sproochemodell einfach en Algorithmus dee weess wéi wahrscheinlech eng Sequenz vu Wierder e gültege Saz ass.

E ganz einfache Sproochemodell, deen op e puer honnert Bicher trainéiert gëtt, soll fäeg sinn ze soen datt "Hien ass heem gaang" méi gëlteg ass wéi "Heem goung hien".

Wa mir de relativ klengen Dataset ersetzen duerch e massiven Dataset aus dem Internet geschrauft, fänken mir un d'Iddi vun engem grousse Sproochmodell.

benotzt neural Netzwierker, Fuerscher kënnen LLMs op eng grouss Quantitéit vun Textdaten trainéieren. Wéinst der Quantitéit un Textdaten déi de Modell gesinn huet, gëtt den LLM ganz gutt fir dat nächst Wuert an enger Sequenz virauszesoen.

De Modell gëtt sou sophistikéiert, et ka vill NLP Aufgaben ausféieren. Dës Aufgaben enthalen Text ze resuméieren, neien Inhalt ze kreéieren, a souguer Mënsch-ähnlech Gespréich simuléieren.

grouss Sproochmodeller kënnen neien Inhalt erstellen op Basis vun Ufroen

Zum Beispill gëtt den héichbeléifte GPT-3 Sproochemodell mat iwwer 175 Milliarde Parameteren trainéiert a gëllt als de fortgeschrattste Sproochmodell bis elo.

Et ass fäeg Aarbechtscode ze generéieren, ganz Artikelen ze schreiwen, a kann e Schoss huelen fir Froen iwwer all Thema ze beäntweren.

Wéi ginn LLMs trainéiert?

Mir hu kuerz op d'Tatsaach beréiert datt LLMs vill vun hirer Kraaft un d'Gréisst vun hiren Trainingsdaten verdanken. Et gëtt e Grond firwat mir se schliisslech "grouss" Sproochmodeller nennen.

Pre-Training mat enger Transformer Architektur

Wärend der Pre-Formatiounsphase ginn LLMs mat existéierenden Textdaten agefouert fir d'allgemeng Struktur a Regele vun enger Sprooch ze léieren.

An de leschte Jore sinn LLMs viraustrainéiert ginn op Datesätz, déi e groussen Deel vum ëffentlechen Internet ofdecken. Zum Beispill, GPT-3 d'Sprooch Modell war op Daten aus der trainéiert Gemeinsam Crawl Dataset, e Corpus vu Webposten, Websäiten, an digitaliséierte Bicher aus iwwer 50 Milliounen Domänen geschrauft.

De massive Dataset gëtt dann an e Modell gefüttert bekannt als a transformer. Transformers sinn eng Zort déif neural Netzwierk dat funktionnéiert am Beschten fir sequentiell Daten.

grouss Sproochmodeller benotzen Transformatoren

Transformers benotzen eng Encoder-Decoder Architektur fir d'Handhabung vun Input an Output. Wesentlech enthält den Transformator zwee neural Netzwierker: en Encoder an en Decoder. Den Encoder kann d'Bedeitung vum Inputtext extrahéieren an als Vektor späicheren. Den Decoder kritt dann de Vektor a produzéiert seng Interpretatioun vum Text.

Wéi och ëmmer, de Schlësselkonzept, deen d'Transformatorarchitektur erlaabt huet sou gutt ze schaffen ass d'Zousätzlech vun engem Self-Opmierksamkeet Mechanismus. D'Konzept vun Self-Opmierksamkeet erlaabt de Modell Opmierksamkeet op déi wichtegst Wierder an engem bestëmmte Saz ze bezuelen. De Mechanismus berücksichtegt souguer d'Gewichte tëscht Wierder déi wäit ausernee sequenziell sinn.

En anere Virdeel vu SelbstOpmierksamkeet ass datt de Prozess paralleliséiert ka ginn. Amplaz sequentiell Daten an Uerdnung ze veraarbechten, kënnen Transformatormodeller all Input gläichzäiteg veraarbechten. Dëst erlaabt Transformatoren op enorm Quantitéiten un Daten relativ séier ze trainéieren am Verglach mat anere Methoden.

Fein tuning

No der Pre-Training Etapp, kënnt Dir wielen en neien Text fir d'Basis LLM aféieren fir op ze trainéieren. Mir nennen dëse Prozess fein ofstëmmen a gëtt dacks benotzt fir d'Ausgab vum LLM op eng spezifesch Aufgab weider ze verbesseren.

Zum Beispill wëllt Dir en LLM benotze fir Inhalt fir Ären Twitter Kont ze generéieren. Mir kënnen de Modell e puer Beispiller vun Äre fréiere Tweets ubidden fir et eng Iddi vum gewënschten Output ze ginn.

Et ginn e puer verschidden Zorte vu Feintuning.

grouss Sprooch Modeller sinn kapabel puer Schoss Léieren

Puer-Schoss Léieren bezitt sech op de Prozess fir e Modell eng kleng Unzuel u Beispiller ze ginn mat der Erwaardung datt de Sproochemodell erausfënnt wéi een ähnlechen Output mécht. One-shot Léieren ass en ähnleche Prozess ausser nëmmen en eenzegt Beispill gëtt geliwwert.

Aschränkungen vun grouss Sprooch Modeller

LLMs wéi GPT-3 si fäeg eng grouss Zuel vu Benotzungsfäll auszeféieren och ouni Feintuning. Wéi och ëmmer, dës Modeller kommen nach ëmmer mat hiren eegene Set vu Aschränkungen.

Mangel un engem semantesche Verständnis vun der Welt

Op der Uewerfläch schéngen LLMs Intelligenz ze weisen. Wéi och ëmmer, dës Modeller funktionnéieren net déiselwecht wéi d' mënschlecht Gehir mécht. LLMs vertrauen eleng op statistesch Berechnungen fir Output ze generéieren. Si hunn net d'Kapazitéit fir Iddien a Konzepter eleng auszegoen.

Dofir kann en LLM onsënneg Äntwerten erausginn einfach well d'Wierder "richteg" oder "statistesch wahrscheinlech" schéngen wann se an där bestëmmter Uerdnung gesat ginn.

Halluzinatiounen

Modeller wéi GPT-3 leiden och un ongenau Äntwerten. LLMs kënnen un engem Phänomen leiden, bekannt als Halluzinatioun wou Modeller eng sachlech falsch Äntwert erausginn ouni Bewosstsinn datt d'Äntwert keng Basis an der Realitéit huet.

Zum Beispill kann e Benotzer de Modell froen fir dem Steve Jobs seng Gedanken iwwer de leschten iPhone z'erklären. De Modell kann en Zitat aus dënnem Loft generéieren op Basis vu senge Trainingsdaten.

Biases a limitéiert Wëssen

Wéi vill aner Algorithmen, sinn grouss Sproochmodeller ufälleg fir d'Basen, déi an den Trainingsdaten präsent sinn, ze ierwen. Wéi mir ufänken méi op LLMs ze vertrauen fir Informatioun ze recuperéieren, sollten d'Entwéckler vun dëse Modeller Weeër fannen fir déi potenziell schiedlech Effekter vu biased Äntwerten ze reduzéieren.

An enger ähnlecher Kapazitéit wäerten d'Blindflecken vun den Trainingsdaten vum Modell och de Modell selwer behënneren. Moment, grouss Sprooch Modeller huelen Méint ze trainéieren. Dës Modeller vertrauen och op Datesätz déi am Ëmfang limitéiert sinn. Dofir huet ChatGPT nëmme limitéiert Wëssen iwwer Eventer déi vergaangen sinn 2021.

Konklusioun

Grouss Sproochmodeller hunn d'Potenzial fir wierklech ze änneren wéi mir mat Technologie an eiser Welt am Allgemengen interagéieren.

Déi grouss Quantitéit vun Daten, déi um Internet verfügbar sinn, huet de Fuerscher e Wee ginn fir d'Komplexitéit vun der Sprooch ze modelléieren. Wéi och ëmmer, laanscht de Wee schéngen dës Sproochmodeller e mënschlecht Verständnis vun der Welt wéi se ass.

Wéi d'Publikum ufänkt dës Sproochmodeller ze trauen fir e genee Output ze bidden, fannen d'Fuerscher an d'Entwéckler scho Weeër fir Schutzschirmer ze addéieren sou datt d'Technologie ethesch bleift.

Wat mengt Dir ass d'Zukunft vun LLMs?

Grouss Sproochmodeller: Alles wat Dir wësse musst

Wat ass e grousse Sproochmodell?

Wéi ginn LLMs trainéiert?