Malaking Modelo ng Wika: Lahat ng Kailangan Mong Malaman

Talaan ng nilalaman[Tago][Ipakita]

Ano ang isang malaking modelo ng wika?
Paano Sinasanay ang mga LLM?+-
- Pre-training gamit ang isang Transformer Architecture
- Fine-tuning
Mga Limitasyon ng Malaking Modelo ng Wika+-
Konklusyon

Ang isang klasikong problema sa artificial intelligence ay ang pagtugis ng isang makina na nakakaunawa sa wika ng tao.

Halimbawa, kapag naghahanap ng "mga malapit na Italian restaurant" sa iyong paboritong search engine, kailangang suriin ng isang algorithm ang bawat salita sa iyong query at ilabas ang mga nauugnay na resulta. Ang isang disenteng app sa pagsasalin ay kailangang maunawaan ang konteksto ng isang partikular na salita sa Ingles at kahit papaano ay isinasaalang-alang ang mga pagkakaiba sa grammar sa pagitan ng mga wika.

Ang lahat ng mga gawaing ito at marami pang iba ay nasa ilalim ng subfield ng computer science na kilala bilang Natural Language Processing o NLP. Ang mga pag-unlad sa NLP ay humantong sa isang malawak na hanay ng mga praktikal na aplikasyon mula sa mga virtual na katulong tulad ng Amazon's Alexa hanggang sa mga filter ng spam na nakakatuklas ng malisyosong email.

Ang pinakahuling tagumpay sa NLP ay ang ideya ng a malaking modelo ng wika o LLM. Ang mga LLM tulad ng GPT-3 ay naging napakalakas na tila sila ay nagtagumpay sa halos anumang gawain ng NLP o kaso ng paggamit.

Sa artikulong ito, titingnan natin kung ano ang eksaktong mga LLM, kung paano sinasanay ang mga modelong ito, at ang kasalukuyang mga limitasyon na mayroon sila.

Ano ang isang malaking modelo ng wika?

Sa kaibuturan nito, ang isang modelo ng wika ay isang algorithm lamang na nakakaalam kung gaano malamang na ang pagkakasunod-sunod ng mga salita ay isang wastong pangungusap.

Ang isang napakasimpleng modelo ng wika na sinanay sa ilang daang mga libro ay dapat na makapagsasabi na ang "Umuwi siya" ay mas wasto kaysa "Nagpunta siya sa bahay".

Kung papalitan natin ang medyo maliit na dataset ng napakalaking dataset na na-scrap mula sa internet, sisimulan nating lapitan ang ideya ng a malaking modelo ng wika.

paggamit neural network, maaaring sanayin ng mga mananaliksik ang mga LLM sa isang malaking halaga ng data ng teksto. Dahil sa dami ng text data na nakita ng modelo, ang LLM ay naging napakahusay sa paghula ng susunod na salita sa isang pagkakasunud-sunod.

Nagiging sopistikado ang modelo, maaari itong magsagawa ng maraming gawain sa NLP. Kasama sa mga gawaing ito ang pagbubuod ng teksto, paglikha ng nobela na nilalaman, at maging ang pagtulad sa pag-uusap na parang tao.

ang malalaking modelo ng wika ay maaaring lumikha ng nobelang nilalaman batay sa mga senyas

Halimbawa, ang napakasikat na modelo ng wika ng GPT-3 ay sinanay na may higit sa 175 bilyong mga parameter at itinuturing na pinaka-advanced na modelo ng wika sa ngayon.

Nagagawa nitong makabuo ng gumaganang code, magsulat ng buong mga artikulo, at makakagawa ng pagkakataong sagutin ang mga tanong tungkol sa anumang paksa.

Paano Sinasanay ang mga LLM?

Sa madaling sabi, nasabi namin ang katotohanan na malaki ang utang ng mga LLM sa kanilang kapangyarihan sa laki ng kanilang data ng pagsasanay. May dahilan kung bakit tinatawag namin silang "malalaking" modelo ng wika pagkatapos ng lahat.

Pre-training gamit ang isang Transformer Architecture

Sa yugto ng pre-training, ang mga LLM ay ipinakilala sa umiiral na data ng teksto upang matutunan ang pangkalahatang istraktura at mga panuntunan ng isang wika.

Sa nakalipas na ilang taon, ang mga LLM ay paunang sinanay sa mga dataset na sumasaklaw sa malaking bahagi ng pampublikong internet. Halimbawa, ang modelo ng wika ng GPT-3 ay sinanay sa data mula sa Karaniwang Pag-crawl dataset, isang corpus ng mga web post, web page, at mga na-digitize na aklat na na-scrap mula sa mahigit 50 milyong domain.

Ang napakalaking dataset ay ipapakain sa isang modelong kilala bilang a transpormer. Ang mga transformer ay isang uri ng malalim na neural network na pinakamahusay na gumagana para sa sequential data.

ang mga modelo ng malalaking wika ay gumagamit ng mga transformer

Gumagamit ang mga transformer ng isang arkitektura ng encoder-decoder para sa paghawak ng input at output. Mahalaga, ang transpormer ay naglalaman ng dalawang neural network: isang encoder at isang decoder. Maaaring kunin ng encoder ang kahulugan ng input text at iimbak ito bilang isang vector. Ang decoder pagkatapos ay tumatanggap ng vector at gumagawa ng interpretasyon nito sa teksto.

Gayunpaman, ang pangunahing konsepto na nagpapahintulot sa arkitektura ng transpormer na gumana nang maayos ay ang pagdaragdag ng a mekanismo ng pansin sa sarili. Ang konsepto ng pansin sa sarili ay nagpapahintulot sa modelo na bigyang-pansin ang pinakamahalagang salita sa isang naibigay na pangungusap. Isinasaalang-alang pa ng mekanismo ang mga bigat sa pagitan ng mga salitang magkalayo nang sunud-sunod.

Ang isa pang benepisyo ng self-atensyon ay ang proseso ay maaaring parallelized. Sa halip na iproseso ang sunud-sunod na data sa pagkakasunud-sunod, maaaring iproseso ng mga modelo ng transformer ang lahat ng input nang sabay-sabay. Binibigyang-daan nito ang mga transformer na magsanay sa malaking halaga ng data na medyo mabilis kumpara sa iba pang mga pamamaraan.

Fine-tuning

Pagkatapos ng yugto ng pre-training, maaari mong piliing magpakilala ng bagong text para sa base na LLM kung saan sasanayin. Tinatawag namin ang prosesong ito fine tuning at kadalasang ginagamit upang higit pang mapabuti ang output ng LLM sa isang partikular na gawain.

Halimbawa, maaaring gusto mong gumamit ng LLM upang bumuo ng nilalaman para sa iyong Twitter account. Maaari naming bigyan ang modelo ng ilang mga halimbawa ng iyong mga nakaraang tweet upang bigyan ito ng ideya ng nais na output.

Mayroong ilang iba't ibang uri ng fine-tuning.

ang malalaking modelo ng wika ay may kakayahang mag-aral ng ilang shot

Few-shot learning ay tumutukoy sa proseso ng pagbibigay ng isang modelo ng isang maliit na bilang ng mga halimbawa na may inaasahan na ang modelo ng wika ay malaman kung paano gumawa ng katulad na output. One-shot na pag-aaral ay isang katulad na proseso maliban sa isang halimbawa lamang ang ibinigay.

Mga Limitasyon ng Malaking Modelo ng Wika

Ang mga LLM gaya ng GPT-3 ay may kakayahang magsagawa ng malaking bilang ng mga kaso ng paggamit kahit na walang fine-tuning. Gayunpaman, ang mga modelong ito ay mayroon pa ring sariling hanay ng mga limitasyon.

Kakulangan ng Semantikong Pag-unawa sa Mundo

Sa ibabaw, lumalabas ang mga LLM na nagpapakita ng katalinuhan. Gayunpaman, ang mga modelong ito ay hindi gumagana sa parehong paraan utak ng tao ginagawa. Ang mga LLM ay umaasa lamang sa mga istatistikal na pagkalkula upang makabuo ng output. Wala silang kakayahang mangatwiran ng mga ideya at konsepto sa kanilang sarili.

Dahil dito, ang isang LLM ay maaaring maglabas ng mga walang katuturang sagot dahil lang sa ang mga salita ay tila "tama" o "malamang sa istatistika" kapag inilagay sa partikular na pagkakasunud-sunod.

Guni-guni

Ang mga modelo tulad ng GPT-3 ay dumaranas din ng mga hindi tumpak na tugon. Maaaring magdusa ang mga LLM sa isang phenomenon na kilala bilang pagkakatalaga kung saan ang mga modelo ay naglalabas ng maling tugon nang walang anumang kamalayan na ang tugon ay walang batayan sa katotohanan.

Halimbawa, maaaring hilingin ng isang user sa modelo na ipaliwanag ang mga iniisip ni Steve Jobs sa pinakabagong iPhone. Ang modelo ay maaaring bumuo ng isang quote mula sa manipis na hangin batay sa data ng pagsasanay nito.

Mga Pagkiling at Limitadong Kaalaman

Tulad ng maraming iba pang mga algorithm, ang malalaking modelo ng wika ay madaling magmana ng mga bias na nasa data ng pagsasanay. Habang nagsisimula kaming umasa nang higit sa mga LLM upang kunin ang impormasyon, ang mga developer ng mga modelong ito ay dapat na maghanap ng mga paraan upang mabawasan ang mga potensyal na nakakapinsalang epekto ng mga may kinikilingan na tugon.

Sa katulad na kapasidad, ang mga blindspot ng data ng pagsasanay ng modelo ay hahadlang din sa mismong modelo. Sa kasalukuyan, ang malalaking modelo ng wika ay tumatagal ng ilang buwan upang sanayin. Ang mga modelong ito ay umaasa rin sa mga dataset na limitado ang saklaw. Ito ang dahilan kung bakit limitado lang ang kaalaman ng ChatGPT sa mga kaganapang naganap noong nakaraang 2021.

Konklusyon

Ang malalaking modelo ng wika ay may potensyal na tunay na baguhin kung paano tayo nakikipag-ugnayan sa teknolohiya at sa ating mundo sa pangkalahatan.

Ang napakaraming data na makukuha sa internet ay nagbigay sa mga mananaliksik ng isang paraan upang imodelo ang mga kumplikado ng wika. Gayunpaman, sa kahabaan ng paraan, ang mga modelo ng wika na ito ay tila nakuha sa isang tulad ng tao na pag-unawa sa mundo kung ano ito.

Habang nagsisimulang magtiwala ang publiko sa mga modelong ito ng wika upang magbigay ng tumpak na output, ang mga mananaliksik at developer ay nakakahanap na ng mga paraan upang magdagdag ng mga guardrail upang manatiling etikal ang teknolohiya.

Ano sa palagay mo ang kinabukasan ng mga LLM?

Malaking Modelo ng Wika: Lahat ng Kailangan Mong Malaman

Ano ang isang malaking modelo ng wika?

Paano Sinasanay ang mga LLM?