Masalah klasik dina kecerdasan jieunan nyaéta ngudag mesin anu tiasa ngartos basa manusa.
Salaku conto, nalika milarian "réstoran Italia caket dieu" dina mesin pencari paporit anjeun, hiji algoritma kedah nganalisis unggal kecap dina pamundut anjeun sareng ngahasilkeun hasil anu relevan. Aplikasi tarjamahan anu santun kedah ngartos kontéks kecap tinangtu dina basa Inggris sareng kumaha waé ngajelaskeun bédana grammar antara basa.
Sadaya pancén ieu sareng seueur deui digolongkeun dina subfield élmu komputer anu katelah Processing Basa Pengetahuan Alam atanapi NLP. Kamajuan di NLP parantos nyababkeun rupa-rupa aplikasi praktis ti asisten virtual sapertos Alexa Amazon ka saringan spam anu ngadeteksi email jahat.
Terobosan panganyarna dina NLP nyaéta ideu a model basa badag atanapi LLM. LLM sapertos GPT-3 parantos janten kuat sahingga sigana suksés dina ampir sagala tugas NLP atanapi kasus panggunaan.
Dina artikel ieu, urang bakal ningali kana naon sabenerna LLMs, kumaha model ieu dilatih, sarta watesan ayeuna aranjeunna gaduh.
Naon model basa badag?
Dina inti na, modél basa téh saukur hiji algoritma anu weruh kumaha kamungkinan runtuyan kecap mangrupa kalimah valid.
Hiji modél basa basajan pisan dilatih dina sababaraha ratus buku kudu bisa ngabejaan yen "Anjeunna indit ka imah" leuwih valid ti "Imah indit anjeunna".
Lamun urang ngaganti dataset rélatif leutik kalawan dataset masif scraped ti internét, urang mimitian kaanggo pamanggih a model basa badag.
maké jaringan neural, panalungtik bisa ngalatih LLMs dina jumlah badag data téks. Kusabab jumlah data téks model geus katempo, LLM jadi pohara alus dina ngaramal kecap salajengna dina runtuyan.
Modelna janten canggih, tiasa ngalaksanakeun seueur tugas NLP. Tugas-tugas ieu kalebet nyimpulkeun téks, nyiptakeun kontén novél, sareng nyimulasikeun paguneman sapertos manusa.
Salaku conto, modél basa GPT-3 anu kasohor pisan dilatih kalayan langkung ti 175 milyar parameter sareng dianggap modél basa anu paling maju dugi ka ayeuna.
Éta tiasa ngahasilkeun kode anu tiasa dianggo, nyerat sadayana tulisan, sareng tiasa nyandak shot dina ngawalon patarosan ngeunaan topik naon waé.
Kumaha LLMs Dilatih?
Kami sakedap nyabak kanyataan yén LLM ngahutang seueur kakuatanana kana ukuran data pelatihanna. Aya alesan naha urang nelepon aranjeunna "badag" model basa sanggeus kabeh.
Pra-latihan sareng Arsitéktur Transformer
Dina tahap pra-latihan, LLM diwanohkeun kana data téks anu aya pikeun diajar struktur umum sareng aturan basa.
Dina sababaraha taun katukang, LLM parantos dilatih sateuacana dina set data anu nyertakeun sabagian ageung internét umum. Contona, modél basa GPT-3 dilatih dina data tina Ngorondang umum susunan data, korpus tulisan wéb, halaman wéb, sareng buku-buku anu didigitalkeun dikerok tina langkung ti 50 juta domain.
Dataset masif teras diasupkeun kana modél anu katelah a trafo. Transformers mangrupakeun jenis jaringan saraf jero anu dianggo pangalusna pikeun data sequential.
Transformers ngagunakeun hiji arsitéktur encoder-decoder pikeun nanganan input jeung output. Intina, trafo ngandung dua jaringan saraf: encoder sareng decoder. Encoder tiasa nimba harti téks input sareng nyimpen salaku véktor. Dekoder teras nampi vektor sareng ngahasilkeun interpretasi téks na.
Tapi, konsép konci anu ngamungkinkeun arsitéktur trafo tiasa dianggo saé nyaéta tambihan a mékanisme timer perhatian. Konsep timer perhatian diwenangkeun modél nengetan kecap pangpentingna dina kalimah dibikeun. Mékanismena malah nimbang-nimbang beurat antara kecap-kecap anu papisah sacara berurutan.
Kauntungan sejen tina perhatian diri nyaéta prosésna tiasa parallelized. Gantina ngolah data sequential dina urutan, model trafo bisa ngolah sakabéh inputs sakaligus. Hal ieu ngamungkinkeun trafo ngalatih dina jumlah data anu ageung rélatif gancang dibandingkeun metodeu sanés.
Setélan lemes
Sanggeus tahap pra-latihan, Anjeun bisa milih pikeun ngawanohkeun téks anyar pikeun LLM dasar pikeun latihan. Urang nelepon prosés ieu Setélan lemes sarta mindeng dipaké pikeun ngaronjatkeun kaluaran LLM dina tugas husus.
Contona, Anjeun meureun hoyong make hiji LLM pikeun ngahasilkeun eusi pikeun akun Twitter Anjeun. Urang bisa nyadiakeun model kalawan sababaraha conto tweets Anjeun saméméhna pikeun masihan eta hiji gagasan kaluaran nu dipikahoyong.
Aya sababaraha jinis fine-tuning.
Diajar sababaraha-shot nujul kana prosés méré modél sajumlah leutik conto kalawan harepan yén modél basa bakal angka kaluar kumaha carana sangkan kaluaran sarupa. Hiji-shot learning nyaéta prosés sarupa iwal ngan hiji conto tunggal disadiakeun.
Watesan Modél Basa Gedé
LLM sapertos GPT-3 sanggup ngalaksanakeun sajumlah ageung kasus pamakean sanaos tanpa nyaluyukeun. Sanajan kitu, model ieu masih hadir kalawan set sorangan watesan.
Kurangna Pamahaman Semantik Dunya
Dina beungeut cai, LLMs kaciri mintonkeun kecerdasan. Sanajan kitu, model ieu teu beroperasi dina cara nu sarua uteuk manusa teu. LLM ngan ukur ngandelkeun komputasi statistik pikeun ngahasilkeun kaluaran. Aranjeunna teu boga kapasitas pikeun alesan kaluar gagasan jeung konsep sorangan.
Kusabab ieu, hiji LLM bisa kaluaran jawaban nonsensical saukur kusabab kecap sigana "bener" atawa "statistik kamungkinan" lamun disimpen dina urutan nu tangtu.
halusinasi
Model sapertos GPT-3 ogé kakurangan tina réspon anu teu akurat. LLM tiasa ngalaman fenomena anu katelah halusinasi dimana model ngahasilkeun réspon anu leres-leres henteu leres tanpa kasadaran yén résponna henteu aya dasar dina kanyataan.
Contona, pamaké bisa nanya ka model pikeun ngajelaskeun pikiran Steve Jobs ngeunaan iPhone panganyarna. Model bisa ngahasilkeun cutatan tina hawa ipis dumasar kana data latihan na.
Bias jeung Pangaweruh kawates
Sapertos seueur algoritma anu sanés, modél basa anu ageung condong ngawariskeun bias anu aya dina data pelatihan. Nalika urang mimiti langkung ngandelkeun LLM pikeun nyandak inpormasi, pamekar modél ieu kedah milarian cara pikeun ngirangan épék anu berpotensi ngabahayakeun tina réspon anu bias.
Dina kapasitas anu sami, titik buta tina data latihan modél ogé bakal ngahalangan modél éta sorangan. Ayeuna, modél basa ageung nyandak sababaraha bulan kanggo ngalatih. Modél ieu ogé ngandelkeun set data anu diwatesan dina lingkup. Ieu sababna ChatGPT ngan ukur gaduh pangaweruh terbatas ngeunaan kajadian anu kajantenan taun 2021.
kacindekan
Modél basa ageung gaduh poténsi pikeun leres-leres ngarobih kumaha urang berinteraksi sareng téknologi sareng dunya urang sacara umum.
Jumlah data anu ageung dina internét parantos masihan para panalungtik cara pikeun ngamodelkeun kompleksitas basa. Sanajan kitu, sapanjang jalan, model basa ieu sigana geus ngangkat dina pamahaman manusa-kawas dunya sakumaha anu kasebut.
Nalika masarakat mimiti percanten kana modél basa ieu pikeun nyayogikeun kaluaran anu akurat, panaliti sareng pamekar parantos mendakan cara pikeun nambihan pager supados téknologi tetep étika.
Kumaha saur anjeun masa depan LLMs?
Leave a Reply