Süni intellektin klassik problemi insan dilini başa düşə bilən maşın axtarışıdır.
Məsələn, sevimli axtarış sisteminizdə "yaxınlıqdakı italyan restoranlarını" axtararkən, alqoritm sorğunuzdakı hər sözü təhlil etməli və müvafiq nəticələri çıxarmalıdır. Layiqli tərcümə proqramı ingilis dilində müəyyən bir sözün kontekstini başa düşməli və dillər arasında qrammatika fərqlərini bir şəkildə nəzərə almalı olacaq.
Bütün bu vəzifələr və daha çox şey kompüter elminin alt sahəsinə aiddir Təbii Dil Qenerasiya və ya NLP. NLP-də irəliləyişlər Amazon-un Alexa kimi virtual köməkçilərindən zərərli e-poçtları aşkarlayan spam filtrlərinə qədər geniş çeşidli praktik tətbiqlərə gətirib çıxardı.
NLP-də ən son sıçrayış a fikridir böyük dil modeli və ya LLM. GPT-3 kimi LLM-lər o qədər güclü oldular ki, demək olar ki, istənilən NLP tapşırığında və ya istifadə vəziyyətində uğur qazanmış kimi görünürlər.
Bu yazıda biz LLM-lərin tam olaraq nə olduğunu, bu modellərin necə öyrədildiyini və mövcud məhdudiyyətləri araşdıracağıq.
Böyük dil modeli nədir?
Özündə dil modeli sadəcə sözlər ardıcıllığının etibarlı bir cümlə olduğunu bilən bir alqoritmdir.
Bir neçə yüz kitab üzərində öyrədilmiş çox sadə bir dil modeli “Evə getdi”nin “Evə getdi”dən daha etibarlı olduğunu söyləyə bilməlidir.
Nisbətən kiçik məlumat dəstini internetdən çıxarılan kütləvi məlumat dəsti ilə əvəz etsək, biz bir ideyaya yaxınlaşmağa başlayırıq. böyük dil modeli.
Istifadə sinir şəbəkələri, tədqiqatçılar LLM-ləri böyük miqdarda mətn məlumatı üzərində öyrədə bilərlər. Modelin gördüyü mətn məlumatlarının miqdarına görə, LLM ardıcıllıqla növbəti sözü proqnozlaşdırmaqda çox yaxşı olur.
Model o qədər mürəkkəbləşir ki, bir çox NLP tapşırıqlarını yerinə yetirə bilir. Bu vəzifələrə mətni ümumiləşdirmək, yeni məzmun yaratmaq və hətta insana bənzər söhbətləri simulyasiya etmək daxildir.
Məsələn, çox populyar olan GPT-3 dil modeli 175 milyarddan çox parametrlə öyrədilir və bu günə qədər ən qabaqcıl dil modeli hesab olunur.
O, işçi kodu yarada, bütöv məqalələr yaza və istənilən mövzu ilə bağlı sualları cavablandıra bilər.
LLM-lər necə hazırlanır?
LLM-lərin güclərini təlim məlumatlarının ölçüsünə borclu olduqlarına qısaca toxunduq. Onları “böyük” dil modelləri adlandırmağımızın bir səbəbi var.
Transformator arxitekturası ilə ilkin məşq
Təlimdən əvvəlki mərhələdə dilin ümumi strukturunu və qaydalarını öyrənmək üçün LLM-lər mövcud mətn məlumatları ilə tanış olurlar.
Son bir neçə ildə LLM-lər ictimai internetin əhəmiyyətli bir hissəsini əhatə edən məlumat dəstləri üzrə əvvəlcədən təlim keçmişlər. Məsələn, GPT-3-ün dil modeli əldə edilən məlumatlar əsasında hazırlanmışdır Ümumi tarama dataset, 50 milyondan çox domendən çıxarılan veb yazılar, veb səhifələr və rəqəmsal kitablar korpusu.
Kütləvi məlumat dəsti daha sonra a kimi tanınan bir modelə verilir transformator. Transformatorlar bir növdür dərin neyron şəbəkəsi ardıcıl məlumatlar üçün ən yaxşı işləyir.
Transformatorlar an istifadə edirlər kodlayıcı-dekoder arxitekturası giriş və çıxışı idarə etmək üçün. Əsasən transformator iki neyron şəbəkədən ibarətdir: kodlayıcı və dekoder. Kodlayıcı daxil edilən mətnin mənasını çıxara və onu vektor kimi saxlaya bilər. Sonra dekoder vektoru qəbul edir və mətnin şərhini yaradır.
Bununla belə, transformator arxitekturasının bu qədər yaxşı işləməsinə imkan verən əsas konsepsiya a-nın əlavə edilməsidir özünə diqqət mexanizmi. Özünə diqqət anlayışı modelə verilən cümlədəki ən vacib sözlərə diqqət yetirməyə imkan verdi. Mexanizm hətta ardıcıl olaraq bir-birindən çox uzaq olan sözlər arasındakı çəkiləri nəzərə alır.
Özünə diqqətin başqa bir faydası prosesi paralelləşdirməkdir. Transformator modelləri ardıcıl məlumatları ardıcıllıqla emal etmək əvəzinə, bütün girişləri bir anda emal edə bilər. Bu, transformatorlara digər üsullarla müqayisədə nisbətən tez böyük həcmdə məlumat üzərində məşq etməyə imkan verir.
Gözəl tənzimləmə
Təlimdən əvvəlki mərhələdən sonra siz məşq etmək üçün əsas LLM üçün yeni mətn təqdim etməyi seçə bilərsiniz. Biz buna proses deyirik incələmək və tez-tez müəyyən bir tapşırıq üzrə LLM-nin məhsuldarlığını daha da yaxşılaşdırmaq üçün istifadə olunur.
Məsələn, siz Twitter hesabınız üçün məzmun yaratmaq üçün LLM-dən istifadə etmək istəyə bilərsiniz. İstədiyiniz nəticə haqqında fikir vermək üçün modelə əvvəlki tvitlərinizin bir neçə nümunəsini təqdim edə bilərik.
Bir neçə fərqli incə tənzimləmə növü var.
Bir neçə vuruşla öyrənmə dil modelinin oxşar çıxışı necə edəcəyini anlayacağı gözləntiləri ilə modelə az sayda nümunə vermək prosesinə aiddir. Bir vuruşda öyrənmə yalnız bir nümunə verilmədiyi istisna olmaqla oxşar prosesdir.
Böyük Dil Modellərinin Məhdudiyyətləri
GPT-3 kimi LLM-lər hətta incə tənzimləmə olmadan da çoxlu sayda istifadə hallarını yerinə yetirməyə qadirdir. Bununla belə, bu modellər hələ də öz məhdudiyyətləri ilə gəlir.
Dünyanın semantik anlayışının olmaması
Səthdə LLM-lər kəşfiyyat nümayiş etdirirlər. Ancaq bu modellər eyni şəkildə işləmir insan beyni edir. LLM-lər məhsul yaratmaq üçün yalnız statistik hesablamalara əsaslanır. Onların ideyaları və konsepsiyaları təkbaşına əsaslandırmaq qabiliyyəti yoxdur.
Buna görə də, LLM mənasız cavablar verə bilər, çünki sözlər müəyyən qaydada yerləşdirildikdə "doğru" və ya "statistik ehtimal" görünür.
Varsanılar
GPT-3 kimi modellər də qeyri-dəqiq cavablardan əziyyət çəkir. LLM-lər kimi tanınan bir fenomendən əziyyət çəkə bilər halüsinasiya burada modellər cavabın reallıqda heç bir əsası olmadığını bilmədən faktiki olaraq yanlış cavab verir.
Məsələn, istifadəçi modeldən Stiv Cobsun ən son iPhone haqqında fikirlərini izah etməyi xahiş edə bilər. Model öz təlim məlumatlarına əsaslanaraq havadan sitat yarada bilər.
Qərəzlər və Məhdud Bilik
Bir çox digər alqoritmlər kimi, böyük dil modelləri də təlim məlumatlarında mövcud olan qərəzləri miras almağa meyllidirlər. Məlumat əldə etmək üçün daha çox LLM-lərə etibar etməyə başladığımız üçün bu modellərin tərtibatçıları qərəzli cavabların potensial zərərli təsirlərini azaltmaq yollarını tapmalıdırlar.
Bənzər bir tutumda, modelin təlim məlumatlarının kor nöqtələri də modelin özünə mane olacaq. Hazırda böyük dil modellərinin hazırlanması aylar çəkir. Bu modellər həmçinin əhatə dairəsi məhdud olan verilənlər bazasına əsaslanır. Buna görə ChatGPT yalnız 2021-ci ildən keçmiş hadisələr haqqında məhdud məlumata malikdir.
Nəticə
Böyük dil modelləri texnologiya və ümumiyyətlə dünyamızla qarşılıqlı əlaqəmizi həqiqətən dəyişmək potensialına malikdir.
İnternetdə mövcud olan çoxlu məlumat tədqiqatçılara dilin mürəkkəbliklərini modelləşdirməyə imkan verdi. Bununla belə, yol boyu bu dil modelləri dünyanı olduğu kimi insan kimi dərk etmiş kimi görünür.
İctimaiyyət dəqiq çıxış təmin etmək üçün bu dil modellərinə etibar etməyə başladıqca, tədqiqatçılar və tərtibatçılar artıq texnologiyanın etik olaraq qalması üçün qoruyucu barmaqlıqlar əlavə etməyin yollarını tapırlar.
Sizcə, LLM-lərin gələcəyi nədir?
Cavab yaz