Үлкен тілдік модельдер: білуіңіз керек барлық нәрсе

Мазмұны[Жасыру][Көрсету]

Үлкен тілдік модель дегеніміз не?
LLM қалай оқытылады?+-
- Трансформатор архитектурасымен алдын ала дайындық
- Нәзік күйге келтіру
Үлкен тіл үлгілерінің шектеулері+-
қорытынды

Жасанды интеллекттегі классикалық мәселе - адам тілін түсінетін машинаға ұмтылу.

Мысалы, сүйікті іздеу жүйесінде «жақын маңдағы итальяндық мейрамханаларды» іздегенде, алгоритм сұрауыңыздағы әрбір сөзді талдап, сәйкес нәтижелерді шығаруы керек. Лайықты аударма қолданбасы ағылшын тіліндегі белгілі бір сөздің контекстін түсінуі керек және қандай да бір түрде тілдер арасындағы грамматикадағы айырмашылықтарды есепке алуы керек.

Барлық осы тапсырмалар және тағы басқалар информатика деп аталатын қосалқы салаға жатады Табиғи тілдерді өңдеу немесе NLP. NLP-дегі жетістіктер Amazon компаниясының Alexa сияқты виртуалды көмекшілерінен зиянды электрондық поштаны анықтайтын спам сүзгілеріне дейін практикалық қосымшалардың кең ауқымына әкелді.

NLP-дегі ең соңғы серпіліс - бұл идея үлкен тілдік модель немесе LLM. GPT-3 сияқты LLM-лер соншалықты күшті болды, олар кез келген дерлік NLP тапсырмаларында немесе пайдалану жағдайында сәтті болатын сияқты.

Бұл мақалада біз LLM деген не екенін, бұл модельдер қалай оқытылатынын және олардың ағымдағы шектеулерін қарастырамыз.

Үлкен тілдік модель дегеніміз не?

Негізінде, тілдік модель - бұл сөздер тізбегі қаншалықты жарамды сөйлем екенін білетін алгоритм.

Бірнеше жүз кітапта дайындалған өте қарапайым тіл үлгісі «Ол үйге кетті» дегеннен гөрі «Ол үйге кетті» деген сөздің орынды екенін айта алуы керек.

Егер біз салыстырмалы түрде шағын деректер жинағын интернеттен алынған үлкен деректер жиынтығымен ауыстырсақ, біз бұл идеяға жақындай бастаймыз. үлкен тілдік модель.

пайдалану нейрондық желілер, зерттеушілер LLM-ді мәтіндік деректердің үлкен көлеміне үйрете алады. Модель көрген мәтіндік деректердің көлеміне байланысты LLM келесі сөзді дәйектілікпен болжауда өте жақсы болады.

Модель соншалықты күрделі болады, ол көптеген NLP тапсырмаларын орындай алады. Бұл тапсырмалар мәтінді қорытындылауды, жаңа мазмұнды құруды және тіпті адам тәрізді сөйлесуді имитациялауды қамтиды.

үлкен тіл үлгілері сұраулар негізінде жаңа мазмұн жасай алады

Мысалы, өте танымал GPT-3 тіл үлгісі 175 миллиардтан астам параметрмен дайындалған және осы уақытқа дейін ең озық тіл үлгісі болып саналады.

Ол жұмыс кодын жасай алады, бүкіл мақалалар жаза алады және кез келген тақырып бойынша сұрақтарға жауап бере алады.

LLM қалай оқытылады?

Біз LLMs өздерінің оқу деректерінің көлеміне көп күш беруі керек екеніне қысқаша тоқталдық. Оларды «үлкен» тілдік модельдер деп атайтын себебіміз бар.

Трансформатор архитектурасымен алдын ала дайындық

Тренингке дейінгі кезеңде LLM тілдің жалпы құрылымы мен ережелерін үйрену үшін бар мәтіндік деректермен танысады.

Соңғы бірнеше жылда LLM-лер жалпыға қолжетімді интернеттің маңызды бөлігін қамтитын деректер жинақтары бойынша алдын ала оқытылды. Мысалы, GPT-3 тіл моделі деректер бойынша оқытылды Жалпы тексеріп шығу деректер жинағы, 50 миллионнан астам доменнен алынған веб-хабарламалар, веб-беттер және цифрланған кітаптар корпусы.

Жаппай деректер жинағы a деп аталатын үлгіге беріледі трансформатор. Трансформаторлар бір түрі болып табылады терең нейрондық желі ол дәйекті деректер үшін жақсы жұмыс істейді.

үлкен тілдік модельдер трансформаторларды пайдаланады

Трансформаторлар a пайдаланады кодтаушы-декодер архитектурасы кіріс пен шығысты өңдеуге арналған. Негізінде, трансформатор екі нейрондық желіні қамтиды: кодер және декодер. Кодер енгізілген мәтіннің мағынасын шығарып, оны вектор ретінде сақтай алады. Содан кейін декодер векторды қабылдап, мәтіннің интерпретациясын шығарады.

Дегенмен, трансформатордың архитектурасына жақсы жұмыс істеуге мүмкіндік беретін негізгі тұжырымдама - бұл a өзіне назар аудару механизмі. Өзіндік зейін ұғымы модельге берілген сөйлемдегі ең маңызды сөздерге назар аударуға мүмкіндік берді. Механизм тіпті бір-бірінен алыс орналасқан сөздердің арасындағы салмақтарды ретімен қарастырады.

Өзіне көңіл бөлудің тағы бір артықшылығы - бұл процесті параллельдеуге болады. Тізбектелген деректерді өңдеудің орнына, трансформатор үлгілері барлық кірістерді бірден өңдей алады. Бұл трансформаторларға басқа әдістермен салыстырғанда деректердің үлкен көлемін салыстырмалы түрде жылдам үйретуге мүмкіндік береді.

Нәзік күйге келтіру

Жаттығуға дейінгі кезеңнен кейін сіз оқыту үшін негізгі LLM үшін жаңа мәтін енгізуді таңдай аласыз. Біз бұл процесс деп атаймыз нәзік күйге келтіру және көбінесе белгілі бір тапсырма бойынша LLM нәтижесін одан әрі жақсарту үшін қолданылады.

Мысалы, Twitter тіркелгіңіз үшін мазмұнды жасау үшін LLM пайдаланғыңыз келуі мүмкін. Қажетті нәтиже туралы түсінік беру үшін біз үлгіге алдыңғы твиттеріңіздің бірнеше мысалдарын бере аламыз.

Дәл реттеудің бірнеше түрі бар.

үлкен тіл үлгілері бірнеше рет оқуға қабілетті

Аздап үйрену тілдік модель ұқсас нәтижені қалай жасауға болатынын анықтайды деген үмітпен модельге мысалдардың аз санын беру процесін білдіреді. Бір реттік оқыту тек бір ғана мысал берілгеннен басқа, ұқсас процесс.

Үлкен тіл үлгілерінің шектеулері

GPT-3 сияқты LLMs тіпті дәл баптаусыз да көптеген пайдалану жағдайларын орындауға қабілетті. Дегенмен, бұл модельдер әлі де өздерінің шектеулерімен келеді.

Әлемнің семантикалық түсінігінің болмауы

Сырттай қарағанда, LLMs интеллект көрсетеді. Дегенмен, бұл модельдер бірдей жұмыс істемейді адамның миы жасайды. LLM өнім шығару үшін тек статистикалық есептеулерге сүйенеді. Олардың идеялар мен тұжырымдамаларды өз бетінше дәлелдеу қабілеті жоқ.

Осыған байланысты, LLM мағынасыз жауаптарды шығара алады, себебі сөздер нақты тәртіпте орналастырылған кезде «дұрыс» немесе «статистикалық ықтимал» болып көрінеді.

Галлюцинация

GPT-3 сияқты модельдер де дұрыс емес жауаптардан зардап шегеді. LLM деп аталатын құбылыстан зардап шегуі мүмкін галлюцинация мұнда модельдер жауаптың шындықта негізі жоқ екенін білмей-ақ нақты дұрыс емес жауапты шығарады.

Мысалы, пайдаланушы модельден Стив Джобстың соңғы iPhone туралы ойларын түсіндіруді сұрауы мүмкін. Модель жаттығу деректеріне негізделген жұқа ауадан бағаны жасай алады.

Бейтараптар және шектеулі білім

Көптеген басқа алгоритмдер сияқты, үлкен тілдік модельдер оқу деректерінде бар қиғаштықтарды мұраға алуға бейім. Ақпаратты алу үшін LLM-ге көбірек сене бастағанда, бұл үлгілерді әзірлеушілер бейтарап жауаптардың ықтимал зиянды әсерін азайту жолдарын табуы керек.

Ұқсас мүмкіндікте модельдің жаттығу деректерінің соқыр нүктелері де модельдің өзіне кедергі жасайды. Қазіргі уақытта үлкен тілдік модельдерді оқытуға бірнеше ай қажет. Бұл үлгілер ауқымы шектеулі деректер жиынына да сүйенеді. Сондықтан ChatGPT тек 2021 жылдан өткен оқиғалар туралы шектеулі білімге ие.

қорытынды

Үлкен тілдік модельдер біздің технологиямен және жалпы әлеммен өзара әрекеттесу жолын шынымен өзгертуге мүмкіндік береді.

Интернетте қол жетімді деректердің үлкен көлемі зерттеушілерге тілдің күрделілігін модельдеуге мүмкіндік берді. Әйтсе де, бұл тілдік үлгілер дүниені сол қалпында адамдай түсінуді қолға алған сияқты.

Жұртшылық дәл нәтиже беретін осы тіл үлгілеріне сене бастағандықтан, зерттеушілер мен әзірлеушілер технология этикалық болып қалуы үшін қоршауларды қосу жолдарын тауып жатыр.

Сіздің ойыңызша, LLM болашағы қандай?

Үлкен тіл үлгілері: білуіңіз керек барлық нәрсе

Үлкен тілдік модель дегеніміз не?

LLM қалай оқытылады?