Великі мовні моделі: все, що вам потрібно знати

Зміст[Сховати][Показати]

Що таке велика модель мови?
Як проходить підготовка LLM?+-
- Попереднє навчання з трансформаторною архітектурою
- Тонка настройка
Обмеження великих мовних моделей+-
Висновок

Класичною проблемою штучного інтелекту є пошук машини, здатної розуміти людську мову.

Наприклад, під час пошуку «італійські ресторани неподалік» у вашій улюбленій пошуковій системі алгоритм має проаналізувати кожне слово у вашому запиті та вивести відповідні результати. Пристойний додаток для перекладу повинен розуміти контекст конкретного слова англійською мовою та якимось чином враховувати відмінності в граматиці між мовами.

Усі ці завдання та багато іншого належать до підгалузі інформатики, відомої як Обробка природних мов або НЛП. Удосконалення НЛП призвело до широкого спектру практичних застосувань від віртуальних помічників, таких як Alexa Amazon, до фільтрів спаму, які виявляють зловмисну електронну пошту.

Останнім проривом у НЛП є ідея а велика модель мови або LLM. LLM, такі як GPT-3, стали настільки потужними, що, здається, вони успішно вирішують практично будь-яке завдання або сценарій використання НЛП.

У цій статті ми розглянемо, що саме таке LLM, як навчаються ці моделі та поточні обмеження, які вони мають.

Що таке велика модель мови?

За своєю суттю мовна модель — це просто алгоритм, який знає, наскільки ймовірно послідовність слів є дійсним реченням.

Дуже проста мовна модель, навчена на кількох сотнях книг, повинна сказати, що «Він пішов додому» є більш дійсним, ніж «Він пішов додому».

Якщо ми замінимо відносно невеликий набір даних масивним набором даних, зібраним з Інтернету, ми почнемо наближатися до ідеї велика модель мови.

використання нейронні мережі, дослідники можуть навчати LLM на великій кількості текстових даних. Завдяки кількості текстових даних, які бачила модель, LLM стає дуже хорошим у передбаченні наступного слова в послідовності.

Модель стає настільки складною, що може виконувати багато завдань НЛП. Ці завдання включають узагальнення тексту, створення нового вмісту та навіть імітацію людської розмови.

великі мовні моделі можуть створювати новий вміст на основі підказок

Наприклад, дуже популярна мовна модель GPT-3 навчена понад 175 мільярдами параметрів і вважається найдосконалішою мовною моделлю на сьогодні.

Він здатний генерувати робочий код, писати цілі статті та може спробувати відповісти на запитання на будь-яку тему.

Як проходить підготовка LLM?

Ми коротко торкнулися того факту, що LLM багато в чому завдячують своєю владою розміру своїх навчальних даних. Зрештою, є причина, чому ми називаємо їх «великими» мовними моделями.

Попереднє навчання з трансформаторною архітектурою

На етапі попереднього навчання магістри знайомляться з існуючими текстовими даними, щоб вивчити загальну структуру та правила мови.

За останні кілька років магістри пройшли попереднє навчання на наборах даних, які охоплюють значну частину публічного Інтернету. Наприклад, мовна модель GPT-3 була навчена на даних з Загальне сканування набір даних, сукупність веб-дописів, веб-сторінок і оцифрованих книг, зібраних із понад 50 мільйонів доменів.

Потім величезний набір даних подається в модель, відому як a трансформатор. Трансформери є різновидом глибока нервова мережа що найкраще працює для послідовних даних.

великі мовні моделі використовують трансформатори

Трансформатори використовують архітектура кодера-декодера для обробки введення та виведення. По суті, трансформатор містить дві нейронні мережі: кодер і декодер. Кодер може витягувати значення введеного тексту та зберігати його як вектор. Потім декодер отримує вектор і виробляє свою інтерпретацію тексту.

Однак ключовою концепцією, яка дозволила так добре працювати архітектурі трансформатора, є додавання a механізм самоуважності. Концепція самоуважності дозволила моделі звернути увагу на найважливіші слова в даному реченні. Механізм навіть враховує ваги між словами, які розташовані далеко одне від одного.

Ще одна перевага самоуважності полягає в тому, що процес можна розпаралелювати. Замість послідовної обробки даних трансформаторні моделі можуть обробляти всі входи одночасно. Це дозволяє трансформаторам відносно швидко тренуватися на величезних обсягах даних порівняно з іншими методами.

Тонка настройка

Після етапу попереднього навчання ви можете ввести новий текст для базового LLM для навчання. Ми називаємо цей процес тонка настройка і часто використовується для подальшого покращення результатів LLM для конкретного завдання.

Наприклад, ви можете використовувати LLM для створення вмісту для свого облікового запису Twitter. Ми можемо надати моделі кілька прикладів ваших попередніх твітів, щоб дати їй уявлення про бажаний результат.

Існує кілька різних типів тонкого налаштування.

великі мовні моделі здатні до швидкого вивчення

Навчання з кількома пострілами відноситься до процесу надання моделі невеликої кількості прикладів з розрахунком, що мовна модель зрозуміє, як зробити аналогічний результат. Одноразове навчання це подібний процес, за винятком того, що надано лише один приклад.

Обмеження великих мовних моделей

LLM, такі як GPT-3, здатні виконувати велику кількість випадків використання навіть без тонкого налаштування. Однак ці моделі все ще мають власний набір обмежень.

Відсутність семантичного розуміння світу

На поверхні здається, що LLM демонструють інтелект. Однак ці моделі не працюють однаково людський мозок робить. LLM покладаються виключно на статистичні обчислення для отримання результату. Вони не здатні самостійно обґрунтовувати ідеї та концепції.

Через це LLM може видавати безглузді відповіді просто тому, що слова здаються «правильними» або «статистично вірогідними», якщо їх розмістити в такому порядку.

Галюцинації

Такі моделі, як GPT-3, також страждають від неточних відповідей. LLMs може страждати від явища, відомого як галюцинація де моделі видають фактично неправильну відповідь, не усвідомлюючи, що відповідь не має жодного підґрунтя в реальності.

Наприклад, користувач може попросити модель пояснити думки Стіва Джобса щодо останнього iPhone. Модель може генерувати цитату з повітря на основі даних навчання.

Упередження та обмежені знання

Як і багато інших алгоритмів, великі мовні моделі схильні успадковувати зміщення, наявні в навчальних даних. Оскільки ми починаємо більше покладатися на LLM для отримання інформації, розробники цих моделей повинні знайти способи пом’якшити потенційно шкідливі наслідки упереджених відповідей.

Подібним чином сліпі плями навчальних даних моделі також заважатимуть самій моделі. Зараз для навчання великих мовних моделей потрібні місяці. Ці моделі також покладаються на набори даних, які мають обмежений обсяг. Ось чому ChatGPT має лише обмежені знання про події, що відбулися минулого 2021 року.

Висновок

Великі мовні моделі мають потенціал справді змінити те, як ми взаємодіємо з технологіями та нашим світом загалом.

Величезна кількість даних, доступних в Інтернеті, дала дослідникам можливість моделювати складність мови. Однак на цьому шляху ці мовні моделі, здається, підхопили людське розуміння світу таким, яким він є.

Оскільки громадськість починає довіряти цим мовним моделям у тому, що вони забезпечують точні результати, дослідники та розробники вже знаходять способи додати огорожі, щоб технологія залишалася етичною.

Яке, на вашу думку, майбутнє LLM?

Великі мовні моделі: усе, що вам потрібно знати

Що таке велика модель мови?

Як проходить підготовка LLM?