Модели больших языков: все, что вам нужно знать

Содержание[Скрывать][Показывать]

Что такое большая языковая модель?
Как обучаются LLM?+-
- Предварительное обучение с помощью Transformer Architecture
- Тонкая настройка
Ограничения больших языковых моделей+-
Заключение

Классическая проблема искусственного интеллекта — поиск машины, способной понимать человеческий язык.

Например, при поиске «близлежащих итальянских ресторанов» в вашей любимой поисковой системе алгоритм должен анализировать каждое слово в вашем запросе и выводить соответствующие результаты. Приличное приложение для перевода должно понимать контекст определенного слова на английском языке и каким-то образом учитывать различия в грамматике между языками.

Все эти и многие другие задачи подпадают под область информатики, известную как Обработка естественного языка или НЛП. Достижения в NLP привели к появлению широкого спектра практических приложений от виртуальных помощников, таких как Amazon Alexa, до спам-фильтров, обнаруживающих вредоносную электронную почту.

Самым последним прорывом в НЛП является идея большая языковая модель или LLM. LLM, такие как GPT-3, стали настолько мощными, что они, кажется, преуспели почти в любой задаче NLP или сценарии использования.

В этой статье мы рассмотрим, что такое LLM, как обучаются эти модели и какие у них есть текущие ограничения.

Что такое большая языковая модель?

По своей сути языковая модель — это просто алгоритм, который знает, насколько вероятно, что последовательность слов является правильным предложением.

Очень простая языковая модель, обученная на нескольких сотнях книг, должна быть в состоянии сказать, что «Он пошел домой» является более достоверным, чем «Он пошел домой».

Если мы заменим относительно небольшой набор данных массивным набором данных, взятым из Интернета, мы начнем приближаться к идее большая языковая модель.

. нейронные сети, исследователи могут обучать LLM на большом количестве текстовых данных. Из-за большого количества текстовых данных, которые увидела модель, LLM очень хорошо предсказывает следующее слово в последовательности.

Модель становится настолько сложной, что может выполнять множество задач НЛП. Эти задачи включают в себя обобщение текста, создание нового контента и даже моделирование человеческого разговора.

большие языковые модели могут создавать новый контент на основе подсказок

Например, очень популярная языковая модель GPT-3 обучается с более чем 175 миллиардами параметров и на сегодняшний день считается самой продвинутой языковой моделью.

Он может генерировать рабочий код, писать целые статьи и пытаться отвечать на вопросы по любой теме.

Как обучаются LLM?

Мы кратко коснулись того факта, что LLM во многом обязаны своей мощью размеру своих обучающих данных. В конце концов, есть причина, по которой мы называем их «большими» языковыми моделями.

Предварительное обучение с помощью Transformer Architecture

На этапе предварительного обучения LLM знакомятся с существующими текстовыми данными, чтобы изучить общую структуру и правила языка.

За последние несколько лет LLM прошли предварительную подготовку на наборах данных, которые охватывают значительную часть общедоступного Интернета. Например, языковая модель GPT-3 обучалась на данных из Обыкновенный обход набор данных, набор веб-сообщений, веб-страниц и оцифрованных книг, извлеченных из более чем 50 миллионов доменов.

Затем массивный набор данных вводится в модель, известную как трансформатор. Трансформеры относятся к типу глубокая нейронная сеть который лучше всего работает для последовательных данных.

большие языковые модели используют преобразователи

Трансформеры используют архитектура кодер-декодер для обработки ввода и вывода. По сути, преобразователь содержит две нейронные сети: энкодер и декодер. Кодер может извлечь значение входного текста и сохранить его в виде вектора. Затем декодер получает вектор и производит интерпретацию текста.

Однако ключевой концепцией, которая позволила архитектуре трансформатора работать так хорошо, является добавление механизм самоконтроля. Концепция внутреннего внимания позволяла модели обращать внимание на самые важные слова в заданном предложении. Механизм даже учитывает веса между словами, которые находятся далеко друг от друга последовательно.

Еще одно преимущество самоконтроля заключается в том, что процесс можно распараллелить. Вместо последовательной обработки данных модели трансформаторов могут обрабатывать все входные данные одновременно. Это позволяет преобразователям относительно быстро обучаться на огромных объемах данных по сравнению с другими методами.

Тонкая настройка

После этапа предварительного обучения вы можете ввести новый текст для базового LLM для обучения. Мы называем этот процесс тонкая настройка и часто используется для дальнейшего улучшения результатов LLM по конкретной задаче.

Например, вы можете использовать LLM для создания контента для своей учетной записи Twitter. Мы можем предоставить модели несколько примеров ваших предыдущих твитов, чтобы дать ей представление о желаемом результате.

Существует несколько различных типов тонкой настройки.

большие языковые модели способны к малому обучению

Быстрое обучение относится к процессу предоставления модели небольшого количества примеров с ожиданием того, что языковая модель выяснит, как сделать аналогичный вывод. Одноразовое обучение - это аналогичный процесс, за исключением того, что приведен только один пример.

Ограничения больших языковых моделей

LLM, такие как GPT-3, способны выполнять большое количество вариантов использования даже без тонкой настройки. Тем не менее, эти модели по-прежнему имеют свои ограничения.

Отсутствие семантического понимания мира

На первый взгляд кажется, что LLM демонстрируют интеллект. Однако эти модели работают не так, как человеческий мозг делает. LLM полагаются исключительно на статистические расчеты для получения результатов. Они не способны самостоятельно рассуждать об идеях и концепциях.

Из-за этого LLM может выдавать бессмысленные ответы просто потому, что слова кажутся «правильными» или «статистически вероятными», когда они расположены в этом конкретном порядке.

Галлюцинации

Такие модели, как GPT-3, также страдают от неточных ответов. LLM могут страдать от явления, известного как галлюцинация где модели выдают фактически неверный ответ, не осознавая, что ответ не имеет под собой реальной основы.

Например, пользователь может попросить модель объяснить мысли Стива Джобса о последнем iPhone. Модель может генерировать цитату из воздуха на основе своих обучающих данных.

Предубеждения и ограниченные знания

Как и многие другие алгоритмы, большие языковые модели склонны наследовать смещения, присутствующие в обучающих данных. Поскольку мы начинаем больше полагаться на LLM для получения информации, разработчики этих моделей должны найти способы смягчить потенциально вредные последствия предвзятых ответов.

Точно так же слепые зоны обучающих данных модели также будут мешать самой модели. В настоящее время на обучение больших языковых моделей уходят месяцы. Эти модели также полагаются на наборы данных, объем которых ограничен. Вот почему ChatGPT имеет ограниченные знания о событиях, произошедших после 2021 года.

Заключение

Большие языковые модели могут действительно изменить то, как мы взаимодействуем с технологиями и нашим миром в целом.

Огромное количество данных, доступных в Интернете, дало исследователям возможность моделировать сложности языка. Однако по ходу дела эти языковые модели, кажется, усвоили человеческое понимание мира таким, какой он есть.

По мере того как общественность начинает доверять этим языковым моделям в обеспечении точных результатов, исследователи и разработчики уже находят способы добавить барьеры, чтобы технология оставалась этичной.

Как вы думаете, какое будущее у LLM?

Модели больших языков: все, что вам нужно знать

Что такое большая языковая модель?

Как обучаются LLM?