Введение в тематическое моделирование для начинающих

Содержание[Скрывать][Показывать]

Что такое тематическое моделирование?
Компоненты тематического моделирования+-
- Вероятностная модель
- Информационный поиск
Различные методы тематического моделирования+-
Практические занятия по тематическому моделированию в Python+-
- Исследовательский анализ данных
- Использование тегов для тематического моделирования
Приложения тематического моделирования
Заключение

Я уверен, что вы слышали об искусственном интеллекте, а также о таких словах, как машинное обучение и обработка естественного языка (NLP).

Особенно, если вы работаете в фирме, которая ежедневно обрабатывает сотни, если не тысячи контактов с клиентами.

Анализ данных публикаций в социальных сетях, электронных писем, чатов, ответов на открытые опросы и других источников — непростая процедура, и она становится еще более сложной, если доверить ее только людям.

Вот почему многие люди с энтузиазмом относятся к потенциалу искусственный интеллект для их повседневной работы и для предприятий.

Анализ текста с помощью ИИ использует широкий спектр подходов или алгоритмов для органической интерпретации языка, одним из которых является тематический анализ, который используется для автоматического обнаружения тем в текстах.

Предприятия могут использовать модели тематического анализа для переноса простых заданий на машины, а не перегружать сотрудников слишком большим объемом данных.

Подумайте, сколько времени ваша команда могла бы сэкономить и посвятить более важной работе, если бы компьютер мог фильтровать бесконечные списки опросов клиентов или вопросов поддержки каждое утро.

В этом руководстве мы рассмотрим тематическое моделирование, различные методы тематического моделирования и получим некоторый практический опыт работы с ним.

Что такое тематическое моделирование?

Тематическое моделирование — это тип интеллектуального анализа текста, при котором неконтролируемые и контролируемые статистические данные обучение с помощью машины методы используются для обнаружения тенденций в корпусе или значительном объеме неструктурированного текста.

Он может взять вашу огромную коллекцию документов и использовать метод подобия, чтобы упорядочить слова в кластеры терминов и обнаружить темы.

Это кажется немного сложным и трудным, поэтому давайте упростим процедуру моделирования предмета!

Предположим, вы читаете газету с набором цветных маркеров в руке.

Разве это не старомодно?

Я понимаю, что в наши дни мало кто читает печатные газеты; все цифровое, а маркеры остались в прошлом! Притворись своим отцом или матерью!

Итак, когда вы читаете газету, вы выделяете важные термины.

Еще одно предположение!

Вы используете разные оттенки, чтобы подчеркнуть ключевые слова различных тем. Вы классифицируете ключевые слова в зависимости от предоставленного цвета и тем.

Каждый набор слов, отмеченный определенным цветом, представляет собой список ключевых слов по заданной теме. Количество выбранных вами цветов показывает количество тем.

Это самая фундаментальная тема моделирования. Это помогает в понимании, организации и обобщении больших коллекций текстов.

Однако имейте в виду, что для того, чтобы быть эффективными, автоматизированные тематические модели требуют много контента. Если у вас короткая статья, возможно, вы захотите вернуться к старой школе и использовать маркеры!

Также полезно потратить некоторое время на ознакомление с данными. Это даст вам общее представление о том, что должна найти тематическая модель.

Например, этот дневник может быть о ваших нынешних и предыдущих отношениях. Таким образом, я ожидаю, что мой приятель-робот для интеллектуального анализа текстов предложит аналогичные идеи.

Это может помочь вам лучше проанализировать качество выбранных вами тем и, при необходимости, настроить наборы ключевых слов.

Компоненты тематического моделирования

Вероятностная модель

Случайные величины и распределения вероятностей включаются в представление события или явления в вероятностных моделях.

Детерминистическая модель дает единственный потенциальный вывод для события, тогда как вероятностная модель предоставляет распределение вероятностей в качестве решения.

Эти модели учитывают тот факт, что мы редко обладаем полным знанием ситуации. Почти всегда необходимо учитывать элемент случайности.

Например, страхование жизни основывается на том факте, что мы знаем, что умрем, но не знаем, когда. Эти модели могут быть частично детерминированными, частично случайными или полностью случайными.

Информационный поиск

Поиск информации (IR) — это программа, которая упорядочивает, хранит, извлекает и оценивает информацию из репозиториев документов, особенно текстовую информацию.

Эта технология помогает пользователям находить нужную им информацию, но не дает четких ответов на их запросы. Он уведомляет о наличии и местонахождении бумаг, которые могут содержать необходимую информацию.

Релевантные документы — это те, которые удовлетворяют потребности пользователя. Безупречная IR-система вернет только выбранные документы.

Согласованность темы

Тематическая согласованность оценивает одну тему, вычисляя степень семантического сходства между терминами с высокой оценкой в теме. Эти метрики помогают различать темы, поддающиеся семантической интерпретации, и темы, являющиеся артефактами статистического вывода.

Если группа утверждений или фактов поддерживает друг друга, они называются связными.

В результате связный набор фактов может быть понят в контексте, который охватывает все или большинство фактов. «Игра — командный вид спорта», «игра ведется с мячом» и «игра требует огромных физических усилий» — все это примеры связных наборов фактов.

Различные методы тематического моделирования

Эта критическая процедура может быть выполнена с помощью различных алгоритмов или методологий. Среди них:

Скрытое распределение Дирихле (LDA)
Неотрицательная матричная факторизация (NMF)
Скрытый семантический анализ (LSA)
Вероятностный латентный семантический анализ (pLSA)

Скрытое распределение Дирихле (LDA)

Для обнаружения взаимосвязей между несколькими текстами в корпусе используется статистическая и графическая концепция скрытого распределения Дирихле.

Используя подход максимизации вариационного исключения (VEM), достигается наибольшая оценка правдоподобия из полного корпуса текста.

LDA

Традиционно выбираются несколько верхних слов из набора слов.

Однако фраза совершенно бессмысленна.

Согласно этой методике каждый текст будет представлен вероятностным распределением тем, а каждая тема вероятностным распределением слов.

Неотрицательная матричная факторизация (NMF)

Матрица с неотрицательными значениями Факторизация — это передовой подход к извлечению признаков.

Когда есть много качеств, а атрибуты расплывчаты или плохо предсказуемы, NMF полезен. NMF может генерировать важные модели, предметы или темы, комбинируя характеристики.

Неотрицательная матричная факторизация

NMF генерирует каждую функцию как линейную комбинацию исходного набора атрибутов.

Каждая функция содержит набор коэффициентов, которые представляют важность каждого атрибута в функции. Каждому числовому признаку и каждому значению атрибута каждой категории соответствует свой коэффициент.

Все коэффициенты положительные.

Скрытый семантический анализ

Еще один неконтролируемый метод обучения, используемый для извлечения ассоциаций между словами в наборе документов, — это латентный семантический анализ.

Это помогает нам правильно подобрать документы. Его основная функция заключается в уменьшении размерности огромного корпуса текстовых данных.

Эти ненужные данные служат фоновым шумом для получения необходимой информации из данных.

Скрытый семантический анализ

Вероятностный латентный семантический анализ (pLSA)

Вероятностный латентно-семантический анализ (PLSA), иногда известный как вероятностное латентно-семантическое индексирование (PLSI, особенно в информационно-поисковых кругах), представляет собой статистический подход к анализу двухрежимных и совпадающих данных.

Фактически, подобно латентному семантическому анализу, из которого возникла PLSA, низкоразмерное представление наблюдаемых переменных может быть получено с точки зрения их сходства с конкретными скрытыми переменными.

Вероятностный латентный сенантический анализ

Практические занятия по тематическому моделированию в Python

Теперь я проведу вас через задание по предметному моделированию с помощью Python. язык программирования используя реальный пример.

Я буду моделировать исследовательские статьи. Набор данных, который я буду здесь использовать, взят с kaggle.com. Вы можете легко получить все файлы, которые я использую в этой работе, из этого страница.

Давайте начнем с тематического моделирования с использованием Python, импортировав все необходимые библиотеки:

Импорт библиотек

Следующий шаг — прочитать все наборы данных, которые я буду использовать в этой задаче:

Читать набор данных

Исследовательский анализ данных

EDA (исследовательский анализ данных) — это статистический метод, использующий визуальные элементы. Он использует статистические сводки и графические представления для выявления тенденций, закономерностей и тестовых предположений.

Я проведу предварительный анализ данных, прежде чем приступить к тематическому моделированию, чтобы увидеть, есть ли какие-либо шаблоны или отношения в данных:

Найдите нулевые значения набора данных поезда

Вывод нулевых значений поезда

Теперь найдем нулевые значения тестового набора данных:

Найдите нулевые значения тестового набора данных

Вывод тестовых нулевых значений

Теперь я буду строить гистограмму и диаграмму, чтобы проверить взаимосвязь между переменными.

Построение

Вывод графика 1

Количество персонажей в наборе «Тезисы поезда» сильно различается.

В поезде у нас минимум 54 и максимум 4551 символ. 1065 — это среднее количество символов.

График 2

Вывод графика 2

Тестовый набор выглядит более интересным, чем тренировочный, поскольку в тестовом наборе 46 символов, а в тренировочном — 2841.

В результате тестовый набор имел медиану 1058 символов, что аналогично обучающему набору.

График 3

Результат построения 3

Количество слов в обучающем наборе следует той же схеме, что и количество букв.

Допускается не менее 8 слов и не более 665 слов. В результате среднее количество слов составляет 153.

График 4

Вывод графика 4

Требуется минимум семь слов в аннотации и максимум 452 слова в тестовом наборе.

Медиана в этом случае равна 153, что идентично медиане в обучающей выборке.

Использование тегов для тематического моделирования

Существует несколько стратегий тематического моделирования. В этом упражнении я буду использовать теги; давайте посмотрим, как это сделать, изучив теги:

Использование тегов для тематического моделирования

Результат тематического моделирования

Приложения тематического моделирования

Текстовое резюме может быть использовано для определения темы документа или книги.
Его можно использовать для устранения предвзятости кандидата при оценке экзамена.
Тематическое моделирование может использоваться для построения семантических отношений между словами в моделях на основе графов.
Это может улучшить обслуживание клиентов, обнаруживая и отвечая на ключевые слова в запросе клиента. Клиенты будут больше доверять вам, поскольку вы оказали им необходимую помощь в нужный момент и не доставили им хлопот. В результате лояльность клиентов резко возрастает, а стоимость компании возрастает.

Заключение

Тематическое моделирование — это своего рода статистическое моделирование, используемое для выявления абстрактных «предметов», существующих в наборе текстов.

Это форма статистической модели, используемой в обучение с помощью машины и обработка естественного языка для выявления абстрактных понятий, существующих в наборе текстов.

Это метод анализа текста, который широко используется для поиска скрытых семантических паттернов в основном тексте.

Введение в тематическое моделирование для начинающих

Что такое тематическое моделирование?