Тема моделювання Введення для початківців

Зміст[Сховати][Показати]

Що таке тематичне моделювання?
Компоненти тематичного моделювання+-
- Імовірнісна модель
- Інформаційний пошук
Різні методи тематичного моделювання+-
Практичне моделювання тем у Python+-
- Дослідницький аналіз даних
- Використання тегів для тематичного моделювання
Застосування тематичного моделювання
Висновок

Я впевнений, що ви чули про штучний інтелект, а також такі слова, як машинне навчання та обробка природної мови (NLP).

Особливо, якщо ви працюєте у фірмі, яка щодня обробляє сотні, якщо не тисячі контактів із клієнтами.

Аналіз даних публікацій у соціальних мережах, електронних листів, чатів, відповідей на відкриті опитування та інших джерел не є простим процесом, і він стає ще складнішим, якщо його довіряти лише людям.

Ось чому багато людей з ентузіазмом розглядають потенціал штучний інтелект для їхньої повсякденної роботи та для підприємств.

Аналіз тексту на основі штучного інтелекту використовує широкий спектр підходів або алгоритмів для органічної інтерпретації мови, одним з яких є аналіз тем, який використовується для автоматичного виявлення предметів у текстах.

Підприємства можуть використовувати моделі тематичного аналізу, щоб переносити легкі завдання на машини, а не перевантажувати працівників занадто великою кількістю даних.

Поміркуйте, скільки часу ваша команда могла б заощадити й присвятити важливішій роботі, якби комп’ютер щоранку міг фільтрувати нескінченні списки опитувань клієнтів або проблем підтримки.

У цьому посібнику ми розглянемо тематичне моделювання, різні методи тематичного моделювання та отримаємо практичний досвід роботи з ним.

Що таке тематичне моделювання?

Тематичне моделювання – це тип аналізу тексту, в якому неконтрольована та контрольована статистика навчання за допомогою машини методи використовуються для виявлення тенденцій у корпусі або значному обсязі неструктурованого тексту.

Це може зайняти вашу величезну колекцію документів і використовувати метод подібності, щоб упорядкувати слова в кластери термінів і виявити предмети.

Це здається трохи складним і важким, тому давайте спростимо процедуру моделювання предмета!

Припустимо, що ви читаєте газету з набором кольорових маркерів у руці.

Хіба це не старомодно?

Я розумію, що сьогодні мало хто читає друковані газети; все цифрове, а хайлайтери залишилися в минулому! Прикинься твоїм батьком чи мамою!

Отже, читаючи газету, ви виділяєте важливі терміни.

Ще одне припущення!

Ви використовуєте інший відтінок, щоб підкреслити ключові слова різних тем. Ви класифікуєте ключові слова залежно від наданого кольору та тем.

Кожна колекція слів, позначених певним кольором, є списком ключових слів для даної теми. Кількість кольорів, які ви вибрали, показує кількість тем.

Це найбільш фундаментальне моделювання теми. Він допомагає у розумінні, організації та узагальненні великих текстових колекцій.

Однак пам’ятайте, що для ефективності автоматизованих тематичних моделей потрібно багато вмісту. Якщо у вас коротка робота, ви можете піти в стару школу і використовувати маркери!

Також корисно витратити деякий час на ознайомлення з даними. Це дасть вам базове уявлення про те, що має знайти тематична модель.

Наприклад, цей щоденник може бути про ваші теперішні та попередні стосунки. Таким чином, я очікував, що мій робот-приятель із добування текстів придумає подібні ідеї.

Це може допомогти вам краще проаналізувати якість визначених предметів і, за потреби, налаштувати набори ключових слів.

Компоненти тематичного моделювання

Імовірнісна модель

Випадкові величини та розподіли ймовірностей включені в представлення події чи явища в імовірнісних моделях.

Детермінована модель забезпечує єдиний потенційний висновок для події, тоді як імовірнісна модель надає розподіл ймовірності як рішення.

Ці моделі розглядають реальність, що ми рідко маємо повне знання ситуації. Майже завжди слід враховувати елемент випадковості.

Наприклад, страхування життя ґрунтується на тому, що ми знаємо, що помремо, але не знаємо, коли. Ці моделі можуть бути частково детермінованими, частково випадковими або повністю випадковими.

Інформаційний пошук

Пошук інформації (IR) — це програмна програма, яка організовує, зберігає, витягує та оцінює інформацію зі сховищ документів, зокрема текстову інформацію.

Технологія допомагає користувачам знаходити потрібну інформацію, але не дає чітких відповідей на їхні запити. Він повідомляє про наявність та місцезнаходження паперів, які можуть надати необхідну інформацію.

Відповідні документи – це ті, які відповідають потребам користувача. Безвідмовна ІЧ-система поверне лише вибрані документи.

Узгодженість теми

Узгодженість теми оцінює одну тему, обчислюючи ступінь семантичної подібності між термінами з високим балом у темі. Ці показники допомагають розрізняти предмети, які можна семантично інтерпретувати, і теми, які є артефактами статистичного висновку.

Якщо група тверджень або фактів підтверджують одне одного, вони називаються узгодженими.

В результаті цілісний набір фактів можна зрозуміти в контексті, який охоплює всі або більшість фактів. «Гра — це командний вид спорту», «гра ведеться з м’ячем» і «гра вимагає величезних фізичних зусиль» — усе це приклади згуртованих фактів.

Різні методи тематичного моделювання

Цю важливу процедуру можна виконати за допомогою різноманітних алгоритмів або методологій. Серед них:

Прихований розподіл Діріхле (LDA)
Факторизація невід’ємної матриці (NMF)
Прихований семантичний аналіз (LSA)
Імовірнісний латентний семантичний аналіз (pLSA)

Прихований розподіл Діріхле (LDA)

Для виявлення зв’язків між кількома текстами в корпусі використовується статистична та графічна концепція прихованого розподілу Діріхле.

Використовуючи підхід варіаційної максимізації винятків (VEM), досягається найбільша оцінка ймовірності з усього корпусу тексту.

LDA

Традиційно вибираються кілька перших слів із мішка слів.

Проте речення абсолютно безглузде.

Відповідно до цієї методики кожен текст буде представлений імовірнісним розподілом тем, а кожна тема — імовірнісним розподілом слів.

Факторизація невід’ємної матриці (NMF)

Матриця з факторизацією невід’ємних значень – це передовий підхід до виділення ознак.

Коли є багато якостей, а атрибути нечіткі або мають погану передбачуваність, NMF корисний. NMF може генерувати значущі моделі, предмети або теми шляхом поєднання характеристик.

Факторізація невід’ємної матриці

NMF генерує кожну ознаку як лінійну комбінацію вихідного набору атрибутів.

Кожна ознака містить набір коефіцієнтів, які представляють важливість кожного атрибута об’єкта. Кожен числовий атрибут і кожне значення кожного атрибута категорії мають свій власний коефіцієнт.

Усі коефіцієнти додатні.

Прихований семантичний аналіз

Ще одним методом навчання без нагляду, який використовується для виділення асоціацій між словами в наборі документів, є прихований семантичний аналіз.

Це допомагає нам вибрати відповідні документи. Його основна функція — зменшити розмірність величезного корпусу текстових даних.

Ці непотрібні дані служать фоновим шумом для отримання необхідної інформації з даних.

Прихований семантичний аналіз

Імовірнісний латентний семантичний аналіз (pLSA)

Імовірнісний прихований семантичний аналіз (PLSA), який іноді називають імовірнісним прихованим семантичним індексуванням (PLSI, особливо в колах пошуку інформації), є статистичним підходом для аналізу даних із двома режимами та одночасною появою.

Фактично, подібно до латентного семантичного аналізу, з якого виник PLSA, низьковимірне представлення спостережуваних змінних може бути отримано з точки зору їх спорідненості з конкретними прихованими змінними.

Імовірнісний прихований сенатичний аналіз

Практичне моделювання тем у Python

Тепер я проведу вас через предметне моделювання за допомогою Python мова програмування використовуючи реальний приклад.

Я буду моделювати дослідницькі статті. Набір даних, який я буду використовувати тут, походить із kaggle.com. Ви можете легко отримати всі файли, які я використовую в цій роботі сторінка.

Давайте розпочнемо тематичне моделювання за допомогою Python, імпортуючи всі необхідні бібліотеки:

Імпорт бібліотек

Наступний крок полягає в тому, щоб прочитати всі набори даних, які я буду використовувати в цьому завданні:

Прочитайте набір даних

Дослідницький аналіз даних

EDA (аналіз дослідницьких даних) — це статистичний метод, який використовує візуальні елементи. Він використовує статистичні підсумки та графічні зображення для виявлення тенденцій, закономірностей та тестових припущень.

Я проведу деякий дослідницький аналіз даних, перш ніж почати моделювання теми, щоб побачити, чи є якісь закономірності або зв’язки в даних:

Знайти нульові значення набору даних Train

Виведення тренувальних нульових значень

Тепер ми знайдемо нульові значення тестового набору даних:

Знайти нульові значення тестового набору даних

Виведення тестових нульових значень

Тепер я буду побудувати гістограму та діаграму, щоб перевірити зв’язок між змінними.

Складання графіків

Результат побудови 1

Кількість символів у наборі «Тези поїзда» дуже різниться.

У поїзді ми маємо мінімум 54 і максимум 4551 символів. 1065 – це середня кількість символів.

Складання графіка 2

Результат побудови 2

Тестовий набір виглядає більш цікавим, ніж навчальний набір, оскільки тестовий набір містить 46 символів, а навчальний набір — 2841.

В результаті тестовий набір мав медіану 1058 символів, що схоже на навчальний набір.

Складання графіка 3

Результат побудови 3

Кількість слів у навчальному наборі відповідає схемі, подібної до кількості букв.

Дозволено мінімум 8 слів і максимум 665 слів. В результаті середня кількість слів становить 153.

Складання графіка 4

Результат побудови 4

Необхідно не менше семи слів у рефераті та максимум 452 слова в тестовому наборі.

Медіана в цьому випадку дорівнює 153, що ідентично медіані в навчальному наборі.

Використання тегів для тематичного моделювання

Існує кілька стратегій тематичного моделювання. У цій вправі я буду використовувати теги; давайте подивимося, як це зробити, перевіривши теги:

Використання тегів для тематичного моделювання

Результат моделювання теми

Застосування тематичного моделювання

Текстовий короткий зміст можна використовувати для визначення теми документа чи книги.
Його можна використовувати, щоб усунути упередження кандидатів із оцінки іспитів.
Тематичне моделювання може використовуватися для побудови семантичних зв’язків між словами в моделях на основі графіків.
Він може покращити обслуговування клієнтів, виявляючи та відповідаючи на ключові слова в запиті клієнта. Клієнти будуть більше довіряти вам, оскільки ви надали їм необхідну допомогу у відповідний момент і не завдаючи їм жодних клопотів. В результаті лояльність клієнтів різко зростає, а вартість компанії зростає.

Висновок

Тематичне моделювання — це різновид статистичного моделювання, яке використовується для розкриття абстрактних «предметів», які існують у колекції текстів.

Це форма статистичної моделі, яка використовується в навчання за допомогою машини і обробка природної мови для виявлення абстрактних понять, які існують у наборі текстів.

Це метод аналізу тексту, який широко використовується для пошуку прихованих семантичних шаблонів в основному тексті.

Тема моделювання Вступ для початківців

Що таке тематичне моделювання?