Въведение в тематично моделиране за начинаещи

Съдържание[Крия][Покажи]

Какво е тематично моделиране?
Компоненти на тематично моделиране+-
- Вероятностен модел
- Извличане на информация
Различни методи за тематично моделиране+-
Практически с тематично моделиране в Python+-
- Проучвателен анализ на данни
- Използване на етикети за тематично моделиране
Приложения на тематично моделиране
Заключение

Сигурен съм, че сте чували за изкуствен интелект, както и за думи като машинно обучение и обработка на естествен език (NLP).

Особено ако работите за фирма, която обработва стотици, ако не и хиляди контакти с клиенти всеки ден.

Анализът на данни от публикации в социалните медии, имейли, чатове, отговори на анкети и други източници не е лесен процес и става още по-труден, когато е поверен само на хора.

Ето защо много хора са ентусиазирани от потенциала на изкуствен интелект за ежедневната им работа и за предприятията.

Анализът на текст, задвижван от изкуствен интелект, използва широк спектър от подходи или алгоритми за органично тълкуване на езика, един от които е анализът на теми, който се използва за автоматично откриване на теми от текстове.

Предприятията могат да използват модели за анализ на теми, за да прехвърлят лесни работни места върху машини, вместо да претоварват работниците с твърде много данни.

Помислете колко време вашият екип може да спести и да посвети на по-важна работа, ако компютърът може да филтрира през безкрайни списъци с анкети на клиенти или проблеми с поддръжката всяка сутрин.

В това ръководство ще разгледаме моделирането на теми, различните методи за моделиране на теми и ще придобием практически опит с него.

Какво е тематично моделиране?

Тематично моделиране е вид извличане на текст, при което се извършват неконтролирани и контролирани статистически данни машинно обучение Използват се техники за откриване на тенденции в корпус или значителен обем неструктуриран текст.

Това може да отнеме вашата огромна колекция от документи и да използвате метод за сходство, за да подредите думите в групи от термини и да откриете теми.

Това изглежда малко сложно и трудно, така че нека опростим процедурата за моделиране на предмет!

Да предположим, че четете вестник с набор от цветни маркери в ръката си.

Това не е ли старомодно?

Давам си сметка, че в наши дни малко хора четат печатни вестници; всичко е цифрово, а хайлайтерите са нещо от миналото! Преструвайте се на баща или майка!

Така че, когато четете вестника, вие подчертавате важните термини.

Още едно предположение!

Използвате различен нюанс, за да подчертаете ключовите думи на различни теми. Вие категоризирате ключовите думи в зависимост от предоставения цвят и теми.

Всяка колекция от думи, маркирани с определен цвят, е списък с ключови думи за дадена тема. Количеството различни цветове, които сте избрали, показва броя на темите.

Това е най-фундаменталното моделиране на теми. Той помага за разбирането, организацията и обобщаването на големи текстови колекции.

Имайте предвид обаче, че за да бъдат ефективни, автоматизираните тематични модели изискват много съдържание. Ако имате кратка хартия, може да искате да отидете в старото училище и да използвате маркери!

Също така е полезно да отделите известно време, за да се запознаете с данните. Това ще ви даде основна представа за това какво трябва да намери тематичният модел.

Например този дневник може да е за вашите настоящи и предишни връзки. По този начин очаквам моят робот-приятел за копаене на текст да излезе с подобни идеи.

Това може да ви помогне да анализирате по-добре качеството на идентифицираните от вас теми и, ако е необходимо, да коригирате наборите от ключови думи.

Компоненти на тематично моделиране

Вероятностен модел

Случайните променливи и вероятностните разпределения са включени в представянето на събитие или явление в вероятностни модели.

Детерминистичният модел предоставя едно потенциално заключение за събитие, докато вероятностният модел предоставя разпределение на вероятностите като решение.

Тези модели отчитат реалността, че рядко имаме пълно познаване на дадена ситуация. Почти винаги има елемент на случайност, който трябва да се вземе предвид.

Например, животозастраховането се основава на реалността, че знаем, че ще умрем, но не знаем кога. Тези модели могат да бъдат частично детерминирани, частично произволни или напълно произволни.

Извличане на информация

Извличането на информация (IR) е софтуерна програма, която организира, съхранява, извлича и оценява информация от хранилища на документи, особено текстова информация.

Технологията помага на потребителите да открият необходимата им информация, но не дава ясни отговори на техните запитвания. Той уведомява за наличието и местоположението на документи, които могат да предоставят необходимата информация.

Съответните документи са тези, които отговарят на нуждите на потребителя. Една безупречна IR система ще върне само избрани документи.

Съгласуваност на темата

Съгласуваността на темата оценява една тема чрез изчисляване на степента на семантично сходство между термините с висока оценка на темата. Тези показатели помагат при разграничаването между субекти, които са семантично интерпретируеми, и теми, които са артефакти за статистически изводи.

Ако група твърдения или факти се подкрепят взаимно, се казва, че са последователни.

В резултат на това сплотеният набор от факти може да бъде разбран в контекст, който обхваща всички или по-голямата част от фактите. „Играта е отборен спорт“, „Играта се играе с топка“ и „Играта изисква огромно физическо усилие“ са примери за сплотени факти.

Различни методи за тематично моделиране

Тази критична процедура може да се извърши чрез различни алгоритми или методологии. Сред тях са:

Латентно разпределение на Дирихле (LDA)
Неотрицателна матрична факторизация (NMF)
Латентен семантичен анализ (LSA)
Вероятностен латентен семантичен анализ (pLSA)

Латентно разпределение на Дирихле (LDA)

За откриване на връзки между множество текстове в един корпус се използва статистическата и графична концепция на Латентно разпределение на Дирихле.

Използвайки подхода за максимизиране на вариационно изключение (VEM), се постига най-голямата оценка на вероятността от пълния корпус от текст.

LDA

Традиционно се избират първите няколко думи от една торба с думи.

Изречението обаче е напълно безсмислено.

Съгласно тази техника всеки текст ще бъде представен чрез вероятностно разпределение на предмети, а всяка тема - с вероятностно разпределение на думите.

Неотрицателна матрична факторизация (NMF)

Матрица с факторизация на неотрицателни стойности е авангарден подход за извличане на характеристики.

Когато има много качества и атрибутите са неясни или имат лоша предсказуемост, NMF е от полза. NMF може да генерира значими модели, теми или теми чрез комбиниране на характеристики.

Факторизация на неотрицателна матрица

NMF генерира всяка характеристика като линейна комбинация от оригиналния набор от атрибути.

Всяка характеристика съдържа набор от коефициенти, които представят важността на всеки атрибут в характеристиката. Всеки числов атрибут и всяка стойност на всеки атрибут на категория има свой собствен коефициент.

Всички коефициенти са положителни.

Латентен семантичен анализ

Друг метод за обучение без надзор, използван за извличане на асоциации между думи в набор от документи, е латентен семантичен анализ.

Това ни помага да изберем правилните документи. Неговата основна функция е да намали размерността на огромния корпус от текстови данни.

Тези ненужни данни служат като фонов шум при придобиването на необходимите прозрения от данните.

Латентен семантичен анализ

Вероятностен латентен семантичен анализ (pLSA)

Вероятностният латентен семантичен анализ (PLSA), понякога известен като вероятностно латентно семантично индексиране (PLSI, особено в кръговете за извличане на информация), е статистически подход за анализиране на данни за два режима и съвместно появяване.

Всъщност, подобно на латентния семантичен анализ, от който се появи PLSA, може да се изведе нискомерно представяне на наблюдаваните променливи по отношение на техния афинитет към определени скрити променливи.

Вероятностен латентен сенатичен анализ

Практически с тематично моделиране в Python

Сега ще ви преведа през задача за моделиране на предмет с Python програмен език използвайки пример от реалния свят.

Ще моделирам изследователски статии. Наборът от данни, който ще използвам тук, идва от kaggle.com. Можете лесно да получите всички файлове, които използвам в тази работа от това страница.

Нека започнем с тематично моделиране с помощта на Python, като импортираме всички основни библиотеки:

Импортиране на библиотеки

Следващата стъпка е да прочета всички набори от данни, които ще използвам в тази задача:

Прочетете набора от данни

Проучвателен анализ на данни

EDA (Изследователски анализ на данни) е статистически метод, който използва визуални елементи. Той използва статистически обобщения и графични изображения, за да открие тенденции, модели и тестови предположения.

Ще направя някакъв проучвателен анализ на данните, преди да започна моделиране на теми, за да видя дали има някакви модели или връзки в данните:

Намерете нулеви стойности на набор от данни за влак

Извеждане на обучени нулеви стойности

Сега ще намерим нулевите стойности на тестовия набор от данни:

Намерете нулеви стойности на набор от тестови данни

Извеждане на тестови нулеви стойности

Сега ще начертая хистограма и полето, за да проверя връзката между променливите.

плотиране

Резултат от чертане 1

Количеството знаци в набора Abstracts of the Train варира значително.

Във влака имаме минимум 54 и максимум 4551 знака. 1065 е средното количество знаци.

Начертаване 2

Резултат от чертане 2

Тестовият набор изглежда по-интересен от набора за обучение, тъй като тестовият набор има 46 знака, докато наборът за обучение има 2841.

В резултат на това тестовият набор имаше медиана от 1058 знака, което е подобно на набора за обучение.

Начертаване 3

Резултат от чертане 3

Броят на думите в учебния набор следва подобен модел на броя на буквите.

Разрешени са минимум 8 думи и максимум 665 думи. В резултат на това средният брой думи е 153.

Начертаване 4

Резултат от чертане 4

Необходими са минимум седем думи в резюме и максимум 452 думи в тестовия набор.

Медианата в този случай е 153, което е идентично с медианата в набора за обучение.

Използване на етикети за тематично моделиране

Има няколко стратегии за моделиране на теми. Ще използвам етикети в това упражнение; нека да разгледаме как да го направим, като разгледаме етикетите:

Използване на етикети за моделиране на теми

Резултат от тематично моделиране

Приложения на тематично моделиране

Текстово резюме може да се използва за разпознаване на темата на документ или книга.
Може да се използва за премахване на пристрастия на кандидатите от оценката на изпита.
Моделирането по тема може да се използва за изграждане на семантични връзки между думите в модели, базирани на графики.
Той може да подобри обслужването на клиентите, като открива и отговаря на ключови думи в запитването на клиента. Клиентите ще имат повече доверие във вас, тъй като вие сте им предоставили необходимата помощ в подходящия момент и без да им създавате проблеми. В резултат на това лоялността на клиентите се повишава драстично и стойността на компанията се увеличава.

Заключение

Тематично моделиране е вид статистическо моделиране, използвано за разкриване на абстрактни „субекти“, които съществуват в колекция от текстове.

Това е форма на статистическия модел, използван в машинно обучение и обработка на естествен език за разкриване на абстрактни концепции, които съществуват в набор от текстове.

Това е метод за извличане на текст, който се използва широко за намиране на латентни семантични модели в основния текст.

Въведение за тематично моделиране за начинаещи

Какво е тематично моделиране?