Преглед садржаја[Сакрити][Прикажи]
Сигуран сам да сте чули за вештачку интелигенцију, као и за речи попут машинског учења и обраде природног језика (НЛП).
Нарочито ако радите за фирму која свакодневно обрађује стотине, ако не и хиљаде контаката са клијентима.
Анализа података објава на друштвеним мрежама, е-поште, ћаскања, одговора на отворене анкете и других извора није једноставан процес, а постаје још тежи када је поверен само људима.
Због тога су многи људи одушевљени потенцијалом вештачка интелигенција за њихов свакодневни рад и за предузећа.
Анализа текста заснована на вештачкој интелигенцији користи широк спектар приступа или алгоритама за органско тумачење језика, од којих је једна анализа тема, која се користи за аутоматско откривање субјеката из текстова.
Предузећа могу да користе моделе анализе тема да пренесу лаке послове на машине уместо да преоптерећују раднике превише података.
Размислите колико би времена ваш тим могао да уштеди и посвети важнијим пословима када би рачунар могао да филтрира бескрајне листе анкета купаца или проблема са подршком сваког јутра.
У овом водичу ћемо размотрити моделирање тема, различите методе моделирања тема и стећи неко практично искуство са тим.
Шта је тематско моделирање?
Тематско моделирање је врста рударења текста у којој се ненадгледана и надгледана статистичка Машина учење технике се користе за откривање трендова у корпусу или значајном обиму неструктурисаног текста.
Може потрајати ваша огромна колекција докумената и користити метод сличности за сређивање речи у групе појмова и откривање тема.
То изгледа мало сложено и тешко, па хајде да поједноставимо поступак моделирања предмета!
Претпоставимо да читате новине са сетом маркера у боји у руци.
Није ли то старомодно?
Схватам да ових дана мало људи чита новине у штампи; све је дигитално, а маркери су ствар прошлости! Претварај се да си твој отац или мајка!
Дакле, када читате новине, истичете важне појмове.
Још једна претпоставка!
Користите различите нијансе да бисте нагласили кључне речи различитих тема. Кључне речи категоризујете у зависности од понуђене боје и тема.
Свака колекција речи означених одређеном бојом је листа кључних речи за дату тему. Количина различитих боја које сте одабрали показује број тема.
Ово је најосновније моделирање теме. Помаже у разумевању, организацији и сумирању великих збирки текстова.
Међутим, имајте на уму да аутоматизовани тематски модели захтевају много садржаја да би били ефикасни. Ако имате кратак рад, можда бисте желели да идете у стару школу и користите маркере!
Такође је корисно потрошити неко време на упознавање података. Ово ће вам дати основни осећај о томе шта би тематски модел требало да пронађе.
На пример, тај дневник може бити о вашим садашњим и претходним везама. Стога бих очекивао да ће мој робот-пријатељ за рударење текста доћи до сличних идеја.
Ово вам може помоћи да боље анализирате квалитет тема које сте идентификовали и, ако је потребно, прилагодите скупове кључних речи.
Компоненте тематског моделирања
Пробабилистички модел
Случајне варијабле и дистрибуције вероватноће су инкорпориране у представљање догађаја или феномена у пробабилистичким моделима.
Детерминистички модел обезбеђује један потенцијални закључак за догађај, док вероватноћан модел пружа дистрибуцију вероватноће као решење.
Ови модели узимају у обзир стварност да ретко имамо потпуно знање о ситуацији. Готово увек постоји елемент случајности који треба узети у обзир.
На пример, животно осигурање је засновано на стварности да знамо да ћемо умрети, али не знамо када. Ови модели могу бити делимично детерминистички, делимично случајни или потпуно случајни.
Информационо тражење
Дохваћање информација (ИР) је софтверски програм који организује, складишти, преузима и процењује информације из складишта докумената, посебно текстуалне информације.
Технологија помаже корисницима да открију информације које су им потребне, али не даје јасне одговоре на њихова питања. Обавештава о присуству и локацији папира који могу пружити потребне информације.
Релевантни документи су они који задовољавају потребе корисника. Беспрекоран ИР систем ће вратити само одабране документе.
Кохеренција теме
Кохерентност теме оцењује једну тему израчунавањем степена семантичке сличности између термина са високим оценама теме. Ове метрике помажу у разликовању субјеката који се семантички интерпретирају и тема које су артефакти статистичког закључивања.
Ако група тврдњи или чињеница подржава једна другу, каже се да су кохерентне.
Као резултат тога, кохезивни скуп чињеница може се разумети у контексту који обухвата све или већину чињеница. „Игра је тимски спорт“, „игра се игра са лоптом“ и „игра захтева огроман физички напор“ све су то примери кохезивног скупа чињеница.
Различите методе тематског моделирања
Ова критична процедура се може спровести помоћу разних алгоритама или методологија. Међу њима су:
- Латентна Дирихлеова алокација (ЛДА)
- Факторизација без негативне матрице (НМФ)
- Латентна семантичка анализа (ЛСА)
- Вероватноћа латентне семантичке анализе (пЛСА)
Латентна Дирихлеова алокација (ЛДА)
Да би се откриле везе између више текстова у корпусу, користи се статистички и графички концепт Латентне Дирихлеове алокације.
Користећи приступ максимизације варијационих изузетака (ВЕМ), постиже се највећа процена вероватноће из целог корпуса текста.
Традиционално, бира се неколико најбољих речи из врећице речи.
Међутим, реченица је потпуно бесмислена.
Према овој техници, сваки текст ће бити представљен вероватноћом дистрибуције предмета, а свака тема вероватноћом дистрибуције речи.
Факторизација без негативне матрице (НМФ)
Матрица са факторизацијом не-негативних вредности је најсавременији приступ екстракције карактеристика.
Када постоји много квалитета и атрибути су нејасни или имају лошу предвидљивост, НМФ је користан. НМФ може да генерише значајне обрасце, субјекте или теме комбиновањем карактеристика.
НМФ генерише сваку карактеристику као линеарну комбинацију оригиналног скупа атрибута.
Свако обележје садржи скуп коефицијената који представљају важност сваког атрибута на обележју. Сваки нумерички атрибут и свака вредност сваког атрибута категорије има свој коефицијент.
Сви коефицијенти су позитивни.
Латентна семантичка анализа
Још један метод учења без надзора који се користи за издвајање асоцијација између речи у скупу докумената је латентна семантичка анализа.
Ово нам помаже да одаберемо праве документе. Његова примарна функција је да смањи димензионалност огромног корпуса текстуалних података.
Ови непотребни подаци служе као позадинска бука у стицању потребних увида из података.
Вероватноћа латентне семантичке анализе (пЛСА)
Пробабилистичка латентна семантичка анализа (ПЛСА), понекад позната као вероватноћа латентно семантичко индексирање (ПЛСИ, посебно у круговима за проналажење информација), је статистички приступ за анализу података о два начина и истовременог појављивања.
У ствари, слично латентној семантичкој анализи, из које је произашла ПЛСА, нискодимензионални приказ посматраних варијабли може се извести у смислу њиховог афинитета према одређеним скривеним варијаблама.
Практично са моделирањем тема у Питхон-у
Сада ћу вас провести кроз задатак моделирања предмета са Питхон-ом програмски језик користећи пример из стварног света.
Ја ћу моделирати истраживачке чланке. Скуп података који ћу овде користити долази са каггле.цом. Из овога можете лако добити све датотеке које користим у овом раду страна.
Почнимо са моделирањем тема користећи Питхон увозом свих основних библиотека:
Следећи корак је да прочитам све скупове података које ћу користити у овом задатку:
Истраживачка анализа података
ЕДА (Екплоратори Дата Аналисис) је статистичка метода која користи визуелне елементе. Користи статистичке сажетке и графичке приказе да открије трендове, обрасце и претпоставке тестирања.
Урадићу неке истраживачке анализе података пре него што почнем са моделирањем теме да видим да ли постоје обрасци или односи у подацима:
Сада ћемо пронаћи нулте вредности скупа података теста:
Сада ћу нацртати хистограм и оквир да проверим однос између променљивих.
Количина знакова у скупу Апстракти воза веома варира.
У возу имамо минимално 54, а максимално 4551 карактер. 1065 је просечна количина знакова.
Скуп за тестирање изгледа занимљивији од скупа за обуку јер тестни сет има 46 карактера, док сет за обуку има 2841.
Као резултат тога, тест скуп је имао медијану од 1058 карактера, што је слично скупу за обуку.
Број речи у скупу за учење прати сличан образац као и број слова.
Дозвољено је најмање 8 речи и највише 665 речи. Као резултат, средњи број речи је 153.
Потребно је најмање седам речи у сажетку и највише 452 речи у тестном скупу.
Медијана, у овом случају, је 153, што је идентично медијани у скупу за обуку.
Коришћење ознака за тематско моделовање
Постоји неколико стратегија моделирања тема. Користићу ознаке у овој вежби; хајде да погледамо како то учинити тако што ћемо испитати ознаке:
Примене тематског моделирања
- Резиме текста се може користити за разазнавање теме документа или књиге.
- Може се користити за уклањање пристрасности кандидата из бодовања испита.
- Моделирање тема може се користити за изградњу семантичких односа између речи у моделима заснованим на графовима.
- Може побољшати корисничку услугу откривањем и одговарањем на кључне речи у клијентовом упиту. Купци ће имати више поверења у вас јер сте им пружили помоћ која им је потребна у одговарајућем тренутку и без икаквих проблема. Као резултат тога, лојалност клијената драматично расте, а вредност компаније расте.
Zakljucak
Моделирање тема је врста статистичког моделирања који се користи за откривање апстрактних „субјеката“ који постоје у збирци текстова.
То је облик статистичког модела који се користи у Машина учење и обрада природног језика да би се открили апстрактни концепти који постоје у скупу текстова.
То је метода рударења текста која се широко користи за проналажење латентних семантичких образаца у тексту.
Ostavite komentar