Тэма мадэлявання Уводзіны для пачаткоўцаў

Змест[Схаваць][Паказаць]

Што такое тэматычнае мадэляванне?
Кампаненты тэматычнага мадэлявання+-
- Імавернасная мадэль
- Інфармацыйны пошук
Розныя метады тэматычнага мадэлявання+-
Практычнае мадэляванне тэмаў на Python+-
- Даследчы аналіз даных
- Выкарыстанне тэгаў для тэматычнага мадэлявання
Прымяненне тэматычнага мадэлявання
заключэнне

Я ўпэўнены, што вы чулі пра штучны інтэлект, а таксама такія словы, як машыннае навучанне і апрацоўка натуральнай мовы (NLP).

Асабліва калі вы працуеце ў фірме, якая кожны дзень апрацоўвае сотні, калі не тысячы кантактаў з кліентамі.

Аналіз даных паведамленняў у сацыяльных сетках, электронных лістоў, чатаў, адказаў на адкрытыя апытанні і іншых крыніц не з'яўляецца простым працэсам, і ён становіцца яшчэ больш складаным, калі давераны толькі людзям.

Вось чаму многія людзі ў захапленні ад патэнцыялу штучны інтэлект для іх паўсядзённай працы і для прадпрыемстваў.

Аналіз тэксту з дапамогай штучнага інтэлекту выкарыстоўвае шырокі спектр падыходаў або алгарытмаў для арганічнай інтэрпрэтацыі мовы, адным з якіх з'яўляецца тэматычны аналіз, які выкарыстоўваецца для аўтаматычнага выяўлення прадметаў з тэкстаў.

Прадпрыемствы могуць выкарыстоўваць мадэлі тэматычнага аналізу, каб перанесці лёгкія заданні на машыны, а не перагружаць работнікаў занадта вялікай колькасцю дадзеных.

Падумайце, колькі часу ваша каманда магла б зэканоміць і прысвяціць больш важнай працы, калі б кампутар мог кожную раніцу фільтраваць бясконцыя спісы апытанняў кліентаў або праблем са службай падтрымкі.

У гэтым кіраўніцтве мы разгледзім тэматычнае мадэляванне, розныя метады тэматычнага мадэлявання і атрымаем практычны досвед працы з ім.

Што такое тэматычнае мадэляванне?

Тэматычнае мадэляванне - гэта тып інтэлектуальнага аналізу тэксту, у якім некантралюемая і кантраляваная статыстыка навучанне з дапамогай машыны метады выкарыстоўваюцца для выяўлення тэндэнцый у корпусе або значнага аб’ёму неструктураванага тэксту.

Гэта можа заняць вашу вялікую калекцыю дакументаў і выкарыстоўваць метад падабенства, каб расставіць словы ў кластары тэрмінаў і выявіць прадметы.

Гэта здаецца крыху складаным і цяжкім, таму давайце спросцім працэдуру мадэлявання прадмета!

Выкажам здагадку, што вы чытаеце газету з наборам каляровых маркераў у руцэ.

Хіба гэта не старамоднае?

Я разумею, што ў нашы дні мала хто чытае друкаваныя газеты; усё лічбавае, а маркеры засталіся ў мінулым! Прыкінуся бацькам ці маці!

Так што, чытаючы газету, выдзяляеш важныя тэрміны.

Яшчэ адно здагадка!

Вы выкарыстоўваеце іншы адценне, каб падкрэсліць ключавыя словы розных тэмаў. Вы класіфікуеце ключавыя словы ў залежнасці ад пададзенага колеру і тэм.

Кожная калекцыя слоў, пазначаных пэўным колерам, уяўляе сабой спіс ключавых слоў для дадзенай тэмы. Колькасць розных колераў, якія вы выбралі, паказвае колькасць тэм.

Гэта самая фундаментальная тэма мадэлявання. Гэта дапамагае ў разуменні, арганізацыі і абагульненні вялікіх тэкставых калекцый.

Аднак майце на ўвазе, што для эфектыўнасці аўтаматызаваных тэматычных мадэляў патрабуецца шмат кантэнту. Калі ў вас ёсць кароткі ліст, вы можаце пайсці ў старую школу і выкарыстоўваць маркеры!

Таксама карысна выдаткаваць некаторы час на азнаямленне з дадзенымі. Гэта дасць вам асноўнае ўяўленне аб тым, што павінна знайсці тэматычная мадэль.

Напрыклад, гэты дзённік можа быць аб вашых цяперашніх і папярэдніх адносінах. Такім чынам, я хацеў бы чакаць, што мой робат-прыяцель для здабывання тэксту прыдумае падобныя ідэі.

Гэта можа дапамагчы вам лепш прааналізаваць якасць прадметаў, якія вы вызначылі, і, пры неабходнасці, наладзіць наборы ключавых слоў.

Кампаненты тэматычнага мадэлявання

Імавернасная мадэль

Выпадковыя велічыні і размеркаванні верагоднасці ўключаюцца ў прадстаўленне падзеі або з'явы ў імавернасных мадэлях.

Дэтэрмінаваная мадэль забяспечвае адзіную патэнцыйную выснову для падзеі, тады як імавернасная мадэль дае размеркаванне верагоднасці ў якасці рашэння.

Гэтыя мадэлі ўлічваюць рэальнасць таго, што мы рэдка маем поўнае веданне сітуацыі. Амаль заўсёды трэба ўлічваць элемент выпадковасці.

Напрыклад, страхаванне жыцця грунтуецца на тым, што мы ведаем, што памрэм, але не ведаем, калі. Гэтыя мадэлі могуць быць часткова дэтэрмінаванымі, часткова выпадковымі або цалкам выпадковымі.

Інфармацыйны пошук

Інфармацыйны пошук (IR) — гэта праграма, якая арганізуе, захоўвае, здабывае і ацэньвае інфармацыю са сховішчаў дакументаў, у прыватнасці тэкставую інфармацыю.

Тэхналогія дапамагае карыстальнікам знаходзіць патрэбную інфармацыю, але не дае адназначных адказаў на іх запыты. Ён паведамляе аб наяўнасці і размяшчэнні дакументаў, якія могуць даць неабходную інфармацыю.

Адпаведнымі з'яўляюцца дакументы, якія адпавядаюць патрэбам карыстальніка. Бездакорная ВК-сістэма верне толькі выбраныя дакументы.

Узгодненасць тэмы

Узгодненасць тэмы ацэньвае адну тэму шляхам вылічэння ступені семантычнага падабенства паміж тэрмінамі з высокім балам у тэме. Гэтыя паказчыкі дапамагаюць адрозніваць прадметы, якія семантычна інтэрпрэтуюцца, і тэмы, якія з'яўляюцца артэфактамі статыстычнага вываду.

Калі група сцвярджэнняў або фактаў падтрымліваюць адзін аднаго, яны называюцца ўзгодненымі.

У выніку згуртаваны набор фактаў можна зразумець у кантэксце, які ахоплівае ўсе або большасць фактаў. «Гульня — камандны від спорту», «гульня вядзецца з мячом» і «гульня патрабуе велізарных фізічных намаганняў» — усё гэта прыклады згуртаваных фактаў.

Розныя метады тэматычнага мадэлявання

Гэта найважнейшая працэдура можа быць выканана з дапамогай розных алгарытмаў або метадалогій. Сярод іх:

Скрытае размеркаванне Дырыхле (LDA)
Фактарізацыя неадмоўнай матрыцы (NMF)
Латэнтны семантычны аналіз (LSA)
Верагоднасны латэнтны семантычны аналіз (pLSA)

Скрытае размеркаванне Дырыхле (LDA)

Для выяўлення сувязяў паміж некалькімі тэкстамі ў корпусе выкарыстоўваецца статыстычная і графічная канцэпцыя схаванага размеркавання Дырыхле.

Выкарыстоўваючы падыход варыяцыйнай максымізацыі выключэнняў (VEM), дасягаецца найбольшая ацэнка верагоднасці з поўнага корпуса тэксту.

LDA

Традыцыйна выбіраюцца некалькі першых слоў з мяшка слоў.

Аднак сказ абсалютна бессэнсоўны.

Згодна з гэтай методыкай, кожны тэкст будзе прадстаўлены імавернасным размеркаваннем прадметаў, а кожная тэма – імавернасным размеркаваннем слоў.

Фактарізацыя неадмоўнай матрыцы (NMF)

Матрыца з фактарызацыяй неадмоўных значэнняў - гэта перадавы падыход да вылучэння функцый.

Калі якасцяў шмат і атрыбуты расплывістыя або маюць кепскую прадказальнасць, NMF карысны. NMF можа ствараць значныя шаблоны, прадметы або тэмы шляхам аб'яднання характарыстык.

Факторызацыя неадмоўнай матрыцы

NMF генеруе кожны аб'ект як лінейную камбінацыю зыходнага набору атрыбутаў.

Кожны аб'ект змяшчае набор каэфіцыентаў, якія ўяўляюць важнасць кожнага атрыбута аб'екта. Кожны лікавы атрыбут і кожнае значэнне кожнага атрыбута катэгорыі мае свой уласны каэфіцыент.

Усе каэфіцыенты станоўчыя.

Латэнтны семантычны аналіз

Іншым метадам навучання без нагляду, які выкарыстоўваецца для вылучэння асацыяцый паміж словамі ў наборы дакументаў, з'яўляецца схаваны семантычны аналіз.

Гэта дапамагае нам падабраць патрэбныя дакументы. Яго асноўная функцыя - паменшыць памернасць вялізнага корпуса тэкставых даных.

Гэтыя непатрэбныя дадзеныя служаць фонавым шумам для атрымання неабходнай інфармацыі з дадзеных.

Латэнтны семантычны аналіз

Верагоднасны латэнтны семантычны аналіз (pLSA)

Імавернасны латэнтны семантычны аналіз (PLSA), які часам называюць імавернасным схаваным семантычным індэксаваннем (PLSI, асабліва ў колах пошуку інфармацыі), з'яўляецца статыстычным падыходам для аналізу двухрэжымных і сумесных даных.

Фактычна, падобна да схаванага семантычнага аналізу, з якога ўзнік PLSA, нізкамернае прадстаўленне назіраных зменных можа быць атрымана з пункту гледжання іх сроднасці да пэўных схаваных зменных.

Імавернасны латэнтны сенатычны аналіз

Практычнае мадэляванне тэмаў на Python

Зараз я правяду вас праз прадметнае мадэляванне з дапамогай Python мова праграмавання выкарыстоўваючы рэальны прыклад.

Я буду мадэляваць даследчыя артыкулы. Набор даных, які я буду выкарыстоўваць тут, паходзіць з kaggle.com. Вы можаце лёгка атрымаць усе файлы, якія я выкарыстоўваю ў гэтай працы старонка.

Давайце пачнем з тэматычнага мадэлявання з дапамогай Python, імпартаваўшы ўсе неабходныя бібліятэкі:

Імпарт бібліятэк

Наступны крок - прачытаць усе наборы даных, якія я буду выкарыстоўваць у гэтай задачы:

Прачытайце набор даных

Даследчы аналіз даных

EDA (даследчы аналіз даных) - гэта статыстычны метад, які выкарыстоўвае візуальныя элементы. Ён выкарыстоўвае статыстычныя зводкі і графічнае прадстаўленне, каб выявіць тэндэнцыі, заканамернасці і тэставыя здагадкі.

Я зраблю даследчы аналіз даных, перш чым пачаць мадэляванне тэмы, каб убачыць, ці ёсць якія-небудзь заканамернасці або адносіны ў дадзеных:

Знайсці нулявыя значэнні набору даных Train

Вывад цягніка нулявых значэнняў

Цяпер мы знойдзем нулявыя значэнні тэставага набору даных:

Знайсці нулявыя значэнні тэставага набору даных

Вывад тэставых нулявых значэнняў

Зараз я буду пабудаваць гістаграму і скрынкавы графік, каб праверыць сувязь паміж зменнымі.

Плот

Вынік пабудовы 1

Колькасць сімвалаў у наборы "Анатацыя цягніка" моцна адрозніваецца.

У цягніку ў нас мінімум 54 і максімум 4551 сімвал. 1065 — сярэдняя колькасць сімвалаў.

Сюжэт 2

Вынік пабудовы 2

Тэставы набор выглядае больш цікавым, чым навучальны набор, паколькі тэставы набор мае 46 сімвалаў, а навучальны набор - 2841.

У выніку тэставы набор меў медыяну 1058 знакаў, што падобна на навучальны набор.

Сюжэт 3

Вывад графіка 3

Колькасць слоў у навучальным наборы адпавядае схеме, аналагічнай колькасці літар.

Дапускаецца мінімум 8 слоў і максімум 665 слоў. У выніку медыянная колькасць слоў складае 153.

Сюжэт 4

Вынік пабудовы 4

Патрабуецца не менш за сем слоў у анатацыі і максімум 452 словы ў наборы тэстаў.

Медыяна ў гэтым выпадку роўная 153, што ідэнтычна медыяне ў навучальным наборы.

Выкарыстанне тэгаў для тэматычнага мадэлявання

Існуе некалькі стратэгій тэматычнага мадэлявання. Я буду выкарыстоўваць тэгі ў гэтым практыкаванні; давайце паглядзім, як гэта зрабіць, вывучыўшы тэгі:

Выкарыстанне тэгаў для тэматычнага мадэлявання

Выхад тэматычнага мадэлявання

Прымяненне тэматычнага мадэлявання

Тэкставы рэзюмэ можна выкарыстоўваць, каб вызначыць тэму дакумента або кнігі.
Яго можна выкарыстоўваць, каб выдаліць прадузятасць кандыдатаў з балаў на экзаменах.
Тэматычнае мадэляванне можа быць выкарыстана для пабудовы семантычных адносін паміж словамі ў мадэлях на аснове графікаў.
Ён можа палепшыць абслугоўванне кліентаў, выяўляючы і адказваючы на ключавыя словы ў запыце кліента. Кліенты будуць больш верыць у вас, бо вы аказалі ім патрэбную дапамогу ў адпаведны момант і не прычыняючы ім ніякіх клопатаў. У выніку лаяльнасць кліентаў рэзка ўзрастае, а каштоўнасць кампаніі павялічваецца.

заключэнне

Тэматычнае мадэляванне - гэта свайго роду статыстычнае мадэляванне, якое выкарыстоўваецца для выяўлення абстрактных «прадметаў», якія існуюць у калекцыі тэкстаў.

Гэта форма статыстычнай мадэлі, якая выкарыстоўваецца ў навучанне з дапамогай машыны і апрацоўка натуральнай мовы, каб раскрыць абстрактныя паняцці, якія існуюць у наборы тэкстаў.

Гэта метад аналізу тэксту, які шырока выкарыстоўваецца для пошуку схаваных семантычных заканамернасцяў у асноўным тэксце.

Тэма мадэлявання Уводзіны для пачаткоўцаў

Што такое тэматычнае мадэляванне?