Enhavtabelo[Kaŝi][Montri]
Mi certas, ke vi aŭdis pri artefarita inteligenteco, kaj ankaŭ pri vortoj kiel maŝinlernado kaj prilaborado de natura lingvo (NLP).
Precipe se vi laboras por firmao kiu pritraktas centojn, se ne milojn, da klientkontaktoj ĉiutage.
Analizo de datumoj de afiŝoj de sociaj amaskomunikiloj, retpoŝtoj, babilejoj, nefermitaj enketaj respondoj kaj aliaj fontoj ne estas simpla procezo, kaj ĝi fariĝas eĉ pli malfacila kiam oni konfidas nur al homoj.
Tial multaj homoj estas entuziasmaj pri la potencialo de artefarita inteligento por ilia ĉiutaga laboro kaj por entreprenoj.
Tekstanalizo funkciigita de AI utiligas larĝan gamon de aliroj aŭ algoritmoj por interpreti lingvon organike, unu el kiuj estas temoanalizo, kiu estas uzata por aŭtomate malkovri temojn el tekstoj.
Komercoj povas uzi temajn analizmodelojn por translokigi facilajn laborojn sur maŝinojn prefere ol superŝarĝi laboristojn per tro da datumoj.
Konsideru kiom da tempo via teamo povus ŝpari kaj dediĉi al pli esenca laboro se komputilo povus filtri tra senfinaj listoj de klienketoj aŭ subtenaj problemoj ĉiumatene.
En ĉi tiu gvidilo, ni esploros temmodeladon, malsamajn metodojn de temmodelado, kaj ricevos iom da praktika sperto kun ĝi.
Kio estas Tema Modelado?
Temmodelado estas speco de tekstminado en kiu nekontrolita kaj kontrolita statistiko maŝinlernado teknikoj estas uzataj por detekti tendencojn en korpuso aŭ signifa volumeno de nestrukturita teksto.
Ĝi povas preni vian amasan kolekton de dokumentoj kaj uzi similecan metodon por aranĝi la vortojn en grupojn de terminoj kaj malkovri temojn.
Tio ŝajnas iom kompleksa kaj malfacila, do ni simpligu la proceduron de la temomodelado!
Supozu, ke vi legas gazeton kun aro da koloraj lumigiloj en via mano.
Ĉu tio ne estas malmoderna?
Mi rimarkas, ke nuntempe, malmultaj homoj legas gazetojn presite; ĉio estas cifereca, kaj lumigiloj estas pasinteco! Ŝajnigu esti via patro aŭ patrino!
Do, kiam vi legas la gazeton, vi reliefigas la gravajn terminojn.
Ankoraŭ unu supozo!
Vi uzas malsaman nuancon por emfazi la ŝlosilvortojn de diversaj temoj. Vi kategoriigas la ŝlosilvortojn laŭ la provizitaj koloroj kaj temoj.
Ĉiu kolekto de vortoj markitaj per certa koloro estas listo de ŝlosilvortoj por difinita temo. La kvanto de diversaj koloroj, kiujn vi elektis, montras la nombron da temoj.
Ĉi tiu estas la plej fundamenta temomodelado. Ĝi helpas en la kompreno, organizo kaj resumo de grandaj tekstokolektoj.
Tamen, memoru, ke por esti efikaj, aŭtomatigitaj temmodeloj postulas multan enhavon. Se vi havas mallongan paperon, vi eble volas iri malnovan lernejon kaj uzi reliefigilojn!
Estas ankaŭ utile pasigi iom da tempo ekkoni la datumojn. Ĉi tio donos al vi bazan senton pri tio, kion la temomodelo devus trovi.
Ekzemple, tiu taglibro povas temi pri viaj nunaj kaj antaŭaj rilatoj. Tiel, mi antaŭvidus, ke mia tekstmina robota amiko elpensos similajn ideojn.
Ĉi tio povas helpi vin pli bone analizi la kvaliton de la temoj kiujn vi identigis kaj, se necese, ĝustigi la ŝlosilvortojn.
Komponentoj de Temo-Modelado
Probabla Modelo
Hazardaj variabloj kaj probablodistribuoj estas integrigitaj en la reprezentado de okazaĵo aŭ fenomeno en probabilistaj modeloj.
Determinisma modelo disponigas ununuran eblan konkludon por okazaĵo, dum probabilisma modelo disponigas probablodistribuon kiel solvo.
Ĉi tiuj modeloj konsideras la realon, ke ni malofte havas kompletan scion pri situacio. Preskaŭ ĉiam estas elemento de hazardo por konsideri.
Ekzemple, vivasekuro dependas de la realo, ke ni scias, ke ni mortos, sed ni ne scias kiam. Ĉi tiuj modeloj povus esti parte determinismaj, parte hazardaj aŭ tute hazardaj.
Informa Rehavigo
Informo-serĉado (IR) estas programaro kiu organizas, stokas, prenas, kaj taksas informojn de dokumentdeponejoj, precipe tekstajn informojn.
La teknologio helpas uzantojn malkovri la informojn, kiujn ili bezonas, sed ĝi ne klare liveras la respondojn al iliaj demandoj. Ĝi sciigas pri la ĉeesto kaj loko de paperoj kiuj povas provizi la necesajn informojn.
Gravaj dokumentoj estas tiuj, kiuj kontentigas la bezonojn de la uzanto. Senmanka IR-sistemo resendos nur elektitajn dokumentojn.
Temo Kohereco
Topic Coherence gajnas ununuran temon kalkulante la gradon da semantika simileco inter la altpoentadaj terminoj de la temo. Tiuj metrikoj helpas distingi inter subjektoj kiuj estas semantike interpreteblaj kaj temoj kiuj estas statistikaj inferencaj artefaktoj.
Se grupo de asertoj aŭ faktoj apogas unu la alian, oni diras, ke ili estas koheraj.
Kiel rezulto, kohezia faktoro povas esti komprenita en kunteksto kiu ampleksas ĉiujn aŭ la plimulton de la faktoj. "La ludo estas teama sporto", "la ludo estas ludata per pilko" kaj "la ludo postulas enorman fizikan fortostreĉon" estas ĉiuj ekzemploj de koheziaj faktoj.
Malsamaj Metodoj de Tema Modelado
Ĉi tiu kritika proceduro povas esti efektivigita per diversaj algoritmoj aŭ metodaroj. Inter ili estas:
- Latenta Dirichlet-Asigno (LDA)
- Nenegativa Matrica Faktorizado (NMF)
- Latenta Semantika Analizo (LSA)
- Probabla Latenta Semantika Analizo (pLSA)
Latenta Dirichlet-Asigno (LDA)
Por detekti rilatojn inter multoblaj tekstoj en korpuso, la statistika kaj grafika koncepto de Latent Dirichlet Allocation estas uzata.
Uzante la Variation Exception Maximization (VEM) aliron, la plej granda verŝajnectakso de la plena korpuso de teksto estas atingita.
Tradicie, la supraj malmultaj vortoj el sako da vortoj estas elektitaj.
Tamen la frazo estas tute sensenca.
Laŭ ĉi tiu tekniko, ĉiu teksto estos reprezentita per probabla distribuo de subjektoj, kaj ĉiu temo per probabla distribuo de vortoj.
Nenegativa Matrica Faktorizado (NMF)
Matrico kun Nenegativaj Valoroj Faktorizado estas avangarda eltira aliro.
Kiam ekzistas multaj kvalitoj kaj la atributoj estas neklaraj aŭ havas malbonan antaŭvideblecon, NMF estas utila. NMF povas generi signifajn padronojn, subjektojn, aŭ temojn kombinante karakterizaĵojn.
NMF generas ĉiun trajton kiel lineara kombinaĵo de la origina atributaro.
Ĉiu trajto enhavas aron de koeficientoj kiuj reprezentas la gravecon de ĉiu atributo sur la trajto. Ĉiu nombra atributo kaj ĉiu valoro de ĉiu kategoria atributo havas sian propran koeficienton.
Ĉiuj koeficientoj estas pozitivaj.
Latenta Semantika Analizo
Ĝi estas alia nekontrolita lernometodo uzata por ĉerpi asociojn inter vortoj en aro de dokumentoj estas latenta semantika analizo.
Ĉi tio helpas nin elekti la taŭgajn dokumentojn. Ĝia ĉefa funkcio estas redukti la dimensiecon de la enorma korpuso de tekstodatenoj.
Ĉi tiuj nenecesaj datumoj funkcias kiel fona bruo por akiri la necesajn komprenojn de la datumoj.
Probabla Latenta Semantika Analizo (pLSA)
Probabilisma latenta semantika analizo (PLSA), foje konata kiel probabla latenta semantika indeksado (PLSI, precipe en informserĉaj cirkloj), estas statistika aliro por analizado de du-reĝimaj kaj ko-okazaj datenoj.
Fakte, simile al latenta semantika analizo, el kiu PLSA eliris, malalt-dimensia reprezentado de la observitaj variabloj povas esti derivita laŭ ilia afineco al specialaj kaŝaj variabloj.
Praktika kun Temo-Modelado en Python
Nun, mi gvidos vin tra temo modeliga tasko kun la Python programlingvo uzante realan ekzemplon.
Mi modeligos esplorajn artikolojn. La datumaro, kiun mi uzos ĉi tie, venas de kaggle.com. Vi povas facile akiri ĉiujn dosierojn, kiujn mi uzas en ĉi tiu laboro, de ĉi tio paĝo.
Ni komencu kun Tema Modelado uzante Python per importado de ĉiuj esencaj bibliotekoj:
La sekva paŝo estas legi ĉiujn datumajn arojn, kiujn mi uzos en ĉi tiu tasko:
Esplora Datuma Analizo
EDA (Exploratory Data Analysis) estas statistika metodo, kiu uzas vidajn elementojn. Ĝi uzas statistikajn resumojn kaj grafikajn prezentojn por malkovri tendencojn, ŝablonojn kaj testajn supozojn.
Mi faros iun esploran analizon de datumoj antaŭ ol mi komencos teman modeladon por vidi ĉu estas iuj ŝablonoj aŭ rilatoj en la datumoj:
Nun ni trovos la nulvalorojn de la testa datumaro:
Nun mi grafikos histogramon kaj keston por kontroli la rilaton inter la variabloj.
La kvanto de karakteroj en la Abstracts of the Train-aro multe varias.
En la trajno, ni havas minimume 54 kaj maksimume 4551 signojn. 1065 estas la averaĝa kvanto de signoj.
La testaro ŝajnas esti pli interesa ol la trejnaro ĉar la testaro havas 46 signojn dum la trejnaro havas 2841.
Kiel rezulto, la testaro havis medianon de 1058 karakteroj, kio estas simila al la trejnaro.
La nombro da vortoj en la lernado sekvas similan ŝablonon al la nombro da literoj.
Minimume 8 vortoj kaj maksimume 665 vortoj estas permesitaj. Kiel rezulto, la meza vortnombro estas 153.
Minimume sep vortoj en abstraktaĵo kaj maksimume 452 vortoj en la testaro estas postulataj.
La mediano, en ĉi tiu kazo, estas 153, kio estas identa al la mediano en la trejna aro.
Uzante Etikedojn por Temmodelado
Estas pluraj temmodelaj strategioj. Mi uzos etikedojn en ĉi tiu ekzerco; ni rigardu kiel fari tion ekzamenante la etikedojn:
Aplikoj de Temo-Modelado
- Teksta resumo povas esti uzata por distingi la temon de dokumento aŭ libro.
- Ĝi povas esti uzata por forigi kandidatbiason de ekzamenpoentado.
- Temmodelado povus esti uzata por konstrui semantikajn rilatojn inter vortoj en grafik-bazitaj modeloj.
- Ĝi povas plibonigi klientservon detektante kaj respondante al ŝlosilvortoj en la enketo de la kliento. Klientoj havos pli da fido al vi, ĉar vi provizis al ili la helpon, kiun ili postulas en la taŭga momento kaj sen kaŭzi al ili ajnan ĝenon. Kiel rezulto, klientolojaleco altiĝas dramece, kaj la valoro de la firmao pliiĝas.
konkludo
Temmodelado estas speco de statistika modeligado uzata por malkovri abstraktajn "subjektojn" kiuj ekzistas en kolekto de tekstoj.
Ĝi estas formo de la statistika modelo uzata en maŝinlernado kaj naturlingva prilaborado por malkovri abstraktajn konceptojn kiuj ekzistas en aro de tekstoj.
Ĝi estas tekstmina metodo kiu estas vaste uzata por trovi latentajn semantikajn ŝablonojn en korpa teksto.
Lasi Respondon