Topic Modeling Yntroduksje foar begjinners

Table of Contents[Ferstopje][Toanje]

Wat is Topic Modeling?
Komponinten fan Topic Modeling+-
- Probabilistyske model
- Ynformaasje opheljen
Ferskillende Metoaden fan Topic Modeling+-
Hands-on mei Topic Modeling yn Python+-
- Exploratory Data Analysis
- Gebrûk fan tags foar Topic Modeling
Applikaasjes fan Topic Modeling
Konklúzje

Ik bin der wis fan dat jo hawwe heard fan keunstmjittige yntelliginsje, lykas wurden lykas masine learen en natuerlike taal ferwurking (NLP).

Benammen as jo wurkje foar in bedriuw dat elke dei hûnderten, sa net tûzenen, kliïntkontakten behannelet.

Gegevensanalyse fan berjochten op sosjale media, e-mails, petearen, antwurden op iepen enkêtes, en oare boarnen is net in ienfâldich proses, en it wurdt noch dreger as it allinich oan minsken wurdt tawiisd.

Dat is wêrom in protte minsken binne entûsjast oer it potinsjeel fan keunstmjittige yntelliginsje foar har deistich wurk en foar bedriuwen.

AI-oandreaune tekstanalyse brûkt in breed oanbod fan oanpakken as algoritmen om taal organysk te ynterpretearjen, wêrfan ien ûnderwerpanalyse is, dy't wurdt brûkt om automatysk ûnderwerpen út teksten te ûntdekken.

Bedriuwen kinne modellen foar ûnderwerpanalyse brûke om maklike banen oer te bringen op masines ynstee fan arbeiders te oerlêzen mei tefolle gegevens.

Beskôgje hoefolle tiid jo team kin besparje en besteegje oan mear essensjeel wurk as in kompjûter elke moarn einleaze listen mei klantûndersiken of stipeproblemen kin filterje.

Yn dizze hantlieding sille wy ûndersykje nei ûnderwerpmodellering, ferskate metoaden foar ûnderwerpmodellering, en krije wat praktyske ûnderfining mei.

Wat is Topic Modeling?

Underwerp modellering is in soarte fan tekst mining wêryn unsupervised en tafersjoch statistyk masine learen techniken wurde brûkt om trends te ûntdekken yn in korpus as in signifikant folume fan net-strukturearre tekst.

It kin jo enoarme samling dokuminten nimme en in oerienkomstsmetoade brûke om de wurden te regeljen yn klusters fan termen en ûnderwerpen te ûntdekken.

Dat liket in bytsje kompleks en hurd, dus litte wy de proseduere foar ûnderwerpmodellering ferienfâldigje!

Stel dat jo in krante lêze mei in set kleurde highlighters yn jo hân.

Is dat net âlderwetsk?

Ik besef dat dizze dagen, in pear minsken lêze kranten yn print; alles is digitaal, en highlighters binne in ding fan it ferline! Doch as jo heit of mem binne!

Dus, as jo de krante lêze, markearje jo de wichtige termen.

Noch ien oanname!

Jo brûke in oare kleur om de kaaiwurden fan ferskate tema's te beklamjen. Jo kategorisearje de kaaiwurden ôfhinklik fan de levere kleur en ûnderwerpen.

Elke samling wurden markearre troch in bepaalde kleur is in list mei kaaiwurden foar in bepaald ûnderwerp. It oantal ferskate kleuren dat jo keazen hawwe toant it oantal tema's.

Dit is de meast fûnemintele ûnderwerpmodellering. It helpt by it begripen, organisearjen en gearfetsje fan grutte tekstkolleksjes.

Hâld lykwols yn gedachten dat om effektyf te wêzen, automatisearre ûnderwerpmodellen in protte ynhâld fereaskje. As jo in koart papier hawwe, wolle jo miskien nei âlde skoalle gean en highlighters brûke!

It is ek foardielich om wat tiid troch te bringen om de gegevens te kennen. Dit sil jo in basissin jaan oer wat it ûnderwerpmodel moat fine.

Dat deiboek kin bygelyks gean oer jo hjoeddeistige en eardere relaasjes. Sa soe ik ferwachtsje dat myn robot-buddy foar tekstmining mei ferlykbere ideeën komt.

Dit kin jo helpe om de kwaliteit fan 'e ûnderwerpen dy't jo hawwe identifisearre better te analysearjen en, as it nedich is, de kaaiwurdsets oan te passen.

Komponinten fan Topic Modeling

Probabilistyske model

Willekeurige fariabelen en kânsferdielingen wurde opnommen yn 'e fertsjintwurdiging fan in evenemint of ferskynsel yn probabilistyske modellen.

In deterministysk model jout ien potinsjele konklúzje foar in evenemint, wylst in probabilistysk model in kânsferdieling as oplossing leveret.

Dizze modellen beskôgje de realiteit dat wy selden folsleine kennis hawwe fan in situaasje. Der is hast altyd in elemint fan willekeurich te beskôgjen.

Bygelyks, libbensfersekering is basearre op 'e realiteit dat wy witte dat wy sille stjerre, mar wy witte net wannear. Dizze modellen kinne foar in part deterministysk, foar in part willekeurich, of folslein willekeurich wêze.

Ynformaasje opheljen

Ynformaasje opheljen (IR) is in software programma dat organisearret, opslaan, ophelje, en evaluearret ynformaasje út dokumint repositories, benammen tekstuele ynformaasje.

De technology helpt brûkers de ynformaasje te ûntdekken dy't se nedich binne, mar it leveret de antwurden net dúdlik op har fragen. It meldt de oanwêzigens en lokaasje fan papieren dy't de nedige ynformaasje kinne leverje.

Relevante dokuminten binne dyjingen dy't foldogge oan 'e behoeften fan' e brûker. In flaterleas IR-systeem sil allinich selektearre dokuminten weromjaan.

Underwerp gearhing

Underwerpgearhing skoart in inkeld ûnderwerp troch it berekkenjen fan de graad fan semantyske oerienkomst tusken de termen mei hege skoares fan it ûnderwerp. Dizze metriken helpe by it ûnderskieden tusken ûnderwerpen dy't semantysk ynterpretearre binne en ûnderwerpen dy't statistyske konklúzjeartefakten binne.

As in groep oanspraken of feiten elkoar stypje, wurde se sein gearhingjend.

As resultaat kin in gearhingjende feitset wurde begrepen yn in kontekst dy't alle of de mearderheid fan 'e feiten omfettet. "It spultsje is in teamsport," "it spul wurdt spile mei in bal," en "it spultsje fereasket enoarme fysike ynspanning" binne allegear foarbylden fan gearhingjende feiten sets.

Ferskillende Metoaden fan Topic Modeling

Dizze krityske proseduere kin wurde útfierd troch in ferskaat oan algoritmen as metoaden. Under harren binne:

Latent Dirichlet Allocation (LDA)
Non Negative Matrix Factorization (NMF)
Latente semantyske analyze (LSA)
Probabilistic Latent Semantic Analysis (pLSA)

Latent Dirichlet Allocation (LDA)

Om relaasjes tusken meardere teksten yn in korpus op te spoaren, wurdt it statistyske en grafyske konsept fan Latent Dirichlet Allocation brûkt.

Mei de oanpak fan Variational Exception Maximization (VEM) wurdt de grutste kânsskatting út it folsleine korpus tekst berikt.

LTD

Tradysjoneel wurde de boppeste pear wurden út in tas mei wurden keazen.

De sin is lykwols folslein sinleas.

Neffens dizze technyk sil elke tekst fertsjintwurdige wurde troch in probabilistyske ferdieling fan ûnderwerpen, en elk ûnderwerp troch in probabilistyske ferdieling fan wurden.

Non Negative Matrix Factorization (NMF)

Matrix mei faktorisaasje fan net-negative wearden is in foarútstribjende oanpak foar ekstraksje fan funksjes.

As d'r in protte kwaliteiten binne en de attributen vague binne of min foarsisberens hawwe, is NMF foardielich. NMF kin wichtige patroanen, ûnderwerpen of tema's generearje troch skaaimerken te kombinearjen.

Non Negative Matrix Factorization

NMF genereart elke funksje as in lineêre kombinaasje fan 'e orizjinele attribútset.

Elke funksje befettet in set koeffizienten dy't it belang fan elk attribút op 'e funksje fertsjintwurdigje. Elke numerike attribút en elke wearde fan elke kategory attribút hat syn eigen koeffizient.

Alle koeffizienten binne posityf.

Latent semantyske analyze

It is in oare sûnder tafersjoch learmetoade brûkt om assosjaasjes tusken wurden yn in set fan dokuminten te ekstrahearjen is latinte semantyske analyze.

Dit helpt ús om de juste dokuminten te kiezen. Syn primêre funksje is it ferminderjen fan de dimensionaliteit fan it enoarme korpus fan tekstgegevens.

Dizze ûnnedige gegevens tsjinje as eftergrûnlûd by it krijen fan de nedige ynsjoggen út de gegevens.

Latent semantyske analyze

Probabilistic Latent Semantic Analysis (pLSA)

Probabilistyske latinte semantyske analyze (PLSA), soms bekend as probabilistyske latinte semantyske yndeksearring (PLSI, benammen yn rûnten foar opheljen fan ynformaasje), is in statistyske oanpak foar it analysearjen fan twa-modus- en ko-opkomstgegevens.

Yn feite, fergelykber mei latinte semantyske analyze, dêr't PLSA ûntstien is, kin in leechdiminsjonale fertsjintwurdiging fan 'e waarnommen fariabelen wurde ôflaat yn termen fan har affiniteit foar bepaalde ferburgen fariabelen.

Probabilistic Latent Senantic Analysis

Hands-on mei Topic Modeling yn Python

No, ik sil jo troch in ûnderwerpmodelopdracht liede mei de Python programmear taal mei help fan in echte wrâld foarbyld.

Ik sil ûndersyksartikels modellearje. De dataset dy't ik hjir sil brûke komt fan kaggle.com. Jo kinne maklik alle bestannen krije dy't ik yn dit wurk brûke side.

Litte wy begjinne mei Topic Modeling mei Python troch alle essensjele biblioteken te ymportearjen:

It ymportearjen fan biblioteken

De folgjende stap is om alle datasetten te lêzen dy't ik sil brûke yn dizze taak:

Lês The Dataset

Exploratory Data Analysis

EDA (Exploratory Data Analysis) is in statistyske metoade dy't fisuele eleminten brûkt. It brûkt statistyske gearfettings en grafyske foarstellings om trends, patroanen en oannames te testen.

Ik sil wat ferkennende gegevens-analyze dwaan foardat ik begjin mei ûnderwerpmodellering om te sjen oft d'r patroanen of relaasjes binne yn 'e gegevens:

Fyn nulwearden fan treindataset

Utfier fan trein nul wearden

No sille wy de nulwearden fan 'e testdataset fine:

Fyn nulwearden fan testdataset

Utfier fan Test Null Wearden

No sil ik in histogram en boxplot plotje om de relaasje tusken de fariabelen te kontrolearjen.

Plotten

Utfier fan plot 1

It oantal karakters yn 'e Abstracts of the Train-set ferskilt sterk.

Op 'e trein hawwe wy in minimum fan 54 en in maksimum fan 4551 tekens. 1065 is it gemiddelde oantal karakters.

Plot 2

Utfier fan plot 2

De testset liket ynteressanter te wêzen dan de trainingsset, om't de testset 46 tekens hat, wylst de trainingsset 2841 hat.

As gefolch hie de testset in mediaan fan 1058 karakters, wat gelyk is oan de trainingsset.

Plot 3

Utfier fan plot 3

It oantal wurden yn 'e learset folget in ferlykber patroan as it oantal letters.

In minimum fan 8 wurden en in maksimum fan 665 wurden binne tastien. As gefolch dêrfan is it mediaantal wurd 153.

Plot 4

Utfier fan plot 4

In minimum fan sân wurden yn in abstrakt en in maksimum fan 452 wurden yn 'e testset binne ferplicht.

De mediaan, yn dit gefal, is 153, wat identyk is oan de mediaan yn 'e trainingsset.

Gebrûk fan tags foar Topic Modeling

D'r binne ferskate ûnderwerpmodelleringsstrategyen. Ik sil tags brûke yn dizze oefening; litte wy sjen hoe't jo dit kinne dwaan troch de tags te ûndersykjen:

Tags brûke foar ûnderwerpmodellering

Output Of Topic Modeling

Applikaasjes fan Topic Modeling

In tekstgearfetting kin brûkt wurde om it ûnderwerp fan in dokumint of boek te ûnderskieden.
It kin brûkt wurde om kandidaat-bias te ferwiderjen fan eksamenscore.
Underwerpmodellering kin brûkt wurde om semantyske relaasjes te bouwen tusken wurden yn grafyske modellen.
It kin klanttsjinst ferbetterje troch kaaiwurden te detektearjen en te reagearjen yn 'e fraach fan' e kliïnt. Klanten sille mear fertrouwen yn jo hawwe, om't jo har de bystân hawwe levere dy't se op it passende momint nedich hawwe en sûnder har gedoe te meitsjen. As resultaat nimt de klantloyaliteit dramatysk ta, en de wearde fan it bedriuw nimt ta.

Konklúzje

Underwerpmodellering is in soarte fan statistyske modellering dy't brûkt wurdt om abstrakte "ûnderwerpen" te ûntdekken dy't besteane yn in samling teksten.

It is in foarm fan it statistyske model dat brûkt wurdt yn masine learen en natuerlike taalferwurking om abstrakte begripen te ûntdekken dy't besteane yn in set teksten.

It is in metoade foar tekstmynbou dy't in protte brûkt wurdt om latinte semantyske patroanen yn lichemstekst te finen.

Topic Modeling Yntroduksje foar begjinners

Wat is Topic Modeling?