Thema Modelléierung Aféierung fir Ufänger

Inhaltsverzeechnes[Verstoppen][Show]

Wat ass Topic Modeling?
Komponente vun Thema Modeller+- Déi
- Probabilistesch Modell
- Informatiounen Retrieval
Verschidde Methoden vun Thema Modeller+- Déi
Hands-on mat Topic Modeling am Python+- Déi
- Exploratory Data Analyse
- Benotzt Tags fir Thema Modeling
Uwendungen vun Thema Modeller
Konklusioun

Ech si sécher datt Dir vu kënschtlecher Intelligenz héieren hutt, souwéi Wierder wéi Maschinnléieren an natierlech Sproochveraarbechtung (NLP).

Besonnesch wann Dir fir eng Firma schafft, déi all Dag Honnerte, wann net Dausende, vu Clientskontakter behandelt.

Donnéeën Analyse vu Social Media Posts, E-Mailen, Chats, Open-End-Ëmfro-Äntwerten, an aner Quellen ass keen einfachen Prozess, an et gëtt nach méi schwéier wann se nëmme Leit uvertraut ginn.

Dofir si vill Leit begeeschtert iwwer d'Potenzial vun Kënschtlech Intelligenz fir hir alldeeglech Aarbecht a fir Entreprisen.

AI-ugedriwwen Textanalyse beschäftegt eng breet Palette vun Approchen oder Algorithmen fir d'Sprooch organesch z'interpretéieren, eng vun deenen ass Themaanalyse, déi benotzt gëtt fir automatesch Themen aus Texter z'entdecken.

D'Geschäfter kënnen Themaanalysemodeller benotze fir einfach Aarbechtsplazen op Maschinnen ze transferéieren anstatt Aarbechter mat ze vill Daten ze iwwerlaascht.

Bedenkt wéi vill Zäit Äert Team kéint spueren a fir méi wesentlech Aarbecht widmen wann e Computer duerch endlos Lëschte vu Clientëmfroen oder Ënnerstëtzungsprobleemer all Moien filtere kéint.

An dësem Guide kucke mir d'Themamodelléierung, verschidde Methode vun der Themamodelléierung, a kréien e puer praktesch Erfahrung domat.

Wat ass Topic Modeling?

Themamodellering ass eng Aart vun Textmining an deem onkontrolléiert a iwwerwaacht statistesch Maschinn léieren Technike gi benotzt fir Trends an engem Corpus oder e bedeitende Volumen vun onstrukturéierten Text z'entdecken.

Et kann Är massiv Sammlung vun Dokumenter huelen an eng Ähnlechkeetsmethod benotzen fir d'Wierder a Cluster vu Begrëffer ze arrangéieren an Themen z'entdecken.

Dat schéngt e bësse komplex an haart, also loosst eis d'Thema Modelléierungsprozedur vereinfachen!

Gitt un datt Dir eng Zeitung liest mat engem Set vu faarwege Highlighter an Ärer Hand.

Ass dat net almoudesch?

Ech mierken datt dës Deeg wéineg Leit Zeitungen am Drock liesen; alles ass digital, an Highlighter sinn eng Saach vun der Vergaangenheet! Maacht wéi wann Dir Äre Papp oder Mamm sidd!

Also, wann Dir d'Zeitung liest, markéiert Dir déi wichteg Begrëffer.

Eng weider Viraussetzung!

Dir benotzt en aneren Téin fir d'Schlësselwierder vu verschiddenen Themen ze ënnersträichen. Dir kategoriséiert d'Schlësselwierder ofhängeg vun der geliwwerter Faarf an Themen.

All Sammlung vu Wierder mat enger bestëmmter Faarf markéiert ass eng Lëscht vu Schlësselwieder fir e bestëmmten Thema. De Betrag vu verschiddene Faarwen, déi Dir gewielt hutt, weist d'Zuel vun den Themen.

Dëst ass déi fundamentalst Themamodelléierung. Et hëlleft beim Verständnis, Organisatioun an Zesummefaassung vu groussen Textsammlungen.

Denkt awer drun datt fir effektiv ze sinn, automatiséiert Themamodeller vill Inhalt erfuerderen. Wann Dir e kuerze Pabeier hutt, wëllt Dir vläicht al Schoul goen an Highlighter benotzen!

Et ass och gutt fir Zäit ze verbréngen fir d'Donnéeën kennen ze léieren. Dëst gëtt Iech e Basissënn vu wat den Themamodell soll fannen.

Zum Beispill, dat Tagebuch kann iwwer Är aktuell a fréier Bezéiungen sinn. Also, ech géif erwaarden datt mäin Text Mining Roboter Buddy mat ähnlechen Iddien kënnt.

Dëst kann Iech hëllefen d'Qualitéit vun de Sujeten déi Dir identifizéiert hutt besser ze analyséieren an, wann néideg, d'Schlësselwuert-Sets unzepassen.

Komponente vun Thema Modeller

Probabilistesch Modell

Zoufälleg Variabelen a Wahrscheinlechkeetsverdeelunge ginn an d'Representatioun vun engem Event oder Phänomen a probabilistesche Modeller agebaut.

En deterministesche Modell bitt eng eenzeg potenziell Conclusioun fir en Event, wärend e probabilistesche Modell eng Wahrscheinlechkeetsverdeelung als Léisung bitt.

Dës Modeller betruechten d'Realitéit datt mir selten komplett Wëssen vun enger Situatioun hunn. Et gëtt bal ëmmer en Element vun Zoufall ze berücksichtegen.

Zum Beispill ass d'Liewensversécherung baséiert op der Realitéit datt mir wëssen datt mir stierwen, awer mir wëssen net wéini. Dës Modeller kënnen deelweis deterministesch, deelweis zoufälleg oder ganz zoufälleg sinn.

Informatiounen Retrieval

Informatioun Retrieval (IR) ass e Softwareprogramm deen Informatioun aus Dokumentrepositories organiséiert, späichert, zréckhëlt an evaluéiert, besonnesch textuell Informatioun.

D'Technologie hëlleft de Benotzer d'Informatioun ze entdecken déi se brauchen, awer et liwwert net kloer d'Äntwerten op hir Ufroen. Et informéiert iwwer d'Präsenz an d'Plaz vu Pabeieren déi déi néideg Informatioun ubidden.

Relevant Dokumenter sinn déi, déi de Besoine vum Benotzer entspriechen. E faultless IR System gëtt nëmmen ausgewielt Dokumenter zréck.

Thema Kohärenz

Thema Kohärenz zielt en eenzegt Thema andeems Dir de Grad vun der semantescher Ähnlechkeet tëscht den High-Scoring-Begrëffer vum Thema berechent. Dës Metriken hëllefe fir z'ënnerscheeden tëscht Themen déi semantesch interpretéierbar sinn an Themen déi statistesch Inferenz Artefakte sinn.

Wann eng Grupp vu Fuerderungen oder Fakten géigesäiteg ënnerstëtzt, gëtt gesot datt se kohärent sinn.

Als Resultat kann e kohäsive Faktenset an engem Kontext verstane ginn, deen all oder d'Majoritéit vun de Fakten ëmfaasst. "D'Spill ass en Teamsport", "d'Spill gëtt mat engem Ball gespillt", an "d'Spill erfuerdert enorm kierperlech Ustrengung" sinn all Beispiller vu kohäsive Fakten.

Verschidde Methoden vun Thema Modeller

Dës kritesch Prozedur kann duerch eng Rei vun Algorithmen oder Methodologien duerchgefouert ginn. Dorënner sinn:

Latent Dirichlet Allocation (LDA)
Non Negative Matrix Factorization (NMF)
Latent Semantic Analyse (LSA)
Probabilistesch Latent Semantesch Analyse (pLSA)

Latent Dirichlet Allocation (LDA)

Fir Relatiounen tëscht verschiddenen Texter an engem Corpus z'entdecken, gëtt dat statistescht a grafescht Konzept vun der Latenter Dirichlet Allocation benotzt.

Mat der Variational Exception Maximization (VEM) Approche gëtt déi gréisste Wahrscheinlechkeetsschätzung aus dem ganzen Textkorpus erreecht.

LTD

Traditionell ginn déi Top puer Wierder aus engem Sak vu Wierder gewielt.

Wéi och ëmmer, de Saz ass komplett sënnlos.

No dëser Technik gëtt all Text duerch eng probabilistesch Verdeelung vun de Sujeten duergestallt, an all Thema duerch eng probabilistesch Verdeelung vu Wierder.

Non Negative Matrix Factorization (NMF)

Matrix mat Net-Negativ Wäerter Faktoriséierung ass eng modernst Feature Extraktioun Approche.

Wann et vill Qualitéite gëtt an d'Attributer vague sinn oder eng schlecht Prévisibilitéit hunn, ass NMF profitabel. NMF kann bedeitend Musteren, Themen oder Themen generéieren andeems Charakteristiken kombinéiert ginn.

Net negativ Matrixfaktoriséierung

NMF generéiert all Feature als linear Kombinatioun vum originelle Attributset.

All Feature enthält eng Rei vu Koeffizienten déi d'Wichtegkeet vun all Attribut op der Feature representéieren. All numeresch Attribut an all Wäert vun all Kategorie Attribut huet säin eegene Koeffizient.

All Koeffizienten si positiv.

Latent semantesch Analyse

Et ass eng aner onkontrolléiert Léiermethod déi benotzt gëtt fir Associatiounen tëscht Wierder an enger Rei vun Dokumenter ze extrahieren ass latent semantesch Analyse.

Dëst hëlleft eis déi richteg Dokumenter ze wielen. Seng primär Funktioun ass d'Dimensionalitéit vum enorme Korpus vun Textdaten ze reduzéieren.

Dës onnéideg Donnéeën déngen als Hannergrondgeräusche fir déi néideg Abléck aus den Donnéeën ze kréien.

Latent semantesch Analyse

Probabilistesch Latent Semantesch Analyse (pLSA)

Probabilistesch latent semantesch Analyse (PLSA), heiansdo bekannt als probabilistesch latent semantesch Indexéierung (PLSI, notamment an Informatiounsreschterkreesser), ass eng statistesch Approche fir zwee-Modus- a Co-Optriededaten ze analyséieren.

Tatsächlech, ähnlech wéi latenter semantescher Analyse, aus där PLSA entstanen ass, kann eng niddereg-dimensional Representatioun vun den observéierte Variabelen ofgeleet ginn wat hir Affinitéit zu bestëmmte verstoppte Variablen ugeet.

Probabilistesch Latent Senantesch Analyse

Hands-on mat Topic Modeling am Python

Elo ginn ech Iech duerch eng Fachmodelléierungsaufgab mam Python Programméierungssäit mat engem real-Welt Beispill.

Ech modelléiere Fuerschungsartikelen. D'Datebank déi ech hei benotze kënnt vun kaggle.com. Dir kënnt einfach all d'Fichier'en kréien, déi ech an dësem Wierk benotzen Säit.

Loosst eis mat Topic Modeling mat Python ufänken andeems Dir all wesentlech Bibliothéiken importéiert:

Importéiert Bibliothéik

De folgende Schrëtt ass fir all Datensätz ze liesen déi ech an dëser Aufgab benotzen:

Liest den Dataset

Exploratory Data Analyse

EDA (Exploratory Data Analysis) ass eng statistesch Method déi visuell Elementer benotzt. Et benotzt statistesch Zesummefaassungen a grafesch Representatioune fir Trends, Musteren an Testviraussetzungen z'entdecken.

Ech maachen e puer explorativ Datenanalyse ier ech d'Themamodelléierung ufänken fir ze kucken ob et Musteren oder Bezéiungen an den Daten sinn:

Fannt Null Wäerter vum Zuch Dateset

Ausgang vun Zuch Null Wäerter

Elo fanne mir d'Nullwäerter vun der Testdates:

Fannt Null Wäerter vum Testdatenset

Ausgang vun Test Null Wäerter

Elo wäert ech en Histogramm a Boxplot plotten fir d'Relatioun tëscht de Variablen ze kontrolléieren.

Komplott

Ausgang vum Plot 1

D'Quantitéit u Personnagen am Abstracts of the Train Set variéiert immens.

Am Zuch hu mir e Minimum vu 54 a maximal 4551 Zeechen. 1065 ass den duerchschnëttleche Betrag vun Zeechen.

Plott 2

Ausgang vum Plot 2

Den Testset schéngt méi interessant ze sinn wéi den Trainingsset well den Testset 46 Zeechen huet, während den Trainingsset 2841 huet.

Als Resultat hat den Testset e Median vun 1058 Zeechen, wat dem Trainingsset ähnlech ass.

Plott 3

Ausgang vum Plot 3

D'Zuel vu Wierder am Léierset follegt en ähnlecht Muster wéi d'Zuel vun de Buschtawen.

E Minimum vun 8 Wierder a maximal 665 Wierder sinn erlaabt. Als Resultat ass de mediane Wortzuel 153.

Plott 4

Ausgang vum Plot 4

E Minimum vu siwe Wierder an engem Abstrakt a maximal 452 Wierder am Testset sinn erfuerderlech.

De Median, an dësem Fall, ass 153, wat identesch ass mam Median am Trainingsset.

Benotzt Tags fir Thema Modeling

Et gi verschidde Thema Modellerstrategien. Ech wäert Tags an dëser Übung benotzen; loosst eis kucken wéi Dir dat maacht andeems Dir d'Tags ënnersicht:

Benotzt Tags Fir Thema Modeller

Ausgang vun Thema Modeller

Uwendungen vun Thema Modeller

En Textresumé kann benotzt ginn fir d'Thema vun engem Dokument oder Buch z'ënnerscheeden.
Et kann benotzt ginn fir Kandidatebias aus dem Examen Scoring ze läschen.
Themamodelléierung kéint benotzt ginn fir semantesch Bezéiungen tëscht Wierder a grafesche Modeller ze bauen.
Et kann de Client Service verbesseren andeems Dir Schlësselwierder an der Ufro vum Client erkennt an reagéiert. D'Clientë wäerte méi Vertrauen an Iech hunn, well Dir hinnen d'Hëllef zur Verfügung gestallt hutt, déi se am passenden Moment erfuerderen an ouni hinnen all Stress ze verursaachen. Als Resultat klëmmt d'Clientloyalitéit dramatesch, an de Wäert vun der Firma klëmmt.

Konklusioun

Themamodelléierung ass eng Zort statistesch Modelléierung déi benotzt gëtt fir abstrakt "Sujeten" z'entdecken déi an enger Sammlung vun Texter existéieren.

Et ass eng Form vum statistesche Modell benotzt an Maschinn léieren an natierlech Sproochveraarbechtung fir abstrakt Konzepter z'entdecken déi an enger Rei vun Texter existéieren.

Et ass eng Textminingmethod déi wäit benotzt gëtt fir latent semantesch Mustere am Kierpertext ze fannen.

Thema Modelléierung Aféierung fir Ufänger

Wat ass Topic Modeling?