Onderwerpmodellering-inleiding vir beginners

INHOUDSOPGAWE[Versteek][Wys]

Wat is onderwerpmodellering?
Komponente van Onderwerpmodellering+-
- Probabilistiese model
- Inligtingsherwinning
Verskillende Metodes van Onderwerpmodellering+-
Hands-on met onderwerpmodellering in Python+-
- Verkennende data-analise
- Gebruik Merkers vir Onderwerpmodellering
Toepassings van Onderwerpmodellering
Gevolgtrekking

Ek is seker jy het al gehoor van kunsmatige intelligensie, sowel as woorde soos masjienleer en natuurlike taalverwerking (NLP).

Veral as jy vir 'n firma werk wat elke dag honderde, indien nie duisende nie, kliëntekontakte hanteer.

Data-ontleding van sosiale media-plasings, e-posse, kletse, oop-einde-opname-antwoorde en ander bronne is nie 'n eenvoudige proses nie, en dit word selfs moeiliker as dit net aan mense toevertrou word.

Daarom is baie mense entoesiasties oor die potensiaal van kunsmatige intelligensie vir hul daaglikse werk en vir ondernemings .

KI-aangedrewe teksanalise gebruik 'n wye reeks benaderings of algoritmes om taal organies te interpreteer, waarvan een onderwerpanalise is, wat gebruik word om onderwerpe uit tekste outomaties te ontdek.

Besighede kan onderwerpontledingsmodelle gebruik om maklike take na masjiene oor te dra eerder as om werkers te oorlaai met te veel data.

Oorweeg hoeveel tyd jou span kan spaar en aan meer noodsaaklike werk kan bestee as 'n rekenaar elke oggend deur eindelose lyste van klantopnames of ondersteuningskwessies kan filtreer.

In hierdie gids gaan ons kyk na onderwerpmodellering, verskillende metodes van onderwerpmodellering, en 'n bietjie praktiese ervaring daarmee opdoen.

Wat is onderwerpmodellering?

Onderwerpmodellering is 'n tipe teksontginning waarin statisties sonder toesig en toesig machine learning tegnieke word gebruik om tendense in 'n korpus of 'n beduidende volume ongestruktureerde teks op te spoor.

Dit kan jou massiewe versameling dokumente neem en 'n ooreenkomsmetode gebruik om die woorde in groepe terme te rangskik en onderwerpe te ontdek.

Dit lyk 'n bietjie kompleks en moeilik, so kom ons vereenvoudig die vakmodelleringsprosedure!

Gestel jy lees 'n koerant met 'n stel gekleurde highlighters in jou hand.

Is dit nie outyds nie?

Ek besef dat min mense deesdae koerante in druk lees; alles is digitaal, en highlighters is iets van die verlede! Maak asof jy jou pa of ma is!

Dus, wanneer jy die koerant lees, lig jy die belangrike terme uit.

Nog 'n aanname!

Jy gebruik 'n ander kleur om die sleutelwoorde van verskeie temas te beklemtoon. Jy kategoriseer die sleutelwoorde na gelang van die verskafde kleur en onderwerpe.

Elke versameling woorde wat deur 'n sekere kleur gemerk is, is 'n lys sleutelwoorde vir 'n gegewe onderwerp. Die aantal verskillende kleure wat jy gekies het, wys die aantal temas.

Dit is die mees fundamentele onderwerpmodellering. Dit help met die begrip, organisasie en opsomming van groot teksversamelings.

Hou egter in gedagte dat outomatiese onderwerpmodelle baie inhoud benodig om effektief te wees. As jy 'n kort vraestel het, wil jy dalk ou skool gaan en highlighters gebruik!

Dit is ook voordelig om tyd te spandeer om die data te leer ken. Dit sal jou 'n basiese idee gee van wat die onderwerpmodel moet vind.

Byvoorbeeld, daardie dagboek kan oor jou huidige en vorige verhoudings handel. Ek sou dus verwag dat my teksontginning-robotmaat met soortgelyke idees vorendag sal kom.

Dit kan jou help om die kwaliteit van die onderwerpe wat jy geïdentifiseer het beter te ontleed en, indien nodig, die sleutelwoorde aan te pas.

Komponente van Onderwerpmodellering

Probabilistiese model

Ewekansige veranderlikes en waarskynlikheidsverdelings word in die voorstelling van 'n gebeurtenis of verskynsel in waarskynlikheidsmodelle geïnkorporeer.

'n Deterministiese model verskaf 'n enkele potensiële gevolgtrekking vir 'n gebeurtenis, terwyl 'n waarskynlikheidsmodel 'n waarskynlikheidsverdeling as oplossing verskaf.

Hierdie modelle neem die realiteit in ag dat ons selde volledige kennis van 'n situasie het. Daar is byna altyd 'n element van willekeurigheid om te oorweeg.

Byvoorbeeld, lewensversekering is gebaseer op die realiteit dat ons weet ons sal sterf, maar ons weet nie wanneer nie. Hierdie modelle kan gedeeltelik deterministies, gedeeltelik ewekansig of heeltemal lukraak wees.

Inligtingsherwinning

Inligtingherwinning (IR) is 'n sagtewareprogram wat inligting uit dokumentbewaarplekke organiseer, berg, herwin en evalueer, veral tekstuele inligting.

Die tegnologie help gebruikers om die inligting te ontdek wat hulle nodig het, maar dit lewer nie duidelik die antwoorde op hul navrae nie. Dit gee kennis van die teenwoordigheid en ligging van vraestelle wat die nodige inligting kan verskaf.

Relevante dokumente is dié wat aan die behoeftes van die gebruiker voldoen. 'n Foutlose IR-stelsel sal slegs geselekteerde dokumente terugstuur.

Onderwerp samehang

Onderwerpkoherensie behaal 'n enkele onderwerp deur die graad van semantiese ooreenkoms tussen die onderwerp se terme met 'n hoë telling te bereken. Hierdie maatstawwe help om te onderskei tussen onderwerpe wat semanties interpreteerbaar is en onderwerpe wat statistiese afleidingsartefakte is.

As 'n groep aansprake of feite mekaar ondersteun, word gesê dat hulle samehangend is.

Gevolglik kan 'n samehangende feitestel verstaan word in 'n konteks wat al of die meerderheid van die feite insluit. "Die spel is 'n spansport," "die spel word met 'n bal gespeel," en "die spel verg geweldige fisieke inspanning" is alles voorbeelde van samehangende feitestelle.

Verskillende Metodes van Onderwerpmodellering

Hierdie kritieke prosedure kan deur 'n verskeidenheid algoritmes of metodologieë uitgevoer word. Onder hulle is:

Latente Dirichlet-toekenning (LDA)
Nie-negatiewe matriksfaktorisering (NMF)
Latente Semantiese Analise (LSA)
Probabilistiese Latente Semantiese Analise (pLSA)

Latente Dirichlet Allocation (LDA)

Om verwantskappe tussen veelvuldige tekste in 'n korpus op te spoor, word die statistiese en grafiese konsep van Latente Dirichlet Allocation gebruik.

Deur die Variational Exception Maximization (VEM) benadering te gebruik, word die grootste waarskynlikheidskatting van die volle tekskorpus bereik.

BPK

Tradisioneel word die boonste paar woorde uit 'n sak woorde gekies.

Die sin is egter heeltemal niksseggend.

Volgens hierdie tegniek sal elke teks deur 'n probabilistiese verspreiding van vakke, en elke onderwerp deur 'n probabilistiese verspreiding van woorde verteenwoordig word.

Nie-negatiewe matriksfaktorisering (NMF)

Matriks met nie-negatiewe waardesfaktorisering is 'n voorpunt-kenmerkonttrekkingsbenadering.

Wanneer daar baie eienskappe is en die eienskappe vaag is of swak voorspelbaarheid het, is NMF voordelig. NMF kan beduidende patrone, onderwerpe of temas genereer deur eienskappe te kombineer.

Nie-negatiewe matriksfaktorisering

NMF genereer elke kenmerk as 'n lineêre kombinasie van die oorspronklike kenmerkstel.

Elke kenmerk bevat 'n stel koëffisiënte wat die belangrikheid van elke kenmerk op die kenmerk verteenwoordig. Elke numeriese eienskap en elke waarde van elke kategorie-kenmerk het sy eie koëffisiënt.

Al die koëffisiënte is positief.

Latente Semantiese Analise

Dit is nog 'n leermetode sonder toesig wat gebruik word om assosiasies tussen woorde in 'n stel dokumente te onttrek, is latente semantiese analise.

Dit help ons om die regte dokumente te kies. Die primêre funksie daarvan is om die dimensionaliteit van die enorme korpus teksdata te verminder.

Hierdie onnodige data dien as agtergrondgeraas om die nodige insigte uit die data te verkry.

Latente Semantiese Analise

Probabilistiese Latente Semantiese Analise (pLSA)

Probabilistiese latente semantiese analise (PLSA), soms bekend as probabilistiese latente semantiese indeksering (PLSI, veral in inligtingherwinningskringe), is 'n statistiese benadering vir die ontleding van twee-modus- en mede-voorkomsdata.

Trouens, soortgelyk aan latente semantiese analise, waaruit PLSA ontstaan het, kan 'n lae-dimensionele voorstelling van die waargenome veranderlikes afgelei word in terme van hul affiniteit met bepaalde verborge veranderlikes.

Probabilistiese Latente Senantiese Analise

Hands-on met onderwerpmodellering in Python

Nou sal ek jou deur 'n vakmodellering-opdrag met die Python lei Programmeringstaal deur 'n werklike voorbeeld te gebruik.

Ek sal navorsingsartikels modelleer. Die datastel wat ek hier gaan gebruik, kom van kaggle.com. U kan maklik al die lêers wat ek in hierdie werk gebruik, hieruit verkry bladsy.

Kom ons begin met Onderwerpmodellering met Python deur al die noodsaaklike biblioteke in te voer:

Die invoer van Librarires

Die volgende stap is om al die datastelle te lees wat ek in hierdie taak gaan gebruik:

Lees Die Datastel

Verkennende data-analise

EDA (Exploratory Data Analysis) is 'n statistiese metode wat visuele elemente gebruik. Dit gebruik statistiese opsommings en grafiese voorstellings om tendense, patrone te ontdek en aannames te toets.

Ek sal 'n bietjie verkennende data-analise doen voordat ek met onderwerpmodellering begin om te sien of daar enige patrone of verwantskappe in die data is:

Vind nulwaardes van treindatastel

Uitset Van Trein Nul Waardes

Nou sal ons die nulwaardes van die toetsdatastel vind:

Vind nulwaardes van toetsdatastel

Uitset van toets nulwaardes

Nou sal ek 'n histogram en 'n boksplot teken om die verband tussen die veranderlikes na te gaan.

Plot

Uitset van plot 1

Die aantal karakters in die Abstracts of the Train-stel verskil baie.

Op die trein het ons 'n minimum van 54 en 'n maksimum van 4551 karakters. 1065 is die gemiddelde aantal karakters.

Plot 2

Uitset van plot 2

Die toetsstel lyk interessanter as die oefenstel aangesien die toetsstel 46 karakters het terwyl die oefenstel 2841 het.

Gevolglik het die toetsstel 'n mediaan van 1058 karakters gehad, wat soortgelyk is aan die opleidingstel.

Plot 3

Uitset van plot 3

Die aantal woorde in die leerstel volg 'n soortgelyke patroon as die aantal letters.

'n Minimum van 8 woorde en 'n maksimum van 665 woorde word toegelaat. As gevolg hiervan is die gemiddelde woordtelling 153.

Plot 4

Uitset van plot 4

'n Minimum van sewe woorde in 'n opsomming en 'n maksimum van 452 woorde in die toetsstel word vereis.

Die mediaan, in hierdie geval, is 153, wat identies is aan die mediaan in die opleidingstel.

Gebruik Merkers vir Onderwerpmodellering

Daar is verskeie onderwerpmodelleringstrategieë. Ek sal etikette in hierdie oefening gebruik; kom ons kyk hoe om dit te doen deur die etikette te ondersoek:

Gebruik Merkers vir Onderwerpmodellering

Uitset Van Onderwerpmodellering

Toepassings van Onderwerpmodellering

'n Teksopsomming kan gebruik word om die onderwerp van 'n dokument of boek te onderskei.
Dit kan gebruik word om kandidaat-vooroordeel uit eksamenpunte te verwyder.
Onderwerpmodellering kan gebruik word om semantiese verwantskappe tussen woorde in grafiekgebaseerde modelle te bou.
Dit kan kliëntediens verbeter deur sleutelwoorde in die kliënt se navraag op te spoor en daarop te reageer. Kliënte sal meer vertroue in jou hê aangesien jy hulle op die gepaste oomblik die bystand verskaf het wat hulle benodig en sonder om hulle enige moeite te veroorsaak. Gevolglik neem kliëntelojaliteit dramaties toe, en die maatskappy se waarde styg.

Gevolgtrekking

Onderwerpmodellering is 'n soort statistiese modellering wat gebruik word om abstrakte "onderwerpe" wat in 'n versameling tekste bestaan, te ontbloot.

Dit is 'n vorm van die statistiese model wat gebruik word in machine learning en natuurlike taalverwerking om abstrakte konsepte wat in 'n stel tekste bestaan, te ontbloot.

Dit is 'n teksontginningsmetode wat wyd gebruik word om latente semantiese patrone in liggaamsteks te vind.

Onderwerpmodellering Inleiding vir Beginners

Wat is onderwerpmodellering?