Indholdsfortegnelse[Skjule][At vise]
Jeg er sikker på, at du har hørt om kunstig intelligens, såvel som ord som maskinlæring og naturlig sprogbehandling (NLP).
Især hvis du arbejder for et firma, der håndterer hundredvis, hvis ikke tusindvis, af kundekontakter hver dag.
Dataanalyse af opslag på sociale medier, e-mails, chats, åbne undersøgelsessvar og andre kilder er ikke en simpel proces, og den bliver endnu sværere, når den kun betros til folk.
Derfor er mange mennesker begejstrede for potentialet ved kunstig intelligens for deres daglige arbejde og for virksomheder .
AI-drevet tekstanalyse anvender en bred vifte af tilgange eller algoritmer til at fortolke sprog organisk, hvoraf en er emneanalyse, som bruges til automatisk at opdage emner fra tekster.
Virksomheder kan bruge emneanalysemodeller til at overføre nemme job til maskiner i stedet for at overbelaste arbejdere med for mange data.
Overvej, hvor meget tid dit team kan spare og bruge på mere vigtigt arbejde, hvis en computer kunne filtrere gennem endeløse lister med kundeundersøgelser eller supportproblemer hver morgen.
I denne guide vil vi se nærmere på emnemodellering, forskellige metoder til emnemodellering og få nogle praktiske erfaringer med det.
Hvad er emnemodellering?
Emnemodellering er en type tekstmining, hvor uovervåget og overvåget statistisk machine learning teknikker bruges til at opdage tendenser i et korpus eller en betydelig mængde ustruktureret tekst.
Det kan tage din enorme samling af dokumenter og bruge en lighedsmetode til at arrangere ordene i klynger af termer og opdage emner.
Det virker lidt komplekst og hårdt, så lad os forenkle emnemodelleringsproceduren!
Antag, at du læser en avis med et sæt farvede highlightere i hånden.
Er det ikke gammeldags?
Jeg er klar over, at i disse dage er det få mennesker, der læser aviser på tryk; alt er digitalt, og highlightere hører fortiden til! Lad som om du er din far eller mor!
Så når du læser avisen, fremhæver du de vigtige udtryk.
Endnu en antagelse!
Du bruger en anden nuance til at understrege nøgleordene for forskellige temaer. Du kategoriserer søgeordene afhængigt af den angivne farve og emner.
Hver samling af ord markeret med en bestemt farve er en liste over nøgleord for et givet emne. Mængden af forskellige farver, du har valgt, viser antallet af temaer.
Dette er den mest grundlæggende emnemodellering. Det hjælper med at forstå, organisere og sammenfatte store tekstsamlinger.
Husk dog, at for at være effektive kræver automatiserede emnemodeller meget indhold. Hvis du har et kort papir, vil du måske gå old school og bruge highlightere!
Det er også en fordel at bruge lidt tid på at lære dataene at kende. Dette vil give dig en grundlæggende fornemmelse af, hvad emnemodellen skal finde.
For eksempel kan den dagbog handle om dine nuværende og tidligere forhold. Derfor ville jeg forvente, at min tekstminerobot-kammerat ville komme med lignende ideer.
Dette kan hjælpe dig med bedre at analysere kvaliteten af de emner, du har identificeret, og om nødvendigt justere søgeordssættene.
Komponenter af emnemodellering
Probabilistisk model
Tilfældige variable og sandsynlighedsfordelinger er inkorporeret i repræsentationen af en begivenhed eller et fænomen i sandsynlighedsmodeller.
En deterministisk model giver en enkelt potentiel konklusion for en begivenhed, hvorimod en sandsynlighedsmodel giver en sandsynlighedsfordeling som en løsning.
Disse modeller betragter den virkelighed, at vi sjældent har fuldstændig viden om en situation. Der er næsten altid et element af tilfældighed at overveje.
For eksempel er livsforsikring baseret på den virkelighed, at vi ved, at vi vil dø, men vi ved ikke hvornår. Disse modeller kan være delvist deterministiske, delvist tilfældige eller helt tilfældige.
Informationssøgning
Information retrieval (IR) er et softwareprogram, der organiserer, gemmer, henter og evaluerer information fra dokumentlagre, især tekstinformation.
Teknologien hjælper brugerne med at finde den information, de har brug for, men den leverer ikke klart svarene på deres forespørgsler. Den giver besked om tilstedeværelsen og placeringen af papirer, der kan give de nødvendige oplysninger.
Relevante dokumenter er dem, der opfylder brugerens behov. Et fejlfrit IR-system vil kun returnere udvalgte dokumenter.
Emne sammenhæng
Emnekohærens scorer et enkelt emne ved at beregne graden af semantisk lighed mellem emnets højscorende termer. Disse metrikker hjælper med at skelne mellem emner, der er semantisk fortolkelige, og emner, der er statistiske inferensartefakter.
Hvis en gruppe af påstande eller fakta understøtter hinanden, siges de at være sammenhængende.
Som et resultat heraf kan et sammenhængende faktasæt forstås i en kontekst, der omfatter alle eller størstedelen af fakta. "Spillet er en holdsport", "spillet spilles med en bold", og "spillet kræver en enorm fysisk indsats" er alle eksempler på sammenhængende faktasæt.
Forskellige metoder til emnemodellering
Denne kritiske procedure kan udføres af en række forskellige algoritmer eller metoder. Blandt dem er:
- Latent Dirichlet Allocation (LDA)
- Ikke-negativ matrixfaktorisering (NMF)
- Latent Semantisk Analyse (LSA)
- Probabilistisk latent semantisk analyse (pLSA)
Latent Dirichlet Allocation (LDA)
For at detektere sammenhænge mellem flere tekster i et korpus, bruges det statistiske og grafiske koncept Latent Dirichlet Allocation.
Ved at bruge Variational Exception Maximization (VEM) tilgangen opnås det største sandsynlighedsestimat fra hele tekstkorpuset.
Traditionelt er de øverste få ord fra en pose ord valgt.
Sætningen er dog fuldstændig meningsløs.
Ifølge denne teknik vil hver tekst være repræsenteret ved en sandsynlighedsfordeling af emner, og hvert emne ved en sandsynlighedsfordeling af ord.
Ikke negativ matrixfaktorisering (NMF)
Matrix med ikke-negative værdier faktorisering er en banebrydende tilgang til udtræk af funktioner.
Når der er mange kvaliteter, og egenskaberne er vage eller har dårlig forudsigelighed, er NMF gavnlig. NMF kan generere betydelige mønstre, emner eller temaer ved at kombinere karakteristika.
NMF genererer hver funktion som en lineær kombination af det oprindelige attributsæt.
Hver funktion indeholder et sæt koefficienter, der repræsenterer vigtigheden af hver egenskab på funktionen. Hver numerisk attribut og hver værdi af hver kategori attribut har sin egen koefficient.
Alle koefficienterne er positive.
Latent semantisk analyse
Det er en anden uovervåget læringsmetode, der bruges til at udtrække associationer mellem ord i et sæt dokumenter, er latent semantisk analyse.
Dette hjælper os med at vælge de rigtige dokumenter. Dens primære funktion er at reducere dimensionaliteten af det enorme korpus af tekstdata.
Disse unødvendige data tjener som baggrundsstøj til at opnå den nødvendige indsigt fra dataene.
Probabilistisk latent semantisk analyse (pLSA)
Probabilistisk latent semantisk analyse (PLSA), undertiden kendt som probabilistisk latent semantisk indeksering (PLSI, især i informationssøgningskredse), er en statistisk tilgang til analyse af to-mode og samtidige forekomstdata.
Faktisk, i lighed med latent semantisk analyse, hvorfra PLSA opstod, kan en lavdimensionel repræsentation af de observerede variable udledes med hensyn til deres affinitet til bestemte skjulte variable.
Praktisk med emnemodellering i Python
Nu vil jeg lede dig gennem en emnemodelleringsopgave med Python programmeringssprog ved at bruge et eksempel fra den virkelige verden.
Jeg skal modellere forskningsartikler. Datasættet, jeg skal bruge her, kommer fra kaggle.com. Du kan nemt få alle de filer, jeg bruger i dette arbejde, fra dette side.
Lad os komme i gang med Topic Modeling ved hjælp af Python ved at importere alle de væsentlige biblioteker:
Det følgende trin er at læse alle de datasæt, som jeg vil bruge i denne opgave:
Udforskende dataanalyse
EDA (Exploratory Data Analysis) er en statistisk metode, der anvender visuelle elementer. Den bruger statistiske oversigter og grafiske repræsentationer til at opdage tendenser, mønstre og teste antagelser.
Jeg vil lave en undersøgende dataanalyse, før jeg starter emnemodellering for at se, om der er nogen mønstre eller sammenhænge i dataene:
Nu finder vi null-værdierne for testdatasættet:
Nu vil jeg plotte et histogram og et boxplot for at kontrollere forholdet mellem variablerne.
Mængden af karakterer i Abstracts of the Train-sættet varierer meget.
I toget har vi minimum 54 og højst 4551 tegn. 1065 er det gennemsnitlige antal tegn.
Testsættet ser ud til at være mere interessant end træningssættet, da testsættet har 46 tegn, mens træningssættet har 2841.
Som følge heraf havde testsættet en median på 1058 tegn, hvilket svarer til træningssættet.
Antallet af ord i læringssættet følger et lignende mønster som antallet af bogstaver.
Minimum 8 ord og højst 665 ord er tilladt. Som et resultat er det gennemsnitlige antal ord 153.
Der kræves minimum syv ord i et abstrakt og maksimalt 452 ord i prøvesættet.
Medianen er i dette tilfælde 153, hvilket er identisk med medianen i træningssættet.
Brug af tags til emnemodellering
Der er flere emnemodelleringsstrategier. Jeg vil bruge tags i denne øvelse; lad os se på, hvordan man gør det ved at undersøge tags:
Anvendelser af emnemodellering
- Et tekstresumé kan bruges til at skelne emnet for et dokument eller en bog.
- Det kan bruges til at fjerne kandidatbias fra eksamensbedømmelsen.
- Emnemodellering kan bruges til at opbygge semantiske relationer mellem ord i grafbaserede modeller.
- Det kan forbedre kundeservicen ved at opdage og svare på nøgleord i kundens forespørgsel. Kunder vil have mere tillid til dig, da du har givet dem den assistance, de har brug for på det rette tidspunkt og uden at give dem besvær. Som et resultat stiger kundeloyaliteten dramatisk, og virksomhedens værdi stiger.
Konklusion
Emnemodellering er en slags statistisk modellering, der bruges til at afdække abstrakte "emner", der findes i en samling af tekster.
Det er en form for den statistiske model, der bruges i machine learning og naturlig sprogbehandling for at afdække abstrakte begreber, der findes i et sæt tekster.
Det er en tekstminemetode, der er meget brugt til at finde latente semantiske mønstre i brødtekst.
Giv en kommentar