Introduktion till ämnesmodellering för nybörjare

Innehållsförteckning[Dölj][Visa]

Vad är Topic Modeling?
Komponenter i ämnesmodellering+-
- Probabilistisk modell
- Informationshämtning
Olika metoder för ämnesmodellering+-
Praktiskt med ämnesmodellering i Python+-
- Utforskande dataanalys
- Använda taggar för ämnesmodellering
Tillämpningar av ämnesmodellering
Slutsats

Jag är säker på att du har hört talas om artificiell intelligens, såväl som ord som maskininlärning och naturlig språkbehandling (NLP).

Särskilt om du arbetar för ett företag som hanterar hundratals, om inte tusentals, kundkontakter varje dag.

Dataanalys av inlägg på sociala medier, e-postmeddelanden, chattar, öppna enkätsvar och andra källor är inte en enkel process, och det blir ännu svårare när det bara anförtros till människor.

Det är därför många människor är entusiastiska över potentialen hos artificiell intelligens för sitt dagliga arbete och för företag.

AI-driven textanalys använder ett brett utbud av tillvägagångssätt eller algoritmer för att tolka språk organiskt, varav en är ämnesanalys, som används för att automatiskt upptäcka ämnen från texter.

Företag kan använda ämnesanalysmodeller för att överföra enkla jobb till maskiner snarare än att överbelasta arbetare med för mycket data.

Tänk på hur mycket tid ditt team skulle kunna spara och ägna åt viktigare arbete om en dator kunde filtrera igenom oändliga listor med kundundersökningar eller supportproblem varje morgon.

I den här guiden kommer vi att titta på ämnesmodellering, olika metoder för ämnesmodellering och få lite praktisk erfarenhet av det.

Vad är Topic Modeling?

Ämnesmodellering är en typ av textutvinning där oövervakad och övervakad statistisk maskininlärning tekniker används för att upptäcka trender i en korpus eller en betydande volym ostrukturerad text.

Det kan ta din enorma samling av dokument och använda en likhetsmetod för att ordna orden i kluster av termer och upptäcka ämnen.

Det verkar lite komplicerat och svårt, så låt oss förenkla ämnesmodelleringsproceduren!

Anta att du läser en tidning med en uppsättning färgade överstrykningspennor i handen.

Är inte det gammaldags?

Jag inser att nuförtiden är det få som läser tidningar i tryck; allt är digitalt och highlighters är ett minne blott! Låtsas att du är din pappa eller mamma!

Så när du läser tidningen lyfter du fram de viktiga termerna.

Ännu ett antagande!

Du använder en annan nyans för att betona nyckelorden för olika teman. Du kategoriserar sökorden beroende på den angivna färgen och ämnen.

Varje samling ord markerade med en viss färg är en lista med nyckelord för ett visst ämne. Mängden olika färger du valt visar antalet teman.

Detta är den mest grundläggande ämnesmodelleringen. Det hjälper till att förstå, organisera och sammanfatta stora textsamlingar.

Kom dock ihåg att för att vara effektiva kräver automatiserade ämnesmodeller mycket innehåll. Om du har ett kort papper, kanske du vill gå old school och använda highlighters!

Det är också fördelaktigt att lägga lite tid på att lära känna data. Detta kommer att ge dig en grundläggande känsla för vad ämnesmodellen ska hitta.

Till exempel kan den dagboken handla om dina nuvarande och tidigare relationer. Därför skulle jag förvänta mig att min robotkompis för textutvinning skulle komma på liknande idéer.

Detta kan hjälpa dig att bättre analysera kvaliteten på de ämnen du har identifierat och, om nödvändigt, justera sökordsuppsättningarna.

Komponenter i ämnesmodellering

Probabilistisk modell

Slumpvariabler och sannolikhetsfördelningar är inkorporerade i representationen av en händelse eller ett fenomen i sannolikhetsmodeller.

En deterministisk modell ger en enda potentiell slutsats för en händelse, medan en probabilistisk modell ger en sannolikhetsfördelning som en lösning.

Dessa modeller tar hänsyn till verkligheten att vi sällan har fullständig kunskap om en situation. Det finns nästan alltid ett element av slumpmässighet att ta hänsyn till.

Till exempel är livförsäkringen baserad på verkligheten att vi vet att vi kommer att dö, men vi vet inte när. Dessa modeller kan vara delvis deterministiska, delvis slumpmässiga eller helt slumpmässiga.

Informationshämtning

Informationshämtning (IR) är ett program som organiserar, lagrar, hämtar och utvärderar information från dokumentförråd, särskilt textinformation.

Tekniken hjälper användare att upptäcka den information de behöver, men den ger inte tydligt svaren på deras förfrågningar. Den meddelar om förekomsten och placeringen av papper som kan ge nödvändig information.

Relevanta dokument är de som möter användarens behov. Ett felfritt IR-system returnerar endast utvalda dokument.

Sammanfattning av ämnet

Ämneskoherens poängsätter ett enskilt ämne genom att beräkna graden av semantisk likhet mellan ämnets högbetygstermer. Dessa mått hjälper till att skilja mellan ämnen som är semantiskt tolkbara och ämnen som är statistiska slutledningsartefakter.

Om en grupp av påståenden eller fakta stödjer varandra sägs de vara sammanhängande.

Som ett resultat kan en sammanhängande faktauppsättning förstås i ett sammanhang som omfattar alla eller majoriteten av fakta. "Spelet är en lagsport", "spelet spelas med en boll" och "spelet kräver en enorm fysisk ansträngning" är alla exempel på sammanhängande faktauppsättningar.

Olika metoder för ämnesmodellering

Denna kritiska procedur kan utföras med en mängd olika algoritmer eller metoder. Bland dem finns:

Latent Dirichlet Allocation (LDA)
Icke negativ matrisfaktorisering (NMF)
Latent semantisk analys (LSA)
Probabilistisk latent semantisk analys (pLSA)

Latent Dirichlet Allocation (LDA)

För att upptäcka samband mellan flera texter i en korpus används det statistiska och grafiska konceptet Latent Dirichlet Allocation.

Med tillvägagångssättet Variational Exception Maximization (VEM) uppnås den största sannolikhetsuppskattningen från hela textkorpusen.

LTD

Traditionellt väljs de översta orden från en påse med ord.

Men meningen är dock helt meningslös.

Enligt denna teknik kommer varje text att representeras av en probabilistisk fördelning av ämnen, och varje ämne av en probabilistisk fördelning av ord.

Icke negativ matrisfaktorisering (NMF)

Matris med faktorisering av icke-negativa värden är en banbrytande metod för extraktion av funktioner.

När det finns många egenskaper och attributen är vaga eller har dålig förutsägbarhet är NMF fördelaktigt. NMF kan generera betydande mönster, ämnen eller teman genom att kombinera egenskaper.

Icke negativ matrisfaktorisering

NMF genererar varje funktion som en linjär kombination av den ursprungliga attributuppsättningen.

Varje funktion innehåller en uppsättning koefficienter som representerar vikten av varje attribut på funktionen. Varje numeriskt attribut och varje värde för varje kategoriattribut har sin egen koefficient.

Alla koefficienter är positiva.

Latent semantisk analys

Det är en annan oövervakad inlärningsmetod som används för att extrahera associationer mellan ord i en uppsättning dokument är latent semantisk analys.

Detta hjälper oss att välja rätt dokument. Dess primära funktion är att minska dimensionaliteten hos den enorma korpusen av textdata.

Dessa onödiga data tjänar som bakgrundsbrus för att få de nödvändiga insikterna från datan.

Latent semantisk analys

Probabilistisk latent semantisk analys (pLSA)

Probabilistisk latent semantisk analys (PLSA), ibland känd som probabilistisk latent semantisk indexering (PLSI, särskilt i informationshämtningskretsar), är ett statistiskt tillvägagångssätt för att analysera tvåläges- och samtidig förekomstdata.

I själva verket, i likhet med latent semantisk analys, från vilken PLSA uppstod, kan en lågdimensionell representation av de observerade variablerna härledas i termer av deras affinitet till särskilda dolda variabler.

Probabilistisk latent senantisk analys

Praktiskt med ämnesmodellering i Python

Nu ska jag gå igenom ett ämnesmodelleringsuppdrag med Python programmeringsspråk med hjälp av ett verkligt exempel.

Jag kommer att modellera forskningsartiklar. Datauppsättningen jag kommer att använda här kommer från kaggle.com. Du kan enkelt hämta alla filer som jag använder i detta arbete från detta sida.

Låt oss komma igång med Topic Modeling med Python genom att importera alla viktiga bibliotek:

Importera biblioteksarkiv

Följande steg är att läsa alla datamängder som jag kommer att använda i den här uppgiften:

Läs Dataset

Utforskande dataanalys

EDA (Exploratory Data Analysis) är en statistisk metod som använder visuella element. Den använder statistiska sammanfattningar och grafiska representationer för att upptäcka trender, mönster och testa antaganden.

Jag ska göra lite utforskande dataanalys innan jag börjar modellera ämnet för att se om det finns några mönster eller samband i datan:

Hitta nullvärden för tågdataset

Output Of Train Null-värden

Nu kommer vi att hitta nollvärdena för testdatauppsättningen:

Hitta nollvärden för testdatauppsättning

Utdata av test nollvärden

Nu kommer jag att rita ett histogram och boxplot för att kontrollera relationen mellan variablerna.

plottning

Utgång av plottning 1

Mängden karaktärer i uppsättningen Abstracts of the Train varierar mycket.

På tåget har vi minst 54 och max 4551 tecken. 1065 är det genomsnittliga antalet tecken.

Plottning 2

Utgång av plottning 2

Testsetet ser ut att vara mer intressant än träningssetet eftersom testsetet har 46 tecken medan träningssetet har 2841.

Som ett resultat hade testsetet en median på 1058 tecken, vilket liknar träningsuppsättningen.

Plottning 3

Utgång av plottning 3

Antalet ord i inlärningssetet följer ett liknande mönster som antalet bokstäver.

Minst 8 ord och högst 665 ord är tillåtna. Som ett resultat är medianantalet ord 153.

Plottning 4

Utgång av plottning 4

Minst sju ord i ett sammandrag och högst 452 ord i testsetet krävs.

Medianen är i det här fallet 153, vilket är identiskt med medianen i träningsuppsättningen.

Använda taggar för ämnesmodellering

Det finns flera ämnesmodelleringsstrategier. Jag kommer att använda taggar i den här övningen; låt oss titta på hur man gör det genom att undersöka taggarna:

Använda taggar för ämnesmodellering

Utdata av ämnesmodellering

Tillämpningar av ämnesmodellering

En textsammanfattning kan användas för att urskilja ämnet för ett dokument eller en bok.
Den kan användas för att ta bort kandidatbias från provpoäng.
Ämnesmodellering kan användas för att bygga semantiska relationer mellan ord i grafbaserade modeller.
Det kan förbättra kundservicen genom att upptäcka och svara på nyckelord i kundens förfrågan. Kunder kommer att ha mer förtroende för dig eftersom du har gett dem den hjälp de behöver vid rätt tillfälle och utan att orsaka dem något krångel. Som ett resultat ökar kundlojaliteten dramatiskt och företagets värde ökar.

Slutsats

Ämnesmodellering är en sorts statistisk modellering som används för att avslöja abstrakta "ämnen" som finns i en samling texter.

Det är en form av den statistiska modellen som används i maskininlärning och naturlig språkbehandling för att avslöja abstrakta begrepp som finns i en uppsättning texter.

Det är en textutvinningsmetod som används flitigt för att hitta latenta semantiska mönster i brödtext.

Introduktion till ämnesmodellering för nybörjare

Vad är Topic Modeling?