Uvod u modeliranje tema za početnike

Pregled sadržaja[Sakriti][Pokazati]

Što je modeliranje teme?
Komponente tematskog modeliranja+-
- Probabilistički model
- Dohvaćanje informacija
Različite metode modeliranja teme+-
Praktično s modeliranjem tema u Pythonu+-
- Istraživačka analiza podataka
- Korištenje oznaka za modeliranje tema
Primjene tematskog modeliranja
Zaključak

Siguran sam da ste čuli za umjetnu inteligenciju, kao i za riječi poput strojnog učenja i obrade prirodnog jezika (NLP).

Pogotovo ako radite za tvrtku koja svaki dan obrađuje stotine, ako ne i tisuće, kontakata s klijentima.

Analiza podataka o objavama na društvenim mrežama, e-pošti, chatovima, otvorenim odgovorima na ankete i drugim izvorima nije jednostavan proces, a postaje još teži kada se povjeri samo ljudima.

Zbog toga su mnogi ljudi oduševljeni potencijalom umjetna inteligencija za njihov svakodnevni rad i za poduzeća.

Analiza teksta pomoću umjetne inteligencije koristi širok raspon pristupa ili algoritama za organsku interpretaciju jezika, od kojih je jedna analiza tema, koja se koristi za automatsko otkrivanje predmeta iz tekstova.

Poduzeća mogu koristiti modele tematske analize za prijenos jednostavnih poslova na strojeve umjesto da preopterećuju radnike s previše podataka.

Razmislite koliko bi vremena vaš tim mogao uštedjeti i posvetiti važnijem poslu kada bi računalo moglo svako jutro filtrirati kroz beskrajne popise korisničkih anketa ili problema s podrškom.

U ovom ćemo vodiču proučiti modeliranje tema, različite metode modeliranja tema i steći neko praktično iskustvo s tim.

Što je modeliranje teme?

Tematsko modeliranje vrsta je rudarenja teksta u kojem se nenadzirani i nadzirani statistički stroj za učenje tehnike se koriste za otkrivanje trendova u korpusu ili značajnoj količini nestrukturiranog teksta.

Može uzeti vašu ogromnu zbirku dokumenata i upotrijebiti metodu sličnosti za raspoređivanje riječi u klastere pojmova i otkrivanje predmeta.

To izgleda malo složeno i teško, pa pojednostavimo postupak modeliranja predmeta!

Pretpostavimo da čitate novine s nizom markera u boji u ruci.

Nije li to staromodno?

Shvaćam da ovih dana malo ljudi čita novine; sve je digitalno, a highlighteri su prošlost! Pretvarajte se da ste otac ili majka!

Dakle, kada čitate novine, ističete važne pojmove.

Još jedna pretpostavka!

Koristite različite nijanse kako biste naglasili ključne riječi različitih tema. Kategorizirate ključne riječi ovisno o ponuđenoj boji i temama.

Svaka zbirka riječi označena određenom bojom je popis ključnih riječi za određenu temu. Broj različitih boja koje ste odabrali pokazuje broj tema.

Ovo je najosnovnija tema modeliranja. Pomaže u razumijevanju, organizaciji i sažimanju velikih zbirki teksta.

Međutim, imajte na umu da automatizirani modeli tema zahtijevaju mnogo sadržaja da bi bili učinkoviti. Ako imate kratak papir, možda biste trebali krenuti starom školom i koristiti highlightere!

Također je korisno provesti neko vrijeme upoznavajući podatke. To će vam dati osnovni osjećaj o tome što model teme treba pronaći.

Na primjer, taj dnevnik može biti o vašim sadašnjim i prethodnim vezama. Stoga bih očekivao da će moj prijatelj robot za rudarenje teksta doći na slične ideje.

To vam može pomoći da bolje analizirate kvalitetu predmeta koje ste identificirali i, ako je potrebno, prilagodite skupove ključnih riječi.

Komponente tematskog modeliranja

Probabilistički model

Slučajne varijable i distribucije vjerojatnosti uključene su u prikaz događaja ili pojave u probabilističkim modelima.

Deterministički model daje jedan potencijalni zaključak za događaj, dok probabilistički model daje distribuciju vjerojatnosti kao rješenje.

Ovi modeli uzimaju u obzir činjenicu da rijetko imamo potpuno znanje o situaciji. Gotovo uvijek postoji element slučajnosti koji treba uzeti u obzir.

Na primjer, životno osiguranje temelji se na stvarnosti da znamo da ćemo umrijeti, ali ne znamo kada. Ovi modeli mogu biti djelomično deterministički, djelomično slučajni ili potpuno slučajni.

Dohvaćanje informacija

Dohvaćanje informacija (IR) je softverski program koji organizira, pohranjuje, dohvaća i procjenjuje informacije iz repozitorija dokumenata, posebice tekstualne informacije.

Tehnologija pomaže korisnicima otkriti informacije koje su im potrebne, ali ne daje jasne odgovore na njihove upite. Obavještava o prisutnosti i lokaciji dokumenata koji mogu pružiti potrebne informacije.

Relevantni dokumenti su oni koji zadovoljavaju potrebe korisnika. Besprijekoran IR sustav vraća samo odabrane dokumente.

Koherentnost teme

Topic Coherence ocjenjuje jednu temu izračunavanjem stupnja semantičke sličnosti između pojmova teme s visokim bodovanjem. Ove metrike pomažu u razlikovanju predmeta koji se semantički mogu interpretirati i tema koje su artefakti statističkog zaključivanja.

Ako se skupina tvrdnji ili činjenica međusobno podupire, kaže se da su koherentne.

Kao rezultat toga, kohezivni skup činjenica može se razumjeti u kontekstu koji obuhvaća sve ili većinu činjenica. "Igra je timski sport", "igra se s loptom" i "igra zahtijeva ogroman fizički napor" sve su to primjeri kohezivnih skupova činjenica.

Različite metode modeliranja teme

Ovaj kritični postupak može se provesti različitim algoritmima ili metodologijama. Među njima su:

Latentna Dirichletova alokacija (LDA)
Faktorizacija nenegativne matrice (NMF)
Latentna semantička analiza (LSA)
Probabilistička latentna semantička analiza (pLSA)

Latentna Dirichletova alokacija (LDA)

Za otkrivanje odnosa između više tekstova u korpusu koristi se statistički i grafički koncept latentne Dirichletove raspodjele.

Korištenjem pristupa maksimiziranja varijacijskih izuzetaka (VEM) postiže se najveća procjena vjerojatnosti iz cijelog korpusa teksta.

LTD

Tradicionalno se bira prvih nekoliko riječi iz vreće riječi.

Međutim, rečenica je potpuno besmislena.

Prema ovoj tehnici, svaki će tekst biti prikazan probabilističkom raspodjelom subjekata, a svaka tema vjerojatnosnom raspodjelom riječi.

Faktorizacija nenegativne matrice (NMF)

Matrica s nenegativnim vrijednostima Faktorizacija je vrhunski pristup izdvajanju značajki.

Kada postoji mnogo kvaliteta, a atributi su nejasni ili imaju lošu predvidljivost, NMF je koristan. NMF može generirati značajne uzorke, subjekte ili teme kombiniranjem karakteristika.

Faktorizacija nenegativne matrice

NMF generira svaku značajku kao linearnu kombinaciju izvornog skupa atributa.

Svaka značajka sadrži skup koeficijenata koji predstavljaju važnost svakog atributa značajke. Svaki numerički atribut i svaka vrijednost svakog atributa kategorije ima svoj koeficijent.

Svi koeficijenti su pozitivni.

Latentna semantička analiza

Još jedna metoda učenja bez nadzora koja se koristi za izdvajanje asocijacija između riječi u skupu dokumenata je latentna semantička analiza.

To nam pomaže da odaberemo odgovarajuće dokumente. Njegova primarna funkcija je smanjiti dimenzionalnost golemog korpusa tekstualnih podataka.

Ovi nepotrebni podaci služe kao pozadinska buka pri dobivanju potrebnih uvida iz podataka.

Latentna semantička analiza

Probabilistička latentna semantička analiza (pLSA)

Probabilistička latentna semantička analiza (PLSA), ponekad poznata kao probabilističko latentno semantičko indeksiranje (PLSI, posebno u krugovima pronalaženja informacija), statistički je pristup analizi dvomodalnih i istodobnih podataka.

Zapravo, slično latentnoj semantičkoj analizi, iz koje je proizašla PLSA, može se izvesti niskodimenzionalna reprezentacija promatranih varijabli u smislu njihovog afiniteta prema određenim skrivenim varijablama.

Probabilistička latentna senatička analiza

Praktično s modeliranjem tema u Pythonu

Sada ću vas provesti kroz predmetni zadatak modeliranja s Pythonom programski jezik koristeći primjer iz stvarnog svijeta.

Ja ću modelirati istraživačke članke. Skup podataka koji ću ovdje koristiti dolazi s kaggle.com. Možete lako dobiti sve datoteke koje koristim u ovom radu iz ovoga stranica.

Započnimo s modeliranjem tema pomoću Pythona uvozom svih bitnih biblioteka:

Uvoz knjižnica

Sljedeći korak je čitanje svih skupova podataka koje ću koristiti u ovom zadatku:

Pročitajte skup podataka

Istraživačka analiza podataka

EDA (Exploratory Data Analysis) je statistička metoda koja koristi vizualne elemente. Koristi statističke sažetke i grafičke prikaze za otkrivanje trendova, obrazaca i testiranja pretpostavki.

Provest ću istraživačku analizu podataka prije nego što počnem s modeliranjem teme da vidim postoje li uzorci ili odnosi u podacima:

Pronađite nulte vrijednosti skupa podataka vlaka

Izlaz treniranja nultih vrijednosti

Sada ćemo pronaći nulte vrijednosti skupa testnih podataka:

Pronađite nulte vrijednosti skupa testnih podataka

Izlaz testnih nultih vrijednosti

Sada ću iscrtati histogram i okvir kako bih provjerio odnos između varijabli.

crtanje

Rezultat crtanja 1

Količina znakova u kompletu Abstracts of the Train uvelike varira.

U vlaku imamo minimalno 54, a maksimalno 4551 znak. 1065 je prosječan broj znakova.

Crtanje 2

Rezultat crtanja 2

Testni skup izgleda zanimljiviji od skupa za obuku budući da testni skup ima 46 znakova dok skup za obuku ima 2841.

Kao rezultat toga, testni skup je imao medijan od 1058 znakova, što je slično skupu za obuku.

Crtanje 3

Izlaz crtanja 3

Broj riječi u setu za učenje slijedi sličan obrazac kao i broj slova.

Dopušteno je najmanje 8 riječi, a najviše 665 riječi. Kao rezultat toga, srednji broj riječi je 153.

Crtanje 4

Rezultat crtanja 4

Potrebno je minimalno sedam riječi u sažetku i najviše 452 riječi u ispitnom skupu.

Medijan je u ovom slučaju 153, što je identično medijanu u skupu za treniranje.

Korištenje oznaka za modeliranje tema

Postoji nekoliko strategija modeliranja teme. Koristit ću oznake u ovoj vježbi; pogledajmo kako to učiniti ispitivanjem oznaka:

Korištenje oznaka za modeliranje tema

Izlaz tematskog modeliranja

Primjene tematskog modeliranja

Tekstualni sažetak može se koristiti za raspoznavanje teme dokumenta ili knjige.
Može se koristiti za uklanjanje pristranosti kandidata iz bodovanja ispita.
Modeliranje teme može se koristiti za izgradnju semantičkih odnosa između riječi u modelima temeljenim na grafovima.
Može poboljšati korisničku uslugu otkrivanjem i odgovaranjem na ključne riječi u klijentovom upitu. Kupci će imati više povjerenja u vas jer ste im pružili potrebnu pomoć u pravom trenutku i bez ikakvih problema. Kao rezultat toga, lojalnost klijenata dramatično raste, a vrijednost tvrtke raste.

Zaključak

Modeliranje tema je vrsta statističkog modeliranja koje se koristi za otkrivanje apstraktnih "subjekata" koji postoje u zbirci tekstova.

To je oblik statističkog modela koji se koristi u stroj za učenje i obrada prirodnog jezika za otkrivanje apstraktnih pojmova koji postoje u skupu tekstova.

To je metoda rudarenja teksta koja se široko koristi za pronalaženje latentnih semantičkih uzoraka u tekstu.

Uvod u modeliranje tema za početnike

Što je modeliranje teme?