Uvod u modeliranje tema za početnike

Sadržaj[Sakrij][Prikaži]

Šta je tematsko modeliranje?
Komponente tematskog modeliranja+-
- Vjerovatni model
- Informativno pretraživanje
Različite metode tematskog modeliranja+-
Praktično sa modeliranjem tema u Pythonu+-
- Eksploratorna analiza podataka
- Korištenje oznaka za tematsko modeliranje
Primjena tematskog modeliranja
zaključak

Siguran sam da ste čuli za umjetnu inteligenciju, kao i za riječi poput mašinskog učenja i obrade prirodnog jezika (NLP).

Pogotovo ako radite za firmu koja svakodnevno obrađuje stotine, ako ne i hiljade kontakata sa klijentima.

Analiza podataka objava na društvenim mrežama, e-pošte, četovanja, odgovora na otvorene ankete i drugih izvora nije jednostavan proces, a postaje još teži kada se povjerava samo ljudima.

Zato su mnogi ljudi oduševljeni potencijalom umjetne inteligencije za njihov svakodnevni rad i za preduzeća.

Analiza teksta zasnovana na umjetnoj inteligenciji koristi širok spektar pristupa ili algoritama za organsko tumačenje jezika, od kojih je jedna analiza tema, koja se koristi za automatsko otkrivanje tema iz tekstova.

Preduzeća mogu koristiti modele analize tema kako bi prenijeli lake poslove na mašine umjesto da preopterećuju radnike previše podataka.

Razmislite koliko bi vremena vaš tim mogao uštedjeti i posvetiti važnijim poslovima kada bi računar svakog jutra mogao filtrirati kroz beskonačne liste anketa kupaca ili pitanja podrške.

U ovom vodiču ćemo razmotriti modeliranje tema, različite metode modeliranja tema i steći neko praktično iskustvo s tim.

Šta je tematsko modeliranje?

Tematsko modeliranje je vrsta rudarenja teksta u kojoj se vrši nenadgledana i nadzirana statistika mašinsko učenje tehnike se koriste za otkrivanje trendova u korpusu ili značajnom obimu nestrukturiranog teksta.

Može potrajati vaša ogromna kolekcija dokumenata i koristiti metodu sličnosti za slaganje riječi u grupe pojmova i otkrivanje tema.

To izgleda malo složeno i teško, pa hajde da pojednostavimo postupak modeliranja predmeta!

Pretpostavimo da čitate novine sa setom markera u boji u ruci.

Nije li to staromodno?

Shvaćam da ovih dana malo ljudi čita novine u štampi; sve je digitalno, a highlighteri su prošlost! Pretvaraj se da si tvoj otac ili majka!

Dakle, kada čitate novine, ističete važne pojmove.

Još jedna pretpostavka!

Koristite različite nijanse da biste naglasili ključne riječi različitih tema. Kategorizirate ključne riječi u zavisnosti od ponuđene boje i tema.

Svaka kolekcija riječi označenih određenom bojom je lista ključnih riječi za datu temu. Količina različitih boja koje ste odabrali pokazuje broj tema.

Ovo je najosnovnije modeliranje tema. Pomaže u razumijevanju, organizaciji i sažimanju velikih zbirki tekstova.

Međutim, imajte na umu da automatizirani tematski modeli zahtijevaju puno sadržaja da bi bili efikasni. Ako imate kratak rad, možda biste željeli otići u staru školu i koristiti highlightere!

Također je korisno potrošiti neko vrijeme na upoznavanje podataka. Ovo će vam dati osnovni uvid u ono što bi tematski model trebao pronaći.

Na primjer, taj dnevnik može biti o vašim sadašnjim i prethodnim vezama. Stoga bih očekivao da će moj robot-prijatelj za rudarenje teksta doći do sličnih ideja.

Ovo vam može pomoći da bolje analizirate kvalitet tema koje ste identificirali i, ako je potrebno, prilagodite skupove ključnih riječi.

Komponente tematskog modeliranja

Vjerovatni model

Slučajne varijable i distribucije vjerovatnoće su ugrađene u reprezentaciju događaja ili fenomena u vjerovatnostnim modelima.

Deterministički model daje jedan potencijalni zaključak za događaj, dok probabilistički model daje distribuciju vjerovatnoće kao rješenje.

Ovi modeli uzimaju u obzir stvarnost da rijetko imamo potpuno znanje o situaciji. Gotovo uvijek postoji element slučajnosti koji treba uzeti u obzir.

Na primjer, životno osiguranje je zasnovano na stvarnosti da znamo da ćemo umrijeti, ali ne znamo kada. Ovi modeli mogu biti djelomično deterministički, djelimično slučajni ili potpuno slučajni.

Informativno pretraživanje

Dohvaćanje informacija (IR) je softverski program koji organizira, pohranjuje, preuzima i procjenjuje informacije iz spremišta dokumenata, posebno tekstualne informacije.

Tehnologija pomaže korisnicima da otkriju informacije koje su im potrebne, ali ne daje jasne odgovore na njihove upite. Obavještava o prisutnosti i lokaciji papira koji mogu pružiti potrebne informacije.

Relevantni dokumenti su oni koji zadovoljavaju potrebe korisnika. Besprekoran IR sistem će vratiti samo odabrane dokumente.

Koherencija teme

Koherentnost teme boduje jednu temu izračunavanjem stepena semantičke sličnosti između pojmova teme sa visokim rezultatom. Ove metrike pomažu u razlikovanju subjekata koji se semantički interpretiraju i tema koje su artefakti statističkog zaključivanja.

Ako grupa tvrdnji ili činjenica podržava jedna drugu, kaže se da su koherentne.

Kao rezultat toga, kohezivni skup činjenica može se razumjeti u kontekstu koji obuhvata sve ili većinu činjenica. „Igra je timski sport“, „igra se igra sa loptom“ i „igra zahteva ogroman fizički napor“ sve su to primeri kohezivnog skupa činjenica.

Različite metode tematskog modeliranja

Ova kritična procedura se može izvesti pomoću raznih algoritama ili metodologija. Među njima su:

Latentna Dirichletova alokacija (LDA)
Faktorizacija bez negativne matrice (NMF)
Latentna semantička analiza (LSA)
Probabilistička latentna semantička analiza (pLSA)

Latentna Dirichletova alokacija (LDA)

Za otkrivanje odnosa između više tekstova u korpusu koristi se statistički i grafički koncept Latentne Dirichletove alokacije.

Koristeći pristup maksimizacije varijacije izuzetaka (VEM), postiže se najveća procjena vjerovatnoće iz cijelog korpusa teksta.

LDA

Tradicionalno se bira prvih nekoliko riječi iz vrećice riječi.

Međutim, rečenica je potpuno besmislena.

Prema ovoj tehnici, svaki tekst će biti predstavljen probabilističkom distribucijom predmeta, a svaka tema vjerovatnostom distribucije riječi.

Faktorizacija bez negativne matrice (NMF)

Matrica sa faktorizacijom nenegativnih vrijednosti je vrhunski pristup ekstrakcije karakteristika.

Kada postoji mnogo kvaliteta i atributi su nejasni ili imaju lošu predvidljivost, NMF je koristan. NMF može generirati značajne obrasce, subjekte ili teme kombinacijom karakteristika.

Faktorizacija bez negativne matrice

NMF generiše svaku karakteristiku kao linearnu kombinaciju originalnog skupa atributa.

Svaka karakteristika sadrži skup koeficijenata koji predstavljaju važnost svakog atributa na osobini. Svaki numerički atribut i svaka vrijednost svakog atributa kategorije ima svoj koeficijent.

Svi koeficijenti su pozitivni.

Latentna semantička analiza

Još jedna metoda učenja bez nadzora koja se koristi za izdvajanje asocijacija između riječi u skupu dokumenata je latentna semantička analiza.

To nam pomaže da odaberemo prave dokumente. Njegova primarna funkcija je smanjenje dimenzionalnosti ogromnog korpusa tekstualnih podataka.

Ovi nepotrebni podaci služe kao pozadinska buka u sticanju potrebnih uvida iz podataka.

Latentna semantička analiza

Probabilistička latentna semantička analiza (pLSA)

Probabilistička latentna semantička analiza (PLSA), ponekad poznata kao vjerovatnoća latentno semantičko indeksiranje (PLSI, posebno u krugovima za pronalaženje informacija), je statistički pristup za analizu podataka o dva načina i istovremenog pojavljivanja.

Zapravo, slično latentnoj semantičkoj analizi, iz koje je proizašla PLSA, niskodimenzionalni prikaz promatranih varijabli može se izvesti u smislu njihovog afiniteta prema određenim skrivenim varijablama.

Probabilistička latentna senantička analiza

Praktično sa modeliranjem tema u Pythonu

Sada ću vas provesti kroz predmetno modeliranje sa Pythonom programski jezik koristeći primjer iz stvarnog svijeta.

Ja ću modelirati istraživačke članke. Skup podataka koji ću ovdje koristiti dolazi sa kaggle.com. Iz ovoga možete lako dobiti sve datoteke koje koristim u ovom radu Strana.

Započnimo s modeliranjem tema koristeći Python uvozom svih osnovnih biblioteka:

Importing Librarires

Sljedeći korak je čitanje svih skupova podataka koje ću koristiti u ovom zadatku:

Pročitajte skup podataka

Eksploratorna analiza podataka

EDA (Exploratory Data Analysis) je statistička metoda koja koristi vizuelne elemente. Koristi statističke sažetke i grafičke prikaze da otkrije trendove, obrasce i pretpostavke testiranja.

Napravit ću istraživačku analizu podataka prije nego što počnem s modeliranjem teme da vidim postoje li obrasci ili odnosi u podacima:

Pronađite nulte vrijednosti skupa podataka o vlaku

Izlaz nultih vrijednosti vlaka

Sada ćemo pronaći null vrijednosti testnog skupa podataka:

Pronađite nulte vrijednosti skupa testnih podataka

Izlaz testnih nultih vrijednosti

Sada ću nacrtati histogram i boxplot da provjerim odnos između varijabli.

Ploting

Izlaz crtanja 1

Količina znakova u skupu sažetaka voza uvelike varira.

U vozu imamo minimalno 54, a maksimalno 4551 karakter. 1065 je prosječna količina znakova.

Zacrtavanje 2

Izlaz crtanja 2

Skup za testiranje izgleda zanimljiviji od skupa za obuku jer testni set ima 46 karaktera, dok set za obuku ima 2841.

Kao rezultat toga, testni set je imao medijanu od 1058 karaktera, što je slično skupu za obuku.

Zacrtavanje 3

Rezultat crtanja 3

Broj riječi u skupu za učenje slijedi sličan obrazac kao i broj slova.

Dozvoljeno je najmanje 8 riječi i maksimalno 665 riječi. Kao rezultat toga, srednji broj riječi je 153.

Zacrtavanje 4

Izlaz crtanja 4

Potrebno je najmanje sedam riječi u sažetku i maksimalno 452 riječi u testnom skupu.

Medijan, u ovom slučaju, je 153, što je identično medijani u skupu za obuku.

Korištenje oznaka za tematsko modeliranje

Postoji nekoliko strategija modeliranja tema. Koristiću oznake u ovoj vježbi; pogledajmo kako to učiniti tako što ćemo ispitati oznake:

Korištenje oznaka za tematsko modeliranje

Izlaz iz tematskog modeliranja

Primjena tematskog modeliranja

Tekstualni sažetak može se koristiti za razlučivanje teme dokumenta ili knjige.
Može se koristiti za uklanjanje pristrasnosti kandidata iz bodovanja ispita.
Modeliranje tema može se koristiti za izgradnju semantičkih odnosa između riječi u modelima zasnovanim na grafovima.
Može poboljšati korisničku uslugu otkrivanjem i odgovaranjem na ključne riječi u klijentovom upitu. Kupci će imati više povjerenja u vas jer ste im pružili pomoć koja im je potrebna u odgovarajućem trenutku i bez ikakvih problema. Kao rezultat toga, lojalnost klijenata dramatično raste, a vrijednost kompanije raste.

zaključak

Tematsko modeliranje je vrsta statističkog modeliranja koji se koristi za otkrivanje apstraktnih „subjekata“ koji postoje u zbirci tekstova.

To je oblik statističkog modela koji se koristi u mašinsko učenje i obrada prirodnog jezika kako bi se otkrili apstraktni koncepti koji postoje u skupu tekstova.

To je metoda rudarenja teksta koja se široko koristi za pronalaženje latentnih semantičkih obrazaca u tekstu.

Uvod u tematsko modeliranje za početnike

Šta je tematsko modeliranje?