Pregled sadržaja[Sakriti][Pokazati]
Siguran sam da ste čuli za umjetnu inteligenciju, kao i za riječi poput strojnog učenja i obrade prirodnog jezika (NLP).
Pogotovo ako radite za tvrtku koja svaki dan obrađuje stotine, ako ne i tisuće, kontakata s klijentima.
Analiza podataka o objavama na društvenim mrežama, e-pošti, chatovima, otvorenim odgovorima na ankete i drugim izvorima nije jednostavan proces, a postaje još teži kada se povjeri samo ljudima.
Zbog toga su mnogi ljudi oduševljeni potencijalom umjetna inteligencija za njihov svakodnevni rad i za poduzeća.
Analiza teksta pomoću umjetne inteligencije koristi širok raspon pristupa ili algoritama za organsku interpretaciju jezika, od kojih je jedna analiza tema, koja se koristi za automatsko otkrivanje predmeta iz tekstova.
Poduzeća mogu koristiti modele tematske analize za prijenos jednostavnih poslova na strojeve umjesto da preopterećuju radnike s previše podataka.
Razmislite koliko bi vremena vaš tim mogao uštedjeti i posvetiti važnijem poslu kada bi računalo moglo svako jutro filtrirati kroz beskrajne popise korisničkih anketa ili problema s podrškom.
U ovom ćemo vodiču proučiti modeliranje tema, različite metode modeliranja tema i steći neko praktično iskustvo s tim.
Što je modeliranje teme?
Tematsko modeliranje vrsta je rudarenja teksta u kojem se nenadzirani i nadzirani statistički stroj za učenje tehnike se koriste za otkrivanje trendova u korpusu ili značajnoj količini nestrukturiranog teksta.
Može uzeti vašu ogromnu zbirku dokumenata i upotrijebiti metodu sličnosti za raspoređivanje riječi u klastere pojmova i otkrivanje predmeta.
To izgleda malo složeno i teško, pa pojednostavimo postupak modeliranja predmeta!
Pretpostavimo da čitate novine s nizom markera u boji u ruci.
Nije li to staromodno?
Shvaćam da ovih dana malo ljudi čita novine; sve je digitalno, a highlighteri su prošlost! Pretvarajte se da ste otac ili majka!
Dakle, kada čitate novine, ističete važne pojmove.
Još jedna pretpostavka!
Koristite različite nijanse kako biste naglasili ključne riječi različitih tema. Kategorizirate ključne riječi ovisno o ponuđenoj boji i temama.
Svaka zbirka riječi označena određenom bojom je popis ključnih riječi za određenu temu. Broj različitih boja koje ste odabrali pokazuje broj tema.
Ovo je najosnovnija tema modeliranja. Pomaže u razumijevanju, organizaciji i sažimanju velikih zbirki teksta.
Međutim, imajte na umu da automatizirani modeli tema zahtijevaju mnogo sadržaja da bi bili učinkoviti. Ako imate kratak papir, možda biste trebali krenuti starom školom i koristiti highlightere!
Također je korisno provesti neko vrijeme upoznavajući podatke. To će vam dati osnovni osjećaj o tome što model teme treba pronaći.
Na primjer, taj dnevnik može biti o vašim sadašnjim i prethodnim vezama. Stoga bih očekivao da će moj prijatelj robot za rudarenje teksta doći na slične ideje.
To vam može pomoći da bolje analizirate kvalitetu predmeta koje ste identificirali i, ako je potrebno, prilagodite skupove ključnih riječi.
Komponente tematskog modeliranja
Probabilistički model
Slučajne varijable i distribucije vjerojatnosti uključene su u prikaz događaja ili pojave u probabilističkim modelima.
Deterministički model daje jedan potencijalni zaključak za događaj, dok probabilistički model daje distribuciju vjerojatnosti kao rješenje.
Ovi modeli uzimaju u obzir činjenicu da rijetko imamo potpuno znanje o situaciji. Gotovo uvijek postoji element slučajnosti koji treba uzeti u obzir.
Na primjer, životno osiguranje temelji se na stvarnosti da znamo da ćemo umrijeti, ali ne znamo kada. Ovi modeli mogu biti djelomično deterministički, djelomično slučajni ili potpuno slučajni.
Dohvaćanje informacija
Dohvaćanje informacija (IR) je softverski program koji organizira, pohranjuje, dohvaća i procjenjuje informacije iz repozitorija dokumenata, posebice tekstualne informacije.
Tehnologija pomaže korisnicima otkriti informacije koje su im potrebne, ali ne daje jasne odgovore na njihove upite. Obavještava o prisutnosti i lokaciji dokumenata koji mogu pružiti potrebne informacije.
Relevantni dokumenti su oni koji zadovoljavaju potrebe korisnika. Besprijekoran IR sustav vraća samo odabrane dokumente.
Koherentnost teme
Topic Coherence ocjenjuje jednu temu izračunavanjem stupnja semantičke sličnosti između pojmova teme s visokim bodovanjem. Ove metrike pomažu u razlikovanju predmeta koji se semantički mogu interpretirati i tema koje su artefakti statističkog zaključivanja.
Ako se skupina tvrdnji ili činjenica međusobno podupire, kaže se da su koherentne.
Kao rezultat toga, kohezivni skup činjenica može se razumjeti u kontekstu koji obuhvaća sve ili većinu činjenica. "Igra je timski sport", "igra se s loptom" i "igra zahtijeva ogroman fizički napor" sve su to primjeri kohezivnih skupova činjenica.
Različite metode modeliranja teme
Ovaj kritični postupak može se provesti različitim algoritmima ili metodologijama. Među njima su:
- Latentna Dirichletova alokacija (LDA)
- Faktorizacija nenegativne matrice (NMF)
- Latentna semantička analiza (LSA)
- Probabilistička latentna semantička analiza (pLSA)
Latentna Dirichletova alokacija (LDA)
Za otkrivanje odnosa između više tekstova u korpusu koristi se statistički i grafički koncept latentne Dirichletove raspodjele.
Korištenjem pristupa maksimiziranja varijacijskih izuzetaka (VEM) postiže se najveća procjena vjerojatnosti iz cijelog korpusa teksta.
Tradicionalno se bira prvih nekoliko riječi iz vreće riječi.
Međutim, rečenica je potpuno besmislena.
Prema ovoj tehnici, svaki će tekst biti prikazan probabilističkom raspodjelom subjekata, a svaka tema vjerojatnosnom raspodjelom riječi.
Faktorizacija nenegativne matrice (NMF)
Matrica s nenegativnim vrijednostima Faktorizacija je vrhunski pristup izdvajanju značajki.
Kada postoji mnogo kvaliteta, a atributi su nejasni ili imaju lošu predvidljivost, NMF je koristan. NMF može generirati značajne uzorke, subjekte ili teme kombiniranjem karakteristika.
NMF generira svaku značajku kao linearnu kombinaciju izvornog skupa atributa.
Svaka značajka sadrži skup koeficijenata koji predstavljaju važnost svakog atributa značajke. Svaki numerički atribut i svaka vrijednost svakog atributa kategorije ima svoj koeficijent.
Svi koeficijenti su pozitivni.
Latentna semantička analiza
Još jedna metoda učenja bez nadzora koja se koristi za izdvajanje asocijacija između riječi u skupu dokumenata je latentna semantička analiza.
To nam pomaže da odaberemo odgovarajuće dokumente. Njegova primarna funkcija je smanjiti dimenzionalnost golemog korpusa tekstualnih podataka.
Ovi nepotrebni podaci služe kao pozadinska buka pri dobivanju potrebnih uvida iz podataka.
Probabilistička latentna semantička analiza (pLSA)
Probabilistička latentna semantička analiza (PLSA), ponekad poznata kao probabilističko latentno semantičko indeksiranje (PLSI, posebno u krugovima pronalaženja informacija), statistički je pristup analizi dvomodalnih i istodobnih podataka.
Zapravo, slično latentnoj semantičkoj analizi, iz koje je proizašla PLSA, može se izvesti niskodimenzionalna reprezentacija promatranih varijabli u smislu njihovog afiniteta prema određenim skrivenim varijablama.
Praktično s modeliranjem tema u Pythonu
Sada ću vas provesti kroz predmetni zadatak modeliranja s Pythonom programski jezik koristeći primjer iz stvarnog svijeta.
Ja ću modelirati istraživačke članke. Skup podataka koji ću ovdje koristiti dolazi s kaggle.com. Možete lako dobiti sve datoteke koje koristim u ovom radu iz ovoga stranica.
Započnimo s modeliranjem tema pomoću Pythona uvozom svih bitnih biblioteka:
Sljedeći korak je čitanje svih skupova podataka koje ću koristiti u ovom zadatku:
Istraživačka analiza podataka
EDA (Exploratory Data Analysis) je statistička metoda koja koristi vizualne elemente. Koristi statističke sažetke i grafičke prikaze za otkrivanje trendova, obrazaca i testiranja pretpostavki.
Provest ću istraživačku analizu podataka prije nego što počnem s modeliranjem teme da vidim postoje li uzorci ili odnosi u podacima:
Sada ćemo pronaći nulte vrijednosti skupa testnih podataka:
Sada ću iscrtati histogram i okvir kako bih provjerio odnos između varijabli.
Količina znakova u kompletu Abstracts of the Train uvelike varira.
U vlaku imamo minimalno 54, a maksimalno 4551 znak. 1065 je prosječan broj znakova.
Testni skup izgleda zanimljiviji od skupa za obuku budući da testni skup ima 46 znakova dok skup za obuku ima 2841.
Kao rezultat toga, testni skup je imao medijan od 1058 znakova, što je slično skupu za obuku.
Broj riječi u setu za učenje slijedi sličan obrazac kao i broj slova.
Dopušteno je najmanje 8 riječi, a najviše 665 riječi. Kao rezultat toga, srednji broj riječi je 153.
Potrebno je minimalno sedam riječi u sažetku i najviše 452 riječi u ispitnom skupu.
Medijan je u ovom slučaju 153, što je identično medijanu u skupu za treniranje.
Korištenje oznaka za modeliranje tema
Postoji nekoliko strategija modeliranja teme. Koristit ću oznake u ovoj vježbi; pogledajmo kako to učiniti ispitivanjem oznaka:
Primjene tematskog modeliranja
- Tekstualni sažetak može se koristiti za raspoznavanje teme dokumenta ili knjige.
- Može se koristiti za uklanjanje pristranosti kandidata iz bodovanja ispita.
- Modeliranje teme može se koristiti za izgradnju semantičkih odnosa između riječi u modelima temeljenim na grafovima.
- Može poboljšati korisničku uslugu otkrivanjem i odgovaranjem na ključne riječi u klijentovom upitu. Kupci će imati više povjerenja u vas jer ste im pružili potrebnu pomoć u pravom trenutku i bez ikakvih problema. Kao rezultat toga, lojalnost klijenata dramatično raste, a vrijednost tvrtke raste.
Zaključak
Modeliranje tema je vrsta statističkog modeliranja koje se koristi za otkrivanje apstraktnih "subjekata" koji postoje u zbirci tekstova.
To je oblik statističkog modela koji se koristi u stroj za učenje i obrada prirodnog jezika za otkrivanje apstraktnih pojmova koji postoje u skupu tekstova.
To je metoda rudarenja teksta koja se široko koristi za pronalaženje latentnih semantičkih uzoraka u tekstu.
Ostavi odgovor