Kazalo[Skrij][Pokaži]
Prepričan sem, da ste že slišali za umetno inteligenco, pa tudi za besede, kot sta strojno učenje in obdelava naravnega jezika (NLP).
Še posebej, če delate za podjetje, ki vsak dan obravnava na stotine, če ne na tisoče stikov s strankami.
Analiza podatkov objav v družabnih omrežjih, e-pošte, klepetov, odgovorov na odprte ankete in drugih virov ni preprost proces, še težji pa postane, če ga zaupamo samo ljudem.
Zato je veliko ljudi navdušenih nad potencialom Umetna inteligenca za njihovo vsakodnevno delo in za podjetja.
Analiza besedil, ki jo poganja umetna inteligenca, uporablja široko paleto pristopov ali algoritmov za organsko interpretacijo jezika, ena izmed njih je tematska analiza, ki se uporablja za samodejno odkrivanje predmetov iz besedil.
Podjetja lahko uporabijo modele tematske analize za prenos enostavnih opravil na stroje, namesto da preobremenijo delavce s preveč podatkov.
Razmislite, koliko časa bi lahko vaša ekipa prihranila in ga posvetila bistvenejšemu delu, če bi lahko računalnik vsako jutro filtriral skozi neskončne sezname anket strank ali težav s podporo.
V tem priročniku si bomo ogledali modeliranje tem, različne metode modeliranja tem in pridobili nekaj praktičnih izkušenj s tem.
Kaj je tematsko modeliranje?
Tematsko modeliranje je vrsta rudarjenja besedila, pri katerem se nenadzorovana in nadzorovana statistika strojno učenje tehnike se uporabljajo za odkrivanje trendov v korpusu ali velikem obsegu nestrukturiranega besedila.
Lahko vzame vašo ogromno zbirko dokumentov in uporabi metodo podobnosti, da razporedi besede v skupine izrazov in odkrije teme.
To se zdi nekoliko zapleteno in težko, zato poenostavimo postopek modeliranja predmeta!
Recimo, da berete časopis s kompletom barvnih označevalcev v roki.
Ali ni to staromodno?
Zavedam se, da dandanes malo ljudi bere tiskane časopise; vse je digitalno, osvetljevalci pa so preteklost! Pretvarjajte se, da ste oče ali mati!
Torej, ko berete časopis, poudarjate pomembne izraze.
Še ena predpostavka!
Za poudarjanje ključnih besed različnih tem uporabite drugačen odtenek. Ključne besede kategorizirate glede na podano barvo in teme.
Vsaka zbirka besed, označenih z določeno barvo, je seznam ključnih besed za določeno temo. Količina različnih barv, ki ste jih izbrali, prikazuje število tem.
To je najbolj temeljna tema modeliranja. Pomaga pri razumevanju, organizaciji in povzemanju velikih zbirk besedil.
Vendar ne pozabite, da samodejni tematski modeli potrebujejo veliko vsebine, da bi bili učinkoviti. Če imate kratek papir, boste morda želeli iti v staro šolo in uporabiti označevalce!
Prav tako je koristno porabiti nekaj časa za spoznavanje podatkov. To vam bo dalo osnovni občutek, kaj naj najde model teme.
Ta dnevnik je lahko na primer o vaših sedanjih in prejšnjih odnosih. Zato bi pričakoval, da bo moj prijatelj robot za rudarjenje besedil prišel na podobne ideje.
To vam lahko pomaga bolje analizirati kakovost predmetov, ki ste jih identificirali, in po potrebi spremeniti nabore ključnih besed.
Komponente tematskega modeliranja
Probabilistični model
Naključne spremenljivke in verjetnostne porazdelitve so vključene v predstavitev dogodka ali pojava v verjetnostnih modelih.
Deterministični model zagotavlja en sam možni zaključek za dogodek, medtem ko verjetnostni model ponuja porazdelitev verjetnosti kot rešitev.
Ti modeli upoštevajo dejstvo, da redko imamo popolno znanje o situaciji. Skoraj vedno je treba upoštevati element naključnosti.
Na primer, življenjsko zavarovanje temelji na resničnosti, da vemo, da bomo umrli, vendar ne vemo, kdaj. Ti modeli so lahko delno deterministični, delno naključni ali popolnoma naključni.
Pridobivanje informacij
Pridobivanje informacij (IR) je programska oprema, ki organizira, shranjuje, pridobiva in ocenjuje informacije iz repozitorijev dokumentov, zlasti besedilne informacije.
Tehnologija uporabnikom pomaga odkriti informacije, ki jih potrebujejo, vendar ne zagotavlja jasnih odgovorov na njihova vprašanja. Obvešča o prisotnosti in lokaciji dokumentov, ki lahko zagotovijo potrebne informacije.
Relevantni dokumenti so tisti, ki ustrezajo potrebam uporabnika. Brezhiben IR sistem bo vrnil samo izbrane dokumente.
Usklajenost teme
Topic Coherence oceni posamezno temo tako, da izračuna stopnjo semantične podobnosti med izrazi teme z visokimi točkami. Te metrike pomagajo pri razlikovanju med temami, ki jih je semantično razlagati, in temami, ki so artefakti statističnega sklepanja.
Če se skupina trditev ali dejstev medsebojno podpira, velja, da so skladne.
Posledično je mogoče koheziven niz dejstev razumeti v kontekstu, ki zajema vsa ali večino dejstev. "Igra je moštveni šport", "igra se z žogo" in "igra zahteva ogromen fizični napor" so vsi primeri povezanih dejstev.
Različne metode modeliranja tem
Ta kritični postopek je mogoče izvesti z različnimi algoritmi ali metodologijami. Med njimi so:
- Latentna dodelitev Dirichleta (LDA)
- Nenegativna faktorizacija matrike (NMF)
- Latentna semantična analiza (LSA)
- Verjetnostna latentna semantična analiza (pLSA)
Latentna Dirichletova porazdelitev (LDA)
Za odkrivanje odnosov med več besedili v korpusu se uporablja statistični in grafični koncept latentne Dirichletove razporeditve.
Z uporabo pristopa maksimizacije variacijskih izjem (VEM) je dosežena največja ocena verjetnosti iz celotnega korpusa besedila.
Tradicionalno se izbere prvih nekaj besed iz vreče besed.
Vendar je stavek popolnoma brez pomena.
V skladu s to tehniko bo vsako besedilo predstavljeno z verjetnostno porazdelitvijo predmetov, vsako temo pa z verjetnostno porazdelitvijo besed.
Nenegativna faktorizacija matrike (NMF)
Matrika z nenegativnimi vrednostmi Faktorizacija je vrhunski pristop ekstrakcije funkcij.
Če je lastnosti veliko in so atributi nejasni ali slabo predvidljivi, je NMF koristen. NMF lahko ustvari pomembne vzorce, subjekte ali teme s kombiniranjem značilnosti.
NMF generira vsako funkcijo kot linearno kombinacijo prvotnega niza atributov.
Vsaka značilnost vsebuje nabor koeficientov, ki predstavljajo pomembnost vsakega atributa funkcije. Vsak številski atribut in vsaka vrednost vsakega atributa kategorije ima svoj koeficient.
Vsi koeficienti so pozitivni.
Latentna semantična analiza
Še ena nenadzorovana učna metoda, ki se uporablja za pridobivanje povezav med besedami v nizu dokumentov, je latentna semantična analiza.
To nam pomaga pri izbiri ustreznih dokumentov. Njegova primarna naloga je zmanjšati dimenzionalnost ogromnega korpusa besedilnih podatkov.
Ti nepotrebni podatki služijo kot hrup v ozadju pri pridobivanju potrebnih vpogledov iz podatkov.
Verjetnostna latentna semantična analiza (pLSA)
Verjetnostna latentna semantična analiza (PLSA), včasih znana kot verjetnostno latentno semantično indeksiranje (PLSI, predvsem v krogih iskanja informacij), je statistični pristop za analizo dvonačinskih in sočasnih podatkov.
Pravzaprav, podobno kot latentna semantična analiza, iz katere je nastala PLSA, je mogoče izpeljati nizkodimenzionalno predstavitev opazovanih spremenljivk v smislu njihove afinitete do določenih skritih spremenljivk.
Praktično z modeliranjem tem v Pythonu
Zdaj vas bom vodil skozi nalogo modeliranja predmeta s Pythonom programski jezik z uporabo primera iz resničnega sveta.
Modeliral bom raziskovalne članke. Nabor podatkov, ki ga bom tukaj uporabil, izvira iz kaggle.com. Tukaj lahko enostavno pridobite vse datoteke, ki jih uporabljam v tem delu Stran.
Začnimo z modeliranjem tem z uporabo Pythona z uvozom vseh bistvenih knjižnic:
Naslednji korak je branje vseh naborov podatkov, ki jih bom uporabil v tej nalogi:
Raziskovalne analize podatkov
EDA (Exploratory Data Analysis) je statistična metoda, ki uporablja vizualne elemente. Uporablja statistične povzetke in grafične predstavitve za odkrivanje trendov, vzorcev in preizkušanje predpostavk.
Preden začnem z modeliranjem teme, bom opravil raziskovalno analizo podatkov, da vidim, ali so v podatkih kakršni koli vzorci ali razmerja:
Zdaj bomo našli ničelne vrednosti testnega nabora podatkov:
Zdaj bom izrisal histogram in okvirni prikaz, da preverim razmerje med spremenljivkama.
Količina znakov v kompletu Abstracts of the Train se zelo razlikuje.
Na vlaku imamo najmanj 54 in največ 4551 znakov. 1065 je povprečno število znakov.
Preizkusni niz je videti bolj zanimiv kot učni niz, saj ima testni niz 46 znakov, medtem ko ima učni niz 2841.
Posledično je testni niz imel mediano 1058 znakov, kar je podobno kot učni niz.
Število besed v učnem kompletu sledi podobnemu vzorcu kot število črk.
Dovoljenih je najmanj 8 besed in največ 665 besed. Posledično je povprečno število besed 153.
Zahteva se najmanj sedem besed v izvlečku in največ 452 besed v testnem nizu.
Mediana je v tem primeru 153, kar je enako mediani v vadbenem nizu.
Uporaba oznak za modeliranje tem
Obstaja več strategij modeliranja tem. V tej vaji bom uporabil oznake; poglejmo, kako to storimo, tako da preučimo oznake:
Uporaba tematskega modeliranja
- Besedilni povzetek lahko uporabite za razločevanje teme dokumenta ali knjige.
- Uporablja se lahko za odstranitev pristranskosti kandidata pri točkovanju izpitov.
- Tematsko modeliranje se lahko uporabi za gradnjo semantičnih odnosov med besedami v modelih, ki temeljijo na grafih.
- Storitve za stranke lahko izboljša tako, da zazna ključne besede v strankinem povpraševanju in odgovori nanje. Stranke vam bodo bolj zaupale, saj ste jim zagotovili pomoč, ki jo potrebujejo, v pravem trenutku in ne da bi jim povzročali težave. Posledično se zvestoba strank dramatično poveča, vrednost podjetja pa se poveča.
zaključek
Tematsko modeliranje je neke vrste statistično modeliranje, ki se uporablja za odkrivanje abstraktnih "predmetov", ki obstajajo v zbirki besedil.
Je oblika statističnega modela, ki se uporablja v strojno učenje in obdelavo naravnega jezika za odkrivanje abstraktnih konceptov, ki obstajajo v nizu besedil.
To je metoda rudarjenja besedila, ki se pogosto uporablja za iskanje latentnih semantičnih vzorcev v osrednjem besedilu.
Pustite Odgovori