Sadržaj[Sakrij][Prikaži]
Siguran sam da ste čuli za umjetnu inteligenciju, kao i za riječi poput mašinskog učenja i obrade prirodnog jezika (NLP).
Pogotovo ako radite za firmu koja svakodnevno obrađuje stotine, ako ne i hiljade kontakata sa klijentima.
Analiza podataka objava na društvenim mrežama, e-pošte, četovanja, odgovora na otvorene ankete i drugih izvora nije jednostavan proces, a postaje još teži kada se povjerava samo ljudima.
Zato su mnogi ljudi oduševljeni potencijalom umjetne inteligencije za njihov svakodnevni rad i za preduzeća.
Analiza teksta zasnovana na umjetnoj inteligenciji koristi širok spektar pristupa ili algoritama za organsko tumačenje jezika, od kojih je jedna analiza tema, koja se koristi za automatsko otkrivanje tema iz tekstova.
Preduzeća mogu koristiti modele analize tema kako bi prenijeli lake poslove na mašine umjesto da preopterećuju radnike previše podataka.
Razmislite koliko bi vremena vaš tim mogao uštedjeti i posvetiti važnijim poslovima kada bi računar svakog jutra mogao filtrirati kroz beskonačne liste anketa kupaca ili pitanja podrške.
U ovom vodiču ćemo razmotriti modeliranje tema, različite metode modeliranja tema i steći neko praktično iskustvo s tim.
Šta je tematsko modeliranje?
Tematsko modeliranje je vrsta rudarenja teksta u kojoj se vrši nenadgledana i nadzirana statistika mašinsko učenje tehnike se koriste za otkrivanje trendova u korpusu ili značajnom obimu nestrukturiranog teksta.
Može potrajati vaša ogromna kolekcija dokumenata i koristiti metodu sličnosti za slaganje riječi u grupe pojmova i otkrivanje tema.
To izgleda malo složeno i teško, pa hajde da pojednostavimo postupak modeliranja predmeta!
Pretpostavimo da čitate novine sa setom markera u boji u ruci.
Nije li to staromodno?
Shvaćam da ovih dana malo ljudi čita novine u štampi; sve je digitalno, a highlighteri su prošlost! Pretvaraj se da si tvoj otac ili majka!
Dakle, kada čitate novine, ističete važne pojmove.
Još jedna pretpostavka!
Koristite različite nijanse da biste naglasili ključne riječi različitih tema. Kategorizirate ključne riječi u zavisnosti od ponuđene boje i tema.
Svaka kolekcija riječi označenih određenom bojom je lista ključnih riječi za datu temu. Količina različitih boja koje ste odabrali pokazuje broj tema.
Ovo je najosnovnije modeliranje tema. Pomaže u razumijevanju, organizaciji i sažimanju velikih zbirki tekstova.
Međutim, imajte na umu da automatizirani tematski modeli zahtijevaju puno sadržaja da bi bili efikasni. Ako imate kratak rad, možda biste željeli otići u staru školu i koristiti highlightere!
Također je korisno potrošiti neko vrijeme na upoznavanje podataka. Ovo će vam dati osnovni uvid u ono što bi tematski model trebao pronaći.
Na primjer, taj dnevnik može biti o vašim sadašnjim i prethodnim vezama. Stoga bih očekivao da će moj robot-prijatelj za rudarenje teksta doći do sličnih ideja.
Ovo vam može pomoći da bolje analizirate kvalitet tema koje ste identificirali i, ako je potrebno, prilagodite skupove ključnih riječi.
Komponente tematskog modeliranja
Vjerovatni model
Slučajne varijable i distribucije vjerovatnoće su ugrađene u reprezentaciju događaja ili fenomena u vjerovatnostnim modelima.
Deterministički model daje jedan potencijalni zaključak za događaj, dok probabilistički model daje distribuciju vjerovatnoće kao rješenje.
Ovi modeli uzimaju u obzir stvarnost da rijetko imamo potpuno znanje o situaciji. Gotovo uvijek postoji element slučajnosti koji treba uzeti u obzir.
Na primjer, životno osiguranje je zasnovano na stvarnosti da znamo da ćemo umrijeti, ali ne znamo kada. Ovi modeli mogu biti djelomično deterministički, djelimično slučajni ili potpuno slučajni.
Informativno pretraživanje
Dohvaćanje informacija (IR) je softverski program koji organizira, pohranjuje, preuzima i procjenjuje informacije iz spremišta dokumenata, posebno tekstualne informacije.
Tehnologija pomaže korisnicima da otkriju informacije koje su im potrebne, ali ne daje jasne odgovore na njihove upite. Obavještava o prisutnosti i lokaciji papira koji mogu pružiti potrebne informacije.
Relevantni dokumenti su oni koji zadovoljavaju potrebe korisnika. Besprekoran IR sistem će vratiti samo odabrane dokumente.
Koherencija teme
Koherentnost teme boduje jednu temu izračunavanjem stepena semantičke sličnosti između pojmova teme sa visokim rezultatom. Ove metrike pomažu u razlikovanju subjekata koji se semantički interpretiraju i tema koje su artefakti statističkog zaključivanja.
Ako grupa tvrdnji ili činjenica podržava jedna drugu, kaže se da su koherentne.
Kao rezultat toga, kohezivni skup činjenica može se razumjeti u kontekstu koji obuhvata sve ili većinu činjenica. „Igra je timski sport“, „igra se igra sa loptom“ i „igra zahteva ogroman fizički napor“ sve su to primeri kohezivnog skupa činjenica.
Različite metode tematskog modeliranja
Ova kritična procedura se može izvesti pomoću raznih algoritama ili metodologija. Među njima su:
- Latentna Dirichletova alokacija (LDA)
- Faktorizacija bez negativne matrice (NMF)
- Latentna semantička analiza (LSA)
- Probabilistička latentna semantička analiza (pLSA)
Latentna Dirichletova alokacija (LDA)
Za otkrivanje odnosa između više tekstova u korpusu koristi se statistički i grafički koncept Latentne Dirichletove alokacije.
Koristeći pristup maksimizacije varijacije izuzetaka (VEM), postiže se najveća procjena vjerovatnoće iz cijelog korpusa teksta.
Tradicionalno se bira prvih nekoliko riječi iz vrećice riječi.
Međutim, rečenica je potpuno besmislena.
Prema ovoj tehnici, svaki tekst će biti predstavljen probabilističkom distribucijom predmeta, a svaka tema vjerovatnostom distribucije riječi.
Faktorizacija bez negativne matrice (NMF)
Matrica sa faktorizacijom nenegativnih vrijednosti je vrhunski pristup ekstrakcije karakteristika.
Kada postoji mnogo kvaliteta i atributi su nejasni ili imaju lošu predvidljivost, NMF je koristan. NMF može generirati značajne obrasce, subjekte ili teme kombinacijom karakteristika.
NMF generiše svaku karakteristiku kao linearnu kombinaciju originalnog skupa atributa.
Svaka karakteristika sadrži skup koeficijenata koji predstavljaju važnost svakog atributa na osobini. Svaki numerički atribut i svaka vrijednost svakog atributa kategorije ima svoj koeficijent.
Svi koeficijenti su pozitivni.
Latentna semantička analiza
Još jedna metoda učenja bez nadzora koja se koristi za izdvajanje asocijacija između riječi u skupu dokumenata je latentna semantička analiza.
To nam pomaže da odaberemo prave dokumente. Njegova primarna funkcija je smanjenje dimenzionalnosti ogromnog korpusa tekstualnih podataka.
Ovi nepotrebni podaci služe kao pozadinska buka u sticanju potrebnih uvida iz podataka.
Probabilistička latentna semantička analiza (pLSA)
Probabilistička latentna semantička analiza (PLSA), ponekad poznata kao vjerovatnoća latentno semantičko indeksiranje (PLSI, posebno u krugovima za pronalaženje informacija), je statistički pristup za analizu podataka o dva načina i istovremenog pojavljivanja.
Zapravo, slično latentnoj semantičkoj analizi, iz koje je proizašla PLSA, niskodimenzionalni prikaz promatranih varijabli može se izvesti u smislu njihovog afiniteta prema određenim skrivenim varijablama.
Praktično sa modeliranjem tema u Pythonu
Sada ću vas provesti kroz predmetno modeliranje sa Pythonom programski jezik koristeći primjer iz stvarnog svijeta.
Ja ću modelirati istraživačke članke. Skup podataka koji ću ovdje koristiti dolazi sa kaggle.com. Iz ovoga možete lako dobiti sve datoteke koje koristim u ovom radu Strana.
Započnimo s modeliranjem tema koristeći Python uvozom svih osnovnih biblioteka:
Sljedeći korak je čitanje svih skupova podataka koje ću koristiti u ovom zadatku:
Eksploratorna analiza podataka
EDA (Exploratory Data Analysis) je statistička metoda koja koristi vizuelne elemente. Koristi statističke sažetke i grafičke prikaze da otkrije trendove, obrasce i pretpostavke testiranja.
Napravit ću istraživačku analizu podataka prije nego što počnem s modeliranjem teme da vidim postoje li obrasci ili odnosi u podacima:
Sada ćemo pronaći null vrijednosti testnog skupa podataka:
Sada ću nacrtati histogram i boxplot da provjerim odnos između varijabli.
Količina znakova u skupu sažetaka voza uvelike varira.
U vozu imamo minimalno 54, a maksimalno 4551 karakter. 1065 je prosječna količina znakova.
Skup za testiranje izgleda zanimljiviji od skupa za obuku jer testni set ima 46 karaktera, dok set za obuku ima 2841.
Kao rezultat toga, testni set je imao medijanu od 1058 karaktera, što je slično skupu za obuku.
Broj riječi u skupu za učenje slijedi sličan obrazac kao i broj slova.
Dozvoljeno je najmanje 8 riječi i maksimalno 665 riječi. Kao rezultat toga, srednji broj riječi je 153.
Potrebno je najmanje sedam riječi u sažetku i maksimalno 452 riječi u testnom skupu.
Medijan, u ovom slučaju, je 153, što je identično medijani u skupu za obuku.
Korištenje oznaka za tematsko modeliranje
Postoji nekoliko strategija modeliranja tema. Koristiću oznake u ovoj vježbi; pogledajmo kako to učiniti tako što ćemo ispitati oznake:
Primjena tematskog modeliranja
- Tekstualni sažetak može se koristiti za razlučivanje teme dokumenta ili knjige.
- Može se koristiti za uklanjanje pristrasnosti kandidata iz bodovanja ispita.
- Modeliranje tema može se koristiti za izgradnju semantičkih odnosa između riječi u modelima zasnovanim na grafovima.
- Može poboljšati korisničku uslugu otkrivanjem i odgovaranjem na ključne riječi u klijentovom upitu. Kupci će imati više povjerenja u vas jer ste im pružili pomoć koja im je potrebna u odgovarajućem trenutku i bez ikakvih problema. Kao rezultat toga, lojalnost klijenata dramatično raste, a vrijednost kompanije raste.
zaključak
Tematsko modeliranje je vrsta statističkog modeliranja koji se koristi za otkrivanje apstraktnih „subjekata“ koji postoje u zbirci tekstova.
To je oblik statističkog modela koji se koristi u mašinsko učenje i obrada prirodnog jezika kako bi se otkrili apstraktni koncepti koji postoje u skupu tekstova.
To je metoda rudarenja teksta koja se široko koristi za pronalaženje latentnih semantičkih obrazaca u tekstu.
Ostavite odgovor