Sisällysluettelo[Piilottaa][Näytä]
Olen varma, että olet kuullut tekoälystä sekä sellaisista sanoista kuin koneoppiminen ja luonnollisen kielen käsittely (NLP).
Varsinkin jos työskentelet yrityksessä, joka käsittelee satoja, ellei tuhansia asiakaskontakteja päivittäin.
Sosiaalisen median julkaisujen, sähköpostien, chatien, avoimien kyselyvastausten ja muiden lähteiden data-analyysi ei ole yksinkertainen prosessi, ja se vaikeutuu entisestään, kun se uskotaan vain ihmisille.
Siksi monet ihmiset ovat innostuneita mahdollisuuksista tekoäly heidän päivittäiseen työhönsä ja yrityksille .
Tekoälypohjaisessa tekstianalyysissä käytetään laajaa valikoimaa lähestymistapoja tai algoritmeja kielen orgaaniseen tulkintaan, joista yksi on aiheanalyysi, jota käytetään automaattisesti aiheiden löytämiseen teksteistä.
Yritykset voivat käyttää aiheanalyysimalleja siirtääkseen helppoja töitä koneille sen sijaan, että ne rasittaisivat työntekijöitä liikaa datalla.
Harkitse, kuinka paljon aikaa tiimisi voisi säästää ja käyttää tärkeämpään työhön, jos tietokone voisi suodattaa loputtomat luettelot asiakaskyselyistä tai tukiongelmista joka aamu.
Tässä oppaassa tarkastelemme aihemallinnusta, erilaisia aihemallinnusmenetelmiä ja saamme siitä käytännön kokemusta.
Mitä on aihemallinnus?
Aihemallinnus on eräänlainen tekstinlouhinta, jossa valvomatonta ja valvottua tilastointia koneoppiminen tekniikoita käytetään havaitsemaan trendejä korpusissa tai merkittävässä määrin jäsentämätöntä tekstiä.
Se voi viedä valtavan dokumenttikokoelmasi ja käyttää samankaltaisuusmenetelmää sanojen järjestämiseen termiryhmiin ja aiheiden löytämiseen.
Se vaikuttaa hieman monimutkaiselta ja vaikealta, joten yksinkertaistetaan aiheen mallinnusmenettelyä!
Oletetaan, että luet sanomalehteä kädessäsi joukko värillisiä korostusmerkkejä.
Eikö se ole vanhanaikaista?
Ymmärrän, että nykyään harvat lukevat painettuja sanomalehtiä; kaikki on digitaalista, ja korostustuotteet ovat menneisyyttä! Esitä isäsi tai äitisi!
Joten kun luet sanomalehteä, korostat tärkeitä termejä.
Vielä yksi oletus!
Käytät eri sävyä korostaaksesi eri teemojen avainsanoja. Luokittelet avainsanat värin ja aiheiden mukaan.
Jokainen tietyllä värillä merkitty sanakokoelma on tietyn aiheen avainsanaluettelo. Valitsemiesi eri värien määrä näyttää teemojen määrän.
Tämä on kaikkein perustavanlaatuisin aihemallinnus. Se auttaa suurten tekstikokoelmien ymmärtämisessä, järjestämisessä ja yhteenvedossa.
Muista kuitenkin, että ollakseen tehokkaita, automaattiset aihemallit vaativat paljon sisältöä. Jos sinulla on lyhyt paperi, saatat haluta mennä vanhaan kouluun ja käyttää korostusvärejä!
On myös hyödyllistä käyttää jonkin aikaa dataan tutustumiseen. Tämä antaa sinulle peruskäsityksen siitä, mitä aihemallin pitäisi löytää.
Esimerkiksi päiväkirja voi kertoa nykyisestä ja aiemmista suhteistasi. Näin ollen odotan, että tekstikaivosrobotti-kaverini keksii samanlaisia ideoita.
Tämä voi auttaa sinua analysoimaan paremmin tunnistamiesi aiheiden laatua ja tarvittaessa muokata avainsanajoukkoja.
Aihemallinnuksen komponentit
Todennäköisyyspohjainen malli
Satunnaismuuttujat ja todennäköisyysjakaumat sisällytetään tapahtuman tai ilmiön esitykseen todennäköisyysmalleissa.
Deterministinen malli tarjoaa yksittäisen potentiaalisen päätelmän tapahtumalle, kun taas todennäköisyysmalli tarjoaa ratkaisuna todennäköisyysjakauman.
Näissä malleissa otetaan huomioon tosiasia, että meillä on harvoin täydellinen tieto tilanteesta. Melkein aina on otettava huomioon sattumanvaraisuus.
Esimerkiksi henkivakuutus perustuu todellisuuteen, että tiedämme kuolevamme, mutta emme tiedä milloin. Nämä mallit voivat olla osittain deterministisiä, osittain satunnaisia tai täysin satunnaisia.
Tietojen haku
Tiedonhaku (IR) on ohjelmisto, joka järjestää, tallentaa, hakee ja arvioi tietoja asiakirjavarastoista, erityisesti tekstitiedoista.
Tekniikka auttaa käyttäjiä löytämään tarvitsemansa tiedon, mutta se ei anna selkeää vastausta heidän kyselyihinsä. Se ilmoittaa sellaisten papereiden olemassaolosta ja sijainnista, jotka voivat tarjota tarvittavat tiedot.
Asiaankuuluvia asiakirjoja ovat ne, jotka vastaavat käyttäjän tarpeita. Virheetön IR-järjestelmä palauttaa vain valitut asiakirjat.
Aihe johdonmukaisuus
Aiheen johdonmukaisuus pisteyttää yhden aiheen laskemalla semanttisen samankaltaisuuden asteen aiheen parhaiden termien välillä. Nämä mittarit auttavat erottamaan aiheet, jotka ovat semanttisesti tulkittavissa, ja aiheet, jotka ovat tilastollisia päätelmiä.
Jos joukko väitteitä tai tosiasioita tukee toisiaan, niiden sanotaan olevan johdonmukaisia.
Tämän seurauksena yhtenäinen faktajoukko voidaan ymmärtää kontekstissa, joka kattaa kaikki tosiasiat tai suurimman osan niistä. "Peli on joukkuelaji", "peliä pelataan pallolla" ja "peli vaatii valtavaa fyysistä ponnistelua" ovat kaikki esimerkkejä yhtenäisistä faktakokonaisuuksista.
Erilaiset aihemallinnusmenetelmät
Tämä kriittinen toimenpide voidaan suorittaa useilla algoritmeilla tai menetelmillä. Niiden joukossa ovat:
- Latentti dirikletin allokointi (LDA)
- Ei-negatiivinen matriisifaktorointi (NMF)
- Piilevä semanttinen analyysi (LSA)
- Todennäköisyyspohjainen piilevä semanttinen analyysi (pLSA)
Piilevä Dirichlet-allokaatio (LDA)
Korpuksen useiden tekstien välisten suhteiden havaitsemiseksi käytetään piilevän Dirichlet-allokoinnin tilastollista ja graafista käsitettä.
Variational Exception Maximization (VEM) -lähestymistapaa käyttämällä saavutetaan suurin todennäköisyysarvio koko tekstikorpuksesta.
Perinteisesti sanapussin muutama suosituin sana valitaan.
Lause on kuitenkin täysin merkityksetön.
Tämän tekniikan mukaan jokainen teksti esitetään aiheiden todennäköisyysjakaumalla ja jokainen aihe todennäköisyydellä sanojen jakaumalla.
Ei-negatiivinen matriisifaktorointi (NMF)
Matriisi ei-negatiivisilla arvoilla Factorization on huippuluokan ominaisuuspoiminnan lähestymistapa.
Kun ominaisuuksia on monia ja ominaisuudet ovat epämääräisiä tai niillä on huono ennustettavuus, NMF on hyödyllinen. NMF voi luoda merkittäviä kuvioita, aiheita tai teemoja yhdistämällä ominaisuuksia.
NMF luo jokaisen ominaisuuden alkuperäisen attribuuttijoukon lineaarisena yhdistelmänä.
Jokainen ominaisuus sisältää joukon kertoimia, jotka edustavat ominaisuuden kunkin attribuutin tärkeyttä. Jokaisella numeerisella attribuutilla ja kunkin luokkaattribuutin arvolla on oma kertoimensa.
Kaikki kertoimet ovat positiivisia.
Piilevä semanttinen analyysi
Se on toinen valvomaton oppimismenetelmä, jota käytetään erottamaan assosiaatioita sanojen välillä asiakirjoista, on piilevä semanttinen analyysi.
Tämä auttaa meitä valitsemaan oikeat asiakirjat. Sen ensisijainen tehtävä on vähentää valtavan tekstidatan mittasuhteita.
Nämä tarpeettomat tiedot toimivat taustameluna, kun tiedoista saadaan tarvittavia oivalluksia.
Todennäköisyyspohjainen piilevä semanttinen analyysi (pLSA)
Todennäköisyyslatentti semanttinen analyysi (PLSA), joka joskus tunnetaan myös nimellä todennäköisyyslatentti semanttinen indeksointi (PLSI, erityisesti tiedonhakupiireissä), on tilastollinen lähestymistapa kahden tilan ja samanaikaisen esiintymisen tietojen analysointiin.
Itse asiassa, samoin kuin piilevä semanttinen analyysi, josta PLSA syntyi, havaittujen muuttujien matalaulotteinen esitys voidaan johtaa niiden affiniteetin suhteen tiettyihin piilotettuihin muuttujiin.
Käytännöllinen aihemallinnus Pythonissa
Nyt opastan sinut Pythonin aiheen mallinnustehtävän läpi ohjelmointikieli tosielämän esimerkkiä käyttäen.
Aion mallintaa tutkimusartikkeleita. Tietojoukko, jota aion käyttää täällä, on peräisin kaggle.com-sivustolta. Voit helposti hankkia kaikki tässä työssä käyttämäni tiedostot tästä sivulla.
Aloitetaan aihemallinnus Pythonilla tuomalla kaikki olennaiset kirjastot:
Seuraava vaihe on lukea kaikki tietojoukot, joita käytän tässä tehtävässä:
Tutkimusaineistoanalyysi
EDA (Exploratory Data Analysis) on tilastollinen menetelmä, joka käyttää visuaalisia elementtejä. Se käyttää tilastollisia yhteenvetoja ja graafisia esityksiä trendien, kuvioiden ja testioletusten löytämiseen.
Teen tutkivaa data-analyysiä ennen kuin aloitan aiheen mallintamisen nähdäkseni, onko tiedoissa kaavoja tai suhteita:
Nyt löydämme testitietojoukon nolla-arvot:
Nyt piirrän histogrammin ja boxplotin tarkistaakseni muuttujien välisen suhteen.
Abstracts of the Train -sarjan merkkien määrä vaihtelee suuresti.
Junassa meillä on vähintään 54 ja enintään 4551 merkkiä. 1065 on merkkien keskimääräinen määrä.
Testisarja näyttää kiinnostavammalta kuin harjoitussarja, koska testisarjassa on 46 merkkiä ja harjoitussarjassa 2841 merkkiä.
Tuloksena testisarjan mediaani oli 1058 merkkiä, mikä on samanlainen kuin harjoitussarjassa.
Sanojen lukumäärä oppimisjoukossa noudattaa samanlaista kaavaa kuin kirjainten määrä.
Vähintään 8 sanaa ja enintään 665 sanaa sallitaan. Seurauksena on, että sanamäärän mediaani on 153.
Vähintään seitsemän sanaa abstraktissa ja enintään 452 sanaa testisarjassa.
Mediaani tässä tapauksessa on 153, mikä on identtinen koulutussarjan mediaanin kanssa.
Tunnisteiden käyttö aiheen mallintamiseen
Aihemallinnusstrategioita on useita. Käytän tunnisteita tässä harjoituksessa; Katsotaanpa, miten se tehdään tarkastelemalla tunnisteita:
Aihemallinnuksen sovellukset
- Tekstiyhteenvetoa voidaan käyttää asiakirjan tai kirjan aiheen erottamiseen.
- Sitä voidaan käyttää poistamaan kokeen pisteytyksen ehdokasharha.
- Aihemallinnusta voidaan käyttää semanttisten suhteiden rakentamiseen sanojen välille graafipohjaisissa malleissa.
- Se voi parantaa asiakaspalvelua tunnistamalla asiakkaan kyselyn avainsanat ja vastaamalla niihin. Asiakkaat luottavat sinuun enemmän, koska olet tarjonnut heille heidän tarvitsemaansa apua oikealla hetkellä ja aiheuttamatta heille vaivaa. Tämän seurauksena asiakkaiden uskollisuus nousee dramaattisesti ja yrityksen arvo nousee.
Yhteenveto
Aihemallinnus on eräänlainen tilastollinen mallinnus, jota käytetään tekstikokoelmassa olevien abstraktien "aiheiden" paljastamiseen.
Se on eräs muodossa käytetystä tilastollisesta mallista koneoppiminen ja luonnollisen kielen prosessointi abstraktien käsitteiden paljastamiseksi, jotka esiintyvät tekstijoukossa.
Se on tekstinlouhintamenetelmä, jota käytetään laajalti piilevien semanttisten kuvioiden etsimiseen leipätekstistä.
Jätä vastaus