Efnisyfirlit[Fela][Sýna]
Ég er viss um að þú hefur heyrt um gervigreind, svo og orð eins og vélanám og náttúrulega málvinnslu (NLP).
Sérstaklega ef þú vinnur hjá fyrirtæki sem sér um hundruð ef ekki þúsundir viðskiptavina á hverjum degi.
Gagnagreining á færslum á samfélagsmiðlum, tölvupósti, spjalli, opnum könnunarsvörum og öðrum heimildum er ekki einfalt ferli og það verður enn erfiðara þegar það er eingöngu falið fólki.
Þess vegna eru margir áhugasamir um möguleika gervigreind fyrir dagleg störf sín og fyrir fyrirtæki.
AI-knúin textagreining notar fjölbreytt úrval af aðferðum eða reikniritum til að túlka tungumál lífrænt, ein þeirra er efnisgreining, sem er notuð til að uppgötva sjálfkrafa efni úr textum.
Fyrirtæki geta notað efnisgreiningarlíkön til að flytja auðveld störf yfir á vélar frekar en að of mikið af gögnum sé lagt á starfsmenn.
Íhugaðu hversu miklum tíma teymið þitt gæti sparað og varið í nauðsynlegri vinnu ef tölva gæti síað í gegnum endalausa lista yfir viðskiptavinakannanir eða stuðningsvandamál á hverjum morgni.
Í þessari handbók munum við skoða efnislíkanagerð, mismunandi aðferðir við efnislíkanagerð og fá smá reynslu af því.
Hvað er Topic Modeling?
Topic modeling er tegund af textanámu þar sem tölfræði án eftirlits og eftirlits vél nám Aðferðir eru notaðar til að greina þróun í málheild eða umtalsvert magn af ómótuðum texta.
Það getur tekið gríðarlegt safn skjala og notað svipaða aðferð til að raða orðunum í hugtakaklasa og uppgötva viðfangsefni.
Það virðist svolítið flókið og erfitt, svo við skulum einfalda málsmeðferðina!
Gerðu ráð fyrir að þú sért að lesa dagblað með sett af lituðum hápunktum í hendinni.
Er það ekki gamaldags?
Ég geri mér grein fyrir því að þessa dagana lesa fáir dagblöð á prenti; allt er stafrænt og hápunktarar heyra fortíðinni til! Þykist vera faðir þinn eða móðir!
Svo þegar þú lest dagblaðið dregur þú fram mikilvægu hugtökin.
Enn ein forsenda!
Þú notar annan lit til að leggja áherslu á leitarorð ýmissa þema. Þú flokkar leitarorðin eftir því hvaða lit og efni eru til staðar.
Hvert safn orða merkt með ákveðnum lit er listi yfir leitarorð fyrir tiltekið efni. Magn ýmissa lita sem þú valdir sýnir fjölda þema.
Þetta er grundvallaratriði líkanagerðarinnar. Það hjálpar til við skilning, skipulag og samantekt á stórum textasöfnum.
Hins vegar, hafðu í huga að til að vera áhrifarík þurfa sjálfvirk efnislíkön mikið efni. Ef þú ert með stutt blað gætirðu viljað fara í gamla skólann og nota highlighter!
Það er líka gott að eyða tíma í að kynnast gögnunum. Þetta mun gefa þér grunntilfinningu um hvað efnislíkanið ætti að finna.
Til dæmis gæti þessi dagbók verið um núverandi og fyrri sambönd þín. Þannig myndi ég búast við að vélmenni minn í textanámu kæmi með svipaðar hugmyndir.
Þetta getur hjálpað þér að greina betur gæði þeirra viðfangsefna sem þú hefur tilgreint og, ef nauðsyn krefur, fínstillt leitarorðasettin.
Þættir í Topic Modeling
Líkindalíkan
Slembibreytur og líkindadreifingar eru felldar inn í framsetningu atburðar eða fyrirbæris í líkindalíkönum.
Deterministic líkan gefur eina mögulega niðurstöðu fyrir atburð, en líkindalíkan gefur líkindadreifingu sem lausn.
Þessi líkön líta á raunveruleikann að við höfum sjaldan fullkomna þekkingu á aðstæðum. Það er næstum alltaf þáttur af handahófi sem þarf að huga að.
Til dæmis byggist líftrygging á þeim veruleika að við vitum að við munum deyja, en við vitum ekki hvenær. Þessi líkön gætu verið að hluta til ákveðin, að hluta til af handahófi eða algjörlega tilviljunarkennd.
Upplýsingaöflun
Information Retrieval (IR) er hugbúnaður sem skipuleggur, geymir, sækir og metur upplýsingar úr skjalageymslum, sérstaklega textaupplýsingar.
Tæknin hjálpar notendum að uppgötva þær upplýsingar sem þeir þurfa, en hún skilar ekki skýrum svörum við fyrirspurnum þeirra. Það tilkynnir um tilvist og staðsetningu pappíra sem geta veitt nauðsynlegar upplýsingar.
Viðeigandi skjöl eru þau sem uppfylla þarfir notandans. Gallalaust IR kerfi mun aðeins skila völdum skjölum.
Efni Samræmi
Efnissamræmi skorar eitt efni með því að reikna út hversu mikil merkingarfræðileg líkindi eru á milli hástiga efnisins. Þessar mælikvarðar hjálpa til við að greina á milli viðfangsefna sem eru merkingarlega túlkanleg og efnis sem eru tölfræðilegar ályktanir.
Ef hópur fullyrðinga eða staðreynda styður hver aðra eru þær sagðar samræmdar.
Þar af leiðandi er hægt að skilja samhangandi staðreyndir í samhengi sem nær yfir allar eða flestar staðreyndir. „Leikurinn er hópíþrótt,“ „leikurinn er leikinn með bolta,“ og „leikurinn krefst gríðarlegrar líkamlegrar áreynslu“ eru allt dæmi um samræmdar staðreyndir.
Mismunandi aðferðir við efnisgerð
Þetta mikilvæga ferli er hægt að framkvæma með ýmsum reikniritum eða aðferðafræði. Meðal þeirra eru:
- Duld Dirichlet úthlutun (LDA)
- Non Negative Matrix Factorization (NMF)
- Duld merkingargreining (LSA)
- Líkindafræðileg duld merkingargreining (pLSA)
Duld Dirichlet úthlutun (LDA)
Til að greina tengsl milli margra texta í málheild er tölfræðilega og myndræna hugmyndin um dulda Dirichlet úthlutun notað.
Með því að nota Variational Exception Maximization (VEM) nálgunina næst mesta líkindamatið úr öllum textahlutanum.
Hefð er fyrir því að efstu orðin úr poka af orðum eru valin.
Hins vegar er setningin algjörlega merkingarlaus.
Samkvæmt þessari tækni verður hver texti táknaður með líkindadreifingu á viðfangsefnum og hvert efni með líkindadreifingu orða.
Non Negative Matrix Factorization (NMF)
Fylki með óneikvæðum gildisþáttum er háþróaða eiginleikaútdráttaraðferð.
Þegar það eru margir eiginleikar og eiginleikarnir eru óljósir eða hafa lélega fyrirsjáanleika er NMF gagnleg. NMF getur búið til mikilvæg mynstur, viðfangsefni eða þemu með því að sameina eiginleika.
NMF býr til hverja eiginleika sem línulega samsetningu af upprunalegu eigindasettinu.
Hver eiginleiki inniheldur sett af stuðlum sem tákna mikilvægi hvers eigindar á eiginleikanum. Hver töluleg eiginleiki og hvert gildi hvers flokkareiginda hefur sinn eigin stuðul.
Allir stuðlarnir eru jákvæðir.
Duld merkingargreining
Það er önnur eftirlitslaus námsaðferð sem notuð er til að draga út tengsl milli orða í safni skjala er duld merkingarfræðileg greining.
Þetta hjálpar okkur að velja rétt skjöl. Meginhlutverk þess er að draga úr vídd hins gríðarlega gagnamagns texta.
Þessi óþarfa gögn þjóna sem bakgrunnshljóð við að fá nauðsynlega innsýn úr gögnunum.
Líkindafræðileg duld merkingargreining (pLSA)
Probabilistic duld merkingargreining (PLSA), stundum þekkt sem probabilistic duld merkingarfræði flokkun (PLSI, einkum í upplýsingaöflun hringi), er tölfræðileg aðferð til að greina tveggja-hama og samhliða gögn.
Í raun, svipað og dulda merkingargreiningu, sem PLSA kom upp úr, er hægt að fá lágvíddar framsetningu á þeim breytum sem skoðaðar hafa verið með tilliti til skyldleika þeirra við tilteknar faldar breytur.
Hands-on með Topic Modeling í Python
Nú mun ég leiða þig í gegnum verkefni fyrir líkanagerð með Python forritunarmál með því að nota raunverulegt dæmi.
Ég mun vera að móta rannsóknargreinar. Gagnapakkinn sem ég mun nota hér kemur frá kaggle.com. Þú getur auðveldlega nálgast allar skrárnar sem ég er að nota í þessu verki frá þessu síðu.
Við skulum byrja með Topic Modeling með því að nota Python með því að flytja inn öll nauðsynleg bókasöfn:
Eftirfarandi skref er að lesa öll gagnasöfnin sem ég mun nota í þessu verkefni:
Rannsóknargagnagreining
EDA (Exploratory Data Analysis) er tölfræðileg aðferð sem notar sjónræna þætti. Það notar tölfræðilegar samantektir og grafíska framsetningu til að uppgötva þróun, mynstur og prófa forsendur.
Ég mun gera smá könnunargagnagreiningu áður en ég byrja á efnislíkönum til að sjá hvort það eru einhver mynstur eða tengsl í gögnunum:
Nú munum við finna núllgildi prófunargagnagrunnsins:
Nú mun ég teikna sögurit og kassarit til að athuga sambandið milli breytanna.
Það er mjög mismunandi hversu margar persónur eru í settinu Abstracts of the Train.
Í lestinni höfum við að lágmarki 54 og að hámarki 4551 staf. 1065 er meðalfjöldi stafa.
Prófasettið lítur út fyrir að vera áhugaverðara en æfingasettið þar sem prófunarsettið hefur 46 stafi á meðan æfingasettið hefur 2841.
Fyrir vikið var miðgildi prófunarsettsins 1058 stafir, sem er svipað og þjálfunarsettið.
Fjöldi orða í námssettinu fylgir svipuðu mynstri og stafafjöldi.
Lágmark 8 orð og hámark 665 orð eru leyfileg. Þar af leiðandi er miðgildi orðafjölda 153.
Áskilið er að lágmarki sjö orð í útdrætti og að hámarki 452 orð í prófunarsetti.
Miðgildið í þessu tilfelli er 153, sem er eins og miðgildið í þjálfunarsettinu.
Notkun merkimiða fyrir efnisgerð
Það eru nokkrar aðferðir til að móta efnislíkana. Ég mun nota merki í þessari æfingu; við skulum skoða hvernig á að gera það með því að skoða merkin:
Notkun efnisgerðar
- Hægt er að nota textasamantekt til að greina efni skjals eða bókar.
- Það er hægt að nota til að fjarlægja hlutdrægni umsækjenda frá stigagjöf í prófum.
- Efnislíkanagerð gæti verið notuð til að byggja upp merkingarfræðileg tengsl milli orða í myndritum.
- Það getur aukið þjónustu við viðskiptavini með því að greina og svara leitarorðum í fyrirspurn viðskiptavinarins. Viðskiptavinir munu hafa meiri trú á þér þar sem þú hefur veitt þeim þá aðstoð sem þeir þurfa á viðeigandi augnabliki og án þess að valda þeim vandræðum. Fyrir vikið eykst tryggð viðskiptavina verulega og virði fyrirtækisins eykst.
Niðurstaða
Efnislíkan er eins konar tölfræðileg líkan sem notuð eru til að afhjúpa óhlutbundin „viðfangsefni“ sem eru til í safni texta.
Það er form af tölfræðilegu líkani sem notað er í vél nám og náttúruleg málvinnsla til að afhjúpa óhlutbundin hugtök sem eru til í safni texta.
Þetta er textanámsaðferð sem er mikið notuð til að finna duld merkingarmynstur í megintexta.
Skildu eftir skilaboð