Kaundan[Itago][Ipakita]
Sigurado ko nga nakadungog ka bahin sa artificial intelligence, ingon man mga pulong sama sa pagkat-on sa makina ug pagproseso sa natural nga pinulongan (NLP).
Ilabi na kung nagtrabaho ka sa usa ka kompanya nga nagdumala sa gatusan, kung dili libu-libo, nga mga kontak sa kliyente kada adlaw.
Ang pag-analisa sa datos sa mga pag-post sa social media, email, chat, open-ended nga mga tubag sa survey, ug uban pang mga tinubdan dili usa ka yano nga proseso, ug kini mahimong mas lisud kung gisalig lamang sa mga tawo.
Mao nga daghang mga tawo ang madasigon bahin sa potensyal sa artipisyal nga intelligence nga alang sa ilang adlaw-adlaw nga trabaho ug alang sa mga negosyo .
Ang pagtuki sa teksto nga gipadagan sa AI naggamit sa usa ka halapad nga mga pamaagi o mga algorithm aron mahubad ang lengguwahe sa organikong paagi, usa niini ang pagtuki sa hilisgutan, nga gigamit aron awtomatiko nga makit-an ang mga hilisgutan gikan sa mga teksto.
Mahimong gamiton sa mga negosyo ang mga modelo sa pagtuki sa hilisgutan aron mabalhin ang dali nga mga trabaho sa mga makina kaysa mag-overburden sa mga trabahante nga adunay daghang datos.
Hunahunaa kung pila ka oras ang mahimo nga matipig ug igugol sa imong team sa labi ka hinungdanon nga trabaho kung ang usa ka kompyuter makasala sa walay katapusan nga mga lista sa mga survey sa kostumer o mga isyu sa suporta matag buntag.
Niini nga giya, atong tan-awon ang pagmodelo sa hilisgutan, lain-laing mga pamaagi sa pagmodelo sa hilisgutan, ug pagkuha og pipila ka hands-on nga kasinatian niini.
Unsa ang Pagmodelo sa Topic?
Ang pagmodelo sa topiko usa ka klase sa pagmina sa teksto diin wala gibantayan ug gibantayan nga istatistika pagkat-on sa makina gigamit ang mga teknik aron makit-an ang mga uso sa usa ka corpus o usa ka hinungdanon nga gidaghanon sa dili istruktura nga teksto.
Mahimong kuhaon ang imong daghang koleksyon sa mga dokumento ug mogamit usa ka pamaagi sa pagkaparehas aron mahan-ay ang mga pulong sa mga pungpong sa mga termino ug pagdiskubre sa mga hilisgutan.
Ingon og medyo komplikado ug lisud, busa pasimplehon nato ang pamaagi sa pagmodelo sa hilisgutan!
Hunahunaa nga nagbasa ka og mantalaan nga adunay usa ka hugpong sa mga kolor nga highlighter sa imong kamot.
Dili ba kini karaan na?
Nakaamgo ko nga niining mga adlawa, pipila ka mga tawo ang nagbasa sa mga mantalaan nga giimprinta; ang tanan digital, ug ang mga highlighter usa ka butang sa nangagi! Pagpakaaron-ingnon nga imong amahan o inahan!
Busa, kung magbasa ka sa mantalaan, imong gipasiugda ang hinungdanon nga mga termino.
Usa pa ka pangagpas!
Gigamit nimo ang lahi nga kolor aron ipasiugda ang mga keyword sa lainlaing mga tema. Gi-categorize nimo ang mga keyword depende sa gihatag nga kolor ug mga hilisgutan.
Ang matag koleksyon sa mga pulong nga gimarkahan sa usa ka piho nga kolor usa ka lista sa mga keyword alang sa gihatag nga hilisgutan. Ang gidaghanon sa lain-laing mga kolor nga imong gipili nagpakita sa gidaghanon sa mga tema.
Kini ang labing sukaranan nga pagmodelo sa hilisgutan. Nakatabang kini sa pagsabot, organisasyon, ug pagsumaryo sa dagkong mga koleksyon sa teksto.
Bisan pa, hinumdomi nga aron mahimong epektibo, ang mga awtomatikong modelo sa hilisgutan nanginahanglan daghang sulud. Kung ikaw adunay usa ka mubo nga papel, mahimo nimong moadto sa daan nga eskwelahan ug mogamit mga highlighter!
Mapuslanon usab ang paggahin ug panahon aron mahibal-an ang datos. Maghatag kini kanimo usa ka sukaranan nga pagsabut kung unsa ang kinahanglan makit-an sa modelo sa hilisgutan.
Pananglitan, kana nga diary mahimong bahin sa imong karon ug sa miaging mga relasyon. Sa ingon, gipaabut nako ang akong text mining robot-buddy nga makahimo og parehas nga mga ideya.
Makatabang kini kanimo nga mas maayo nga analisahon ang kalidad sa mga hilisgutan nga imong nahibal-an ug, kung kinahanglan, i-tweak ang mga set sa keyword.
Mga Bahagi sa Pagmodelo sa Hilisgutan
Probabilistikong Modelo
Ang mga random variable ug probability distributions gilakip sa representasyon sa usa ka panghitabo o panghitabo sa probabilistic nga mga modelo.
Ang usa ka deterministikong modelo naghatag ug usa ka potensyal nga konklusyon alang sa usa ka panghitabo, samtang ang usa ka probabilistikong modelo naghatag ug probability distribution isip solusyon.
Giisip niini nga mga modelo ang kamatuoran nga panagsa ra nga kita adunay kompleto nga kahibalo sa usa ka sitwasyon. Adunay halos kanunay nga usa ka elemento sa randomness nga tagdon.
Pananglitan, ang seguro sa kinabuhi gibase sa reyalidad nga nahibal-an naton nga mamatay kita, apan wala naton nahibal-an kung kanus-a. Kini nga mga modelo mahimong partially deterministic, partially random, o hingpit nga random.
Pagkuha sa Impormasyon
Ang Information retrieval (IR) usa ka software program nga nag-organisar, nagtipig, nagkuha, ug nagtimbang-timbang sa impormasyon gikan sa mga repositoryo sa dokumento, ilabi na sa impormasyon sa teksto.
Ang teknolohiya nagtabang sa mga tiggamit sa pagdiskobre sa impormasyon nga ilang gikinahanglan, apan kini dili tin-aw nga naghatag sa mga tubag sa ilang mga pangutana. Gipahibalo niini ang presensya ug lokasyon sa mga papel nga makahatag sa gikinahanglan nga kasayuran.
Ang mga may kalabotan nga dokumento mao kadtong makatubag sa mga panginahanglanon sa tiggamit. Ang walay kasaypanan nga sistema sa IR magbalik lamang sa pinili nga mga dokumento.
Paghiusa sa Hilisgutan
Ang Topic Coherence nag-iskor og usa ka hilisgutan pinaagi sa pagkalkulo sa lebel sa pagkaparehas sa semantiko tali sa mga termino nga adunay taas nga marka sa hilisgutan. Kini nga mga sukatan makatabang sa pag-ila tali sa mga hilisgutan nga mahubad sa semantiko ug mga hilisgutan nga mga artifact sa inference sa istatistika.
Kung ang usa ka grupo sa mga pag-angkon o mga kamatuoran nagsuporta sa usag usa, kini giingon nga managsama.
Ingon nga resulta, ang usa ka nagkahiusa nga hugpong sa kamatuoran mahimong masabtan sa usa ka konteksto nga naglangkob sa tanan o kadaghanan sa mga kamatuoran. "Ang dula usa ka team sport," "ang dula dulaon gamit ang bola," ug "ang dula nanginahanglan ug grabe nga pisikal nga paningkamot" tanan mga pananglitan sa nagkahiusa nga mga set sa kamatuoran.
Lainlaing Pamaagi sa Pagmodelo sa Hilisgutan
Kini nga kritikal nga pamaagi mahimo nga himuon sa lainlaing mga algorithm o pamaagi. Lakip kanila mao ang:
- Tinago nga Dirichlet Allocation (LDA)
- Dili Negatibo nga Matrix Factorization (NMF)
- Latent Semantic Analysis (LSA)
- Probabilistic Latent Semantic Analysis(pLSA)
Tinago nga Dirichlet Allocation(LDA)
Aron mahibal-an ang mga relasyon tali sa daghang mga teksto sa usa ka corpus, gigamit ang estadistika ug graphical nga konsepto sa Latent Dirichlet Allocation.
Gamit ang Variational Exception Maximization (VEM) nga pamaagi, ang labing dako nga posibilidad nga banabana gikan sa tibuuk nga corpus sa teksto makab-ot.
Sa naandan, ang nag-una nga pipila ka mga pulong gikan sa usa ka bag sa mga pulong gipili.
Apan, ang sentensiya hingpit nga walay kahulogan.
Sumala sa kini nga teknik, ang matag teksto irepresentar sa usa ka probabilistikong pag-apod-apod sa mga hilisgutan, ug ang matag hilisgutan pinaagi sa usa ka probabilistikong pag-apod-apod sa mga pulong.
Dili Negatibo nga Matrix Factorization (NMF)
Ang Matrix nga adunay Non-Negative Values Factorization usa ka cutting-edge feature extraction approach.
Kung adunay daghang mga kalidad ug ang mga hiyas dili klaro o adunay dili maayo nga pagkatag-an, ang NMF mapuslanon. Ang NMF makamugna ug mahinungdanong mga sumbanan, mga hilisgutan, o mga tema pinaagi sa paghiusa sa mga kinaiya.
Ang NMF nagmugna sa matag feature isip usa ka linear nga kombinasyon sa orihinal nga attribute set.
Ang matag feature adunay usa ka set sa coefficients nga nagrepresentar sa importansya sa matag attribute sa feature. Ang matag numerical attribute ug ang matag value sa matag category attribute adunay kaugalingong coefficient.
Ang tanan nga mga coefficients positibo.
Tinago nga Pagtuki sa Semantiko
Kini mao ang laing unsupervised nga paagi sa pagkat-on nga gigamit sa pagkuha sa mga asosasyon tali sa mga pulong sa usa ka hugpong sa mga dokumento mao ang tinago nga semantic analysis.
Makatabang kini kanamo sa pagpili sa tukma nga mga dokumento. Ang nag-unang gimbuhaton niini mao ang pagpakunhod sa dimensionality sa dako nga corpus sa text data.
Kini nga wala kinahanglana nga datos nagsilbi nga kasaba sa background sa pagkuha sa kinahanglan nga mga panabut gikan sa datos.
Probabilistic Latent Semantic Analysis(pLSA)
Ang probabilistic latent semantic analysis (PLSA), usahay nailhan nga probabilistic latent semantic indexing (PLSI, ilabina sa information retrieval circles), usa ka statistical approach para sa pag-analisar sa duha ka mode ug co-occurrence data.
Sa pagkatinuod, susama sa tinago nga pagtuki sa semantiko, diin ang PLSA mitumaw, ang usa ka ubos nga dimensyon nga representasyon sa naobserbahan nga mga baryable mahimong makuha sa termino sa ilang pagkalambigit sa partikular nga mga tinago nga mga baryable.
Hands-on sa Pagmodelo sa Topic sa Python
Karon, giyahi ko ikaw pinaagi sa usa ka assignment sa pagmodelo sa hilisgutan nga adunay Python programming nga pinulongan gamit ang tinuod nga kalibutan nga pananglitan.
Magmodelo ko sa mga artikulo sa panukiduki. Ang dataset nga akong gamiton dinhi gikan sa kaggle.com. Dali nimong makuha ang tanan nga mga file nga akong gigamit sa kini nga trabaho gikan niini panid.
Magsugod kita sa Pagmodelo sa Topic gamit ang Python pinaagi sa pag-import sa tanan nga hinungdanon nga mga librarya:
Ang mosunod nga lakang mao ang pagbasa sa tanang mga dataset nga akong gamiton niini nga buluhaton:
Pagtuki sa Data sa Eksploratory
Ang EDA (Exploratory Data Analysis) usa ka estadistika nga pamaagi nga naggamit sa mga visual nga elemento. Gigamit niini ang mga summary sa istatistika ug mga graphical nga representasyon aron madiskubre ang mga uso, sumbanan, ug pagsulay nga mga pangagpas.
Maghimo ako pipila ka pagsusi sa datos sa pagsusi sa dili pa ako magsugod sa pagmodelo sa hilisgutan aron makita kung adunay bisan unsang mga sumbanan o relasyon sa datos:
Karon atong makit-an ang null values sa test dataset:
Karon magplano ako og histogram ug boxplot aron masusi ang relasyon tali sa mga variable.
Ang gidaghanon sa mga karakter sa Abstracts of the Train set managlahi kaayo.
Sa tren, kami adunay labing gamay nga 54 ug labing taas nga 4551 nga mga karakter. Ang 1065 mao ang kasagaran nga gidaghanon sa mga karakter.
Ang set sa pagsulay tan-awon nga labi ka makapaikag kaysa sa set sa pagbansay tungod kay ang set sa pagsulay adunay 46 nga mga karakter samtang ang set sa pagbansay adunay 2841.
Ingon usa ka sangputanan, ang set sa pagsulay adunay median nga 1058 nga mga karakter, nga parehas sa set sa pagbansay.
Ang gidaghanon sa mga pulong sa set sa pagkat-on nagsunod sa susama nga sumbanan sa gidaghanon sa mga letra.
Gitugotan ang labing gamay nga 8 nga mga pulong ug labing taas nga 665 nga mga pulong. Ingon usa ka sangputanan, ang median nga ihap sa pulong mao ang 153.
Kinahanglan ang labing gamay nga pito ka mga pulong sa abstract ug labing taas nga 452 nga mga pulong sa set sa pagsulay.
Ang median, sa kini nga kaso, mao ang 153, nga parehas sa median sa set sa pagbansay.
Paggamit sa mga Tag alang sa Pagmodelo sa Hilisgutan
Adunay daghang mga estratehiya sa pagmodelo sa hilisgutan. Gamiton nako ang mga tag niini nga ehersisyo; atong tan-awon kon unsaon pagbuhat niini pinaagi sa pagsusi sa mga tag:
Mga Aplikasyon sa Pagmodelo sa Hilisgutan
- Ang usa ka summary sa teksto mahimong magamit sa pag-ila sa hilisgutan sa usa ka dokumento o libro.
- Mahimo kini gamiton aron matangtang ang bias sa kandidato gikan sa pag-iskor sa pasulit.
- Ang pagmodelo sa topiko mahimong gamiton sa paghimog semantiko nga mga relasyon tali sa mga pulong sa mga modelo nga gibase sa graph.
- Makapauswag kini sa serbisyo sa kustomer pinaagi sa pag-ila ug pagtubag sa mga keyword sa pangutana sa kliyente. Ang mga kustomer adunay dugang nga pagsalig kanimo tungod kay gihatagan nimo sila sa tabang nga ilang gikinahanglan sa tukma nga higayon ug wala’y hinungdan sa bisan unsang kasamok. Ingon usa ka sangputanan, ang pagkamaunongon sa kliyente motaas pag-ayo, ug ang kantidad sa kompanya nagdugang.
Panapos
Ang pagmodelo sa topiko usa ka matang sa pagmodelo sa istatistika nga gigamit sa pagdiskubre sa abstract nga "mga hilisgutan" nga anaa sa usa ka koleksyon sa mga teksto.
Kini usa ka porma sa istatistikal nga modelo nga gigamit sa pagkat-on sa makina ug natural nga pagproseso sa pinulongan aron madiskobrehan ang abstract nga mga konsepto nga anaa sa usa ka hugpong sa mga teksto.
Kini usa ka paagi sa pagmina sa teksto nga kaylap nga gigamit aron makit-an ang tinago nga mga pattern sa semantiko sa teksto sa lawas.
Leave sa usa ka Reply