Talaan ng nilalaman[Tago][Ipakita]
Sigurado akong narinig mo na ang artificial intelligence, gayundin ang mga salita tulad ng machine learning at natural language processing (NLP).
Lalo na kung nagtatrabaho ka sa isang firm na humahawak ng daan-daang, kung hindi libu-libo, ng mga contact ng kliyente araw-araw.
Ang pagsusuri ng data ng mga pag-post sa social media, email, chat, open-ended na mga tugon sa survey, at iba pang mapagkukunan ay hindi isang simpleng proseso, at ito ay nagiging mas mahirap kapag ipinagkatiwala lamang sa mga tao.
Kaya naman maraming tao ang masigasig sa potensyal ng artificial intelligence para sa kanilang pang-araw-araw na trabaho at para sa mga negosyo.
Gumagamit ang AI-powered text analysis ng malawak na hanay ng mga approach o algorithm upang bigyang-kahulugan ang wika sa organikong paraan, isa na rito ang pagsusuri ng paksa, na ginagamit upang awtomatikong tumuklas ng mga paksa mula sa mga teksto.
Ang mga negosyo ay maaaring gumamit ng mga modelo ng pagsusuri sa paksa upang maglipat ng mga madaling trabaho sa mga makina sa halip na mag-overburden sa mga manggagawa na may napakaraming data.
Isaalang-alang kung gaano karaming oras ang maaaring i-save at ilaan ng iyong team sa mas mahahalagang trabaho kung ang isang computer ay maaaring mag-filter sa walang katapusang mga listahan ng mga survey ng customer o mga isyu sa suporta tuwing umaga.
Sa gabay na ito, titingnan natin ang pagmomodelo ng paksa, iba't ibang paraan ng pagmomodelo ng paksa, at makakuha ng ilang hands-on na karanasan dito.
Ano ang Pagmomodelo ng Paksa?
Ang pagmomodelo ng paksa ay isang uri ng pagmimina ng teksto kung saan hindi pinangangasiwaan at pinangangasiwaan ang istatistika machine learning Ang mga diskarte ay ginagamit upang makita ang mga uso sa isang corpus o isang malaking dami ng hindi nakabalangkas na teksto.
Maaaring tumagal ang iyong napakalaking koleksyon ng mga dokumento at gumamit ng paraan ng pagkakatulad upang ayusin ang mga salita sa mga kumpol ng mga termino at tumuklas ng mga paksa.
Iyon ay tila medyo kumplikado at mahirap, kaya pasimplehin natin ang pamamaraan ng pagmomolde ng paksa!
Ipagpalagay na nagbabasa ka ng isang pahayagan na may isang hanay ng mga kulay na highlighter sa iyong kamay.
Hindi ba makaluma yan?
Napagtanto ko na sa mga araw na ito, kakaunti ang nagbabasa ng mga pahayagan na nakalimbag; lahat ay digital, at ang mga highlighter ay isang bagay ng nakaraan! Magpanggap na tatay o nanay mo!
Kaya, kapag nagbasa ka ng pahayagan, i-highlight mo ang mga mahahalagang termino.
Isa pang assumption!
Gumagamit ka ng ibang kulay upang bigyang-diin ang mga keyword ng iba't ibang tema. Ikategorya mo ang mga keyword depende sa ibinigay na kulay at mga paksa.
Ang bawat koleksyon ng mga salita na minarkahan ng isang tiyak na kulay ay isang listahan ng mga keyword para sa isang partikular na paksa. Ang dami ng iba't ibang kulay na pinili mo ay nagpapakita ng bilang ng mga tema.
Ito ang pinakapangunahing pagmomolde ng paksa. Nakakatulong ito sa pag-unawa, pagsasaayos, at pagbubuod ng malalaking koleksyon ng teksto.
Gayunpaman, tandaan na upang maging epektibo, ang mga modelo ng automated na paksa ay nangangailangan ng maraming nilalaman. Kung mayroon kang maikling papel, maaaring gusto mong pumunta sa lumang paaralan at gumamit ng mga highlighter!
Kapaki-pakinabang din na gumugol ng ilang oras upang malaman ang data. Bibigyan ka nito ng pangunahing kahulugan kung ano ang dapat mahanap ng modelo ng paksa.
Halimbawa, ang talaarawan na iyon ay maaaring tungkol sa iyong kasalukuyan at nakaraang mga relasyon. Kaya, inaasahan kong ang aking robot-buddy sa pagmimina ng teksto ay makabuo ng mga katulad na ideya.
Makakatulong ito sa iyong mas mahusay na pag-aralan ang kalidad ng mga paksang natukoy mo at, kung kinakailangan, i-tweak ang mga hanay ng keyword.
Mga Bahagi ng Pagmomodelo ng Paksa
Probabilistikong Modelo
Ang mga random na variable at probability distribution ay isinama sa representasyon ng isang kaganapan o phenomenon sa probabilistic na mga modelo.
Ang isang deterministikong modelo ay nagbibigay ng iisang potensyal na konklusyon para sa isang kaganapan, samantalang ang isang probabilistikong modelo ay nagbibigay ng probabilidad na pamamahagi bilang isang solusyon.
Isinasaalang-alang ng mga modelong ito ang katotohanan na bihira tayong magkaroon ng kumpletong kaalaman sa isang sitwasyon. Mayroong halos palaging isang elemento ng randomness upang isaalang-alang.
Halimbawa, ang seguro sa buhay ay nakabatay sa katotohanan na alam nating mamamatay tayo, ngunit hindi natin alam kung kailan. Ang mga modelong ito ay maaaring bahagyang deterministiko, bahagyang random, o ganap na random.
Pagkuha ng Impormasyon
Ang Information retrieval (IR) ay isang software program na nag-aayos, nag-iimbak, kumukuha, at nagsusuri ng impormasyon mula sa mga repositoryo ng dokumento, partikular na ang tekstong impormasyon.
Tinutulungan ng teknolohiya ang mga user na matuklasan ang impormasyong kailangan nila, ngunit hindi ito malinaw na naghahatid ng mga sagot sa kanilang mga katanungan. Inaabisuhan nito ang pagkakaroon at lokasyon ng mga papeles na maaaring magbigay ng kinakailangang impormasyon.
Ang mga nauugnay na dokumento ay ang mga nakakatugon sa mga pangangailangan ng gumagamit. Ang isang walang kapintasang IR system ay magbabalik lamang ng mga piling dokumento.
Pagkakaugnay-ugnay ng Paksa
Ang Pag-uugnay ng Paksa ay nagbibigay ng marka ng isang paksa sa pamamagitan ng pagkalkula ng antas ng pagkakatulad ng semantiko sa pagitan ng mga termino ng mataas na marka ng paksa. Nakakatulong ang mga sukatang ito sa pagkilala sa pagitan ng mga paksang naiintindihan ng semantiko at mga paksang mga artifact ng inference sa istatistika.
Kung ang isang grupo ng mga claim o katotohanan ay sumusuporta sa isa't isa, sila ay sinasabing magkakaugnay.
Bilang resulta, ang isang magkakaugnay na set ng katotohanan ay mauunawaan sa isang konteksto na sumasaklaw sa lahat o karamihan ng mga katotohanan. "Ang laro ay isang team sport," "ang laro ay nilalaro gamit ang isang bola," at "ang laro ay nangangailangan ng matinding pisikal na pagsisikap" ay lahat ng mga halimbawa ng magkakaugnay na set ng katotohanan.
Iba't ibang Paraan ng Pagmomodelo ng Paksa
Ang kritikal na pamamaraang ito ay maaaring isagawa sa pamamagitan ng iba't ibang mga algorithm o pamamaraan. Kabilang sa mga ito ay:
- Latent Dirichlet Allocation (LDA)
- Non Negative Matrix Factorization (NMF)
- Latent Semantic Analysis (LSA)
- Probabilistic Latent Semantic Analysis (pLSA)
Latent Dirichlet Allocation(LDA)
Upang makita ang mga ugnayan sa pagitan ng maraming teksto sa isang corpus, ginagamit ang istatistikal at graphical na konsepto ng Latent Dirichlet Allocation.
Gamit ang diskarteng Variational Exception Maximization (VEM), ang pinakamalaking pagtatantya ng posibilidad mula sa buong corpus ng teksto ay nakakamit.
Ayon sa kaugalian, pinipili ang mga nangungunang salita mula sa isang bag ng mga salita.
Gayunpaman, ang pangungusap ay ganap na walang kahulugan.
Ayon sa pamamaraang ito, ang bawat teksto ay kakatawanin ng isang probabilistikong pamamahagi ng mga paksa, at ang bawat paksa sa pamamagitan ng isang probabilistikong pamamahagi ng mga salita.
Non Negative Matrix Factorization(NMF)
Ang Matrix na may Non-Negative Values Factorization ay isang cutting-edge feature extraction approach.
Kapag mayroong maraming mga katangian at ang mga katangian ay malabo o may mahinang predictability, ang NMF ay kapaki-pakinabang. Ang NMF ay maaaring bumuo ng mga makabuluhang pattern, paksa, o tema sa pamamagitan ng pagsasama-sama ng mga katangian.
Binubuo ng NMF ang bawat feature bilang isang linear na kumbinasyon ng orihinal na set ng attribute.
Ang bawat tampok ay naglalaman ng isang hanay ng mga coefficient na kumakatawan sa kahalagahan ng bawat katangian sa tampok. Ang bawat numerical attribute at bawat value ng bawat category attribute ay may sarili nitong coefficient.
Ang lahat ng mga coefficient ay positibo.
Latent Semantic Analysis
Ito ay isa pang unsupervised learning method na ginagamit upang kunin ang mga asosasyon sa pagitan ng mga salita sa isang set ng mga dokumento ay ang latent semantic analysis.
Nakakatulong ito sa amin na pumili ng tamang mga dokumento. Ang pangunahing function nito ay upang bawasan ang dimensionality ng napakalaking corpus ng data ng text.
Ang mga hindi kinakailangang data na ito ay nagsisilbing ingay sa background sa pagkuha ng mga kinakailangang insight mula sa data.
Probabilistic Latent Semantic Analysis (pLSA)
Ang probabilistic latent semantic analysis (PLSA), kung minsan ay kilala bilang probabilistic latent semantic indexing (PLSI, lalo na sa information retrieval circles), ay isang istatistikal na diskarte para sa pagsusuri ng two-mode at co-occurrence na data.
Sa katunayan, katulad ng latent semantic analysis, kung saan lumitaw ang PLSA, ang isang mababang-dimensional na representasyon ng mga naobserbahang variable ay maaaring makuha sa mga tuntunin ng kanilang pagkakaugnay sa mga partikular na nakatagong variable.
Hands-on gamit ang Pagmomodelo ng Paksa sa Python
Ngayon, ituturo ko sa iyo ang isang assignment sa pagmomodelo ng paksa gamit ang Python programming language gamit ang isang tunay na halimbawa sa mundo.
Magmomodelo ako ng mga artikulo sa pananaliksik. Ang dataset na gagamitin ko dito ay mula sa kaggle.com. Madali mong makukuha ang lahat ng mga file na ginagamit ko sa gawaing ito mula dito pahina.
Magsimula tayo sa Pagmomodelo ng Paksa gamit ang Python sa pamamagitan ng pag-import ng lahat ng mahahalagang aklatan:
Ang sumusunod na hakbang ay basahin ang lahat ng mga dataset na gagamitin ko sa gawaing ito:
Pagtatasa ng Pagsusuri ng Data
Ang EDA (Exploratory Data Analysis) ay isang istatistikal na paraan na gumagamit ng mga visual na elemento. Gumagamit ito ng mga buod ng istatistika at mga graphical na representasyon upang tumuklas ng mga uso, pattern, at mga pagpapalagay sa pagsubok.
Magsasagawa ako ng ilang pagsusuri sa data ng paggalugad bago ko simulan ang pagmomodelo ng paksa upang makita kung mayroong anumang mga pattern o relasyon sa data:
Ngayon ay makikita natin ang mga null value ng test dataset:
Ngayon ay magpapaplano ako ng histogram at boxplot upang suriin ang kaugnayan sa pagitan ng mga variable.
Ang dami ng mga character sa Abstracts of the Train set ay lubhang nag-iiba.
Sa tren, mayroon kaming minimum na 54 at maximum na 4551 character. Ang 1065 ay ang karaniwang dami ng mga character.
Mukhang mas kawili-wili ang test set kaysa sa training set dahil ang test set ay may 46 character habang ang training set ay may 2841.
Bilang resulta, ang test set ay may median na 1058 character, na katulad ng training set.
Ang bilang ng mga salita sa set ng pag-aaral ay sumusunod sa isang katulad na pattern sa bilang ng mga titik.
Pinapayagan ang minimum na 8 salita at maximum na 665 salita. Bilang resulta, ang median na bilang ng salita ay 153.
Kinakailangan ang minimum na pitong salita sa abstract at maximum na 452 na salita sa test set.
Ang median, sa kasong ito, ay 153, na kapareho ng median sa set ng pagsasanay.
Paggamit ng Mga Tag para sa Pagmomodelo ng Paksa
Mayroong ilang mga diskarte sa pagmomodelo ng paksa. Gagamit ako ng mga tag sa pagsasanay na ito; tingnan natin kung paano gawin ito sa pamamagitan ng pagsusuri sa mga tag:
Mga Aplikasyon ng Pagmomodelo ng Paksa
- Maaaring gamitin ang buod ng teksto upang matukoy ang paksa ng isang dokumento o aklat.
- Maaari itong magamit upang alisin ang bias ng kandidato mula sa pagmamarka ng pagsusulit.
- Maaaring gamitin ang pagmomodelo ng paksa upang bumuo ng mga semantikong ugnayan sa pagitan ng mga salita sa mga modelong nakabatay sa graph.
- Mapapahusay nito ang serbisyo sa customer sa pamamagitan ng pagtukoy at pagtugon sa mga keyword sa pagtatanong ng kliyente. Ang mga customer ay magkakaroon ng higit na pananalig sa iyo dahil ibinigay mo sa kanila ang tulong na kailangan nila sa naaangkop na sandali at nang hindi nagdudulot sa kanila ng anumang abala. Bilang resulta, tumataas nang husto ang katapatan ng kliyente, at tumataas ang halaga ng kumpanya.
Konklusyon
Ang pagmomodelo ng paksa ay isang uri ng istatistikal na pagmomodelo na ginagamit upang tumuklas ng abstract na "mga paksa" na umiiral sa isang koleksyon ng mga teksto.
Ito ay isang anyo ng istatistikal na modelo na ginamit sa machine learning at natural na pagproseso ng wika upang matuklasan ang mga abstract na konsepto na umiiral sa isang set ng mga teksto.
Ito ay isang paraan ng pagmimina ng teksto na malawakang ginagamit upang mahanap ang mga nakatagong semantic pattern sa body text.
Mag-iwan ng Sagot