Table of Contents[Kache][Montre]
Mwen sèten ou te tande pale de entèlijans atifisyèl, osi byen ke mo tankou aprantisaj machin ak pwosesis lang natirèl (NLP).
Espesyalman si w ap travay pou yon konpayi ki okipe plizyè santèn, si se pa dè milye, kontak kliyan chak jou.
Analiz done sou afichaj medya sosyal yo, imèl, chat, repons sondaj ouvè, ak lòt sous se pa yon pwosesis senp, epi li vin menm pi difisil lè yo konfye sèlman nan moun.
Se poutèt sa anpil moun yo trè chofe osijè de potansyèl de atifisyèl entèlijans pou travay chak jou yo ak pou antrepriz yo.
Analiz tèks ki mache ak AI itilize yon pakèt apwòch oswa algoritm pou entèprete langaj òganikman, youn nan yo se analiz sijè, ki itilize otomatikman dekouvri sijè ki soti nan tèks yo.
Biznis yo ka itilize modèl analiz sijè pou transfere travay fasil sou machin olye pou yo chaje travayè yo ak twòp done.
Konsidere konbyen tan ekip ou a ta ka ekonomize ak konsakre nan plis travay esansyèl si yon òdinatè ta ka filtre nan lis kontinuèl nan sondaj kliyan oswa pwoblèm sipò chak maten.
Nan gid sa a, nou pral gade nan modèl sijè, diferan metòd nan modèl sijè, epi jwenn kèk eksperyans pratik ak li.
Ki sa ki Modèl sijè?
Modèl sijè se yon kalite min tèks nan ki san sipèvizyon ak sipèvize estatistik aprantisaj machin teknik yo itilize pou detekte tandans nan yon corpus oswa yon volim enpòtan nan tèks ki pa estriktire.
Li ka pran gwo koleksyon dokiman ou epi sèvi ak yon metòd resanblans pou fè aranjman pou mo yo an gwoup tèm epi dekouvri sijè.
Sa sanble yon ti kras konplèks ak difisil, kidonk ann senplifye pwosedi modèl sijè a!
Sipoze w ap li yon jounal ak yon seri en koulè nan men ou.
Èske sa pa fin vye granmoun alamòd?
Mwen reyalize ke jou sa yo, kèk moun li jounal nan enprime; tout bagay se dijital, ak highlighters yo se yon bagay ki sot pase a! Fè kòmsi w se papa w oswa manman w!
Kidonk, lè ou li jounal la, ou mete aksan sou tèm enpòtan yo.
Yon lòt sipozisyon!
Ou itilize yon koulè diferan pou mete aksan sou mo kle divès tèm. Ou kategorize mo kle yo depann sou koulè yo bay ak sijè yo.
Chak koleksyon mo ki make pa yon koulè sèten se yon lis mo kle pou yon sijè bay yo. Kantite koulè divès kalite ou chwazi a montre kantite tèm yo.
Sa a se modèl sijè ki pi fondamantal. Li ede nan konpreyansyon, òganizasyon, ak rezime nan koleksyon tèks gwo.
Sepandan, kenbe nan tèt ou ke yo dwe efikas, modèl sijè otomatik mande pou anpil kontni. Si ou gen yon papye kout, ou ta ka vle ale nan ansyen lekòl epi sèvi ak en!
Li itil tou pou w pase kèk tan pou w konnen done yo. Sa a pral ba ou yon sans debaz sou sa ki modèl sijè a ta dwe jwenn.
Pa egzanp, jounal sa a ka pale sou relasyon ou genyen kounye a ak relasyon anvan yo. Kidonk, mwen ta antisipe tèks min robot-buddy mwen an vini ak lide ki sanble.
Sa ka ede ou pi byen analize kalite sijè ou te idantifye yo epi, si sa nesesè, ajiste seri mo kle yo.
Eleman Modèl Sijè
Modèl pwobabilite
Varyab o aza ak distribisyon pwobabilite yo enkòpore nan reprezantasyon an nan yon evènman oswa fenomèn nan modèl pwobabilite.
Yon modèl detèminist bay yon sèl konklizyon potansyèl pou yon evènman, tandiske yon modèl pwobabilite bay yon distribisyon pwobabilite kòm yon solisyon.
Modèl sa yo konsidere reyalite a ke nou raman gen konesans konplè sou yon sitiyasyon. Gen prèske toujou yon eleman nan owaza yo konsidere.
Pa egzanp, asirans vi baze sou reyalite a ke nou konnen nou pral mouri, men, nou pa konnen ki lè. Modèl sa yo ta ka pasyèlman detèminist, pasyèlman o aza, oswa totalman o aza.
Rekipere enfòmasyon
Rekiperasyon enfòmasyon (IR) se yon pwogram lojisyèl ki òganize, estoke, rekipere, ak evalye enfòmasyon ki soti nan depo dokiman, patikilyèman enfòmasyon tèks.
Teknoloji a ede itilizatè yo dekouvri enfòmasyon yo bezwen, men li pa klèman bay repons pou kesyon yo. Li fè konnen prezans ak kote papye ki ka bay enfòmasyon ki nesesè yo.
Dokiman ki enpòtan yo se sa ki satisfè bezwen itilizatè a. Yon sistèm IR san fay ap retounen sèlman dokiman chwazi yo.
Koerans sijè
Topic Coherence fè nòt yon sèl sijè lè li kalkile degre resanblans semantik ant tèm ki gen gwo nòt sijè a. Paramèt sa yo ede yo fè distenksyon ant sijè ki entèprete semantik ak sijè ki se zafè enferans estatistik.
Si yon gwoup reklamasyon oswa reyalite sipòte youn ak lòt, yo di yo dwe aderan.
Kòm yon rezilta, yon seri reyalite limenm ka konprann nan yon kontèks ki anglobe tout oswa majorite nan reyalite yo. "Jwèt la se yon espò ekip," "jwèt la jwe ak yon boul," ak "jwèt la mande anpil efò fizik" se tout egzanp seri reyalite limenm.
Metòd diferan nan modèl sijè
Pwosedi kritik sa a ka fèt pa yon varyete algoritm oswa metodoloji. Pami yo se:
- Alokasyon Dirichlet inaktif (LDA)
- Faktorizasyon matris ki pa negatif (NMF)
- Analiz Semantik Inaktif (LSA)
- Pwobabilite analiz semantik inaktif (pLSA)
Alokasyon Dirichlet inaktif (LDA)
Pou detekte relasyon ant plizyè tèks nan yon corpus, yo itilize konsèp estatistik ak grafik Alokasyon Dirichlet Latent.
Sèvi ak apwòch varyasyon eksepsyon maksimize (VEM) la, pi gwo estimasyon pwobabilite ki soti nan corpus konplè tèks la reyalize.
Tradisyonèlman, yo chwazi tèt kèk mo ki soti nan yon sak mo.
Sepandan, fraz la konplètman san sans.
Dapre teknik sa a, chak tèks pral reprezante pa yon distribisyon pwobabilite nan sijè, ak chak sijè pa yon distribisyon pwobabilite nan mo.
Faktorizasyon matris ki pa negatif (NMF)
Matris ak Faktorizasyon Valè ki pa Negatif se yon apwòch ekstraksyon karakteristik dènye kri.
Lè gen anpil kalite ak atribi yo vag oswa gen pòv previzibilite, NMF se benefisye. NMF ka jenere modèl enpòtan, sijè, oswa tèm lè li konbine karakteristik yo.
NMF jenere chak karakteristik kòm yon konbinezon lineyè nan seri atribi orijinal la.
Chak karakteristik gen yon seri koyefisyan ki reprezante enpòtans chak atribi sou karakteristik la. Chak atribi nimerik ak chak valè nan chak atribi kategori gen koyefisyan pwòp li yo.
Tout koyefisyan yo pozitif.
Analiz semantik inaktif
Li se yon lòt metòd aprantisaj san sipèvizyon yo itilize pou ekstrè asosyasyon ant mo nan yon seri dokiman se analiz semantik inaktif.
Sa a ede nou chwazi dokiman ki apwopriye yo. Fonksyon prensipal li se diminye dimansyon gwo corpus done tèks la.
Done sa yo ki pa nesesè sèvi kòm bri background nan trape enfòmasyon ki nesesè nan done yo.
Pwobabilite analiz semantik inaktif (pLSA)
Pwobabilite analiz semantik inaktif (PLSA), pafwa ke yo rekonèt kòm pwobabilite inaktif semantik Indexing (PLSI, miyò nan ti sèk rekipere enfòmasyon), se yon apwòch estatistik pou analize done de-mòd ak ko-ensidans.
An reyalite, menm jan ak analiz semantik inaktif, ki soti nan ki PLSA sòti, yon reprezantasyon ki ba dimansyon nan varyab yo obsève yo ka sòti an tèm de afinite yo nan varyab patikilye kache.
Hands-on ak Topic Modeling nan Python
Koulye a, mwen pral mache w nan yon sijè modèl plasman ak Python la pwogram langaj lè l sèvi avèk yon egzanp nan mond reyèl la.
Mwen pral modle atik rechèch. Dataset mwen pral itilize isit la soti nan kaggle.com. Ou ka fasilman jwenn tout fichye m ap itilize yo nan travay sa a paj.
Ann kòmanse ak Topic Modeling lè l sèvi avèk Python lè nou enpòte tout bibliyotèk esansyèl yo:
Etap sa a se li tout seri done mwen pral itilize nan travay sa a:
Analiz done eksploratwa
EDA (Exploratory Data Analysis) se yon metòd estatistik ki itilize eleman vizyèl. Li itilize rezime estatistik ak reprezantasyon grafik pou dekouvri tandans, modèl, ak sipozisyon tès yo.
Mwen pral fè kèk analiz done eksploratwa anvan mwen kòmanse modèl sijè pou wè si gen nenpòt modèl oswa relasyon nan done yo:
Koulye a, nou pral jwenn valè nil nan seri done tès la:
Koulye a, mwen pral trase yon istogram ak bwat trase yo tcheke relasyon ki genyen ant varyab yo.
Kantite karaktè nan seri Rezime tren an varye anpil.
Nan tren an, nou gen yon minimòm de 54 ak yon maksimòm de 4551 karaktè. 1065 se kantite mwayèn karaktè.
Seri tès la sanble pi enteresan pase seri fòmasyon an paske seri tès la gen 46 karaktè pandan y ap fòmasyon an gen 2841.
Kòm yon rezilta, seri tès la te gen yon medyàn 1058 karaktè, ki sanble ak seri fòmasyon an.
Kantite mo nan seri aprantisaj la swiv yon modèl ki sanble ak kantite lèt.
Yo pèmèt yon minimòm de 8 mo ak yon maksimòm de 665 mo. Kòm yon rezilta, konte mo medyàn lan se 153.
Yo egzije yon minimòm sèt mo nan yon abstrè ak yon maksimòm de 452 mo nan seri tès la.
Medyàn nan, nan ka sa a, se 153, ki idantik ak medyàn nan seri fòmasyon an.
Sèvi ak Tags pou Modèl sijè
Gen plizyè estrateji modèl sijè. Mwen pral itilize tags nan egzèsis sa a; Ann gade kijan pou fè sa lè nou egzamine tags yo:
Aplikasyon pou Modèl sijè
- Ou ka itilize yon rezime tèks pou disène sijè yon dokiman oswa yon liv.
- Li ka itilize pou retire patipri kandida nan nòt egzamen an.
- Modèl sijè yo ka itilize pou konstwi relasyon semantik ant mo nan modèl ki baze sou graf.
- Li ka amelyore sèvis kliyan pa detekte ak reponn a mo kle nan demann kliyan an. Kliyan yo pral gen plis konfyans nan ou depi ou te ba yo asistans yo bezwen nan moman apwopriye a epi san yo pa lakòz yo okenn konplikasyon. Kòm yon rezilta, lwayote kliyan ogmante dramatikman, ak valè konpayi an ogmante.
konklizyon
Modèl sijè se yon sòt de modèl estatistik yo itilize pou dekouvri "sijè" abstrè ki egziste nan yon koleksyon tèks.
Li se yon fòm modèl estatistik yo itilize nan aprantisaj machin ak pwosesis langaj natirèl pou dekouvri konsèp abstrè ki egziste nan yon seri tèks.
Li se yon metòd min tèks ki lajman itilize pou jwenn modèl semantik inaktif nan tèks kò a.
Kite yon Reply