Werrej[Aħbi][Uri]
Jien ċert li smajt bl-intelliġenza artifiċjali, kif ukoll kliem bħat-tagħlim tal-magni u l-ipproċessar tal-lingwa naturali (NLP).
Speċjalment jekk taħdem għal ditta li tieħu ħsieb mijiet, jekk mhux eluf, ta’ kuntatti mal-klijenti kuljum.
L-analiżi tad-dejta tal-istazzjonjiet tal-midja soċjali, emails, chats, tweġibiet għall-istħarriġ miftuħ, u sorsi oħra mhijiex proċess sempliċi, u ssir saħansitra aktar diffiċli meta tiġi fdata biss lin-nies.
Huwa għalhekk li ħafna nies huma entużjasti dwar il-potenzjal ta ' intelliġenza artifiċjali għax-xogħol tagħhom ta’ kuljum u għall-intrapriżi.
L-analiżi tat-test imħaddma bl-AI timpjega firxa wiesgħa ta’ approċċi jew algoritmi biex tinterpreta l-lingwa b’mod organiku, li waħda minnhom hija l-analiżi tas-suġġett, li tintuża biex tiskopri suġġetti awtomatikament mit-testi.
In-negozji jistgħu jużaw mudelli ta 'analiżi tas-suġġetti biex jittrasferixxu impjiegi faċli fuq magni aktar milli jgħabbu lill-ħaddiema b'ħafna dejta.
Ikkunsidra kemm it-tim tiegħek jista’ jiffranka u jiddedika għal xogħol aktar essenzjali jekk kompjuter jista’ jiffiltra minn listi bla tarf ta’ stħarriġ tal-klijenti jew kwistjonijiet ta’ appoġġ kull filgħodu.
F'din il-gwida, ser inħarsu lejn l-immudellar tas-suġġetti, metodi differenti ta 'mudellar tas-suġġetti, u nieħdu ftit esperjenza prattika magħha.
X'inhu l-Immudellar tas-Suġġett?
L-immudellar tas-suġġett huwa tip ta 'minjieri tat-test li fih statistika mhux sorveljata u sorveljata tagħlim magna tekniki jintużaw biex jinstabu xejriet f'korpus jew volum sinifikanti ta' test mhux strutturat.
Jista 'jieħu l-kollezzjoni massiva tiegħek ta' dokumenti u juża metodu ta 'xebh biex tirranġa l-kliem fi gruppi ta' termini u tiskopri suġġetti.
Dan jidher ftit kumpless u diffiċli, allura ejja nissimplifikaw il-proċedura tal-immudellar tas-suġġett!
Assumi li qed taqra gazzetta b'sett ta' highlighters ikkuluriti f'idejk.
Mhux hekk qadima?
Nirrealizza li f’dawn il-jiem, ftit nies jaqraw gazzetti stampati; kollox huwa diġitali, u highlighters huma xi ħaġa tal-passat! Jippretendu li tkun missierek jew ommok!
Għalhekk, meta taqra l-gazzetta, tenfasizza t-termini importanti.
Suppożizzjoni oħra!
Tuża lewn differenti biex tenfasizza l-kliem kjavi ta 'diversi temi. Int tikkategorizza l-kliem kjavi skont il-kulur u s-suġġetti pprovduti.
Kull ġabra ta’ kliem immarkat b’ċertu kulur hija lista ta’ kliem prinċipali għal suġġett partikolari. L-ammont ta' kuluri varji li qabadt juri n-numru ta' temi.
Dan huwa l-immudellar tas-suġġett l-aktar fundamentali. Jgħin fil-komprensjoni, l-organizzazzjoni u s-sommarju ta’ kollezzjonijiet kbar ta’ testi.
Madankollu, żomm f'moħħok li biex ikunu effettivi, mudelli ta 'suġġetti awtomatizzati jeħtieġu ħafna kontenut. Jekk għandek karta qasira, tista 'tkun trid tmur l-iskola l-qadima u tuża highlighters!
Huwa wkoll ta 'benefiċċju li tqatta' ftit ħin issir taf id-dejta. Dan jagħtik sens bażiku ta' x'għandu jsib il-mudell tas-suġġett.
Per eżempju, dak id-djarju jista 'jkun dwar ir-relazzjonijiet preżenti u preċedenti tiegħek. Għalhekk, jiena antiċipa tiegħi test mining robot-buddy biex toħroġ b'ideat simili.
Dan jista 'jgħinek tanalizza aħjar il-kwalità tas-suġġetti li identifikajt u, jekk meħtieġ, tweak is-settijiet tal-kliem kjavi.
Komponenti tal-Immudellar tas-Suġġett
Mudell Probabilistic
Varjabbli każwali u distribuzzjonijiet tal-probabbiltà huma inkorporati fir-rappreżentazzjoni ta 'avveniment jew fenomenu f'mudelli probabilistiċi.
Mudell deterministiku jipprovdi konklużjoni potenzjali waħda għal avveniment, filwaqt li mudell probabilistiku jipprovdi distribuzzjoni tal-probabbiltà bħala soluzzjoni.
Dawn il-mudelli jqisu r-realtà li rari jkollna għarfien sħiħ ta 'sitwazzjoni. Kważi dejjem hemm element ta' każwali li għandek tikkonsidra.
Pereżempju, l-assigurazzjoni tal-ħajja hija bbażata fuq ir-realtà li nafu li se mmutu, iżda ma nafux meta. Dawn il-mudelli jistgħu jkunu parzjalment deterministiċi, parzjalment każwali, jew kompletament każwali.
Irkupru ta' Informazzjoni
L-irkupru tal-informazzjoni (IR) huwa programm ta' softwer li jorganizza, jaħżen, jirkupra u jevalwa informazzjoni minn repożitorji ta' dokumenti, partikolarment informazzjoni testwali.
It-teknoloġija tgħin lill-utenti jiskopru l-informazzjoni li jeħtieġu, iżda ma tagħtix b'mod ċar it-tweġibiet għall-mistoqsijiet tagħhom. Huwa jgħarraf dwar il-preżenza u l-post ta' karti li jistgħu jipprovdu l-informazzjoni meħtieġa.
Dokumenti rilevanti huma dawk li jissodisfaw il-ħtiġijiet tal-utent. Sistema IR bla difetti tirritorna biss dokumenti magħżula.
Koerenza tas-Suġġett
Il-Koerenza tas-Suġġett tikkalkula suġġett wieħed billi tikkalkula l-grad ta' xebh semantiku bejn it-termini ta' punteġġ għoli tas-suġġett. Dawn il-metriċi jgħinu fid-distinzjoni bejn suġġetti li huma semantikament interpretabbli u suġġetti li huma artifacts ta' inferenza statistika.
Jekk grupp ta’ talbiet jew fatti jappoġġaw lil xulxin, jingħad li huma koerenti.
Bħala riżultat, sett ta’ fatti koeżivi jista’ jinftiehem f’kuntest li jinkludi l-fatti kollha jew il-maġġoranza tagħhom. "Il-logħba hija sport tat-tim," "il-logħba tintlagħab bil-ballun," u "il-logħba teħtieġ sforz fiżiku tremend" huma kollha eżempji ta 'settijiet ta' fatti koeżivi.
Metodi differenti ta 'mudellar ta' Topic
Din il-proċedura kritika tista' titwettaq b'varjetà ta' algoritmi jew metodoloġiji. Fosthom hemm:
- Allokazzjoni Latenti Dirichlet (LDA)
- Fatturizzazzjoni tal-Matriċi Mhux Negattiva (NMF)
- Analiżi Semantika Latenti (LSA)
- Analiżi Semantika Latenti Probabilistika (pLSA)
Allokazzjoni ta' Dirichlet Latenti (LDA)
Biex tiskopri relazzjonijiet bejn testi multipli f'korpus, jintuża l-kunċett statistiku u grafiku ta' Allokazzjoni ta' Dirichlet Moħbi.
Bl-użu tal-approċċ tal-Massimizzazzjoni tal-Eċċezzjoni Varjazzjonali (VEM), tinkiseb l-akbar stima tal-probabbiltà mill-korpus sħiħ tat-test.
Tradizzjonalment, jintgħażlu l-ewwel ftit kliem minn borża ta 'kliem.
Madankollu, is-sentenza hija kompletament bla sens.
Skond din it-teknika, kull test se jkun rappreżentat minn distribuzzjoni probabilistika ta 'suġġetti, u kull suġġett b'distribuzzjoni probabilistika ta' kliem.
Fatturizzazzjoni tal-Matriċi Mhux Negattiva (NMF)
Il-fatturizzazzjoni tal-Matriċi b'Valuri Mhux Negattivi hija approċċ ta 'estrazzjoni ta' karatteristiċi avvanzati.
Meta jkun hemm ħafna kwalitajiet u l-attributi huma vagi jew għandhom prevedibbiltà fqira, NMF huwa ta 'benefiċċju. NMF jista' jiġġenera mudelli, suġġetti, jew temi sinifikanti billi jgħaqqad il-karatteristiċi.
NMF jiġġenera kull karatteristika bħala kombinazzjoni lineari tas-sett ta 'attribut oriġinali.
Kull karatteristika fiha sett ta 'koeffiċjenti li jirrappreżentaw l-importanza ta' kull attribut fuq il-karatteristika. Kull attribut numeriku u kull valur ta' kull attribut ta' kategorija għandu l-koeffiċjent tiegħu.
Il-koeffiċjenti kollha huma pożittivi.
Analiżi Semantika Latenti
Huwa metodu ieħor ta 'tagħlim mhux sorveljat użat biex jiġi estratt assoċjazzjonijiet bejn kliem f'sett ta' dokumenti huwa analiżi semantika latenti.
Dan jgħinna nagħżlu d-dokumenti xierqa. Il-funzjoni primarja tagħha hija li tnaqqas id-dimensjonalità tal-korpus enormi tad-dejta tat-test.
Din id-dejta mhux meħtieġa sservi bħala storbju fl-isfond fl-akkwist tal-għarfien meħtieġ mid-dejta.
Analiżi Semantika Latenti Probabilistika (pLSA)
L-analiżi semantika latenti probabilistika (PLSA), xi drabi magħrufa bħala indiċjar semantiku latenti probabilstiku (PLSI, notevolment fiċ-ċrieki tal-irkupru tal-informazzjoni), hija approċċ statistiku għall-analiżi tad-dejta b'żewġ modi u ko-okkorrenza.
Fil-fatt, simili għall-analiżi semantika moħbija, li minnha ħareġ il-PLSA, tista’ tiġi derivata rappreżentazzjoni b’dimensjoni baxxa tal-varjabbli osservati f’termini tal-affinità tagħhom għal varjabbli moħbija partikolari.
Hands-on bl-Immudellar ta' Topic f'Python
Issa, jien ser timxik permezz ta 'inkarigu ta' mmudellar ta 'suġġett bil-Python lingwa ta 'programmar bl-użu ta’ eżempju tad-dinja reali.
Inkun qed nimudella artikli ta' riċerka. Is-sett tad-dejta li ser nuża hawn ġej minn kaggle.com. Tista 'faċilment tikseb il-fajls kollha li qed nuża f'dan ix-xogħol minn dan paġna.
Ejja nibdew bl-Immudellar tas-Suġġett billi tuża Python billi timporta l-libreriji essenzjali kollha:
Il-pass li ġej huwa li naqra s-settijiet tad-dejta kollha li se nkun qed nuża f'dan il-kompitu:
Analiżi Esploratorja tad-Data
EDA (Analiżi tad-Data Esploratorja) huwa metodu statistiku li juża elementi viżwali. Juża sommarji statistiċi u rappreżentazzjonijiet grafiċi biex jiskopri xejriet, mudelli, u suppożizzjonijiet tat-test.
Se nagħmel xi analiżi esploratorja tad-dejta qabel ma nibda l-immudellar tas-suġġetti biex nara jekk hemmx mudelli jew relazzjonijiet fid-dejta:
Issa se nsibu l-valuri nulli tas-sett tad-dejta tat-test:
Issa se nkun qed nippjana istogramma u boxplot biex niċċekkja r-relazzjoni bejn il-varjabbli.
L-ammont ta’ karattri fis-sett tal-Astratti tal-Ferrovija jvarja ħafna.
Fuq il-ferrovija, għandna minimu ta '54 u massimu ta' 4551 karattru. 1065 huwa l-ammont medju ta' karattri.
Is-sett tat-test jidher li huwa aktar interessanti mis-sett tat-taħriġ peress li s-sett tat-test għandu 46 karattru filwaqt li s-sett tat-taħriġ għandu 2841.
Bħala riżultat, is-sett tat-test kellu medjan ta '1058 karattru, li huwa simili għas-sett ta' taħriġ.
In-numru ta 'kliem fis-sett ta' tagħlim isegwi mudell simili għan-numru ta 'ittri.
Huma permessi minimu ta’ 8 kelmiet u massimu ta’ 665 kelma. Bħala riżultat, l-għadd medjan tal-kliem huwa 153.
Huma meħtieġa minimu ta' seba' kelmiet f'astratt u massimu ta' 452 kelma fis-sett tat-test.
Il-medjan, f'dan il-każ, huwa 153, li huwa identiku għall-medjan fis-sett tat-taħriġ.
L-użu ta 'Tags għall-Immudellar tas-Suġġett
Hemm diversi strateġiji ta 'mudellar ta' suġġett. Jien ser nuża tags f'dan l-eżerċizzju; ejja nħarsu lejn kif tagħmel dan billi neżaminaw it-tikketti:
Applikazzjonijiet ta' Modelling ta' Topic
- Sommarju tat-test jista' jintuża biex jagħraf is-suġġett ta' dokument jew ktieb.
- Jista 'jintuża biex jitneħħa l-preġudizzju tal-kandidati mill-punteġġ tal-eżami.
- L-immudellar tas-suġġetti jista' jintuża biex jinbnew relazzjonijiet semantiċi bejn il-kliem f'mudelli bbażati fuq graffs.
- Jista 'jtejjeb is-servizz tal-konsumatur billi jiskopri u jwieġeb għall-kliem kjavi fl-inkjesta tal-klijent. Il-klijenti se jkollhom aktar fiduċja fik peress li int ipprovdejthom l-assistenza li jeħtieġu fil-mument xieraq u mingħajr ma tikkawżalhom l-ebda battikata. Bħala riżultat, il-lealtà tal-klijenti tiżdied b'mod drammatiku, u l-valur tal-kumpanija jiżdied.
konklużjoni
L-immudellar tas-suġġett huwa tip ta 'mudellar statistiku użat biex jikxef "suġġetti" astratti li jeżistu f'kollezzjoni ta' testi.
Hija forma tal-mudell statistiku użat fi tagħlim magna u l-ipproċessar tal-lingwa naturali biex jinkixfu kunċetti astratti li jeżistu f’sett ta’ testi.
Huwa metodu tal-minjieri tat-test li jintuża ħafna biex jinstabu mudelli semantiċi latenti fit-test tal-ġisem.
Ħalli Irrispondi