Prezantimi i modelimit të temës për fillestarët

Përmbajtje[Fshih][Shfaqje]

Çfarë është Modelimi i Temave?
Komponentët e Modelimit të Temave+-
- Modeli probabilistik
- Rikthimi i informacionit
Metoda të ndryshme të modelimit të temës+-
Praktikisht me Modelimin e Temave në Python+-
- Analiza e të dhënave eksploruese
- Përdorimi i etiketave për modelimin e temave
Aplikimet e Modelimit të Temave
Përfundim

Jam i sigurt që keni dëgjuar për inteligjencën artificiale, si dhe fjalë si mësimi i makinerive dhe përpunimi i gjuhës natyrore (NLP).

Sidomos nëse punoni për një firmë që trajton qindra, nëse jo mijëra, kontakte me klientët çdo ditë.

Analiza e të dhënave të postimeve të mediave sociale, email-eve, bisedave, përgjigjeve të anketave të hapura dhe burimeve të tjera nuk është një proces i thjeshtë dhe bëhet edhe më i vështirë kur u besohet vetëm njerëzve.

Kjo është arsyeja pse shumë njerëz janë entuziastë për potencialin e inteligjencës artificiale për punën e tyre të përditshme dhe për ndërmarrjet.

Analiza e tekstit e mbështetur nga AI përdor një gamë të gjerë qasjesh ose algoritmesh për të interpretuar gjuhën në mënyrë organike, njëra prej të cilave është analiza e temave, e cila përdoret për të zbuluar automatikisht subjektet nga tekstet.

Bizneset mund të përdorin modele të analizës së temave për të transferuar punë të lehta në makineri në vend që të mbingarkojnë punëtorët me shumë të dhëna.

Merrni parasysh se sa kohë ekipi juaj mund të kursejë dhe t'i kushtojë punës më thelbësore nëse një kompjuter mund të filtrojë përmes listave të pafundme të anketave të klientëve ose çështjeve të mbështetjes çdo mëngjes.

Në këtë udhëzues, ne do të shqyrtojmë modelimin e temave, metodat e ndryshme të modelimit të temave dhe do të marrim një përvojë praktike me të.

Çfarë është Modelimi i Temave?

Modelimi i temës është një lloj i minierës së tekstit në të cilin statistikat e pambikëqyrura dhe të mbikëqyrura Mësimi makinë teknikat përdoren për të zbuluar tendencat në një korpus ose një vëllim të konsiderueshëm teksti të pastrukturuar.

Mund të marrë koleksionin tuaj masiv të dokumenteve dhe të përdorë një metodë ngjashmërie për t'i renditur fjalët në grupe termash dhe për të zbuluar subjekte.

Kjo duket pak komplekse dhe e vështirë, kështu që le të thjeshtojmë procedurën e modelimit të lëndës!

Supozoni se po lexoni një gazetë me një grup theksues me ngjyra në dorë.

A nuk është kjo e modës së vjetër?

E kuptoj që këto ditë, pak njerëz lexojnë gazeta në shtyp; gjithçka është dixhitale, dhe pikat kryesore janë një gjë e së shkuarës! Pretendoni të jeni babai ose nëna juaj!

Pra, kur lexoni gazetën, vini në pah termat e rëndësishme.

Edhe një supozim!

Ju përdorni një nuancë të ndryshme për të theksuar fjalët kyçe të temave të ndryshme. Ju i kategorizoni fjalët kyçe në varësi të ngjyrës dhe temave të ofruara.

Çdo koleksion fjalësh i shënuar me një ngjyrë të caktuar është një listë fjalësh kyçe për një temë të caktuar. Sasia e ngjyrave të ndryshme që keni zgjedhur tregon numrin e temave.

Ky është modelimi më themelor i temës. Ndihmon në të kuptuarit, organizimin dhe përmbledhjen e koleksioneve të mëdha të teksteve.

Sidoqoftë, mbani në mend se për të qenë efektive, modelet e automatizuara të temave kërkojnë shumë përmbajtje. Nëse keni një letër të shkurtër, mund të dëshironi të shkoni në shkollën e vjetër dhe të përdorni theksues!

Është gjithashtu e dobishme të kaloni pak kohë për të njohur të dhënat. Kjo do t'ju japë një kuptim bazë të asaj që modeli i temës duhet të gjejë.

Për shembull, ai ditar mund të jetë për marrëdhëniet tuaja të tanishme dhe të mëparshme. Kështu, unë do të parashikoja që roboti-miku im i minierave të tekstit të dilte me ide të ngjashme.

Kjo mund t'ju ndihmojë të analizoni më mirë cilësinë e subjekteve që keni identifikuar dhe, nëse është e nevojshme, të rregulloni grupet e fjalëve kyçe.

Komponentët e Modelimit të Temave

Modeli probabilistik

Variablat e rastësishëm dhe shpërndarjet e probabilitetit përfshihen në paraqitjen e një ngjarjeje ose fenomeni në modelet probabilistike.

Një model përcaktues siguron një përfundim të vetëm potencial për një ngjarje, ndërsa një model probabilistik ofron një shpërndarje probabiliteti si zgjidhje.

Këto modele e konsiderojnë realitetin se ne rrallë kemi njohuri të plotë të një situate. Ka pothuajse gjithmonë një element rastësie për t'u marrë parasysh.

Për shembull, sigurimi i jetës bazohet në realitetin që ne e dimë se do të vdesim, por nuk e dimë kur. Këto modele mund të jenë pjesërisht përcaktuese, pjesërisht të rastësishme ose tërësisht të rastësishme.

Rikthimi i informacionit

Rikthimi i informacionit (IR) është një program softuerik që organizon, ruan, merr dhe vlerëson informacionin nga depot e dokumenteve, veçanërisht informacionin tekstual.

Teknologjia i ndihmon përdoruesit të zbulojnë informacionin që u nevojitet, por nuk u jep qartë përgjigjet e pyetjeve të tyre. Ai njofton për praninë dhe vendndodhjen e dokumenteve që mund të ofrojnë informacionin e nevojshëm.

Dokumentet përkatëse janë ato që plotësojnë nevojat e përdoruesit. Një sistem IR pa të meta do të kthejë vetëm dokumentet e zgjedhura.

Koherenca e temës

Koherenca e temës vlerëson një temë të vetme duke llogaritur shkallën e ngjashmërisë semantike midis termave me pikë të lartë të temës. Këto metrika ndihmojnë në dallimin midis subjekteve që janë të interpretueshme semantikisht dhe temave që janë artefakte konkluzionesh statistikore.

Nëse një grup pretendimesh ose faktesh mbështesin njëri-tjetrin, ato thuhet se janë koherente.

Si rezultat, një grup faktesh kohezive mund të kuptohet në një kontekst që përfshin të gjitha ose shumicën e fakteve. "Loja është një sport ekipor", "loja luhet me top" dhe "loja kërkon përpjekje të jashtëzakonshme fizike" janë të gjitha shembuj të grupeve kohezive të fakteve.

Metoda të ndryshme të modelimit të temës

Kjo procedurë kritike mund të kryhet nga një shumëllojshmëri algoritmesh ose metodologjish. Ndër to janë:

Alokimi latent i dirichletit (LDA)
Faktorizimi i matricës jonegative (NMF)
Analiza semantike e fshehtë (LSA)
Analiza semantike latente probabiliste (pLSA)

Alokimi latent i dirichletit (LDA)

Për të zbuluar marrëdhëniet midis teksteve të shumta në një korpus, përdoret koncepti statistikor dhe grafik i Alokimit Latent Dirichlet.

Duke përdorur qasjen e maksimizimit të përjashtimit të variacioneve (VEM), arrihet vlerësimi më i madh i gjasave nga korpusi i plotë i tekstit.

LDA

Tradicionalisht, zgjidhen fjalët e para nga një çantë fjalësh.

Sidoqoftë, fjalia është plotësisht e pakuptimtë.

Sipas kësaj teknike, çdo tekst do të përfaqësohet nga një shpërndarje probabilistike e lëndëve dhe çdo temë nga një shpërndarje probabilistike e fjalëve.

Faktorizimi i matricës jonegative (NMF)

Faktorizimi i matricës me vlera jo-negative është një qasje e fundit e nxjerrjes së veçorive.

Kur ka shumë cilësi dhe atributet janë të paqarta ose kanë parashikueshmëri të dobët, NMF është e dobishme. NMF mund të gjenerojë modele, subjekte ose tema të rëndësishme duke kombinuar karakteristikat.

Faktorizimi i matricës jonegative

NMF gjeneron çdo veçori si një kombinim linear i grupit origjinal të atributeve.

Çdo tipar përmban një grup koeficientësh që përfaqësojnë rëndësinë e secilit atribut në veçori. Çdo atribut numerik dhe çdo vlerë e çdo atributi të kategorisë ka koeficientin e vet.

Të gjithë koeficientët janë pozitiv.

Analiza semantike e fshehtë

Është një tjetër metodë mësimore e pambikëqyrur e përdorur për të nxjerrë lidhjet midis fjalëve në një grup dokumentesh është analiza semantike latente.

Kjo na ndihmon të zgjedhim dokumentet e duhura. Funksioni i tij kryesor është të zvogëlojë dimensionalitetin e korpusit të madh të të dhënave tekstuale.

Këto të dhëna të panevojshme shërbejnë si zhurmë në sfond në marrjen e njohurive të nevojshme nga të dhënat.

Analiza semantike e fshehtë

Analiza semantike latente probabiliste (pLSA)

Analiza semantike latente probabilistike (PLSA), e njohur ndonjëherë si indeksimi semantik latent probabilistik (PLSI, veçanërisht në qarqet e marrjes së informacionit), është një qasje statistikore për analizimin e të dhënave me dy mënyra dhe të bashkë-ndodhjes.

Në fakt, ngjashëm me analizën semantike latente, nga e cila doli PLSA, mund të nxirret një paraqitje me dimensione të ulëta të variablave të vëzhguar për sa i përket afinitetit të tyre me variabla të veçanta të fshehura.

Analiza Senantike Latente Probabiliste

Praktikisht me Modelimin e Temave në Python

Tani, unë do t'ju përshkruaj një detyrë të modelimit të lëndës me Python gjuhë programimi duke përdorur një shembull të botës reale.

Unë do të modeloj artikuj kërkimor. Të dhënat e të dhënave që do të përdor këtu vjen nga kaggle.com. Nga kjo mund t'i merrni lehtësisht të gjithë skedarët që po përdor në këtë punë faqe.

Le të fillojmë me Modelimin e Temave duke përdorur Python duke importuar të gjitha bibliotekat thelbësore:

Importimi i Bibliotekave

Hapi i mëposhtëm është të lexoni të gjitha grupet e të dhënave që do të përdor në këtë detyrë:

Lexoni grupin e të dhënave

Analiza e të dhënave eksploruese

EDA (Exploratory Data Analysis) është një metodë statistikore që përdor elemente vizuale. Ai përdor përmbledhje statistikore dhe paraqitje grafike për të zbuluar tendencat, modelet dhe supozimet e testimit.

Do të bëj disa analiza të të dhënave eksploruese përpara se të filloj modelimin e temave për të parë nëse ka ndonjë model ose marrëdhënie në të dhëna:

Gjeni vlerat zero të grupit të të dhënave të trenit

Prodhimi i vlerave nule të trenit

Tani do të gjejmë vlerat null të grupit të të dhënave testuese:

Gjeni vlerat zero të grupit të të dhënave të testit

Prodhimi i vlerave nule të testit

Tani do të skicoj një histogram dhe kuti për të kontrolluar lidhjen midis variablave.

komplot

Rezultati i komplotit 1

Sasia e personazheve në grupin Abstrakte të Trenit ndryshon shumë.

Në tren, ne kemi një minimum prej 54 dhe një maksimum prej 4551 karaktere. 1065 është sasia mesatare e karaktereve.

Komplot 2

Rezultati i komplotit 2

Seti i testimit duket të jetë më interesant se grupi i trajnimit pasi grupi i testit ka 46 karaktere ndërsa grupi i trajnimit ka 2841.

Si rezultat, grupi i testit kishte një mesatare prej 1058 karakteresh, e cila është e ngjashme me grupin e trajnimit.

Komplot 3

Rezultati i komplotit 3

Numri i fjalëve në grupin mësimor ndjek një model të ngjashëm me numrin e shkronjave.

Lejohen të paktën 8 fjalë dhe maksimumi 665 fjalë. Si rezultat, numri mesatar i fjalëve është 153.

Komplot 4

Rezultati i komplotit 4

Kërkohen të paktën shtatë fjalë në një abstrakt dhe maksimumi 452 fjalë në grupin e testit.

Mesatarja, në këtë rast, është 153, e cila është identike me mesataren në grupin e trajnimit.

Përdorimi i etiketave për modelimin e temave

Ka disa strategji modelimi temash. Unë do të përdor etiketat në këtë ushtrim; le të shohim se si ta bëjmë këtë duke shqyrtuar etiketat:

Përdorimi i etiketave për modelimin e temave

Prodhimi i Modelimit të Temave

Aplikimet e Modelimit të Temave

Një përmbledhje e tekstit mund të përdoret për të dalluar temën e një dokumenti ose libri.
Mund të përdoret për të hequr paragjykimet e kandidatëve nga pikëzimi i provimit.
Modelimi i temës mund të përdoret për të ndërtuar marrëdhënie semantike midis fjalëve në modelet e bazuara në grafik.
Mund të përmirësojë shërbimin ndaj klientit duke zbuluar dhe duke iu përgjigjur fjalëve kyçe në pyetjen e klientit. Klientët do të kenë më shumë besim tek ju, pasi ju u keni ofruar asistencën që ata kërkojnë në momentin e duhur dhe pa i shkaktuar ndonjë telash. Si rezultat, besnikëria e klientit rritet në mënyrë dramatike dhe vlera e kompanisë rritet.

Përfundim

Modelimi i temës është një lloj modelimi statistikor që përdoret për të zbuluar "subjektet" abstrakte që ekzistojnë në një koleksion tekstesh.

Është një formë e modelit statistikor të përdorur në Mësimi makinë dhe përpunimi i gjuhës natyrore për të zbuluar koncepte abstrakte që ekzistojnë në një grup tekstesh.

Është një metodë e nxjerrjes së tekstit që përdoret gjerësisht për të gjetur modele semantike latente në tekstin e trupit.

Prezantimi i modelimit të temës për fillestarët

Çfarë është Modelimi i Temave?