Table di cuntinutu[Piattà][Mostra]
Sò sicuru chì avete intesu parlà di l'intelligenza artificiale, è ancu di e parolle cum'è l'apprendimentu automaticu è u processu di lingua naturale (NLP).
Soprattuttu s'ellu travaglia per una ditta chì gestisce centinaie, se micca millaie, di cuntatti di i clienti ogni ghjornu.
L'analisi di dati di e publicazioni di e social media, e-mail, chats, risposti d'indagine aperti è altre fonti ùn hè micca un prucessu simplice, è diventa ancu più difficiule quandu hè affidatu solu à e persone.
Hè per quessa chì parechje persone sò entusiasmu di u putenziale di ntilliggenza artificiali per u so travagliu di ghjornu è per l'imprese.
L'analisi di testu alimentata da AI impiega una larga gamma di approcci o algoritmi per interpretà a lingua in modu organicu, unu di i quali hè l'analisi di u tema, chì hè utilizatu per scopre automaticamente sughjetti da testi.
L'imprese ponu aduprà mudelli di analisi di tematiche per trasfirià travaglii faciuli nantu à e macchine piuttostu chè di sopra à i travagliadori cù troppu dati.
Cunsiderate quantu tempu a vostra squadra puderia risparmià è dedicà à un travagliu più essenziale se un urdinatore puderia filtrà in liste interminabili di sondaggi di i clienti o prublemi di supportu ogni matina.
In questa guida, guardemu in u modellu tematicu, i metudi diffirenti di mudellu di tematicu, è uttene una sperienza pratica cun ellu.
Chì ghjè u Modelling di u tema?
U modellu tematicu hè un tipu di minazione di testu in quale statistiche senza supervisione è vigilate machine learning i tecnichi sò usati per detectà tendenzi in un corpus o un voluminu significativu di testu micca strutturatu.
Pò piglià a vostra cullizzioni massiva di documenti è aduprà un metudu di similitudine per organizà e parolle in gruppi di termini è scopre sughjetti.
Chì pare un pocu cumplessu è duru, cusì simplificà a prucedura di mudellu di sughjettu!
Assumite chì leghjite un ghjurnale cù un set di evidenziatori di culore in manu.
Ùn hè micca anticu ?
Aghju capitu chì issi ghjorni, pocu persone leghje i ghjurnali in stampa ; tuttu hè digitale, è i evidenziatori sò una cosa di u passatu! Fate finta di esse u vostru babbu o mamma !
Allora, quandu leghjite u ghjurnale, mette in risaltu i termini impurtanti.
Una altra ipotesi !
Aduprate una tonalità diversa per enfatizà e parolle chjave di diversi temi. Classificate e parolle chjave secondu u culore furnitu è i temi.
Ogni cullizzioni di parolle marcati da un certu culore hè una lista di parole chjave per un tema determinatu. A quantità di diversi culori chì avete sceltu mostra u numeru di temi.
Questu hè u mudellu di tema più fundamentale. Aiuta à a capiscitura, l'urganizazione è a riassunzione di grandi cullezzione di testu.
Tuttavia, tenite in mente chì per esse efficaci, i mudelli di tema automatizati necessitanu assai cuntenutu. Sè vo avete una carta corta, pudete vulete andà in a scola antica è aduprà evidenziatori!
Hè ancu benefica per passà un pocu di tempu per cunnosce e dati. Questu vi darà un sensu basicu di ciò chì u mudellu tematicu deve truvà.
Per esempiu, quellu ghjurnale pò esse nantu à e vostre relazioni prisenti è precedenti. Cusì, aghju anticipatu u mo robot-buddy di mining di testu per vene cun idee simili.
Questu pò aiutà à analizà megliu a qualità di i sughjetti chì avete identificatu è, se ne necessariu, aghjustate i setti di keyword.
Cumpunenti di u Modelling di u tema
Mudellu probabilisticu
Variabili aleatorii è distribuzioni di probabilità sò incorporati in a rapprisintazioni di un avvenimentu o fenomenu in mudelli probabilistici.
Un mudellu deterministicu furnisce una sola cunclusione potenziale per un avvenimentu, mentri un mudellu probabilisticu furnisce una distribuzione di probabilità cum'è suluzione.
Questi mudelli cunzidenu a realità chì raramente avemu una cunniscenza cumpleta di una situazione. Ci hè quasi sempre un elementu di casualità à cunsiderà.
Per esempiu, l'assicuranza di vita hè basata nantu à a realità chì sapemu chì moriremu, ma ùn sapemu micca quandu. Questi mudelli puderanu esse parzialmente deterministici, parzialmente aleatori, o cumpletamente aleatoriu.
Recuperazione Informativa
A ricuperazione di l'infurmazioni (IR) hè un prugramma di software chì urganizeghja, almacenà, recupera è evalueghja l'infurmazioni da i repositori di documenti, in particulare l'infurmazioni testuali.
A tecnulugia aiuta l'utilizatori à scopre l'infurmazioni chì anu bisognu, ma ùn furnisce micca chjaramente e risposte à e so dumande. Avissi di a prisenza è u locu di carte chì ponu furnisce l'infurmazioni necessarii.
I documenti pertinenti sò quelli chì rispondenu à i bisogni di l'utilizatori. Un sistema IR impeccabile restituverà solu documenti selezziunati.
Coherenza di u tema
A coerenza di u tema puntua un tema unicu calculendu u gradu di similitudine semantica trà i termini di puntuazione alta di u tema. Queste metriche aiutanu à distingue trà i sughjetti chì sò semanticamente interpretabili è i temi chì sò artefatti di inferenza statistica.
Se un gruppu di rivendicazioni o fatti sustene l'un l'altru, si dice chì sò coerenti.
In u risultatu, un inseme di fatti cohesionu pò esse capitu in un cuntestu chì include tutti o a maiò parte di i fatti. "U ghjocu hè un sportu di squadra", "u ghjocu hè ghjucatu cù una bola", è "u ghjocu esige un sforzu fisicu tremendu" sò tutti esempi di fatti cohesionati.
Diversi metudi di mudeli di tematiche
Sta prucedura critica pò esse realizatu da una varietà di algoritmi o metodulugia. Frà elli sò:
- Allocazione di dirichlet latente (LDA)
- Factorizzazione a Matrice Non Negativa (NMF)
- Analisi Semantica Latente (LSA)
- Analisi Semantica Latente Probabilistica (pLSA)
Allocazione di dirichlet latente (LDA)
Per detectà relazioni trà parechji testi in un corpus, u cuncettu statisticu è gràficu di Latent Dirichlet Allocation hè utilizatu.
Utilizendu l'approcciu Variational Exception Maximization (VEM), a più grande stima di probabilità da u corpu sanu di testu hè ottenuta.
Tradizionalmente, i primi parolle da un saccu di parolle sò scelti.
Tuttavia, a sentenza hè completamente senza significatu.
Sicondu sta tecnica, ogni testu serà rapprisintatu da una distribuzione probabilistica di sughjetti, è ogni tema da una distribuzione probabilistica di e parolle.
Factorization Matrix Non Negative (NMF)
Matrix with Non-Negative Values Factorization hè un approcciu d'estrazione di funzioni di punta.
Quandu ci sò parechje qualità è l'attributi sò vagi o avè una prevedibilità povira, NMF hè benefica. NMF pò generà mudelli significativi, sughjetti, o temi cumminendu caratteristiche.
NMF genera ogni funzione cum'è una cumminazione lineale di l'attributu originale.
Ogni funzione cuntene un inseme di coefficienti chì rapprisentanu l'impurtanza di ogni attributu nantu à a funzione. Ogni attributu numericu è ogni valore di ogni attributu categuria hà u so propiu coefficient.
Tutti i coefficienti sò pusitivi.
Analisi Semantica Latente
Hè un altru mètudu di apprendimentu senza supervisione utilizatu per estrattà l'associazioni trà e parolle in un inseme di documenti hè l'analisi semantica latente.
Questu ci aiuta à sceglie i ducumenti adattati. A so funzione primaria hè di riduce a dimensione di l'enorme corpus di dati di testu.
Questi dati inutili servenu cum'è un rumore di fondo in l'acquistu di l'infurmazioni necessarii da e dati.
Analisi Semantica Latente Probabilistica (pLSA)
L'analisi semantica latente probabilistica (PLSA), qualchì volta cunnisciuta cum'è indexazione semantica latente probabilistica (PLSI, in particulare in i circoli di ricuperazione di l'infurmazioni), hè un approcciu statisticu per analizà e dati in dui modi è co-occurrence.
In fatti, simile à l'analisi semantica latente, da quale PLSA emerge, una rapprisintazioni dimensionale bassu di e variàbili osservate pò esse derivata in termini di a so affinità à variàbili nascosti particulari.
Hands-on cù u Modelling Tema in Python
Avà, vi guidaraghju à traversu una assignazione di mudellu di sughjettu cù u Python lingua di prugrammazione usendu un esempiu di u mondu reale.
Seraghju modellu articuli di ricerca. U dataset chì aghju da aduprà quì vene da kaggle.com. Pudete facilmente ottene tutti i fugliali chì aghju utilizatu in questu travagliu da questu pagina.
Cuminciamu cù a Modellazione di Topic cù Python impurtendu tutte e biblioteche essenziali:
U passu seguente hè di leghje tutti i datasets chì aghju da aduprà in questu compitu:
Analisi di Dati Esplorativu
EDA (Exploratory Data Analysis) hè un metudu statisticu chì impiega elementi visuali. Utiliza riassunti statistichi è rapprisintazioni gràfiche per scopre tendenzi, mudelli è ipotesi di teste.
Faraghju un pocu di analisi di dati esploratori prima di inizià a modellazione di u tema per vede s'ellu ci sò mudelli o relazioni in i dati:
Avà truveremu i valori nulli di u set di dati di prova:
Avà traceraghju un histogramma è boxplot per verificà a relazione trà e variàbili.
A quantità di caratteri in l'Astratti di u Trenu varieghja assai.
In u trenu, avemu un minimu di 54 è un massimu di 4551 caratteri. 1065 hè a quantità media di caratteri.
U set di teste pare esse più interessante cà u gruppu di furmazione postu chì u set di teste hà 46 caratteri mentre chì u set di furmazione hà 2841.
In u risultatu, u set di teste hà avutu una mediana di 1058 caratteri, chì hè simile à u gruppu di furmazione.
U numaru di parolle in u settore di apprendimentu seguita un mudellu simili à u numeru di lettere.
Un minimu di 8 parolle è un massimu di 665 parolle sò permessi. In u risultatu, a mediana di e parolle hè 153.
Un minimu di sette parolle in un astrattu è un massimu di parole 452 in u set di teste sò richiesti.
A mediana, in questu casu, hè 153, chì hè identica à a mediana in u settore di furmazione.
Utilizà tag per u Modelling di u tema
Ci sò parechje strategie di mudellu di tematiche. Aduprà tag in questu esercitu; fighjemu cumu fà cusì esaminendu i tags:
Applicazioni di u Modelling di u tema
- Un riassuntu di testu pò esse usatu per discernisce u tema di un documentu o libru.
- Pò esse usatu per sguassà u preghjudiziu di u candidatu da a puntuazione di l'esame.
- U modellu tematicu pò esse usatu per custruisce relazioni semantiche trà e parolle in mudelli basati in grafici.
- Pò rinfurzà u serviziu di u cliente detectendu è risponde à e parolle chjave in a dumanda di u cliente. I clienti anu più fiducia in voi, postu chì li avete furnitu l'assistenza chì necessitanu à u mumentu adattatu è senza pruvucà alcunu fastidiu. In u risultatu, a lealtà di i clienti cresce dramaticamente, è u valore di a cumpagnia aumenta.
cunchiusioni
U modellu tematicu hè una spezia di modellazione statistica utilizata per scopre "sugetti" astratti chì esistenu in una cullizzioni di testi.
Hè una forma di u mudellu statisticu utilizatu in machine learning è l'elaborazione di a lingua naturale per scopre i cuncetti astratti chì esistenu in un inseme di testi.
Hè un mètudu di minieri testu chì hè largamente usatu per truvà mudelli semantichi latenti in u testu corpu.
Lascia un Audiolibro