Introdución ao modelado de temas para principiantes

Índice analítico[Ocultar][Mostrar]

Que é o modelado de temas?
Compoñentes do modelado de temas+-
- Modelo probabilístico
- Recuperación de información
Diferentes métodos de modelado de temas+-
Prácticas co modelado de temas en Python+-
- Análise de datos exploratorios
- Usando etiquetas para modelar temas
Aplicacións do Modelado de Temas
Conclusión

Seguro que escoitaches falar de intelixencia artificial, así como de palabras como aprendizaxe automática e procesamento da linguaxe natural (PNL).

Especialmente se traballas para unha empresa que xestiona centos, se non miles, de contactos con clientes todos os días.

A análise de datos de publicacións en redes sociais, correos electrónicos, chats, respostas abertas a enquisas e outras fontes non é un proceso sinxelo, e faise aínda máis difícil cando se confía só a persoas.

É por iso que moitas persoas están entusiasmadas co potencial de intelixencia artificial polo seu día a día e para as empresas.

A análise de textos impulsada pola IA emprega unha ampla gama de enfoques ou algoritmos para interpretar a linguaxe de forma orgánica, un dos cales é a análise de temas, que se usa para descubrir automaticamente temas dos textos.

As empresas poden usar modelos de análise de temas para transferir traballos sinxelos ás máquinas en lugar de sobrecargar aos traballadores con demasiados datos.

Considera canto tempo pode aforrar o teu equipo e dedicalo a un traballo máis esencial se un ordenador puidese filtrar listas infinitas de enquisas de clientes ou problemas de asistencia cada mañá.

Nesta guía, analizaremos o modelado de temas, diferentes métodos de modelado de temas e obteremos unha experiencia práctica con el.

Que é o modelado de temas?

O modelado de temas é un tipo de minería de textos no que se realizan estatísticas non supervisadas e supervisadas aprendizaxe de máquina utilízanse técnicas para detectar tendencias nun corpus ou nun volume significativo de texto non estruturado.

Pode levar a túa colección masiva de documentos e usar un método de semellanza para organizar as palabras en grupos de termos e descubrir temas.

Parece un pouco complexo e difícil, así que simplifiquemos o procedemento de modelado de materias!

Supoña que estás lendo un xornal cun xogo de marcadores de cores na man.

Non é pasado de moda?

Decátome de que hoxe en día, pouca xente le os xornais impresos; todo é dixital, e os resaltadores son cousa do pasado! Finxide ser o teu pai ou nai!

Entón, cando le o xornal, destaca os termos importantes.

Unha suposición máis!

Usas unha tonalidade diferente para enfatizar as palabras clave de varios temas. Clasificas as palabras clave dependendo da cor e dos temas proporcionados.

Cada colección de palabras marcadas por unha determinada cor é unha lista de palabras clave para un determinado tema. A cantidade de varias cores que escolliches mostra o número de temas.

Este é o modelo de tema máis fundamental. Axuda á comprensión, organización e resumo de grandes coleccións de textos.

Non obstante, teña en conta que para ser efectivos, os modelos de temas automatizados requiren moito contido. Se tes un traballo curto, podes que queiras ir á vella escola e usar resaltadores!

Tamén é beneficioso dedicar un tempo a coñecer os datos. Isto darache unha idea básica do que debería atopar o modelo de tema.

Por exemplo, ese diario pode ser sobre as túas relacións presentes e anteriores. Así, agardaría que o meu amigo robot de minería de textos dea ideas similares.

Isto pode axudarche a analizar mellor a calidade dos temas que identificaches e, se é necesario, a modificar os conxuntos de palabras clave.

Compoñentes do modelado de temas

Modelo probabilístico

Variables aleatorias e distribucións de probabilidade incorpóranse á representación dun suceso ou fenómeno en modelos probabilísticos.

Un modelo determinista proporciona unha única conclusión potencial para un evento, mentres que un modelo probabilístico proporciona unha distribución de probabilidade como solución.

Estes modelos consideran a realidade de que poucas veces temos un coñecemento completo dunha situación. Case sempre hai un elemento de aleatoriedade a considerar.

Por exemplo, o seguro de vida baséase na realidade de que sabemos que morreremos, pero non sabemos cando. Estes modelos poden ser parcialmente deterministas, parcialmente aleatorios ou totalmente aleatorios.

Recuperación de información

A recuperación de información (IR) é un programa de software que organiza, almacena, recupera e avalía a información dos repositorios de documentos, especialmente a información textual.

A tecnoloxía axuda aos usuarios a descubrir a información que necesitan, pero non proporciona claramente as respostas ás súas preguntas. Comunica a presenza e localización de papeis que poidan achegar a información necesaria.

Os documentos relevantes son aqueles que responden ás necesidades do usuario. Un sistema IR impecable devolverá só os documentos seleccionados.

Coherencia temática

Topic Coherence puntua un único tema calculando o grao de semellanza semántica entre os termos de alta puntuación do tema. Estas métricas axudan a distinguir entre temas que son interpretables semánticamente e temas que son artefactos de inferencia estatística.

Se un grupo de afirmacións ou feitos se apoian entre si, dise que son coherentes.

Como resultado, un conxunto de feitos cohesionados pode entenderse nun contexto que abarca todos ou a maioría dos feitos. "O xogo é un deporte de equipo", "o xogo xógase cun balón" e "o xogo require un esforzo físico tremendo" son todos exemplos de conxuntos de feitos cohesionados.

Diferentes métodos de modelado de temas

Este procedemento crítico pódese levar a cabo mediante unha variedade de algoritmos ou metodoloxías. Entre eles están:

Asignación de dirichlet latente (LDA)
Factorización de matriz non negativa (NMF)
Análise semántica latente (LSA)
Análise semántica latente probabilística (pLSA)

Asignación de dirichlet latente (LDA)

Para detectar relacións entre varios textos dun corpus, utilízase o concepto estatístico e gráfico de Latent Dirichlet Allocation.

Usando o enfoque de Maximización de Excepción Variacional (VEM), conséguese a maior estimación de probabilidade do corpus completo de texto.

LDA

Tradicionalmente, escóllense as primeiras palabras dunha bolsa de palabras.

Non obstante, a frase carece de sentido.

Segundo esta técnica, cada texto estará representado por unha distribución probabilística de temas, e cada tema por unha distribución probabilística de palabras.

Factorización de matriz no negativa (NMF)

A factorización de matrices con valores non negativos é un enfoque de extracción de características de vangarda.

Cando hai moitas calidades e os atributos son vagos ou teñen escasa previsibilidade, a NMF é beneficiosa. NMF pode xerar patróns, temas ou temas significativos combinando características.

Factorización matricial non negativa

NMF xera cada característica como unha combinación lineal do conxunto de atributos orixinal.

Cada característica contén un conxunto de coeficientes que representan a importancia de cada atributo na característica. Cada atributo numérico e cada valor de cada atributo de categoría ten o seu propio coeficiente.

Todos os coeficientes son positivos.

Análise semántica latente

Outro método de aprendizaxe non supervisado usado para extraer asociacións entre palabras nun conxunto de documentos é a análise semántica latente.

Isto axúdanos a escoller os documentos axeitados. A súa función principal é reducir a dimensionalidade do enorme corpus de datos de texto.

Estes datos innecesarios serven de ruído de fondo para obter a información necesaria a partir dos datos.

Análise semántica latente

Análise semántica latente probabilística (pLSA)

A análise semántica latente probabilística (PLSA), ás veces coñecida como indexación semántica latente probabilística (PLSI, especialmente nos círculos de recuperación de información), é un enfoque estatístico para analizar datos de dous modos e de co-ocurrencia.

De feito, de xeito similar á análise semántica latente, da que xurdiu PLSA, pódese derivar unha representación de baixa dimensión das variables observadas en función da súa afinidade con determinadas variables ocultas.

Análise senántica latente probabilística

Prácticas co modelado de temas en Python

Agora, explicareivos unha tarefa de modelado de materias co Python linguaxe de programación usando un exemplo do mundo real.

Estarei modelando artigos de investigación. O conxunto de datos que vou usar aquí procede de kaggle.com. Podes obter facilmente todos os ficheiros que estou a usar neste traballo a partir deste páxina.

Comecemos co modelado de temas usando Python importando todas as bibliotecas esenciais:

Importación de bibliotecas

O seguinte paso é ler todos os conxuntos de datos que vou usar nesta tarefa:

Ler o conxunto de datos

Análise de datos exploratorios

EDA (Exploratory Data Analysis) é un método estatístico que emprega elementos visuais. Utiliza resumos estatísticos e representacións gráficas para descubrir tendencias, patróns e probas de presupostos.

Farei unha análise exploratoria de datos antes de comezar a modelar temas para ver se hai algún patrón ou relación nos datos:

Atopar valores nulos do conxunto de datos do tren

Saída de valores nulos do tren

Agora atoparemos os valores nulos do conxunto de datos de proba:

Atopar valores nulos do conxunto de datos de proba

Saída de valores nulos de proba

Agora vou trazar un histograma e un diagrama de caixa para comprobar a relación entre as variables.

Trazando

Saída do trazado 1

A cantidade de personaxes do conxunto de Resumos do tren varía moito.

No tren, temos un mínimo de 54 e un máximo de 4551 caracteres. 1065 é a cantidade media de caracteres.

Trazado 2

Saída do trazado 2

O conxunto de probas parece ser máis interesante que o conxunto de adestramento xa que o conxunto de probas ten 46 caracteres mentres que o conxunto de adestramento ten 2841.

Como resultado, o conxunto de probas tiña unha mediana de 1058 caracteres, que é semellante ao conxunto de adestramento.

Trazado 3

Saída do trazado 3

O número de palabras do conxunto de aprendizaxe segue un patrón similar ao número de letras.

Permítense un mínimo de 8 palabras e un máximo de 665 palabras. Como resultado, a mediana de palabras é 153.

Trazado 4

Saída do trazado 4

Requírese un mínimo de sete palabras nun resumo e un máximo de 452 palabras no conxunto da proba.

A mediana, neste caso, é 153, que é idéntica á mediana do conxunto de adestramento.

Usando etiquetas para modelar temas

Existen varias estratexias de modelado de temas. Usarei etiquetas neste exercicio; vexamos como facelo examinando as etiquetas:

Usando etiquetas para modelar temas

Saída do modelado de temas

Aplicacións do Modelado de Temas

Pódese utilizar un resumo de texto para discernir o tema dun documento ou libro.
Pódese usar para eliminar o sesgo do candidato da puntuación do exame.
O modelado de temas pode usarse para construír relacións semánticas entre palabras en modelos baseados en gráficos.
Pode mellorar o servizo ao cliente detectando e respondendo ás palabras clave na consulta do cliente. Os clientes terán máis fe en ti xa que lles prestaches a asistencia que precisan no momento oportuno e sen que lles supoña ningún problema. Como resultado, a fidelidade dos clientes aumenta drasticamente e o valor da empresa aumenta.

Conclusión

O modelado de temas é unha especie de modelado estatístico usado para descubrir "temas" abstractos que existen nunha colección de textos.

É unha forma do modelo estatístico utilizado en aprendizaxe de máquina e procesamento da linguaxe natural para descubrir conceptos abstractos que existen nun conxunto de textos.

É un método de minería de texto que se usa amplamente para atopar patróns semánticos latentes no texto corporal.

Introdución ao modelado de temas para principiantes

Que é o modelado de temas?