Introducción al modelado de temas para principiantes

Índice del contenido[Esconder][Espectáculo]

¿Qué es el modelado de temas?
Componentes del modelado de temas+-
- modelo probabilístico
- Recuperación de información
Diferentes métodos de modelado de temas+-
Práctica con el modelado de temas en Python+-
- Análisis exploratorio de datos
- Uso de etiquetas para el modelado de temas
Aplicaciones del modelado de temas
Conclusión

Seguro que has oído hablar de la inteligencia artificial, así como de palabras como aprendizaje automático y procesamiento del lenguaje natural (PNL).

Especialmente si trabaja para una empresa que maneja cientos, si no miles, de contactos de clientes todos los días.

El análisis de datos de publicaciones en redes sociales, correos electrónicos, chats, respuestas de encuestas abiertas y otras fuentes no es un proceso simple y se vuelve aún más difícil cuando se confía solo a las personas.

Es por eso que muchas personas están entusiasmadas con el potencial de inteligencia artificial para su trabajo diario y para las empresas.

El análisis de texto impulsado por IA emplea una amplia gama de enfoques o algoritmos para interpretar el lenguaje de forma orgánica, uno de los cuales es el análisis de temas, que se utiliza para descubrir automáticamente los temas de los textos.

Las empresas pueden usar modelos de análisis de temas para transferir trabajos fáciles a las máquinas en lugar de sobrecargar a los trabajadores con demasiados datos.

Considere cuánto tiempo podría ahorrar su equipo y dedicarlo a un trabajo más esencial si una computadora pudiera filtrar listas interminables de encuestas de clientes o problemas de soporte todas las mañanas.

En esta guía, veremos el modelado de temas, los diferentes métodos de modelado de temas y obtendremos algo de experiencia práctica.

¿Qué es el modelado de temas?

El modelado de temas es un tipo de minería de texto en el que se utilizan datos estadísticos supervisados y no supervisados. máquina de aprendizaje Las técnicas se utilizan para detectar tendencias en un corpus o un volumen significativo de texto no estructurado.

Puede tomar su colección masiva de documentos y usar un método de similitud para organizar las palabras en grupos de términos y descubrir temas.

Eso parece un poco complejo y difícil, ¡así que simplifiquemos el procedimiento de modelado de sujetos!

Suponga que está leyendo un periódico con un conjunto de resaltadores de colores en la mano.

¿No es eso anticuado?

Me doy cuenta de que en estos días, pocas personas leen periódicos impresos; ¡Todo es digital y los resaltadores son cosa del pasado! ¡Pretende ser tu padre o tu madre!

Entonces, cuando lees el periódico, resaltas los términos importantes.

¡Una suposición más!

Utiliza un tono diferente para enfatizar las palabras clave de varios temas. Usted clasifica las palabras clave según el color y los temas proporcionados.

Cada colección de palabras marcadas con un color determinado es una lista de palabras clave para un tema determinado. La cantidad de varios colores que eligió muestra la cantidad de temas.

Este es el tema más fundamental del modelado. Ayuda en la comprensión, organización y resumen de grandes colecciones de texto.

Sin embargo, tenga en cuenta que, para ser efectivos, los modelos de temas automatizados requieren mucho contenido. Si tiene un ensayo corto, ¡es posible que desee ir a la vieja escuela y usar resaltadores!

También es beneficioso dedicar algún tiempo a conocer los datos. Esto le dará una idea básica de lo que debe encontrar el modelo de tema.

Por ejemplo, ese diario puede ser sobre sus relaciones presentes y anteriores. Por lo tanto, anticipo que mi amigo robot de minería de texto propondrá ideas similares.

Esto puede ayudarlo a analizar mejor la calidad de los temas que ha identificado y, si es necesario, modificar los conjuntos de palabras clave.

Componentes del modelado de temas

modelo probabilístico

Las variables aleatorias y las distribuciones de probabilidad se incorporan a la representación de un evento o fenómeno en modelos probabilísticos.

Un modelo determinista proporciona una única conclusión potencial para un evento, mientras que un modelo probabilístico proporciona una distribución de probabilidad como solución.

Estos modelos consideran la realidad de que rara vez tenemos un conocimiento completo de una situación. Casi siempre hay un elemento de aleatoriedad a considerar.

Por ejemplo, el seguro de vida se basa en la realidad de que sabemos que moriremos, pero no sabemos cuándo. Estos modelos pueden ser parcialmente deterministas, parcialmente aleatorios o completamente aleatorios.

Recuperación de información

La recuperación de información (IR) es un programa de software que organiza, almacena, recupera y evalúa información de repositorios de documentos, particularmente información textual.

La tecnología ayuda a los usuarios a descubrir la información que necesitan, pero no ofrece respuestas claras a sus consultas. Avisa de la presencia y ubicación de papeles que puedan aportar la información necesaria.

Los documentos relevantes son aquellos que satisfacen las necesidades del usuario. Un sistema IR impecable devolverá solo los documentos seleccionados.

Coherencia del tema

Topic Coherence califica un solo tema calculando el grado de similitud semántica entre los términos de alta puntuación del tema. Estas métricas ayudan a distinguir entre temas que son semánticamente interpretables y temas que son artefactos de inferencia estadística.

Si un grupo de afirmaciones o hechos se apoyan entre sí, se dice que son coherentes.

Como resultado, un conjunto cohesivo de hechos puede entenderse en un contexto que abarca todos o la mayoría de los hechos. “El juego es un deporte de equipo”, “el juego se juega con una pelota” y “el juego requiere un tremendo esfuerzo físico” son todos ejemplos de conjuntos de hechos cohesivos.

Diferentes métodos de modelado de temas

Este procedimiento crítico puede llevarse a cabo mediante una variedad de algoritmos o metodologías. Entre ellos están:

Asignación de Dirichlet Latente (LDA)
Factorización de matriz no negativa (NMF)
Análisis semántico latente (LSA)
Análisis Semántico Probabilístico Latente (pLSA)

Asignación latente de Dirichlet (LDA)

Para detectar relaciones entre múltiples textos en un corpus, se utiliza el concepto estadístico y gráfico de Latent Dirichlet Allocation.

Con el enfoque de maximización de excepciones variacionales (VEM), se logra la estimación de mayor probabilidad del corpus de texto completo.

LDA

Tradicionalmente, se eligen las primeras palabras de una bolsa de palabras.

Sin embargo, la frase no tiene ningún sentido.

Según esta técnica, cada texto estará representado por una distribución probabilística de temas, y cada tema por una distribución probabilística de palabras.

Factorización de matriz no negativa (NMF)

Matriz con valores no negativos La factorización es un enfoque de extracción de características de vanguardia.

Cuando hay muchas cualidades y los atributos son vagos o tienen poca previsibilidad, NMF es beneficioso. NMF puede generar patrones, sujetos o temas significativos mediante la combinación de características.

Factorización de matrices no negativas

NMF genera cada característica como una combinación lineal del conjunto de atributos original.

Cada característica contiene un conjunto de coeficientes que representan la importancia de cada atributo en la característica. Cada atributo numérico y cada valor de cada atributo de categoría tiene su propio coeficiente.

Todos los coeficientes son positivos.

Análisis semántico latente

Otro método de aprendizaje no supervisado utilizado para extraer asociaciones entre palabras en un conjunto de documentos es el análisis semántico latente.

Esto nos ayuda a elegir los documentos adecuados. Su función principal es reducir la dimensionalidad del enorme corpus de datos de texto.

Estos datos innecesarios sirven como ruido de fondo para adquirir los conocimientos necesarios a partir de los datos.

Análisis semántico latente

Análisis Semántico Probabilístico Latente (pLSA)

El análisis semántico probabilístico latente (PLSA), a veces conocido como indexación semántica probabilística latente (PLSI, especialmente en los círculos de recuperación de información), es un enfoque estadístico para analizar datos de dos modos y de co-ocurrencia.

De hecho, de manera similar al análisis semántico latente, del que surgió PLSA, se puede derivar una representación de baja dimensión de las variables observadas en términos de su afinidad con variables ocultas particulares.

Análisis senático probabilístico latente

Práctica con el modelado de temas en Python

Ahora, lo guiaré a través de una tarea de modelado de sujetos con Python lenguaje de programación utilizando un ejemplo del mundo real.

Estaré modelando artículos de investigación. El conjunto de datos que usaré aquí proviene de kaggle.com. Puede obtener fácilmente todos los archivos que estoy usando en este trabajo desde este página.

Comencemos con el modelado de temas usando Python importando todas las bibliotecas esenciales:

Importación de bibliotecas

El siguiente paso es leer todos los conjuntos de datos que usaré en esta tarea:

Leer el conjunto de datos

Análisis exploratorio de datos

EDA (Análisis exploratorio de datos) es un método estadístico que emplea elementos visuales. Utiliza resúmenes estadísticos y representaciones gráficas para descubrir tendencias, patrones y probar suposiciones.

Haré un análisis exploratorio de datos antes de comenzar a modelar temas para ver si hay patrones o relaciones en los datos:

Buscar valores nulos del conjunto de datos del tren

Salida de valores nulos del tren

Ahora encontraremos los valores nulos del conjunto de datos de prueba:

Buscar valores nulos del conjunto de datos de prueba

Salida de valores nulos de prueba

Ahora trazaré un histograma y un diagrama de caja para verificar la relación entre las variables.

Trazado

Salida de trazado 1

La cantidad de personajes en el conjunto Abstracts of the Train varía mucho.

En el tren, tenemos un mínimo de 54 y un máximo de 4551 caracteres. 1065 es la cantidad promedio de caracteres.

Trazado 2

Salida de trazado 2

El conjunto de prueba parece ser más interesante que el conjunto de entrenamiento ya que el conjunto de prueba tiene 46 caracteres mientras que el conjunto de entrenamiento tiene 2841.

Como resultado, el conjunto de prueba tenía una mediana de 1058 caracteres, que es similar al conjunto de entrenamiento.

Trazado 3

Salida de trazado 3

El número de palabras en el conjunto de aprendizaje sigue un patrón similar al número de letras.

Se permite un mínimo de 8 palabras y un máximo de 665 palabras. Como resultado, el recuento medio de palabras es 153.

Trazado 4

Salida de trazado 4

Se requiere un mínimo de siete palabras en un resumen y un máximo de 452 palabras en el conjunto de prueba.

La mediana, en este caso, es 153, que es idéntica a la mediana del conjunto de entrenamiento.

Uso de etiquetas para el modelado de temas

Hay varias estrategias de modelado de temas. Usaré etiquetas en este ejercicio; veamos cómo hacerlo examinando las etiquetas:

Uso de etiquetas para el modelado de temas

Salida del modelado de temas

Aplicaciones del modelado de temas

Un resumen de texto se puede utilizar para discernir el tema de un documento o libro.
Se puede usar para eliminar el sesgo de los candidatos de la puntuación del examen.
El modelado de temas podría usarse para construir relaciones semánticas entre palabras en modelos basados en gráficos.
Puede mejorar el servicio al cliente detectando y respondiendo a palabras clave en la consulta del cliente. Los clientes tendrán más confianza en ti ya que les has brindado la asistencia que requieren en el momento adecuado y sin causarles molestias. Como resultado, la lealtad del cliente aumenta drásticamente y el valor de la empresa aumenta.

Conclusión

El modelado de temas es una especie de modelado estadístico que se utiliza para descubrir "temas" abstractos que existen en una colección de textos.

Es una forma del modelo estadístico utilizado en máquina de aprendizaje y el procesamiento del lenguaje natural para descubrir conceptos abstractos que existen en un conjunto de textos.

Es un método de minería de texto que se usa ampliamente para encontrar patrones semánticos latentes en el cuerpo del texto.

Introducción al modelado de temas para principiantes

¿Qué es el modelado de temas?