Recoñecemento de entidades con nome (NER) - Concepto, aplicación e API

Temos a capacidade innata de recoñecer e clasificar as palabras en individuos, lugares, lugares, valores e moito máis sempre que as escoitamos ou lemos. Os humanos son capaces de categorizar, identificar e comprender palabras rapidamente.

Por exemplo, podes categorizar un obxecto e atopar rapidamente polo menos tres ou catro calidades cando escoitas o nome "Steve Jobs".

Persoa: "Steve Jobs"

Organización: "Apple"

Lugar: "California"

Dado que os ordenadores carecen desta habilidade innata, debemos axudalos a recoñecer palabras ou textos e clasificalos. Nesta situación utilízase o recoñecemento de entidades denominadas (NER).

Neste artigo, examinaremos NER (Named Entity Recognition) en detalle, incluíndo a súa importancia, beneficios, as principais API de NER e moito máis.

Que é o NER (Named Entity Recognition)?

Unha aproximación de procesamento da linguaxe natural (NLP) coñecida como recoñecemento de entidades con nome (NER), ás veces coñecida como identificación de entidades ou extracción de entidades, recoñece automaticamente as entidades con nome nun texto e agrúpaas en categorías predeterminadas.

As entidades inclúen nomes de persoas, grupos, lugares, datas, cantidades, cantidades en dólares, porcentaxes e moito máis. Co recoñecemento de entidades con nome, pode utilizalo para reunir datos significativos para unha base de datos ou para extraer información vital para comprender de que se trata un documento.

NER é a pedra angular da que depende un sistema de IA para analizar o texto para a semántica e o sentimento relativos, aínda que a PNL represente un avance significativo no proceso de análise de textos.

Cal é a importancia do NER?

A base dun enfoque de análise de textos é NER. Inicialmente, un modelo de ML debe recibir millóns de mostras con categorías predefinidas para que poida entender o inglés.

A API mellora co tempo ao recoñecer estes compoñentes nos textos que le por primeira vez. A potencia do motor de análise de texto aumenta coa competencia e forza da capacidade NER.

Como se ve aquí, varias operacións de ML son activadas por NER.

Busca semántica

A busca semántica xa está dispoñible en Google. Podes introducir unha pregunta e tentará responder cunha resposta. Para atopar a información que busca un usuario, asistentes dixitais como Alexa, Siri, chatbots e outros empregan un tipo de busca semántica.

Esta función pódese acertar ou perder, pero hai un número crecente de usos para ela e a súa eficacia está a aumentar rapidamente.

Análise de datos

Esta é unha frase xeral para usar algoritmos para crear análises a partir de datos non estruturados. Integra métodos para mostrar estes datos co proceso de busca e recollida de datos pertinentes.

Isto pode tomar a forma dunha explicación estatística sinxela dos resultados ou dunha representación visual dos datos. A análise do interese e do compromiso con un determinado tema pódese facer utilizando información das visualizacións de YouTube, incluso cando os espectadores fan clic nun vídeo específico.

As clasificacións de estrelas dun produto pódense analizar mediante o raspado de datos dos sitios de comercio electrónico para proporcionar unha puntuación global do ben que está a facer o produto.

Análise de sentimentos

Explorando máis a NER, análise de sentimentos pode distinguir entre boas e malas críticas aínda que non teña información das clasificacións por estrelas.

É consciente de que termos como "sobrevalorado", "fiddly" e "estúpido" teñen connotacións negativas, mentres que termos como "útil", "rápido" e "fácil". A palabra "fácil" podería interpretarse negativamente nun xogo de ordenador.

Os algoritmos sofisticados tamén poden recoñecer a relación entre as cousas.

Análise de texto

Do mesmo xeito que a análise de datos, a análise de texto extrae información de cadeas de texto non estruturadas e usa NER para concentrarse nos datos importantes.

Pódese usar para recompilar datos sobre as mencións dun produto, o prezo medio ou os termos que os clientes usan con máis frecuencia para describir unha determinada marca.

Análise de contido de vídeo

Os sistemas máis complicados son os que extraen datos da información de vídeo mediante o recoñecemento facial, a análise de audio e o recoñecemento de imaxes.

Usando a análise de contido de vídeo, podes atopar vídeos de "unboxing" de YouTube, demostracións de xogos de Twitch, sincronizacións labiais do teu material de audio en Reels e moito máis.

Para evitar perder información importante sobre como a xente se conecta ao teu produto ou servizo a medida que crece o volume de material de vídeo en liña, son esenciais técnicas máis rápidas e inventivas para a análise do contido de vídeo baseado en NER.

Aplicación do NER no mundo real

O recoñecemento de entidades con nome (NER) identifica aspectos esenciais nun texto, como nomes de persoas, localizacións, marcas, valores monetarios e moito máis.

A extracción das entidades principais nun texto axuda a ordenar os datos non estruturados e a detectar información significativa, o que é fundamental cando se trata de grandes conxuntos de datos.

Aquí tes algúns exemplos fascinantes do mundo real do recoñecemento de entidades con nome:

Análise de comentarios dos clientes

As recensións en liña son unha fonte fantástica de comentarios dos consumidores, xa que poden proporcionarche información detallada sobre o que lles gusta e odio aos clientes dos teus produtos, así como as áreas da túa empresa que hai que mellorar.

Toda esta entrada do cliente pódese organizar mediante sistemas NER, que tamén poden identificar problemas recorrentes.

Por exemplo, ao usar NER para identificar lugares que se citan a miúdo nas opinións desfavorables dos clientes, pode decidir concentrarse nunha determinada oficina.

Recomendación de contido

Unha lista de artigos que están conectados co que estás lendo pódese atopar en sitios web como BBC e CNN cando le un elemento alí.

Estes sitios web fan recomendacións para sitios web adicionais que ofrecen información sobre as entidades que extraeron do contido que estás lendo mediante NER.

Organiza entradas en Atención ao cliente

Podes usar algoritmos de recoñecemento de entidades con nome para responder ás solicitudes dos clientes máis rapidamente se xestionas un aumento no número de tickets de asistencia dos clientes.

Automatiza as tarefas de atención ao cliente que levan moito tempo, como clasificar as queixas e consultas dos clientes, para aforrar diñeiro, aumentar a felicidade dos clientes e aumentar as taxas de resolución.

A extracción de entidades tamén se pode usar para extraer datos pertinentes, como nomes de produtos ou números de serie, para que sexa máis sinxelo enviar tickets ao axente ou ao equipo adecuado para resolver ese problema.

O algoritmo de busca

Preguntaches algunha vez como os sitios web con millóns de pezas de información poden producir resultados que sexan pertinentes para a túa busca? Considere o sitio web Wikipedia.

A Wikipedia mostra unha páxina que contén entidades predefinidas coas que o termo de busca pode relacionarse cando busca "traballos", en lugar de devolver todos os artigos coa palabra "traballos".

Así, a Wikipedia ofrece unha ligazón ao artigo que define "ocupación", unha sección para persoas chamadas Jobs e outra área para medios como películas, videoxogos, e outras formas de entretemento onde aparece o termo "traballos".

Tamén vería outro segmento para as localizacións que conteñan a palabra de busca.

Coidado dos currículos

Na procura do candidato ideal, os reclutadores pasan unha parte importante do seu día revisando currículos. Cada currículo ten a mesma información, pero todos se presentan e organízanse de forma diferente, o que é un exemplo típico de datos non estruturados.

A información máis pertinente sobre os candidatos pódese extraer rapidamente mediante equipos de contratación que utilicen extractores de entidades, incluíndo datos persoais (como nome, enderezo, número de teléfono, data de nacemento e correo electrónico) e información sobre a súa formación e experiencia (como certificacións, , nomes de empresas, habilidades, etc).

E-commerce

No que respecta ao seu algoritmo de busca de produtos, os venda polo miúdo en liña con centos ou miles de produtos beneficiaríanse de NER.

Sen NER, unha busca de "botas de coiro negras" devolvería resultados que incluíron coiro e calzado que non fosen negros. Se é así, os sitios web de comercio electrónico corren o risco de perder clientes.

INo noso caso, NER clasificaría a palabra de busca como tipo de produto para botas de coiro e negra como cor.

Mellores API de extracción de entidades

Google Cloud PNL

Para ferramentas xa adestradas, Google Cloud NLP ofrece a súa API de Linguaxe Natural. Ou, a API de AutoML Natural Language é adaptable para moitos tipos de extracción e análise de texto se queres educar as túas ferramentas sobre a terminoloxía do teu sector.

As API interactúan facilmente con Gmail, Google Sheets e outras aplicacións de Google, pero usalas con programas de terceiros pode necesitar un código máis complexo.

A opción empresarial ideal é conectar as aplicacións de Google e Cloud Storage como servizos xestionados e API.

IBM Watson

IBM Watson é unha plataforma multi-nube que ten un rendemento incriblemente rápido e ofrece capacidades predefinidas, como a conversión de voz a texto, que é un software incrible que pode analizar automaticamente o audio e as chamadas telefónicas gravadas.

Co uso de datos CSV, a IA de aprendizaxe profunda de Watson Natural Language Understanding pode crear modelos de extracción para extraer entidades ou palabras clave.

E coa práctica, podes crear modelos moito máis sofisticados. Todas as súas funcionalidades son accesibles a través de API, aínda que é necesario un amplo coñecemento de codificación.

Funciona ben para grandes empresas que precisan examinar enormes conxuntos de datos e dispor de recursos técnicos internos.

Cortical.io

Usando Semantic Folding, unha noción da neuroloxía, Cortical.io ofrece solucións de extracción de texto e NLU.

Isto faise para xerar "pegadas dixitais semánticas", que indican tanto o significado dun texto no seu conxunto como en termos específicos. Para demostrar as relacións entre grupos de palabras, as pegadas dixitais semánticas representan datos de texto.

A documentación interactiva da API de Cortical.io abrangue a funcionalidade de cada unha das solucións de análise de texto e é sinxelo acceder mediante as API de Java, Python e Javascript.

A ferramenta de intelixencia contractual de Cortical.io creouse especificamente para a análise legal para facer buscas semánticas, transformar documentos dixitalizados e axudar e mellorar coas anotacións.

É ideal para empresas que buscan API sinxelas de usar que non necesitan coñecementos sobre IA, especialmente no sector xurídico.

Monkey Learn

Todas as principais linguaxes informáticas son compatibles coas API de MonkeyLearn e configuran só unhas poucas liñas de código para producir un ficheiro JSON que contén as súas entidades extraídas. Para extractores e analistas de texto con formación previa, a interface é fácil de usar.

Ou, en poucos pasos sinxelos, podes crear un extractor único. Para reducir o tempo e mellorar a precisión, o procesamento avanzado da linguaxe natural (NLP) con deep aprendizaxe de máquina permítelle avaliar o texto como o faría unha persoa.

Ademais, as API de SaaS garanten que a configuración de conexións con ferramentas como Google Sheets, Excel, Zapier, Zendesk e outras non require anos de coñecementos informáticos.

Actualmente dispoñibles no teu navegador están o extractor de nomes, o extractor de empresas e o extractor de localización. Para obter información sobre como construír o seu propio, consulte o artigo do blog de recoñecemento de entidades con nome.

É ideal para empresas de todos os tamaños implicadas en tecnoloxía, venda polo miúdo e comercio electrónico que necesitan API sinxelas de implementar para varios tipos de extracción de texto e análise de texto.

Amazon Comprehend

Para simplificar a conexión e o uso das ferramentas preconstruídas de Amazon Comprehend inmediatamente, están adestrados en centos de campos diferentes.

Non se necesitan servidores internos porque este é un servizo supervisado. Particularmente se actualmente utilizas a nube de Amazon ata certo nivel, as súas API intégranse facilmente con aplicacións existentes anteriormente. E con só un pouco máis de adestramento, pódese aumentar a precisión da extracción.

Unha das técnicas de análise de textos máis fiables para obter datos de rexistros médicos e ensaios clínicos é a Extracción de Entidades e Relacións Médicas (NERe) de Comprehend, que pode extraer detalles sobre medicamentos, condicións, resultados de probas e procedementos.

Ao comparar os datos do paciente para avaliar e afinar o diagnóstico, pode ser bastante beneficioso. A mellor opción para as empresas que buscan un servizo xestionado con ferramentas previamente adestradas.

Aylien

Para facilitar o acceso á análise de textos de aprendizaxe automática robusta, AYLIEN ofrece tres complementos de API en sete linguaxes de programación populares.

A súa API de noticias ofrece busca en tempo real e extracción de entidades de decenas de miles de fontes de noticias de todo o mundo.

Aylien

A extracción de entidades e outras tarefas de análise de texto pódense realizar mediante a API de análise de texto en documentos, medios sociais plataformas, enquisas de consumidores e moito máis.

Finalmente, usando a Plataforma de Análise de Texto, pode crear os seus propios extractores e máis directamente no seu navegador (TAP). Funciona ben para as empresas que precisan integrar rapidamente as API fixas principalmente.

SpaCy

SpaCy é un paquete de procesamento da linguaxe natural (NLP) de Python que é de código aberto, gratuíto e ten un montón de funcións integradas.

Cada vez é máis común Datos de PNL procesamento e análise. Os datos textuais non estruturados créanse a unha escala enorme, polo que é fundamental analizalos e extraer ideas del.

SpaCy

Para logralo, debes retratar os feitos dun xeito que os ordenadores poidan comprender. Podes facelo a través da PNL. É extremadamente rápido, cun tempo de atraso de só 30 ms, pero, fundamentalmente, non está pensado para o seu uso con páxinas HTTPS.

Esta é unha boa opción para escanear os teus propios servidores ou intranet porque funciona localmente, pero non é unha ferramenta para estudar toda a Internet.

Conclusión

O recoñecemento de entidades con nome (NER) é un sistema que as empresas poden usar para etiquetar a información pertinente nas solicitudes de atención ao cliente, atopar entidades ás que se fai referencia nos comentarios dos clientes e extraer rapidamente datos cruciais como detalles de contacto, localizacións e datas, entre outras cousas.

O enfoque máis común para o recoñecemento de entidades nomeadas é mediante o uso de API de extracción de entidades (se sexan proporcionadas por bibliotecas de código aberto ou produtos SaaS).

Non obstante, escoller a mellor alternativa dependerá do teu tempo, finanzas e habilidades. Para calquera tipo de negocio, a extracción de entidades e tecnoloxías de análise de texto máis sofisticadas poden ser claramente vantaxosas.

Cando as ferramentas de aprendizaxe automática se ensinan correctamente, son precisas e non pasan por alto ningún dato, o que aforra tempo e diñeiro. Podes configurar estas solucións para que se executen de forma continua e automática integrando API.

Só ten que escoller o curso de acción que sexa mellor para a súa empresa.

Recoñecemento de entidades con nome (NER) - Concepto, aplicación e API

Que é o NER (Named Entity Recognition)?