Reconeixement d'entitats anomenades (NER) - Concepte, aplicació i API

Tenim la capacitat innata de reconèixer i classificar paraules en individus, llocs, ubicacions, valors i molt més sempre que les escoltem o llegim. Els humans són capaços de categoritzar, identificar i comprendre paraules ràpidament.

Per exemple, podeu categoritzar un objecte i trobar ràpidament almenys tres o quatre qualitats quan escolteu el nom "Steve Jobs".

Persona: "Steve Jobs"

Organització: "Apple"

Ubicació: "Califòrnia"

Com que els ordinadors no tenen aquesta habilitat innata, hem d'ajudar-los a reconèixer paraules o text i classificar-los. En aquesta situació s'utilitza el reconeixement d'entitats anomenades (NER).

En aquest article, examinarem NER (Reconeixement d'entitats anomenades) en detall, incloent-hi la seva importància, els seus beneficis, les principals API de NER i molt més.

Què és NER (Named Entity Recognition)?

Un enfocament de processament del llenguatge natural (NLP) conegut com a reconeixement d'entitats amb nom (NER), de vegades conegut com a identificació d'entitats o extracció d'entitats, reconeix automàticament les entitats amb nom en un text i les agrupa en categories predeterminades.

Les entitats inclouen noms d'individus, grups, llocs, dates, quantitats, quantitats en dòlars, percentatges i molt més. Amb el reconeixement d'entitats amb nom, podeu utilitzar-lo per recopilar dades importants per a una base de dades o per extreure informació vital per comprendre de què tracta un document.

NER és la pedra angular de la qual depèn un sistema d'IA per analitzar el text per a la semàntica i el sentiment relatius, fins i tot si la NLP representa un avenç significatiu en el procés d'anàlisi de text.

Quina és la importància de la NER?

La base d'un enfocament d'anàlisi de textos és NER. Un model de ML ha de rebre inicialment milions de mostres amb categories predefinides abans que pugui entendre l'anglès.

L'API millora amb el temps en reconèixer aquests components en textos que llegeix per primera vegada. La potència del motor d'anàlisi de text augmenta amb la competència i la força de la capacitat NER.

Com es veu aquí, NER desencadena diverses operacions ML.

Cerca semàntica

La cerca semàntica ja està disponible a Google. Podeu introduir una pregunta i farà tot el possible per respondre amb una resposta. Per trobar la informació que cerca un usuari, assistents digitals com Alexa, Siri, chatbots i altres utilitzen un tipus de cerca semàntica.

Aquesta funció es pot encertar o perdre, però hi ha un nombre creixent d'usos i la seva eficàcia augmenta ràpidament.

Data Analytics

Aquesta és una frase general per utilitzar algorismes per crear anàlisis a partir de dades no estructurades. Integra mètodes per mostrar aquestes dades amb el procés de cerca i recollida de dades pertinents.

Això pot prendre la forma d'una explicació estadística senzilla dels resultats o una representació visual de les dades. L'anàlisi de l'interès i el compromís amb un tema determinat es pot fer mitjançant la informació de les visualitzacions de YouTube, inclòs quan els espectadors fan clic a un vídeo específic.

Les puntuacions d'estrelles d'un producte es poden analitzar mitjançant el raspat de dades dels llocs de comerç electrònic per proporcionar una puntuació global del bon rendiment del producte.

Anàlisi de sentiments

Explorant més NER, anàlisi del sentiment pot distingir entre crítiques bones i dolentes, fins i tot en absència d'informació de les valoracions d'estrelles.

És conscient que termes com "sobrevalorat", "fiddly" i "estúpid" tenen connotacions negatives, mentre que termes com "útil", "ràpid" i "fàcil" sí. La paraula "fàcil" es podria interpretar negativament en un joc d'ordinador.

Els algorismes sofisticats també poden reconèixer la relació entre les coses.

Anàlisi de text

De manera similar a l'anàlisi de dades, l'anàlisi de text extreu informació de cadenes de text no estructurades i utilitza NER per concentrar-se en les dades importants.

Es pot utilitzar per recopilar dades sobre les mencions d'un producte, el preu mitjà o els termes que els clients utilitzen amb més freqüència per descriure una determinada marca.

Anàlisi de contingut de vídeo

Els sistemes més complicats són els que extreuen dades de la informació de vídeo mitjançant el reconeixement facial, l'anàlisi d'àudio i el reconeixement d'imatges.

Mitjançant l'anàlisi de contingut de vídeo, podeu trobar vídeos de "unboxing" de YouTube, demostracions de jocs de Twitch, sincronitzacions de llavis del vostre material d'àudio a Reels i molt més.

Per evitar que es perdi informació important sobre com la gent es connecta al vostre producte o servei a mesura que creix el volum de material de vídeo en línia, són essencials tècniques més ràpides i inventives per a l'anàlisi del contingut de vídeo basat en NER.

Aplicació real de NER

El reconeixement d'entitats amb nom (NER) identifica aspectes essencials en un text, com ara noms de persones, ubicacions, marques, valors monetaris i molt més.

L'extracció de les entitats principals d'un text ajuda a ordenar les dades no estructurades i a detectar informació significativa, que és fonamental quan es tracta de grans conjunts de dades.

Aquests són alguns exemples fascinants del món real de reconeixement d'entitats amb nom:

Anàlisi dels comentaris dels clients

Les ressenyes en línia són una font fantàstica de comentaris dels consumidors, ja que poden proporcionar-vos informació detallada sobre què els agrada i odien els vostres productes, així com quines àrees de la vostra empresa cal millorar.

Tota aquesta entrada del client es pot organitzar mitjançant sistemes NER, que també poden identificar problemes recurrents.

Per exemple, utilitzant NER per identificar llocs que sovint es citen a les ressenyes desfavorables dels clients, podeu decidir concentrar-vos en una determinada sucursal d'oficina.

Recomanació de contingut

Podeu trobar una llista d'articles connectats amb el que esteu llegint a llocs web com BBC i CNN quan llegiu un article allà.

Aquests llocs web fan recomanacions per a llocs web addicionals que ofereixen informació sobre les entitats que han extret del contingut que esteu llegint mitjançant NER.

Organitzeu les entrades al servei d'atenció al client

Podeu utilitzar algorismes de reconeixement d'entitats amb nom per respondre a les sol·licituds dels clients més ràpidament si gestioneu un augment del nombre de bitllets d'assistència dels clients.

Automatitzeu les tasques d'atenció al client que consumeixen molt de temps, com ara classificar les queixes i consultes dels clients, per estalviar-vos diners, augmentar la felicitat dels clients i augmentar les taxes de resolució.

L'extracció d'entitats també es pot utilitzar per extreure dades pertinents, com ara noms de productes o números de sèrie, per facilitar l'enviament de bitllets a l'agent o equip adequat per resoldre aquest problema.

L'algoritme de cerca

Alguna vegada us heu preguntat com els llocs web amb milions d'informació poden produir resultats que siguin rellevants per a la vostra cerca? Penseu en el lloc web Viquipèdia.

La Viquipèdia mostra una pàgina que conté entitats predefinides amb les quals es pot relacionar el terme de cerca quan cerqueu "ocupacions", en lloc de tornar tots els articles amb la paraula "feina".

Així, la Viquipèdia ofereix un enllaç a l'article que defineix "ocupació", una secció per a persones anomenada Jobs, i una altra àrea per a mitjans com ara pel·lícules, jocs de vídeo, i altres formes d'entreteniment on apareix el terme "feina".

També veureu un altre segment per a les ubicacions que contenen la paraula de cerca.

Tenir cura dels currículums

A la recerca del sol·licitant ideal, els reclutadors passen una part important del seu dia revisant currículums. Cada currículum té la mateixa informació, però tots es presenten i s'organitzen de manera diferent, que és un exemple típic de dades no estructurades.

La informació més pertinent sobre els candidats es pot extreure ràpidament mitjançant equips de reclutament que utilitzen extractors d'entitats, incloses dades personals (com ara nom, adreça, número de telèfon, data de naixement i correu electrònic) i informació sobre la seva formació i experiència (com ara certificacions, , noms d'empreses, habilitats, etc.).

E-commerce

Pel que fa al seu algorisme de cerca de productes, els minoristes en línia amb centenars o milers de productes es beneficiaran de NER.

Sense NER, una cerca de "botes de cuir negres" retornaria resultats que incloguessin tant cuir com calçat que no fos negre. Si és així, els llocs web de comerç electrònic corren el risc de perdre clients.

IEn el nostre cas, NER classificaria la paraula de cerca com a tipus de producte per a les botes de cuir i el negre com a color.

Millors API d'extracció d'entitats

Google Cloud PNL

Per a les eines ja entrenades, Google Cloud NLP ofereix la seva API de llenguatge natural. O, l'API AutoML Natural Language és adaptable per a molts tipus d'extracció i anàlisi de text si voleu educar les vostres eines sobre la terminologia del vostre sector.

Google Cloud PNL

Les API interactuen fàcilment amb Gmail, Google Sheets i altres aplicacions de Google, però utilitzar-les amb programes de tercers pot necessitar un codi més complex.

L'opció de negoci ideal és connectar les aplicacions de Google i Cloud Storage com a serveis i API gestionats.

IBM Watson

IBM Watson és una plataforma multinúvol que funciona amb una rapidesa increïble i proporciona capacitats preconstruïdes, com ara la veu a text, que és un programari increïble que pot analitzar automàticament l'àudio i les trucades telefòniques enregistrades.

Amb l'ús de dades CSV, l'IA d'aprenentatge profund de Watson Natural Language Understanding pot crear models d'extracció per extreure entitats o paraules clau.

IBM Watson

I amb la pràctica, podeu crear models molt més sofisticats. Totes les seves funcionalitats són accessibles a través de les API, tot i que calen coneixements amplis de codificació.

Funciona bé per a grans empreses que necessiten examinar conjunts de dades enormes i disposar de recursos tècnics interns.

Cortical.io

Utilitzant Semantic Folding, una noció de la neurologia, Cortical.io proporciona solucions d'extracció de text i NLU.

Això es fa per generar "empremtes dactilars semàntiques", que indiquen tant el significat d'un text en la seva totalitat com els termes específics. Per tal de demostrar les relacions entre grups de paraules, les empremtes dactilars semàntiques representen dades de text.

La documentació de l'API interactiva de Cortical.io cobreix la funcionalitat de cadascuna de les solucions d'anàlisi de text, i és fàcil accedir-hi mitjançant les API de Java, Python i Javascript.

Cortical.io

L'eina Contract Intelligence de Cortical.io es va crear específicament per a l'anàlisi legal per fer cerques semàntiques, transformar documents escanejats i ajudar i millorar amb anotacions.

És ideal per a empreses que busquen API senzilles d'utilitzar que no necessiten coneixements d'IA, especialment en el sector legal.

Monkey Learn

Tots els llenguatges informàtics principals són compatibles amb les API de MonkeyLearn i només configuren unes poques línies de codi per produir un fitxer JSON que conté les entitats extretes. Per als extractors i analistes de text amb formació prèvia, la interfície és fàcil d'utilitzar.

O, amb només uns quants passos senzills, podeu crear un extractor únic. Per reduir el temps i millorar la precisió, el processament avançat del llenguatge natural (NLP) amb profund màquina d'aprenentatge us permet avaluar el text com ho faria una persona.

Monkey Learn

A més, les API SaaS garanteixen que la configuració de connexions amb eines com ara Google Sheets, Excel, Zapier, Zendesk i altres no requereix anys de coneixements en informàtica.

Actualment disponibles al vostre navegador l'extractor de noms, l'extractor d'empresa i l'extractor d'ubicacions. Per obtenir informació sobre com crear el vostre propi, consulteu l'article del bloc de reconeixement d'entitats anomenades.

És ideal per a empreses de totes les mides implicades en tecnologia, comerç minorista i comerç electrònic que necessiten API senzilles d'implementar per a diversos tipus d'extracció i anàlisi de text.

Amazon Comprehend

Per tal de facilitar la connexió i l'ús de les eines preconstruïdes d'Amazon Comprehend immediatament, estan entrenats en centenars de camps diferents.

No calen servidors interns perquè es tracta d'un servei supervisat. Sobretot si actualment feu servir el núvol d'Amazon fins a un cert nivell, les seves API s'integren fàcilment amb aplicacions existents anteriorment. I amb només una mica més d'entrenament, es pot augmentar la precisió d'extracció.

Amazon Comprehend

Una de les tècniques d'anàlisi de text més fiables per obtenir dades de registres mèdics i assaigs clínics és l'extracció d'entitats i relacions amb nom mèdic (NERe) de Comprehend, que pot extreure detalls sobre medicaments, condicions, resultats de proves i procediments.

Quan es comparen les dades del pacient per avaluar i ajustar el diagnòstic, pot ser força beneficiós. La millor opció per a les empreses que busquen un servei gestionat amb eines preformades.

Aylien

Per tal de proporcionar un accés fàcil a una anàlisi robusta de text d'aprenentatge automàtic, AYLIEN ofereix tres connectors d'API en set llenguatges de programació populars.

La seva API de notícies proporciona cerca en temps real i extracció d'entitats de desenes de milers de fonts de notícies d'arreu del món.

Aylien

L'extracció d'entitats i diverses altres tasques d'anàlisi de text es poden dur a terme mitjançant l'API d'anàlisi de text en documents, mitjans de comunicació social plataformes, enquestes de consumidors i molt més.

Finalment, utilitzant la plataforma d'anàlisi de text, podeu crear els vostres propis extractors i més directament al vostre navegador (TAP). Funciona bé per a les empreses que necessiten integrar ràpidament les API fixes principalment.

SpaCy

SpaCy és un paquet de processament de llenguatge natural (NLP) de Python que és de codi obert, gratuït i té un munt de funcions integrades.

Cada cop és més comú Dades de PNL processament i anàlisi. Les dades textuals no estructurades es creen a una escala enorme, per la qual cosa és crucial analitzar-les i extreure-ne informació.

SpaCy

Per aconseguir-ho, heu de retratar els fets d'una manera que els ordinadors puguin comprendre. Ho pots fer a través de la PNL. És extremadament ràpid, amb un temps de retard de només 30 ms, però, sobretot, no està pensat per a l'ús amb pàgines HTTPS.

Aquesta és una bona opció per escanejar els vostres propis servidors o intranet perquè funciona de manera local, però no és una eina per estudiar tot Internet.

Conclusió

El reconeixement d'entitats anomenades (NER) és un sistema que les empreses poden utilitzar per etiquetar la informació pertinent a les sol·licituds d'assistència al client, trobar entitats a les quals es fa referència als comentaris dels clients i extreure ràpidament dades crucials com ara dades de contacte, ubicacions i dates, entre altres coses.

L'enfocament més comú per rebre el reconeixement d'entitats anomenades és mitjançant l'ús d'API d'extracció d'entitats (ja sigui que les proporcionin biblioteques de codi obert o productes SaaS).

Tanmateix, triar la millor alternativa dependrà del vostre temps, finances i habilitats. Per a qualsevol tipus de negoci, les tecnologies d'extracció d'entitats i d'anàlisi de text més sofisticades poden ser clarament avantatjoses.

Quan les eines d'aprenentatge automàtic s'ensenyen correctament, són precises i no passen per alt cap dada, la qual cosa us estalvia temps i diners. Podeu configurar aquestes solucions perquè s'executin contínuament i automàticament mitjançant la integració d'API.

Simplement trieu el curs d'acció que millor s'adapti a la vostra empresa.

Reconeixement d'entitats anomenades (NER): concepte, aplicació i API

Què és NER (Named Entity Recognition)?