Benoemde entiteitserkenning (NER) - konsep, toepassing en API's

Ons het die aangebore vermoë om woorde in individue, plekke, liggings, waardes en meer te herken en te klassifiseer wanneer ons dit ook al hoor of lees. Mense is in staat om woorde vinnig te kategoriseer, te identifiseer en te verstaan.

Byvoorbeeld, jy kan 'n voorwerp kategoriseer en vinnig met ten minste drie tot vier eienskappe vorendag kom wanneer jy die naam "Steve Jobs" hoor.

Persoon: "Steve Jobs"

Organisasie: "Apple"

Plek: "Kalifornië"

Aangesien rekenaars nie hierdie ingebore vaardigheid het nie, moet ons hulle help om woorde of teks te herken en dit te klassifiseer. Benoemde Entiteitserkenning (NER) word in hierdie situasie gebruik.

In hierdie artikel sal ons NER (Benoemde Entiteitserkenning) in detail ondersoek, insluitend die belangrikheid daarvan, voordele, top NER API's, en nog baie meer.

Wat is NER (Benoemde Entiteitserkenning)?

'n Natuurlike taalverwerking (NLP) benadering bekend as benoemde entiteitsherkenning (NER), soms bekend as entiteitsidentifikasie of entiteitonttrekking, herken outomaties benoemde entiteite in 'n teks en groepeer hulle in voorafbepaalde kategorieë.

Entiteite sluit name van individue, groepe, plekke, datums, bedrae, dollarbedrae, persentasies en meer in. Met benoemde entiteitsherkenning kan jy dit óf gebruik om beduidende data vir 'n databasis in te samel óf om belangrike inligting te onttrek om te verstaan waaroor 'n dokument gaan.

NER is die hoeksteen waarvan 'n KI-stelsel afhanklik is om teks vir relatiewe semantiek en sentiment te ontleed, selfs al verteenwoordig NLP 'n beduidende vooruitgang in die teksontledingsproses.

Wat is die betekenis van NER?

Die grondslag van 'n teksanalise-benadering is NER. ’n ML-model moet aanvanklik miljoene monsters met vooraf gedefinieerde kategorieë gegee word voordat dit Engels kan verstaan.

Die API verbeter mettertyd om hierdie komponente te herken in tekste wat dit vir die eerste keer lees. Die teksanalise-enjin se krag neem toe met die NER-vermoë se bevoegdheid en sterkte.

Soos hier gesien, word verskeie ML-operasies deur NER geaktiveer.

Semantiese soektog

Semantiese soektog is nou op Google beskikbaar. Jy kan 'n vraag invoer, en dit sal sy bes probeer om met 'n antwoord te reageer. Om die inligting te vind waarna 'n gebruiker soek, gebruik digitale assistente soos Alexa, Siri, chatbots en ander 'n soort semantiese soektog.

Hierdie funksie kan getref word of mis, maar daar is 'n groeiende aantal gebruike daarvoor, en die doeltreffendheid daarvan neem vinnig toe.

Data Analytics

Dit is 'n algemene frase vir die gebruik van algoritmes om analise uit ongestruktureerde data te skep. Dit integreer metodes om hierdie data te vertoon met die proses om relevante data te vind en in te samel.

Dit kan die vorm aanneem van 'n eenvoudige statistiese verduideliking van die resultate of 'n visuele voorstelling van die data. Ontleding van belangstelling in en betrokkenheid by 'n sekere onderwerp kan gedoen word deur inligting van YouTube-kyke te gebruik, insluitend wanneer kykers van 'n spesifieke video af klik.

'n Produk se stergraderings kan ontleed word deur gebruik te maak van dataskrapping van e-handelswebwerwe om 'n algehele telling te gee van hoe goed die produk vaar.

Sentimentanalise

Verdere verken NER, sentiment analise kan onderskei tussen goeie en slegte resensies, selfs in die afwesigheid van inligting van stergraderings.

Dit is bewus daarvan dat terme soos "oorskat", "fiets" en "dom" negatiewe konnotasies het, terwyl terme soos "nuttig", "vinnig" en "maklik" dit doen. Die woord "maklik" kan negatief geïnterpreteer word in 'n rekenaarspeletjie.

Gesofistikeerde algoritmes kan ook die verband tussen dinge herken.

Teksanalise

Soortgelyk aan data-analise, onttrek teksanalise inligting uit ongestruktureerde teksstringe en gebruik NER om die belangrike data te nul.

Dit kan gebruik word om data saam te stel oor 'n produk se vermeldings, gemiddelde prys, of die terme wat kliënte die meeste gebruik om 'n sekere handelsmerk te beskryf.

Video-inhoudanalise

Die mees ingewikkelde stelsels is dié wat data uit video-inligting onttrek deur gebruik te maak van gesigsherkenning, oudio-analise en beeldherkenning.

Deur video-inhoudontleding te gebruik, kan jy YouTube-“unboxing”-video's, Twitch-speletjiedemonstrasies, lipsinkronisering van jou oudiomateriaal op Reels, en meer vind.

Om te verhoed dat belangrike inligting mis oor hoe mense met jou produk of diens koppel namate die volume aanlyn videomateriaal groei, is vinniger en meer vindingryke tegnieke vir NER-gebaseerde video-inhoudontleding noodsaaklik.

Werklike toepassing van NER

Benoemde entiteitsherkenning (NER) identifiseer noodsaaklike aspekte in 'n teks soos name van mense, liggings, handelsmerke, geldwaardes en meer.

Die onttrekking van die belangrikste entiteite in 'n teks help om ongestruktureerde data te sorteer en beduidende inligting op te spoor, wat van kritieke belang is wanneer groot datastelle hanteer word.

Hier is 'n paar fassinerende werklike voorbeelde van benoemde entiteitsherkenning:

Ontleed kliënteterugvoer

Aanlyn resensies is 'n fantastiese bron van verbruikerterugvoer, aangesien dit u gedetailleerde inligting kan verskaf oor wat kliënte van u goedere hou en haat, asook watter areas van u onderneming verbeter moet word.

Al hierdie kliëntinsette kan georganiseer word deur gebruik te maak van NER-stelsels, wat ook herhalende kwessies kan identifiseer.

Deur byvoorbeeld NER te gebruik om plekke te identifiseer wat dikwels in ongunstige klantresensies aangehaal word, kan jy besluit om op 'n sekere kantoortak te konsentreer.

Aanbeveling vir inhoud

'n Lys van artikels wat gekoppel is aan die een wat jy lees, kan op webwerwe soos BBC en CNN gevind word wanneer jy 'n item daar lees.

Hierdie webwerwe maak aanbevelings vir bykomende webwerwe wat inligting bied oor die entiteite wat hulle onttrek het uit die inhoud wat jy lees deur NER te gebruik.

Organiseer kaartjies in kliëntediens

Jy kan benoemde entiteitsherkenningsalgoritmes gebruik om vinniger op kliëntversoeke te reageer as jy 'n toename in die aantal ondersteuningskaartjies van kliënte bestuur.

Outomatiseer tydrowende kliëntesorgtakies, soos om kliënte se klagtes en navrae te klassifiseer, om jouself geld te bespaar, kliëntegeluk te verhoog en resolusiekoerse te verhoog.

Entiteit-onttrekking kan ook gebruik word om pertinente data, soos produkname of reeksnommers, te onttrek om dit makliker te maak om kaartjies na die regte agent of span te stuur om daardie probleem op te los.

Die soekalgoritme

Het jy al ooit bevraagteken hoe webwerwe met miljoene stukke inligting resultate kan lewer wat relevant is vir jou soektog? Oorweeg die webwerf Wikipedia.

Wikipedia vertoon 'n bladsy wat voorafbepaalde entiteite bevat waarmee die soekterm kan verband hou wanneer jy vir "jobs" soek, in plaas daarvan om alle artikels met die woord "jobs" daarin terug te gee.

Wikipedia bied dus 'n skakel na die artikel wat "beroep" definieer, 'n afdeling vir mense met die naam Jobs, en 'n ander area vir media soos flieks, video speletjies, en ander vorme van vermaak waar die term "werk" voorkom.

Jy sal ook 'n ander segment sien vir liggings wat die soekwoord bevat.

Versorging van CV's

Op soek na die ideale aansoeker, spandeer werwers 'n aansienlike deel van hul dag om CV's te hersien. Elke CV het dieselfde inligting, maar hulle word almal verskillend aangebied en georganiseer, wat 'n tipiese voorbeeld van ongestruktureerde data is.

Die mees tersaaklike inligting oor kandidate kan vinnig onttrek word deur spanne te werf deur entiteitonttrekkings te gebruik, insluitend persoonlike data (soos naam, adres, telefoonnommer, geboortedatum en e-pos) en inligting oor hul opleiding en ervaring (soos sertifiserings, graad). , maatskappyname, vaardighede, ens.).

E-handel

Wat hul produksoekalgoritme betref, sal aanlynkleinhandelaars met honderde of duisende goedere by NER baat.

Sonder NER sou 'n soektog na "swart leerstewels" resultate lewer wat beide leer en skoene insluit wat nie swart was nie. Indien wel, loop e-handelswebwerwe die risiko om kliënte te verloor.

IIn ons geval sal NER die soekwoord kategoriseer as 'n produktipe vir leerstewels en swart as die kleur.

Beste Entiteit Onttrekking API's

Google Wolk NLP

Vir reeds opgeleide nutsgoed bied Google Cloud NLP sy Natural Language API. Of, die AutoML Natural Language API is aanpasbaar vir baie soorte teksonttrekking en ontleding as jy jou gereedskap oor jou bedryf se terminologie wil opvoed.

Die API's werk maklik met Gmail, Google Blaaie en ander Google-programme, maar om dit met derdepartyprogramme te gebruik, kan meer komplekse kode benodig.

Die ideale besigheidsopsie is om Google-toepassings en Wolkberging as bestuurde dienste en API's te koppel.

IBM Watson

IBM Watson is 'n multi-wolk-platform wat ongelooflik vinnig werk en voorafgeboude vermoëns bied, soos spraak-na-teks, wat wonderlike sagteware is wat opgeneemde oudio- en telefoonoproepe outomaties kan ontleed.

Met die gebruik van CSV-data kan Watson Natural Language Understanding se diepleer-KI onttrekkingsmodelle skep om entiteite of sleutelwoorde te onttrek.

En met oefening kan jy modelle skep wat baie meer gesofistikeerd is. Al sy funksies is toeganklik deur API's, hoewel uitgebreide koderingskennis nodig is.

Dit werk goed vir groot ondernemings wat enorme datastelle moet ondersoek en interne tegniese hulpbronne het.

Cortical.io

Met behulp van Semantiese vou, 'n idee uit neurologie, bied Cortical.io teksonttrekking en NLU-oplossings.

Dit word gedoen om "semantiese vingerafdrukke" te genereer, wat beide die betekenis van 'n teks in sy geheel en spesifieke terme aandui. Ten einde die verwantskappe tussen woordgroepe te demonstreer, beeld semantiese vingerafdrukke teksdata uit.

Cortical.io se interaktiewe API-dokumentasie dek die funksionaliteit van elk van die teksanalise-oplossings, en dit is maklik om toegang te verkry deur die Java-, Python- en Javascript-API's te gebruik.

Die Contract Intelligence-instrument van Cortical.io is spesifiek geskep vir regsanalise om semantiese soektogte te doen, geskandeerde dokumente te transformeer en te help en te verbeter met annotasie.

Dit is ideaal vir besighede wat op soek is na eenvoudig-om-te gebruik API's wat nie KI-kennis benodig nie, veral in die regsektor.

Aap Leer

Al die belangrikste rekenaartale word ondersteun deur MonkeyLearn se API's en stel net 'n paar reëls kode op om 'n JSON-lêer te produseer wat jou onttrekte entiteite bevat. Vir uittrekkers en teksontleders met vorige opleiding is die koppelvlak gebruikersvriendelik.

Of, in net 'n paar eenvoudige stappe, kan jy 'n unieke extractor skep. Om tyd te verminder en akkuraatheid te verbeter, gevorderde natuurlike taalverwerking (NLP) met diep machine learning stel jou in staat om teks te evalueer soos 'n persoon dit sou doen.

Daarbenewens verseker SaaS API's dat die opstel van verbindings met nutsgoed soos Google Sheets, Excel, Zapier, Zendesk en ander nie jare se rekenaarwetenskapkennis vereis nie.

Tans beskikbaar in jou blaaier is die naam extractor, company extractor, en location extractor. Vir inligting oor hoe om jou eie te bou, sien die genoemde entiteitsherkenningsblogartikel.

Dit is ideaal vir besighede van alle groottes wat betrokke is by tegnologie, kleinhandel en e-handel wat eenvoudig-om-te-implementeer API's benodig vir verskillende soorte teksonttrekking en teksanalise.

Amazon Begryp

Om dit maklik te maak om Amazon Comprehend se voorafgeboude gereedskap dadelik aan te sluit en te gebruik, is hulle opgelei in honderde verskillende velde.

Geen interne bedieners word benodig nie, want dit is 'n gemonitorde diens. Veral as jy tans Amazon se wolk op 'n sekere vlak gebruik, integreer hul API's maklik met voorheen bestaande toepassings. En met net 'n bietjie meer opleiding, kan onttrekking akkuraatheid verhoog word.

Een van die mees betroubare teksontledingstegnieke vir die verkryging van data uit mediese rekords en kliniese proewe is Comprehend's Medical Named Entity and Relationship Extraction (NERe), wat besonderhede oor medikasie, toestande, toetsresultate en prosedures kan onttrek.

Wanneer pasiëntdata vergelyk word om diagnose te assesseer en te verfyn, kan dit baie voordelig wees. Die beste opsie vir besighede wat 'n bestuurde diens met vooraf opgeleide gereedskap soek.

Aylien

Om maklike toegang tot robuuste masjienleer-teksanalise te bied, bied AYLIEN drie API-inproppe in sewe gewilde programmeertale.

Hul Nuus API bied intydse soektog en entiteitonttrekking uit tienduisende nuusbronne van regoor die wêreld.

Aylien

Entiteit onttrekking en verskeie ander teksanalise take kan uitgevoer word met behulp van die teksanalise-API op dokumente, sosiale media platforms, verbruikersopnames, en meer.

Ten slotte, met behulp van die Teksanalise-platform, kan jy jou eie ekstrahere en meer reguit in jou blaaier (TAP) skep. Dit werk goed vir maatskappye wat hoofsaaklik vaste API's vinnig moet integreer.

Ruimte

SpaCy is 'n Python Natural Language Processing (NLP) pakket wat oopbron, gratis is en 'n klomp ingeboude funksies het.

Dit word al hoe meer algemeen vir NLP data verwerking en ontleding. Ongestruktureerde tekstuele data word op 'n enorme skaal geskep, daarom is dit noodsaaklik om dit te ontleed en insigte daaruit te onttrek.

SpaCy

Om dit te bereik, moet jy die feite uitbeeld op 'n manier wat rekenaars kan verstaan. Jy kan dit deur NLP doen. Dit is uiters vinnig, met 'n vertragingstyd van slegs 30 ms, maar krities is dit nie bedoel vir gebruik met HTTPS-bladsye nie.

Dit is 'n goeie opsie om jou eie bedieners of intranet te skandeer omdat dit plaaslik werk, maar dit is nie 'n hulpmiddel om die hele internet te bestudeer nie.

Gevolgtrekking

Benoemde entiteitsherkenning (NER) is 'n stelsel wat besighede kan gebruik om toepaslike inligting in kliëntediensversoeke te etiketteer, entiteite te vind waarna in kliënteterugvoer verwys word, en vinnig belangrike data soos kontakbesonderhede, liggings en datums, onder andere, te onttrek.

Die mees algemene benadering om as entiteitsherkenning aangewys te word, is deur gebruik te maak van entiteitonttrekking-API's (of dit nou deur oopbronbiblioteke of SaaS-produkte verskaf word).

Die keuse van die beste alternatief sal egter afhang van jou tyd, finansies en vaardighede. Vir enige soort besigheid kan entiteit-onttrekking en meer gesofistikeerde teksanalise-tegnologie duidelik voordelig wees.

Wanneer masjienleergereedskap korrek geleer word, is hulle akkuraat en mis hulle geen data nie, wat jou tyd en geld bespaar. U kan hierdie oplossings instel om deurlopend en outomaties te werk deur API's te integreer.

Kies eenvoudig die aksie wat die beste vir jou maatskappy is.

Benoemde entiteitserkenning (NER) – konsep, toepassing en API's

Wat is NER (Benoemde Entiteitserkenning)?