Named Entity Recognition (NER) - Concept, Applicatie & API's

We hebben het aangeboren vermogen om woorden te herkennen en te classificeren in individuen, plaatsen, locaties, waarden en meer wanneer we ze horen of lezen. Mensen kunnen woorden snel categoriseren, identificeren en begrijpen.

U kunt bijvoorbeeld een object categoriseren en snel op minimaal drie tot vier eigenschappen komen als u de naam 'Steve Jobs' hoort.

Persoon: “Steve Jobs”

Organisatie: “Apple”

Locatie: “Californië”

Aangezien computers deze aangeboren vaardigheid niet hebben, moeten we ze helpen woorden of tekst te herkennen en te classificeren. Named Entity Recognition (NER) wordt in deze situatie gebruikt.

In dit artikel zullen we NER (Named Entity Recognition) in detail onderzoeken, inclusief het belang, de voordelen, de beste NER API's en nog veel meer.

Wat is NER (Named Entity Recognition)?

Een natuurlijke taalverwerkingsbenadering (NLP) die bekend staat als benoemde entiteitherkenning (NER), ook wel bekend als entiteitsidentificatie of entiteitsextractie, herkent automatisch benoemde entiteiten in een tekst en groepeert ze in vooraf bepaalde categorieën.

Entiteiten omvatten namen van individuen, groepen, plaatsen, datums, bedragen, dollarbedragen, percentages en meer. Met benoemde entiteitsherkenning kunt u het gebruiken om belangrijke gegevens voor een database te verzamelen of om essentiële informatie te extraheren om te begrijpen waar een document over gaat.

NER is de hoeksteen waarvan een AI-systeem afhankelijk is om tekst te analyseren op relatieve semantiek en sentiment, zelfs als NLP een aanzienlijke vooruitgang betekent in het tekstanalyseproces.

Wat is de betekenis van NER?

De basis van een tekstanalyse-aanpak is NER. Een ML-model moet in eerste instantie miljoenen voorbeelden krijgen met vooraf gedefinieerde categorieën voordat het Engels kan begrijpen.

De API verbetert met de tijd bij het herkennen van deze componenten in teksten die voor het eerst worden gelezen. De kracht van de tekstanalyse-engine neemt toe met de competentie en kracht van de NER-mogelijkheid.

Zoals hier te zien is, worden verschillende ML-bewerkingen geactiveerd door NER.

Semantisch zoeken

Semantisch zoeken is nu beschikbaar op Google. U kunt een vraag invoeren en hij zal zijn best doen om met een antwoord te reageren. Om de informatie te vinden waarnaar een gebruiker op zoek is, gebruiken digitale assistenten zoals Alexa, Siri, chatbots en anderen een soort semantische zoekopdracht.

Deze functie kan worden geraakt of gemist, maar er zijn een groeiend aantal toepassingen en hun effectiviteit neemt snel toe.

gegevens Analytics

Dit is een algemene uitdrukking voor het gebruik van algoritmen om analyses te maken op basis van ongestructureerde gegevens. Het integreert methoden voor het weergeven van deze gegevens met het proces van het vinden en verzamelen van relevante gegevens.

Dit kan de vorm aannemen van een eenvoudige statistische verklaring van de resultaten of een visuele weergave van de gegevens. Analyse van interesse in en betrokkenheid bij een bepaald onderwerp kan worden gedaan met behulp van informatie uit YouTube-weergaven, ook wanneer kijkers op een specifieke video klikken.

De sterbeoordelingen van een product kunnen worden geanalyseerd met behulp van gegevensschraping van e-commercesites om een algemene score te geven van hoe goed het product het doet.

Sentiment analyse

Verdere verkenning van NER, sentiment analyse kan onderscheid maken tussen goede en slechte recensies, zelfs als er geen informatie is uit sterbeoordelingen.

Het is zich ervan bewust dat termen als 'overschat', 'onhandig' en 'dom' een negatieve connotatie hebben, terwijl termen als 'nuttig', 'snel' en 'gemakkelijk' dat wel hebben. Het woord "gemakkelijk" zou negatief kunnen worden geïnterpreteerd in een computerspel.

Geavanceerde algoritmen kunnen ook de relatie tussen dingen herkennen.

Tekstanalyse

Net als bij data-analyse, haalt tekstanalyse informatie uit ongestructureerde tekstreeksen en gebruikt NER om in te zoomen op de belangrijke gegevens.

Het kan worden gebruikt om gegevens te verzamelen over de vermeldingen van een product, de gemiddelde prijs of de termen die klanten het vaakst gebruiken om een bepaald merk te beschrijven.

Analyse van video-inhoud

De meest gecompliceerde systemen zijn die welke gegevens extraheren uit video-informatie met behulp van gezichtsherkenning, audio-analyse en beeldherkenning.

Met behulp van video-inhoudsanalyse kun je YouTube-video's voor het uitpakken van video's, Twitch-gamedemonstraties, lipsynchronisatie van je audiomateriaal op Reels en meer vinden.

Om te voorkomen dat u belangrijke informatie mist over hoe mensen verbinding maken met uw product of dienst naarmate het volume aan online videomateriaal groeit, zijn snellere en meer inventieve technieken voor op NER gebaseerde video-inhoudsanalyse essentieel.

Real-world toepassing van NER

Genoemde entiteitherkenning (NER) identificeert essentiële aspecten in een tekst, zoals namen van mensen, locaties, merken, geldwaarden en meer.

Het extraheren van de belangrijkste entiteiten in een tekst helpt bij het sorteren van ongestructureerde gegevens en het detecteren van belangrijke informatie, wat van cruciaal belang is bij het omgaan met grote datasets.

Hier zijn enkele fascinerende praktijkvoorbeelden van benoemde entiteitsherkenning:

Feedback van klanten analyseren

Online beoordelingen zijn een fantastische bron van feedback van consumenten, omdat ze u gedetailleerde informatie kunnen geven over wat klanten leuk vinden en haten aan uw goederen en welke onderdelen van uw bedrijf verbeterd moeten worden.

Al deze input van klanten kan worden georganiseerd met behulp van NER-systemen, die ook terugkerende problemen kunnen identificeren.

Door bijvoorbeeld NER te gebruiken om plaatsen te identificeren die vaak worden genoemd in ongunstige klantbeoordelingen, kunt u besluiten om u te concentreren op een bepaald kantoorfiliaal.

Aanbeveling voor inhoud

Een lijst met artikelen die verband houden met het artikel dat u aan het lezen bent, kunt u vinden op websites als BBC en CNN wanneer u daar een artikel leest.

Deze websites doen aanbevelingen voor aanvullende websites die informatie bieden over de entiteiten die ze hebben geëxtraheerd uit de inhoud die u met NER leest.

Tickets organiseren in de klantenondersteuning

U kunt algoritmen voor herkenning van benoemde entiteiten gebruiken om sneller op verzoeken van klanten te reageren als u een toename van het aantal ondersteuningstickets van klanten beheert.

Automatiseer tijdrovende taken op het gebied van klantenservice, zoals het classificeren van klachten en vragen van klanten, om uzelf geld te besparen, de klanttevredenheid te vergroten en de oplossingspercentages te verhogen.

Entiteitsextractie kan ook worden gebruikt om relevante gegevens te extraheren, zoals productnamen of serienummers, om het eenvoudiger te maken om tickets naar de juiste agent of het juiste team te sturen om dat probleem op te lossen.

Het zoekalgoritme

Heeft u zich ooit afgevraagd hoe websites met miljoenen stukjes informatie resultaten kunnen opleveren die relevant zijn voor uw zoekopdracht? Denk aan de website Wikipedia.

Wikipedia geeft een pagina weer met vooraf gedefinieerde entiteiten waarop de zoekterm betrekking kan hebben wanneer u zoekt naar 'banen', in plaats van alle artikelen met het woord 'banen' erin te retourneren.

Wikipedia biedt dus een link naar het artikel dat 'beroep' definieert, een sectie voor mensen met de naam Jobs, en een ander gebied voor media zoals films, video games, en andere vormen van entertainment waar de term 'banen' voorkomt.

U ziet ook een ander segment voor locaties die het zoekwoord bevatten.

CV's verzorgen

Op zoek naar de ideale sollicitant besteden recruiters een aanzienlijk deel van hun dag aan het beoordelen van cv's. Elk cv bevat dezelfde informatie, maar ze worden allemaal anders gepresenteerd en georganiseerd, wat een typisch voorbeeld is van ongestructureerde gegevens.

De meest relevante informatie over kandidaten kan snel worden geëxtraheerd door teams te werven met behulp van entiteitenextractors, waaronder persoonlijke gegevens (zoals naam, adres, telefoonnummer, geboortedatum en e-mail) en informatie over hun opleiding en ervaring (zoals certificeringen, diploma's , bedrijfsnamen, vaardigheden, enz.).

E-commerce

Wat betreft hun algoritme voor het zoeken naar producten, zouden online retailers met honderden of duizenden goederen baat hebben bij NER.

Zonder NER zou een zoekopdracht naar 'zwarte leren laarzen' resultaten opleveren die zowel leer als schoenen bevatten die niet zwart waren. Als dat zo is, lopen e-commerce websites het risico klanten te verliezen.

IIn ons geval categoriseerde NER het zoekwoord als een producttype voor leren laarzen en zwart als de kleur.

Beste entiteitsextractie-API's

Google Cloud-NLP

Voor reeds getrainde tools biedt Google Cloud NLP de Natural Language API. Of de AutoML Natural Language API is aanpasbaar voor vele soorten tekstextractie en -analyse als u uw tools wilt onderwijzen over de terminologie van uw branche.

Google Cloud-NLP

De API's werken gemakkelijk samen met Gmail, Google Spreadsheets en andere Google-apps, maar om ze te gebruiken met programma's van derden kan complexere code nodig zijn.

De ideale zakelijke optie is om Google-applicaties en Cloud Storage te verbinden als beheerde services en API's.

IBM Watson

IBM Watson is een multi-cloudplatform dat ongelooflijk snel presteert en kant-en-klare mogelijkheden biedt, zoals spraak-naar-tekst, geweldige software die automatisch opgenomen audio en telefoongesprekken kan analyseren.

Met behulp van CSV-gegevens kan de deep learning AI van Watson Natural Language Understanding extractiemodellen creëren om entiteiten of trefwoorden te extraheren.

IBM Watson

En met oefening kunt u modellen maken die veel geavanceerder zijn. Alle functionaliteiten zijn toegankelijk via API's, hoewel uitgebreide codeerkennis nodig is.

Het werkt goed voor grote bedrijven die enorme datasets moeten onderzoeken en over interne technische middelen moeten beschikken.

Corticaal.io

Met behulp van Semantic Folding, een begrip uit de neurologie, biedt Cortical.io tekstextractie en NLU-oplossingen.

Dit wordt gedaan om 'semantische vingerafdrukken' te genereren, die zowel de betekenis van een tekst in zijn geheel als specifieke termen aangeven. Om de relaties tussen woordclusters aan te tonen, geven semantische vingerafdrukken tekstgegevens weer.

De interactieve API-documentatie van Cortical.io dekt de functionaliteit van elk van de tekstanalyseoplossingen en is eenvoudig toegankelijk met behulp van de Java-, Python- en Javascript-API's.

Corticaal.io

De Contract Intelligence-tool van Cortical.io is speciaal gemaakt voor juridische analyse om semantische zoekopdrachten uit te voeren, gescande documenten te transformeren en te helpen en te verbeteren met annotaties.

Het is ideaal voor bedrijven die op zoek zijn naar eenvoudig te gebruiken API's die geen AI-kennis nodig hebben, met name in de juridische sector.

Aap leren

Alle belangrijke computertalen worden ondersteund door MonkeyLearn's API's en stellen slechts een paar regels code in om een JSON-bestand te produceren dat uw geëxtraheerde entiteiten bevat. Voor extractors en tekstanalisten met vooropleiding is de interface gebruiksvriendelijk.

Of maak in een paar simpele stappen een unieke afzuigkap. Om tijd te besparen en de nauwkeurigheid te verbeteren, geavanceerde natuurlijke taalverwerking (NLP) met diepe machine learning stelt u in staat om tekst te evalueren zoals een persoon zou doen.

Aap leren

Bovendien zorgen SaaS-API's ervoor dat het opzetten van verbindingen met tools zoals Google Spreadsheets, Excel, Zapier, Zendesk en andere geen jarenlange informaticakennis vereist.

Momenteel beschikbaar in uw browser zijn de naamextractor, bedrijfsextractor en locatie-extractor. Zie het blogartikel over benoemde entiteitherkenning voor informatie over het maken van uw eigen blog.

Het is ideaal voor bedrijven van elke omvang die betrokken zijn bij technologie, detailhandel en e-commerce die eenvoudig te implementeren API's nodig hebben voor verschillende soorten tekstextractie en tekstanalyse.

Amazon begrijpt het

Om het eenvoudig te maken om direct in te pluggen en de kant-en-klare tools van Amazon Comprehend te gebruiken, zijn ze getraind in honderden verschillende vakgebieden.

Er zijn geen interne servers nodig omdat dit een bewaakte service is. Vooral als je momenteel tot op zekere hoogte gebruik maakt van de cloud van Amazon, integreren hun API's gemakkelijk met eerder bestaande apps. En met slechts een klein beetje meer training kan de nauwkeurigheid van de extractie worden verhoogd.

Amazon begrijpt het

Een van de meest betrouwbare tekstanalysetechnieken voor het verkrijgen van gegevens uit medische dossiers en klinische onderzoeken is Comprehend's Medical Named Entity and Relationship Extraction (NERe), die details over medicijnen, aandoeningen, testresultaten en procedures kan extraheren.

Bij het vergelijken van patiëntgegevens om de diagnose te beoordelen en te verfijnen, kan dit heel nuttig zijn. De beste optie voor bedrijven die op zoek zijn naar een beheerde service met vooraf getrainde tools.

Aylien

Om gemakkelijke toegang te bieden tot robuuste machine learning-tekstanalyse, biedt AYLIEN drie API-plug-ins in zeven populaire programmeertalen.

Hun News API biedt realtime zoek- en entiteitsextractie uit tienduizenden nieuwsbronnen van over de hele wereld.

Aylien

Entiteitsextractie en verschillende andere tekstanalysetaken kunnen worden uitgevoerd met behulp van de Text Analysis API op documenten, social media platforms, consumentenonderzoeken en meer.

Ten slotte kunt u met behulp van het Text Analysis Platform uw eigen extractors en meer rechtstreeks in uw browser (TAP) maken. Het werkt goed voor bedrijven die voornamelijk vaste API's snel moeten integreren.

SpaCy

SpaCy is een Python Natural Language Processing (NLP)-pakket dat open-source, gratis is en een groot aantal ingebouwde functies heeft.

Het komt steeds vaker voor NLP-gegevens verwerken en analyseren. Ongestructureerde tekstuele gegevens worden op enorme schaal gecreëerd, dus het is cruciaal om deze te analyseren en er inzichten uit te halen.

SpaCy

Om dat te bereiken, moet je de feiten weergeven op een manier die computers kunnen begrijpen. Dat kan via NLP. Het is extreem snel, met een vertraging van slechts 30 ms, maar het belangrijkste is dat het niet bedoeld is voor gebruik met HTTPS-pagina's.

Dit is een leuke optie om je eigen servers of intranet te scannen omdat het lokaal werkt, maar het is geen tool om het hele internet te bestuderen.

Conclusie

Named Entity Recognition (NER) is een systeem dat bedrijven kunnen gebruiken om relevante informatie in klantondersteuningsverzoeken te labelen, entiteiten te vinden waarnaar wordt verwezen in klantfeedback en snel cruciale gegevens te extraheren, zoals contactgegevens, locaties en datums, onder andere.

De meest gebruikelijke manier om entiteitsherkenning te worden genoemd, is door het gebruik van entiteitsextractie-API's (of deze nu worden geleverd door open-sourcebibliotheken of SaaS-producten).

Het kiezen van het beste alternatief hangt echter af van uw tijd, financiën en vaardigheden. Voor elk soort bedrijf kunnen entiteitsextractie en meer geavanceerde tekstanalysetechnologieën duidelijk voordelig zijn.

Wanneer machine learning-tools correct worden aangeleerd, zijn ze nauwkeurig en zien ze geen gegevens over het hoofd, waardoor u tijd en geld bespaart. U kunt deze oplossingen zo configureren dat ze continu en automatisch worden uitgevoerd door API's te integreren.

Kies eenvoudig de handelwijze die het beste bij uw bedrijf past.

Named Entity Recognition (NER) - Concept, applicatie en API's

Wat is NER (Named Entity Recognition)?