Named Entity Recognition (NER) - Koncept, applikation og API'er

Vi har den medfødte evne til at genkende og klassificere ord i individer, steder, steder, værdier og mere, når vi hører eller læser dem. Mennesker er i stand til hurtigt at kategorisere, identificere og forstå ord.

For eksempel kan du kategorisere et objekt og hurtigt finde på mindst tre til fire kvaliteter, når du hører navnet "Steve Jobs,"

Person: "Steve Jobs"

Organisation: "Apple"

Sted: "Californien"

Da computere mangler denne medfødte færdighed, må vi hjælpe dem med at genkende ord eller tekst og klassificere den. Named Entity Recognition (NER) bruges i denne situation.

I denne artikel vil vi undersøge NER (Named Entity Recognition) i detaljer, herunder dens betydning, fordele, top NER API'er og meget mere.

Hvad er NER (Named Entity Recognition)?

En naturlig sprogbehandling (NLP) tilgang kendt som navngivne entitetsgenkendelse (NER), nogle gange kendt som enhedsidentifikation eller entitetsudtrækning, genkender automatisk navngivne enheder i en tekst og grupperer dem i forudbestemte kategorier.

Enheder inkluderer navne på enkeltpersoner, grupper, steder, datoer, beløb, dollarbeløb, procenter og mere. Med navngivet enhedsgenkendelse kan du enten bruge den til at indsamle væsentlige data til en database eller til at udtrække vital information for at forstå, hvad et dokument handler om.

NER er hjørnestenen, som et AI-system afhænger af for at analysere tekst for relativ semantik og følelse, selvom NLP repræsenterer et betydeligt fremskridt i tekstanalyseprocessen.

Hvad er betydningen af NER?

Grundlaget for en tekstanalysetilgang er NER. En ML-model skal i første omgang have millioner af prøver med foruddefinerede kategorier, før den kan forstå engelsk.

API'et forbedres med tiden ved at genkende disse komponenter i tekster, den læser for første gang. Tekstanalysemotorens kraft øges med NER-kapacitetens kompetence og styrke.

Som det ses her, udløses flere ML-operationer af NER.

Semantisk søgning

Semantisk søgning er nu tilgængelig på Google. Du kan indtaste et spørgsmål, og det vil gøre sit bedste for at svare med et svar. For at finde den information, en bruger leder efter, anvender digitale assistenter som Alexa, Siri, chatbots og andre en form for semantisk søgning.

Denne funktion kan slås eller gå glip af, men der er et stigende antal anvendelser af den, og deres effektivitet stiger hurtigt.

Dataanalyse

Dette er en generel sætning for at bruge algoritmer til at lave analyser ud fra ustrukturerede data. Den integrerer metoder til at vise disse data med processen med at finde og indsamle relevante data.

Dette kan tage form af en ligetil statistisk forklaring af resultaterne eller en visuel repræsentation af dataene. Analyse af interesse for og engagement med et bestemt emne kan udføres ved hjælp af oplysninger fra YouTube-visninger, herunder når seere klikker fra en bestemt video.

Et produkts stjernebedømmelser kan analyseres ved hjælp af dataskrabning fra e-handelswebsteder for at give en samlet score for, hvor godt produktet klarer sig.

Følelsesanalyse

Yderligere udforskning af NER, følelser analyse kan skelne mellem gode og dårlige anmeldelser, selv i mangel af oplysninger fra stjernebedømmelser.

Den er klar over, at udtryk som "overvurderet", "besværet" og "dum" har negative konnotationer, hvorimod udtryk som "nyttigt", "hurtigt" og "let" har. Ordet "let" kunne fortolkes negativt i et computerspil.

Sofistikerede algoritmer kan også genkende forholdet mellem ting.

Tekstanalyse

I lighed med dataanalyse udtrækker tekstanalyse information fra ustrukturerede tekststrenge og bruger NER til at nulstille de vigtige data.

Det kan bruges til at samle data om et produkts omtaler, gennemsnitspris eller de termer, som kunderne oftest bruger til at beskrive et bestemt mærke.

Analyse af videoindhold

De mest komplicerede systemer er dem, der udtrækker data fra videoinformation ved hjælp af ansigtsgenkendelse, lydanalyse og billedgenkendelse.

Ved hjælp af videoindholdsanalyse kan du finde YouTube "unboxing"-videoer, Twitch-spildemonstrationer, lip-synkronisering af dit lydmateriale på Reels og mere.

For at undgå at gå glip af vigtig information om, hvordan folk opretter forbindelse til dit produkt eller din tjeneste, efterhånden som mængden af online videomateriale vokser, er hurtigere og mere opfindsomme teknikker til NER-baseret videoindholdsanalyse afgørende.

Anvendelse af NER i den virkelige verden

Genkendelse af navngivne enheder (NER) identificerer væsentlige aspekter i en tekst, såsom navne på personer, lokationer, mærker, pengeværdier og mere.

Udtrækning af de store entiteter i en tekst hjælper med at sortere ustrukturerede data og detektere væsentlig information, hvilket er afgørende, når man har at gøre med store datasæt.

Her er nogle fascinerende eksempler fra den virkelige verden på navngivne enhedsgenkendelse:

Analyse af kundefeedback

Online anmeldelser er en fantastisk kilde til forbrugerfeedback, da de kan give dig detaljeret information om, hvad kunder kan lide og hader ved dine varer, samt hvilke områder af din virksomhed, der skal forbedres.

Alt dette klientinput kan organiseres ved hjælp af NER-systemer, som også kan identificere tilbagevendende problemer.

For eksempel, ved at bruge NER til at identificere steder, der ofte citeres i ugunstige kundeanmeldelser, kan du beslutte at koncentrere dig om en bestemt kontorafdeling.

Anbefaling til indhold

En liste over artikler, der er forbundet med den, du læser, kan findes på websteder som BBC og CNN, når du læser et emne der.

Disse websteder giver anbefalinger til yderligere websteder, der tilbyder information om de enheder, de har udtrukket fra det indhold, du læser ved hjælp af NER.

Organiser billetter i kundesupport

Du kan bruge navngivne enhedsgenkendelsesalgoritmer til at reagere hurtigere på klientanmodninger, hvis du administrerer en stigning i antallet af supportbilletter fra kunder.

Automatiser tidskrævende kundeplejeopgaver, såsom klassificering af kunders klager og forespørgsler, for at spare dig selv for penge, øge kundeglæden og øge opløsningsraterne.

Enhedsudtrækning kan også bruges til at udtrække relevante data, såsom produktnavne eller serienumre, for at gøre det nemmere at rute billetter til den rigtige agent eller team for at løse dette problem.

Søgealgoritmen

Har du nogensinde stillet spørgsmålstegn ved, hvordan websteder med millioner af informationer kan producere resultater, der er relevante for din søgning? Overvej webstedet Wikipedia.

Wikipedia viser en side, der indeholder foruddefinerede enheder, som søgeordet kan relatere til, når du søger efter "jobs", i stedet for at returnere alle artikler med ordet "jobs" i dem.

Således tilbyder Wikipedia et link til artiklen, der definerer "beskæftigelse", en sektion for personer ved navn Jobs, og et andet område for medier såsom film, videospil, og andre former for underholdning, hvor udtrykket "job" optræder.

Du vil også se et andet segment for steder, der indeholder søgeordet.

Tage sig af CV'er

På jagt efter den ideelle ansøger bruger rekrutterere en betydelig del af deres dag på at gennemgå CV'er. Hvert CV har de samme oplysninger, men de præsenteres og organiseres forskelligt, hvilket er et typisk eksempel på ustrukturerede data.

De mest relevante oplysninger om kandidater kan hurtigt udtrækkes ved at rekruttere teams ved hjælp af enhedsudtrækkere, herunder personlige data (såsom navn, adresse, telefonnummer, fødselsdato og e-mail) og information om deres uddannelse og erfaring (såsom certificeringer, grad). , firmanavne, færdigheder osv.).

E-handel

Med hensyn til deres produktsøgningsalgoritme ville online-forhandlere med hundredvis eller tusindvis af varer drage fordel af NER.

Uden NER ville en søgning efter "sorte læderstøvler" give resultater, der omfattede både læder og fodtøj, der ikke var sort. Hvis det er tilfældet, risikerer e-handelswebsteder at miste kunder.

II vores tilfælde ville NER kategorisere søgeordet som en produkttype for læderstøvler og sort som farven.

Bedste Entity Extraction API'er

Google Cloud NLP

Til allerede trænede værktøjer leverer Google Cloud NLP sin Natural Language API. Eller AutoML Natural Language API kan tilpasses til mange slags tekstudtræk og analyse, hvis du ønsker at uddanne dine værktøjer i din branches terminologi.

API'erne interagerer nemt med Gmail, Google Sheets og andre Google-apps, men at bruge dem med tredjepartsprogrammer kan have brug for mere kompleks kode.

Den ideelle forretningsmulighed er at forbinde Google-applikationer og Cloud Storage som administrerede tjenester og API'er.

IBM Watson

IBM Watson er en multi-cloud-platform, der yder utrolig hurtigt og giver forudbyggede funktioner, såsom tale-til-tekst, som er fantastisk software, der automatisk kan analysere optaget lyd og telefonopkald.

Med brug af CSV-data kan Watson Natural Language Understanding's deep learning AI skabe ekstraktionsmodeller til at udtrække enheder eller nøgleord.

Og med øvelse kan du skabe modeller, der er langt mere sofistikerede. Alle dens funktionaliteter er tilgængelige via API'er, selvom omfattende kodningsviden er nødvendig.

Det fungerer godt for store virksomheder, der kræver at undersøge enorme datasæt og har interne tekniske ressourcer.

Cortical.io

Ved at bruge Semantic Folding, et begreb fra neurologi, leverer Cortical.io tekstekstraktion og NLU-løsninger.

Dette gøres for at generere "semantiske fingeraftryk", som angiver både betydningen af en tekst i dens helhed og specifikke termer. For at demonstrere sammenhængen mellem ordklynger afbilder semantiske fingeraftryk tekstdata.

Cortical.ios interaktive API-dokumentation dækker funktionaliteten af hver af tekstanalyseløsningerne, og den er nem at få adgang til ved hjælp af Java, Python og Javascript API'erne.

Contract Intelligence-værktøjet fra Cortical.io blev skabt specifikt til juridisk analyse for at udføre semantiske søgninger, transformere scannede dokumenter og hjælpe og forbedre med annotering.

Det er ideelt for virksomheder, der leder efter brugervenlige API'er, der ikke har brug for AI-kendskab, især i den juridiske sektor.

Monkey Learn

Alle de store computersprog understøttes af MonkeyLearns API'er og opsætter ganske enkelt kun nogle få linjer kode for at producere en JSON-fil, der indeholder dine udpakkede entiteter. For udtrækkere og tekstanalytikere med forudgående uddannelse er grænsefladen brugervenlig.

Eller med nogle få enkle trin kan du oprette en unik udtrækker. For at reducere tid og forbedre nøjagtigheden, avanceret naturlig sprogbehandling (NLP) med dyb machine learning giver dig mulighed for at vurdere tekst, som en person ville.

Derudover sikrer SaaS API'er, at opsætning af forbindelser med værktøjer som Google Sheets, Excel, Zapier, Zendesk og andre ikke kræver mange års datalogi viden.

I øjeblikket tilgængelige i din browser er navneudtrækker, firmaudtrækker og lokationsudtrækker. For information om, hvordan du konstruerer din egen, kan du se blogartikelen om navngivne enhedsgenkendelse.

Den er ideel til virksomheder af alle størrelser, der er involveret i teknologi, detailhandel og e-handel, der har brug for enkle at implementere API'er til forskellige typer tekstudtræk og tekstanalyse.

Amazon Comprehend

For at gøre det nemt at tilslutte og bruge Amazon Comprehends forudbyggede værktøjer med det samme, er de uddannet i hundredvis af forskellige områder.

Der kræves ingen interne servere, da dette er en overvåget tjeneste. Især hvis du i øjeblikket bruger Amazons sky til et vist niveau, kan deres API'er nemt integreres med tidligere eksisterende apps. Og med kun en lille smule mere træning kan udtrækningsnøjagtigheden øges.

En af de mest pålidelige tekstanalyseteknikker til at indhente data fra lægejournaler og kliniske forsøg er Comprehend's Medical Named Entity and Relationship Extraction (NERe), som kan udtrække detaljer om medicin, tilstande, testresultater og procedurer.

Når man sammenligner patientdata for at vurdere og finjustere diagnosen, kan det være ganske gavnligt. Den bedste mulighed for virksomheder, der søger en administreret service med forudtrænede værktøjer.

Aylien

For at give nem adgang til robust maskinlæringstekstanalyse tilbyder AYLIEN tre API-plugins i syv populære programmeringssprog.

Deres nyheds-API giver søgning i realtid og entitetsudtrækning fra titusindvis af nyhedskilder fra hele kloden.

Aylien

Enhedsudtrækning og flere andre tekstanalyseopgaver kan udføres ved hjælp af Text Analysis API på dokumenter, sociale medier platforme, forbrugerundersøgelser og meget mere.

Endelig kan du ved hjælp af tekstanalyseplatformen oprette dine egne udtrækkere og mere lige i din browser (TAP). Det fungerer godt for virksomheder, der har brug for at integrere primært faste API'er hurtigt.

SpaCy

SpaCy er en Python Natural Language Processing (NLP)-pakke, der er open source, gratis og har et væld af indbyggede funktioner.

Det bliver mere og mere almindeligt for NLP data bearbejdning og analyse. Ustrukturerede tekstdata skabes i enorm skala, så det er afgørende at analysere dem og udtrække indsigt fra dem.

SpaCy

For at opnå det, skal du skildre fakta på en måde, som computere kan forstå. Du kan gøre det gennem NLP. Det er ekstremt hurtigt, med en forsinkelsestid på kun 30ms, men kritisk er det ikke beregnet til brug med HTTPS-sider.

Dette er en god mulighed for at scanne dine egne servere eller intranet, fordi det fungerer lokalt, men det er ikke et værktøj til at studere hele internettet.

Konklusion

Named entity recognition (NER) er et system, som virksomheder kan bruge til at mærke relevante oplysninger i kundesupportanmodninger, finde enheder, der henvises til i kundefeedback, og hurtigt udtrække vigtige data som kontaktoplysninger, lokationer og datoer, blandt andet.

Den mest almindelige tilgang til at blive navngivet enhedsgenkendelse er ved at bruge enhedsekstraktions-API'er (uanset om de leveres af open source-biblioteker eller SaaS-produkter).

Men at vælge det bedste alternativ afhænger af din tid, økonomi og dine færdigheder. For enhver form for virksomhed kan enhedsudvinding og mere sofistikerede tekstanalyseteknologier klart være fordelagtige.

Når maskinlæringsværktøjer undervises korrekt, er de nøjagtige og overser ikke nogen data, hvilket sparer dig tid og penge. Du kan konfigurere disse løsninger til at køre kontinuerligt og automatisk ved at integrere API'er.

Du skal blot vælge den fremgangsmåde, der er bedst for din virksomhed.

Named Entity Recognition (NER) – Koncept, applikation og API'er

Hvad er NER (Named Entity Recognition)?