Named Entity Recognition (NER) - Concept, Application & APIs

Wy hawwe it oanberne fermogen om wurden te herkennen en te klassifisearjen yn yndividuen, plakken, lokaasjes, wearden en mear as wy se hearre of lêze. Minsken binne yn steat om wurden fluch te kategorisearjen, te identifisearjen en te begripen.

Jo kinne bygelyks in objekt kategorisearje en fluch op syn minst trije oant fjouwer kwaliteiten komme as jo de namme "Steve Jobs" hearre,

Persoan: "Steve Jobs"

Organisaasje: "Apple"

Lokaasje: "Kalifornje"

Om't kompjûters dizze oanberne feardigens misse, moatte wy har helpe by it werkennen fan wurden of tekst en it klassifisearjen. Named Entity Recognition (NER) wurdt brûkt yn dizze situaasje.

Yn dit artikel sille wy NER (Named Entity Recognition) yn detail ûndersykje, ynklusyf it belang, foardielen, top NER API's, en folle mear.

Wat is NER (Named Entity Recognition)?

In natuerlike taalferwurking (NLP) oanpak bekend as neamde entiteitserkenning (NER), soms bekend as entiteitsidentifikaasje of entiteitsekstraksje, herkent automatysk neamde entiteiten yn in tekst en groepearret se yn foarbepaalde kategoryen.

Entiteiten omfetsje nammen fan yndividuen, groepen, plakken, datums, bedraggen, dollarbedragen, persintaazjes, en mear. Mei erkenning fan neamde entiteiten kinne jo it brûke om wichtige gegevens te sammeljen foar in databank of om fitale ynformaasje te ekstrahearjen om te begripen wêr't in dokumint oer giet.

NER is de hoekstien wêrfan in AI-systeem hinget om tekst te analysearjen foar relative semantyk en sentimint, sels as NLP in wichtige foarútgong fertsjintwurdiget yn it tekstanalytyske proses.

Wat is de betsjutting fan NER?

De basis fan in tekstanalytyske oanpak is NER. In ML-model moat yn earste ynstânsje miljoenen samples krije mei foarôf definieare kategoryen foardat it Ingelsk kin ferstean.

De API ferbetteret mei de tiid by it herkennen fan dizze komponinten yn teksten dy't it foar it earst lêzen wurdt. De krêft fan 'e tekstanalysemotor nimt ta mei de kompetinsje en sterkte fan' e NER-mooglikheid.

Lykas hjir te sjen, wurde ferskate ML-operaasjes trigger troch NER.

Semantyske sykjen

Semantyske sykjen is no beskikber op Google. Jo kinne ynfiere in fraach, en it sil besykje syn bêst in antwurd mei in antwurd. Om de ynformaasje te finen, is in brûker op syk nei, digitale assistinten lykas Alexa, Siri, chatbots, en oaren brûke in soarte fan semantyske sykopdracht.

Dizze funksje kin wurde troffen of misse, mar d'r binne in groeiend oantal gebrûk foar it, en har effektiviteit nimt rap ta.

Data Analytics

Dit is in algemiene sin foar it brûken fan algoritmen om analyse te meitsjen fan net-strukturearre gegevens. It yntegreart metoaden foar it werjaan fan dizze gegevens mei it proses fan it finen en sammeljen fan relevante gegevens.

Dit kin de foarm nimme fan in rjochtlinige statistyske ferklearring fan 'e resultaten of in fisuele werjefte fan' e gegevens. Analyse fan belangstelling foar en belutsenens by in bepaald ûnderwerp kin dien wurde mei help fan ynformaasje fan YouTube-werjeften, ynklusyf wannear't sjoggers in spesifike fideo klikke.

De stjerwurdearrings fan in produkt kinne wurde analysearre mei gegevensskrapping fan e-commerce-siden om in algemiene skoare te leverjen fan hoe goed it produkt docht.

Sentimint analyse

Fierder ûndersykje NER, sentimint analyse kin ûnderskied tusken goede en minne resinsjes sels by it ûntbrekken fan ynformaasje fan stjerrenwurdearrings.

It is bewust dat termen lykas "oerwurde", "fiddly" en "dom" negative konnotaasjes hawwe, wylst termen as "nuttich", "fluch" en "maklik" dogge. It wurd "maklik" kin negatyf ynterpretearre wurde yn in kompjûterspul.

Ferfine algoritmen kinne ek de relaasje tusken dingen werkenne.

Tekst Analytics

Fergelykber mei gegevensanalytyk ekstrakt tekstanalyse ynformaasje út net-strukturearre tekststrings en brûkt NER om de wichtige gegevens op nul te setten.

It kin brûkt wurde om gegevens te kompilearjen oer de fermeldings fan in produkt, gemiddelde priis, of de termen dy't klanten it meast brûke om in bepaald merk te beskriuwen.

Video Ynhâld Analyse

De meast komplisearre systemen binne dejingen dy't gegevens út fideo-ynformaasje ekstrahearje mei gesichtsherkenning, audio-analyze en ôfbyldingsherkenning.

Mei it brûken fan analyse fan fideo-ynhâld kinne jo YouTube-fideo's fine "unboxing", Twitch-spieldemonstraasjes, lipsyngronisaasje fan jo audiomateriaal op Reels, en mear.

Om foar te kommen dat wichtige ynformaasje ûntbrekt oer hoe't minsken ferbine mei jo produkt of tsjinst as it folume fan online fideomateriaal groeit, binne rapper en mear ynventive techniken foar NER-basearre fideo-ynhâldanalyse essensjeel.

Real-world tapassing fan NER

Named entity recognition (NER) identifisearret essensjele aspekten yn in tekst lykas nammen fan minsken, lokaasjes, merken, monetêre wearden, en mear.

It ekstrahearjen fan de grutte entiteiten yn in tekst helpt by it sortearjen fan ûnstrukturearre gegevens en it opspoaren fan wichtige ynformaasje, wat kritysk is by it omgean mei grutte datasets.

Hjir binne wat fassinearjende echte foarbylden fan erkenning fan neamde entiteiten:

Analysearje Customer Feedback

Online beoardielingen binne in fantastyske boarne fan feedback fan konsuminten, om't se jo detaillearre ynformaasje kinne leverje oer wat klanten graach en haatsje oer jo guod, lykas hokker gebieten fan jo bedriuw moatte wurde ferbettere.

Al dizze klantynput kin wurde organisearre mei NER-systemen, dy't ek weromkommende problemen kinne identifisearje.

Bygelyks, troch NER te brûken om plakken te identifisearjen dy't faak oanhelle wurde yn ûngeunstige klantbeoardielingen, kinne jo beslute om te konsintrearjen op in bepaalde kantoartak.

Oanbefelling foar ynhâld

In list mei artikels dy't ferbûn binne mei dejinge dy't jo lêze is te finen op websiden lykas BBC en CNN as jo dêr in item lêze.

Dizze websiden meitsje oanbefellings foar ekstra websiden dy't ynformaasje biede oer de entiteiten dy't se hawwe helle út 'e ynhâld dy't jo lêze mei NER.

Organisearje kaarten yn Customer Support

Jo kinne algoritmen foar erkenning fan neamde entiteiten brûke om rapper te reagearjen op oanfragen fan kliïnten as jo in ferheging fan it oantal stipekaarten fan klanten beheare.

Automatisearje tiidslinende taken fan klantsoarch, lykas it klassifisearjen fan klachten en fragen fan klanten, om josels jild te besparjen, klantgelok te ferheegjen en resolúsjesifers te ferheegjen.

Entiteit-ekstraksje kin ek brûkt wurde om relevante gegevens te ekstrahearjen, lykas produktnammen of serialnûmers, om it ienfâldiger te meitsjen om kaartsjes nei de juste agint of team te stjoeren foar it oplossen fan dat probleem.

It sykalgoritme

Hawwe jo jo oait ôffrege hoe't websiden mei miljoenen stikken ynformaasje resultaten kinne produsearje dy't relevant binne foar jo sykopdracht? Tink oan de webside Wikipedia.

Wikipedy toant in side dy't foarôf definieare entiteiten befettet wêrmei de sykterm kin relatearje as jo sykje nei "banen", ynstee fan alle artikels werom te jaan mei it wurd "jobs" deryn.

Sa biedt Wikipedia in keppeling nei it artikel dat "besetting" definiearret, in seksje foar minsken mei de namme Jobs, en in oar gebiet foar media lykas films, Fideo spultsjes, en oare foarmen fan fermaak dêr't de term "banen" ferskynt.

Jo soene ek in oar segmint sjen foar lokaasjes dy't it sykwurd befetsje.

It fersoargjen fan CV's

Op syk nei de ideale oanfreger besteegje recruiters in signifikant diel fan har dei oan it besjen fan CV's. Elke resumé hat deselde ynformaasje, mar se wurde allegear oars presintearre en organisearre, wat in typysk foarbyld is fan unstrukturearre gegevens.

De meast relevante ynformaasje oer kandidaten kin fluch wurde ekstrahearre troch werving fan teams mei help fan entiteitsextractors, ynklusyf persoanlike gegevens (lykas namme, adres, telefoannûmer, bertedatum en e-post) en ynformaasje oer har oplieding en ûnderfining (lykas sertifikaten, graad) , bedriuwsnammen, feardichheden, ensfh.).

E-commerce

Oangeande harren produkt sykalgoritme, online winkellju mei hûnderten of tûzenen guod soe profitearje fan NER.

Sûnder NER soe in syktocht nei "swarte learen laarzen" resultaten opleverje dy't sawol lear as skuon omfette dy't net swart wiene. As dat sa is, riskearje e-commerce-websides klanten te ferliezen.

In ús gefal soe NER it sykwurd kategorisearje as in produkttype foar learen laarzen en swart as de kleur.

Bêste Entity Extraction APIs

Google Cloud NLP

Foar al oplaat ark leveret Google Cloud NLP syn Natural Language API. Of, de AutoML Natural Language API is oanpasber foar in protte soarten tekstekstraksje en analyse as jo jo ark wolle opliede oer de terminology fan jo sektor.

Google Cloud NLP

De API's ynteraksje maklik mei Gmail, Google Sheets en oare Google-apps, mar it brûken fan se mei programma's fan tredden kin kompleksere koade nedich wêze.

De ideale saaklike opsje is om Google-applikaasjes en Cloud Storage te ferbinen as behearde tsjinsten en API's.

IBM Watson

IBM Watson is in platfoarm foar meardere wolken dat ongelooflijk fluch prestearret en foarôfboude mooglikheden leveret, lykas spraak-nei-tekst, wat geweldige software is dy't opnommen audio- en telefoantsjes automatysk analysearje kin.

Mei it brûken fan CSV-gegevens kin de djippe learende AI fan Watson Natural Language Understanding ekstraksjemodellen oanmeitsje om entiteiten as kaaiwurden te ekstrahearjen.

IBM Watson

En mei praktyk kinne jo modellen meitsje dy't folle ferfine binne. Al syn funksjonaliteiten binne tagonklik fia API's, hoewol wiidweidige kodearringskennis nedich is.

It wurket goed foar grutte bedriuwen dy't enoarme datasets moatte ûndersykje en ynterne technyske boarnen hawwe.

Cortical.io

Mei Semantic Folding, in begryp út neurology, biedt Cortical.io tekstekstraksje en NLU-oplossingen.

Dit wurdt dien om "semantyske fingerprinten" te generearjen, dy't sawol de betsjutting fan in tekst yn syn heule as spesifike termen oanjaan. Om de relaasjes tusken wurdklusters te demonstrearjen, jouwe semantyske fingerprinten tekstgegevens ôf.

Cortical.io's ynteraktive API-dokumintaasje beslacht de funksjonaliteit fan elk fan 'e tekstanalyse-oplossings, en it is ienfâldich om tagong te krijen mei de Java, Python en Javascript API's.

Cortical.io

De Contract Intelligence-ark fan Cortical.io is spesifyk makke foar juridyske analyze om semantyske sykopdrachten te dwaan, skande dokuminten te transformearjen en te helpen en te ferbetterjen mei annotaasje.

It is ideaal foar bedriuwen op syk nei ienfâldich te brûken API's dy't gjin AI-kennis nedich binne, fral yn 'e juridyske sektor.

Monkey Learn

Alle grutte kompjûtertalen wurde stipe troch MonkeyLearn's API's en set gewoan mar in pear rigels koade op om in JSON-bestân te produsearjen mei jo ekstrahearre entiteiten. Foar extractors en tekst analysts mei foarôfgeande training, de ynterface is brûkerfreonlik.

Of, yn mar in pear ienfâldige stappen, kinne jo in unike extractor meitsje. Om tiid te ferminderjen en de krektens te ferbetterjen, avansearre natuerlike taalferwurking (NLP) mei djip masine learen stelt jo yn steat om tekst te evaluearjen lykas in persoan soe.

Monkey Learn

Derneist soargje SaaS API's derfoar dat it ynstellen fan ferbiningen mei ark lykas Google Sheets, Excel, Zapier, Zendesk en oaren gjin jierren fan kennis fan kompjûterwittenskip fereasket.

Op it stuit beskikber yn jo blêder binne de namme extractor, bedriuw extractor, en lokaasje extractor. Foar ynformaasje oer hoe't jo jo eigen kinne konstruearje, sjoch it blogartikel foar neamde entiteitserkenning.

It is ideaal foar bedriuwen fan alle maten belutsen by technology, detailhannel en e-commerce dy't ienfâldich te ymplementearjen API's nedich binne foar ferskate soarten tekstekstraksje en tekstanalyse.

Amazon begripe

Om it ienfâldich te meitsjen om de foarboude ark fan Amazon Comprehend direkt yn te pluggen en te brûken, wurde se oplaat yn hûnderten ferskillende fjilden.

Der binne gjin eigen servers nedich, om't dit in kontroleare tsjinst is. Benammen as jo op it stuit gebrûk meitsje fan Amazon's wolk op in bepaald nivo, har API's yntegrearje maklik mei earder besteande apps. En mei mar in bytsje mear training kin de krektens fan ekstraksje wurde ferhege.

Amazon begripe

Ien fan 'e meast betroubere tekstanalysetechniken foar it krijen fan gegevens út medyske records en klinyske proeven is Comprehend's Medical Named Entity and Relationship Extraction (NERe), dy't details oer medisinen, betingsten, testresultaten en prosedueres kinne ekstrahearje.

By it fergelykjen fan pasjintgegevens om diagnoaze te beoardieljen en te fine, kin it heul foardielich wêze. De bêste opsje foar bedriuwen dy't in beheare tsjinst sykje mei foarôf oplaat ark.

Aylien

Om maklike tagong te jaan ta robúste tekstanalyse foar masine learen, biedt AYLIEN trije API-plug-ins yn sân populêre programmeartalen.

Harren News API biedt real-time sykjen en ekstraksje fan entiteiten út tsientûzenen nijsboarnen fan oer de hiele wrâld.

Aylien

Entiteitsekstraksje en ferskate oare tekstanalysetaken kinne wurde útfierd mei de Text Analysis API op dokuminten, sosjale media platfoarms, konsumintûndersiken, en mear.

As lêste, mei it tekstanalyseplatfoarm, kinne jo jo eigen extractors meitsje en mear direkt yn jo browser (TAP). It wurket goed foar bedriuwen dy't primêr fêste API's fluch moatte yntegrearje.

SpaCy

SpaCy is in Python Natural Language Processing (NLP) pakket dat iepen boarne is, fergees en hat in ton ynboude funksjes.

It wurdt hieltyd faker foar NLP gegevens ferwurking en analyze. Unstrukturearre tekstgegevens wurde makke op in enoarme skaal, dus is it krúsjaal om it te analysearjen en ynsjoch derút te heljen.

SpaCy

Om dat te berikken, moatte jo de feiten útbyldzje op in manier dy't kompjûters kinne begripe. Jo kinne it dwaan fia NLP. It is ekstreem rap, mei in lagtiid fan mar 30ms, mar kritysk is it net bedoeld foar gebrûk mei HTTPS-siden.

Dit is in moaie opsje foar it scannen fan jo eigen servers of intranet, om't it lokaal wurket, mar it is gjin ark foar it bestudearjen fan it hiele ynternet.

Konklúzje

Named entity recognition (NER) is in systeem dat bedriuwen kinne brûke om relevante ynformaasje te markearjen yn oanfragen foar klantstipe, entiteiten te finen dy't ferwiisd wurde yn feedback fan klanten, en fluch krúsjale gegevens ekstrahearje lykas kontaktgegevens, lokaasjes en datums, ûnder oaren.

De meast foarkommende oanpak foar it wurde neamd entiteitserkenning is troch it brûken fan entiteit-ekstraksje-API's (oft se wurde levere troch iepen boarne-biblioteken as SaaS-produkten).

It kiezen fan it bêste alternatyf sil lykwols fertrouwe op jo tiid, finânsjes en feardigens. Foar elke soart bedriuw kinne ekstraksje fan entiteiten en mear ferfine tekstanalysetechnologyen dúdlik foardielich wêze.

As ark foar masine-learen korrekt wurde leard, binne se akkuraat en oersjen gjin gegevens, wat jo tiid en jild besparje. Jo kinne dizze oplossingen ynstelle om kontinu en automatysk te rinnen troch API's te yntegrearjen.

Kies gewoan de rin fan aksje dy't it bêste is foar jo bedriuw.

Erkenning fan neamde entiteiten (NER) - konsept, tapassing en API's

Wat is NER (Named Entity Recognition)?