Named Entity Recognition (NER) – koncepcija, programa ir API

Turime įgimtą gebėjimą atpažinti ir suskirstyti žodžius į asmenis, vietas, vietas, vertybes ir dar daugiau, kai tik juos girdime ar skaitome. Žmonės sugeba greitai suskirstyti, identifikuoti ir suprasti žodžius.

Pavyzdžiui, išgirdę pavadinimą „Steve Jobs“, galite suskirstyti objektą į kategorijas ir greitai sugalvoti bent tris ar keturias savybes.

Asmuo: "Steve Jobs"

Organizacija: "Apple"

Vieta: "Kalifornija"

Kadangi kompiuteriams trūksta šio įgimto įgūdžių, turime padėti jiems atpažinti žodžius ar tekstą ir juos klasifikuoti. Šioje situacijoje naudojamas pavadintas subjekto atpažinimas (NER).

Šiame straipsnyje mes išsamiai išnagrinėsime NER (pavadinto objekto atpažinimą), įskaitant jo svarbą, naudą, populiariausias NER API ir daug daugiau.

Kas yra NER (pavadinto subjekto atpažinimas)?

Natūralios kalbos apdorojimo (NLP) metodas, žinomas kaip įvardinto objekto atpažinimas (NER), kartais žinomas kaip objekto identifikavimas arba objekto išskyrimas, automatiškai atpažįsta įvardytus objektus tekste ir sugrupuoja juos į iš anksto nustatytas kategorijas.

Objektai apima asmenų vardus, grupes, vietas, datas, sumas, sumas doleriais, procentus ir kt. Naudodami įvardyto objekto atpažinimą, galite jį naudoti rinkdami svarbius duomenis duomenų bazei arba išgauti svarbią informaciją, kad suprastumėte, apie ką dokumentas.

NER yra kertinis akmuo, nuo kurio priklauso dirbtinio intelekto sistema, kad būtų galima analizuoti teksto santykinę semantiką ir jausmus, net jei NLP yra reikšminga teksto analizės proceso pažanga.

Kokia NER reikšmė?

Teksto analizės metodo pagrindas yra NER. Iš pradžių ML modeliui turi būti pateikti milijonai pavyzdžių su iš anksto nustatytomis kategorijomis, kad jis suprastų anglų kalbą.

Laikui bėgant API tobulėja, atpažindama šiuos komponentus tekstuose, kuriuos skaito pirmą kartą. Teksto analizės variklio galia didėja kartu su NER gebėjimu ir stiprumu.

Kaip matyti čia, keletą ML operacijų suaktyvina NER.

Semantinė paieška

Semantinė paieška dabar pasiekiama „Google“. Galite įvesti klausimą ir jis stengsis atsakyti pateikdamas atsakymą. Norėdamas rasti informaciją, vartotojas ieško, skaitmeniniai asistentai, tokie kaip Alexa, Siri, pokalbių robotai ir kiti, naudoja semantinės paieškos tipą.

Šią funkciją galima pasiekti arba praleisti, tačiau jos panaudojimo būdų daugėja, o jų efektyvumas sparčiai auga.

Duomenų analizė

Tai bendra frazė, skirta naudoti algoritmus kuriant analizę iš nestruktūruotų duomenų. Ji sujungia šių duomenų rodymo metodus su atitinkamų duomenų paieškos ir rinkimo procesu.

Tai gali būti paprastas statistinis rezultatų paaiškinimas arba vaizdinis duomenų pateikimas. Susidomėjimo tam tikra tema analizę galima atlikti naudojant informaciją iš „YouTube“ peržiūrų, įskaitant kai žiūrintieji spusteli konkretų vaizdo įrašą.

Produkto įvertinimai žvaigždutėmis gali būti analizuojami naudojant duomenis iš el. prekybos svetainių, kad būtų pateiktas bendras produkto veikimo įvertinimas.

Sentimentų analizė

Toliau tyrinėdami NER, nuotaikos analizė gali atskirti gerus ir blogus atsiliepimus, net jei nėra informacijos iš įvertinimų žvaigždutėmis.

Ji žino, kad tokie terminai kaip „pervertinta“, „keklus“ ir „kvailas“ turi neigiamą reikšmę, o tokie terminai kaip „naudinga“, „greita“ ir „lengva“ – turi neigiamą reikšmę. Kompiuteriniame žaidime žodis „lengvas“ gali būti interpretuojamas neigiamai.

Sudėtingi algoritmai taip pat gali atpažinti ryšį tarp dalykų.

Teksto analizė

Panašiai kaip duomenų analizė, teksto analizė ištraukia informaciją iš nestruktūrizuotų teksto eilučių ir naudoja NER, kad neįtrauktų į nulį svarbių duomenų.

Jis gali būti naudojamas duomenims apie produkto paminėjimus, vidutinę kainą arba terminus, kuriuos klientai dažniausiai vartoja tam tikram prekės ženklui apibūdinti, rinkti.

Vaizdo įrašų turinio analizė

Sudėtingiausios yra tos sistemos, kurios iš vaizdo informacijos išgauna duomenis naudodamos veido atpažinimą, garso analizę ir vaizdo atpažinimą.

Naudodami vaizdo įrašų turinio analizę galite rasti „YouTube“ „išpakuojamus“ vaizdo įrašus, „Twitch“ žaidimų demonstracijas, garso medžiagos sinchronizavimą „Reels“ ir kt.

Norint, kad augant internetinės vaizdo medžiagos kiekiui neprarastumėte svarbios informacijos apie tai, kaip žmonės prisijungia prie jūsų produkto ar paslaugos, būtini greitesni ir išradingesni vaizdo įrašų turinio analizės metodai, pagrįsti NER.

Realus NER taikymas

Pavadintų objektų atpažinimas (NER) identifikuoja esminius teksto aspektus, tokius kaip žmonių vardai, vietos, prekės ženklai, piniginės vertės ir kt.

Pagrindinių objektų ištraukimas tekste padeda rūšiuoti nestruktūrizuotus duomenis ir aptikti svarbią informaciją, kuri yra labai svarbi dirbant su dideliais duomenų rinkiniais.

Štai keletas įspūdingų realaus pasaulio pavadintų objektų atpažinimo pavyzdžių:

Klientų atsiliepimų analizė

Internetinės apžvalgos yra puikus vartotojų atsiliepimų šaltinis, nes jie gali suteikti jums išsamios informacijos apie tai, ką klientai mėgsta ir nekenčia dėl jūsų prekių, taip pat kokias jūsų įmonės sritis reikia tobulinti.

Visa ši kliento įvestis gali būti organizuojama naudojant NER sistemas, kurios taip pat gali nustatyti pasikartojančias problemas.

Pavyzdžiui, naudodami NER vietas, kurios dažnai minimos nepalankiuose klientų atsiliepimuose, galite nuspręsti sutelkti dėmesį į tam tikrą biuro skyrių.

Rekomendacija dėl turinio

Straipsnių, susijusių su tuo, kurį skaitote, sąrašą galite rasti tokiose svetainėse kaip BBC ir CNN, kai skaitote ten esantį elementą.

Šiose svetainėse pateikiamos rekomendacijos papildomoms svetainėms, kuriose pateikiama informacija apie objektus, kuriuos jos ištraukė iš turinio, kurį skaitote naudodami NER.

Tvarkykite bilietus klientų aptarnavimo skyriuje

Galite naudoti įvardintus subjektų atpažinimo algoritmus, kad greičiau atsakytumėte į klientų užklausas, jei valdote padidėjusį klientų palaikymo bilietų skaičių.

Automatizuokite daug laiko reikalaujančius klientų aptarnavimo darbus, pvz., klientų skundų ir užklausų klasifikavimą, kad sutaupytumėte pinigų, padidintumėte klientų laimę ir padidintumėte sprendimų greitį.

Objektų ištraukimas taip pat gali būti naudojamas susijusiems duomenims, pvz., produktų pavadinimams ar serijos numeriams, išgauti, kad būtų paprasčiau nukreipti bilietus į tinkamą agentą ar komandą, kad būtų išspręsta ši problema.

Paieškos algoritmas

Ar kada nors klausėte, kaip svetainės, kuriose yra milijonai informacijos, gali duoti jūsų paieškai tinkamus rezultatus? Apsvarstykite svetainę Wikipedia.

Vikipedijoje rodomas puslapis, kuriame yra iš anksto nustatyti objektai, su kuriais gali būti susijęs paieškos terminas, kai ieškote „darbo“, o ne pateikia visus straipsnius, kuriuose yra žodis „darbai“.

Taigi, Vikipedija siūlo nuorodą į straipsnį, kuriame apibrėžiama „profesija“, skyrių, skirtą žmonėms, vardu Jobs, ir kitą sritį, skirtą žiniasklaidai, pvz., filmams, Video žaidimai, ir kitos pramogos, kuriose vartojamas terminas „darbas“.

Taip pat pamatysite kitą vietovių, kuriose yra paieškos žodis, segmentą.

Rūpinimasis gyvenimo aprašymais

Ieškodami idealaus kandidato, įdarbintojai didelę savo dienos dalį praleidžia peržiūrėdami gyvenimo aprašymą. Kiekviename gyvenimo aprašyme yra ta pati informacija, tačiau jie visi pateikiami ir išdėstyti skirtingai, o tai yra tipiškas nestruktūrizuotų duomenų pavyzdys.

Tinkamiausią informaciją apie kandidatus galima greitai išgauti įdarbinant komandas, naudojančias subjektų ištraukėjus, įskaitant asmens duomenis (pvz., vardą, pavardę, adresą, telefono numerį, gimimo datą ir el. pašto adresą) ir informaciją apie jų išsilavinimą ir patirtį (pvz., sertifikatus, laipsnį). , įmonių pavadinimai, įgūdžiai ir kt.).

E-komercija

Kalbant apie produktų paieškos algoritmą, internetiniams mažmenininkams, turintiems šimtus ar tūkstančius prekių, NER būtų naudinga.

Be NER, ieškant „juodų odinių batų“ būtų pateikti rezultatai, apimantys ir odą, ir avalynę, kuri nebuvo juoda. Jei taip, elektroninės prekybos svetainės rizikuoja prarasti klientus.

IMūsų atveju NER paieškos žodį priskirs prie odinių batų produkto tipo, o juodą – kaip spalvą.

Geriausios objektų ištraukimo API

Google Cloud NLP

Jau išmokytiems įrankiams „Google Cloud NLP“ suteikia natūralios kalbos API. Arba AutoML natūralios kalbos API galima pritaikyti įvairiems teksto ištraukimo ir analizės tipams, jei norite išmokyti savo įrankius apie savo pramonės terminologiją.

Google Cloud NLP

API lengvai sąveikauja su „Gmail“, „Google“ skaičiuoklėmis ir kitomis „Google“ programomis, tačiau naudojant jas su trečiųjų šalių programomis gali prireikti sudėtingesnio kodo.

Idealus verslo pasirinkimas yra sujungti „Google“ programas ir „Cloud Storage“ kaip valdomas paslaugas ir API.

IBM Watson

„IBM Watson“ yra kelių debesų platforma, kuri veikia neįtikėtinai greitai ir suteikia iš anksto sukurtas galimybes, pvz., kalbos pakeitimą tekstu, kuri yra nuostabi programinė įranga, galinti automatiškai analizuoti įrašytą garso ir telefono skambučius.

Naudodamas CSV duomenis, „Watson Natural Language Understanding“ gilaus mokymosi AI gali sukurti išgavimo modelius, kad išskirtų objektus arba raktinius žodžius.

IBM Watson

Praktikuodami galite sukurti kur kas sudėtingesnius modelius. Visos jos funkcijos pasiekiamos per API, nors reikia daug kodavimo žinių.

Tai puikiai tinka didelėms įmonėms, kurioms reikia ištirti didžiulius duomenų rinkinius ir turėti vidinių techninių išteklių.

Cortical.io

Naudodama semantinį lankstymą, neurologijos idėją, Cortical.io teikia teksto ištraukimo ir NLU sprendimus.

Tai daroma siekiant generuoti „semantinius pirštų atspaudus“, kurie nurodo tiek viso teksto reikšmę, tiek konkrečius terminus. Siekiant parodyti ryšius tarp žodžių grupių, semantiniai pirštų atspaudai vaizduoja tekstinius duomenis.

Cortical.io interaktyvioji API dokumentacija apima kiekvieno teksto analizės sprendimo funkcionalumą ir paprasta pasiekti naudojant Java, Python ir Javascript API.

Cortical.io

Contract Intelligence įrankis iš Cortical.io buvo sukurtas specialiai teisinei analizei atlikti semantines paieškas, transformuoti nuskaitytus dokumentus ir padėti bei tobulinti naudojant anotacijas.

Tai idealiai tinka įmonėms, ieškančioms paprastai naudojamų API, kurioms nereikia dirbtinio intelekto žinių, ypač teisiniame sektoriuje.

Beždžionė Išmok

Visas pagrindines kompiuterių kalbas palaiko „MonkeyLearn“ API ir nustatomos tik kelios kodo eilutės, kad būtų sukurtas JSON failas, kuriame yra jūsų išgauti objektai. Ištraukėjams ir teksto analitikams, turintiems išankstinį išsilavinimą, sąsaja yra patogi.

Arba vos keliais paprastais veiksmais galite sukurti unikalų ištraukiklį. Norėdami sutrumpinti laiką ir pagerinti tikslumą, patobulinkite natūralios kalbos apdorojimą (NLP) su giliu mašininis mokymasis leidžia vertinti tekstą taip, kaip tai darytų žmogus.

Beždžionė Išmok

Be to, SaaS API užtikrina, kad norint nustatyti ryšius su tokiais įrankiais kaip „Google Sheets“, „Excel“, „Zapier“, „Zendesk“ ir kt., nereikia ilgų kompiuterių mokslo žinių.

Šiuo metu jūsų naršyklėje yra vardų ištraukiklis, įmonės ištraukiklis ir vietos ištraukiklis. Informacijos apie tai, kaip sukurti savo, ieškokite pavadinto objekto atpažinimo tinklaraščio straipsnyje.

Tai idealiai tinka visų dydžių įmonėms, užsiimančioms technologijomis, mažmenine prekyba ir elektronine prekyba, kurioms reikia paprastai įdiegiamų API įvairių tipų teksto ištraukimui ir teksto analizei.

„Amazon Comprehend“.

Kad būtų paprasta prijungti ir iš karto naudoti iš anksto sukurtus „Amazon Comprehend“ įrankius, jie mokomi šimtuose skirtingų sričių.

Jokių vidinių serverių nereikia, nes tai yra stebima paslauga. Ypač jei šiuo metu naudojate „Amazon“ debesį tam tikru lygiu, jų API lengvai integruosis su anksčiau egzistuojančiomis programomis. Ir tik šiek tiek daugiau treniruojantis, ištraukimo tikslumas gali būti padidintas.

„Amazon Comprehend“.

Vienas iš patikimiausių teksto analizės metodų, leidžiančių gauti duomenis iš medicininių įrašų ir klinikinių tyrimų, yra „Comprehend“ medicininis vardinis subjektas ir santykių ištraukimas (NERe), kuris gali išgauti išsamią informaciją apie vaistus, sąlygas, tyrimų rezultatus ir procedūras.

Lyginant paciento duomenis, siekiant įvertinti ir patikslinti diagnozę, gali būti labai naudinga. Geriausias pasirinkimas įmonėms, ieškančioms valdomų paslaugų su iš anksto paruoštais įrankiais.

Aylien

Siekdama suteikti lengvą prieigą prie patikimos mašininio mokymosi teksto analizės, AYLIEN siūlo tris API papildinius septyniomis populiariomis programavimo kalbomis.

Jų naujienų API teikia paiešką realiuoju laiku ir objektų ištraukimą iš dešimčių tūkstančių naujienų šaltinių iš viso pasaulio.

Aylien

Objektų ištraukimas ir keletas kitų teksto analizės užduočių gali būti atliekamos naudojant teksto analizės API dokumentuose, socialinės žiniasklaidos platformos, vartotojų apklausos ir kt.

Galiausiai, naudodami teksto analizės platformą, savo naršyklėje (TAP) galite sukurti savo ištraukiklius ir dar daugiau. Tai gerai tinka įmonėms, kurioms reikia greitai integruoti pirmiausia fiksuotas API.

SpaCy

„SpaCy“ yra „Python Natural Language Processing“ (NLP) paketas, kuris yra atvirojo kodo, nemokamas ir turi daugybę integruotų funkcijų.

Tai darosi vis dažniau NLP duomenys apdorojimas ir analizė. Nestruktūruoti tekstiniai duomenys sukuriami didžiuliu mastu, todėl labai svarbu juos analizuoti ir išgauti įžvalgas.

SpaCy

Norėdami tai padaryti, turite pavaizduoti faktus taip, kad juos galėtų suprasti kompiuteriai. Tai galite padaryti per NLP. Jis yra labai greitas, jo uždelsimas yra tik 30 ms, tačiau kritiškai jis nėra skirtas naudoti su HTTPS puslapiais.

Tai puiki galimybė nuskaityti savo serverius ar intranetą, nes jis veikia lokaliai, bet nėra įrankis visam internetui tirti.

Išvada

Pavadintų objektų atpažinimas (NER) yra sistema, kurią įmonės gali naudoti norėdami pažymėti atitinkamą informaciją klientų palaikymo užklausose, rasti klientų atsiliepimuose nurodytus objektus ir greitai išgauti svarbiausius duomenis, pvz., kontaktinę informaciją, vietas ir datas, be kita ko.

Dažniausiai įvardijamų objektų atpažinimo būdas yra naudojant objektų ištraukimo API (nesvarbu, ar jas teikia atvirojo kodo bibliotekos, ar SaaS produktai).

Tačiau renkantis geriausią alternatyvą priklausys nuo jūsų laiko, finansų ir įgūdžių. Bet kokiam verslui subjektų ištraukimas ir sudėtingesnės teksto analizės technologijos gali būti akivaizdžiai naudingos.

Kai mašininio mokymosi įrankiai tinkamai mokomi, jie yra tikslūs ir nepraleidžia jokių duomenų, todėl sutaupysite laiko ir pinigų. Galite sukonfigūruoti šiuos sprendimus, kad jie veiktų nuolat ir automatiškai, integruodami API.

Tiesiog pasirinkite jūsų įmonei tinkamiausią veiksmų kryptį.

Named Entity Recognition (NER) – koncepcija, programa ir API

Kas yra NER (pavadinto subjekto atpažinimas)?