Nosauktā entītiju atpazīšana (NER) — koncepcija, lietojumprogramma un API

Mums ir iedzimta spēja atpazīt un klasificēt vārdus indivīdos, vietās, vietās, vērtībās un citās ikreiz, kad tos dzirdam vai lasām. Cilvēki spēj ātri klasificēt, identificēt un saprast vārdus.

Piemēram, jūs varat iedalīt objektu kategorijās un ātri iegūt vismaz trīs līdz četras īpašības, kad izdzirdat vārdu Stīvs Džobss.

Persona: "Stīvs Džobss"

Organizācija: "Apple"

Atrašanās vieta: "Kalifornija"

Tā kā datoriem trūkst šīs iedzimtās prasmes, mums ir jāpalīdz tiem atpazīt vārdus vai tekstu un klasificēt tos. Šajā situācijā tiek izmantota nosauktā entītijas atpazīšana (NER).

Šajā rakstā mēs detalizēti izpētīsim NER (nosauktās vienības atpazīšanu), tostarp tā nozīmi, priekšrocības, populārākās NER API un daudz ko citu.

Kas ir NER (nosauktā entītijas atpazīšana)?

Dabiskās valodas apstrādes (NLP) pieeja, kas pazīstama kā nosauktās entītijas atpazīšana (NER), dažreiz pazīstama kā entītijas identifikācija vai entītiju izvilkšana, automātiski atpazīst nosauktās entītijas tekstā un sagrupē tās iepriekš noteiktās kategorijās.

Entītijās ir iekļauti personu vārdi, grupas, vietas, datumi, summas, dolāru summas, procenti un daudz kas cits. Izmantojot nosaukto entītiju atpazīšanu, varat to izmantot, lai savāktu nozīmīgus datus datu bāzei vai iegūtu svarīgu informāciju, lai saprastu, kas ir dokuments.

NER ir stūrakmens, no kura ir atkarīga AI sistēma, lai analizētu tekstu attiecībā uz relatīvo semantiku un noskaņojumu, pat ja NLP ir būtisks sasniegums teksta analīzes procesā.

Kāda ir NER nozīme?

Teksta analīzes pieejas pamats ir NER. ML modelim sākotnēji ir jādod miljoniem paraugu ar iepriekš definētām kategorijām, lai tas varētu saprast angļu valodu.

API laika gaitā uzlabojas, atpazīstot šos komponentus tekstos, kurus tā lasa pirmo reizi. Teksta analīzes dzinēja jauda palielinās līdz ar NER iespējas kompetenci un spēku.

Kā redzams šeit, vairākas ML darbības aktivizē NER.

Semantiskā meklēšana

Semantiskā meklēšana tagad ir pieejama Google tīklā. Varat ievadīt jautājumu, un tas centīsies visu iespējamo, lai atbildētu ar atbildi. Lai atrastu informāciju, lietotājs meklē, digitālie palīgi, piemēram, Alexa, Siri, tērzēšanas roboti un citi, izmanto semantiskās meklēšanas veidu.

Šo funkciju var trāpīt vai palaist garām, taču to izmanto arvien vairāk, un to efektivitāte strauji pieaug.

Datu analīze

Šī ir vispārīga frāze algoritmu izmantošanai, lai izveidotu analīzi no nestrukturētiem datiem. Tas integrē šo datu parādīšanas metodes ar atbilstošu datu atrašanas un vākšanas procesu.

Tas var izpausties kā tiešs statistisks rezultātu skaidrojums vai datu vizuāls attēlojums. Intereses un iesaistīšanās analīzi par noteiktu tēmu var veikt, izmantojot informāciju no YouTube skatījumiem, tostarp tad, kad skatītāji noklikšķina uz konkrēta videoklipa.

Produkta vērtējumus zvaigznītēs var analizēt, izmantojot datus, kas iegūti no e-komercijas vietnēm, lai iegūtu vispārēju produkta darbības rezultātu.

Sentimentu analīze

Turpinot izpētīt NER, sentimenta analīze var atšķirt labas un sliktas atsauksmes pat tad, ja nav informācijas no zvaigžņu vērtējumiem.

Tā apzinās, ka tādiem terminiem kā “pārvērtēts”, “nepatīkams” un “stulbs” ir negatīva konotācija, savukārt tādiem terminiem kā “noderīgs”, “ātrs” un “viegli” ir. Vārdu “viegli” datorspēlē varētu interpretēt negatīvi.

Sarežģīti algoritmi var arī atpazīt attiecības starp lietām.

Teksta analīze

Līdzīgi kā datu analīzē, teksta analīze iegūst informāciju no nestrukturētām teksta virknēm un izmanto NER, lai nulli svarīgos datus.

To var izmantot, lai apkopotu datus par produkta pieminēšanu, vidējo cenu vai terminiem, ko klienti visbiežāk izmanto, lai aprakstītu noteiktu zīmolu.

Video satura analīze

Sarežģītākās sistēmas ir tās, kas iegūst datus no video informācijas, izmantojot sejas atpazīšanu, audio analīzi un attēlu atpazīšanu.

Izmantojot video satura analīzi, varat atrast YouTube “izpakošanas” videoklipus, Twitch spēļu demonstrācijas, sava audio materiāla sinhronizāciju rullīšos un daudz ko citu.

Lai, pieaugot tiešsaistes videomateriāla apjomam, nepalaistu garām svarīga informācija par to, kā cilvēki savienojas ar jūsu produktu vai pakalpojumu, svarīgi ir ātrāki un izgudrojošāki paņēmieni uz NER balstītai video satura analīzei.

NER lietojumprogramma reālajā pasaulē

Nosaukto entītiju atpazīšana (NER) identificē būtiskus teksta aspektus, piemēram, cilvēku vārdus, atrašanās vietas, zīmolus, naudas vērtības un citus.

Lielāko entītiju izvilkšana tekstā palīdz kārtot nestrukturētus datus un noteikt nozīmīgu informāciju, kas ir ļoti svarīga, strādājot ar lielām datu kopām.

Šeit ir daži aizraujoši reālās pasaules piemēri nosaukto entītiju atpazīšanai:

Klientu atsauksmju analīze

Tiešsaistes atsauksmes ir lielisks patērētāju atsauksmju avots, jo tie var sniegt jums detalizētu informāciju par to, kas klientiem patīk un kas ienīst jūsu preces, kā arī par to, kuras jūsu uzņēmuma jomas ir jāuzlabo.

Visu šo klienta ievadi var organizēt, izmantojot NER sistēmas, kas var arī identificēt atkārtotas problēmas.

Piemēram, izmantojot NER, lai identificētu vietas, kuras bieži tiek citētas nelabvēlīgās klientu atsauksmēs, varat izlemt koncentrēties uz noteiktu biroja filiāli.

Ieteikums saturam

To rakstu sarakstu, kas ir saistīti ar to, ko lasāt, var atrast tādās vietnēs kā BBC un CNN, kad tajā lasāt kādu vienumu.

Šajās vietnēs ir sniegti ieteikumi papildu vietnēm, kas piedāvā informāciju par entītijām, kuras tās ir izvilkušas no satura, kuru lasāt, izmantojot NER.

Organizējiet biļetes klientu atbalsta sadaļā

Varat izmantot nosauktos entītiju atpazīšanas algoritmus, lai ātrāk atbildētu uz klientu pieprasījumiem, ja pārvaldāt klientu atbalsta biļešu skaita pieaugumu.

Automatizējiet laikietilpīgos klientu apkalpošanas darbus, piemēram, klientu sūdzību un pieprasījumu klasificēšanu, lai ietaupītu naudu, palielinātu klientu apmierinātību un palielinātu atrisināšanas ātrumu.

Entītijas izvilkšanu var izmantot arī, lai iegūtu atbilstošus datus, piemēram, produktu nosaukumus vai sērijas numurus, lai atvieglotu biļešu nosūtīšanu pareizajam aģentam vai komandai šīs problēmas risināšanai.

Meklēšanas algoritms

Vai esat kādreiz jautājuši, kā tīmekļa vietnes ar miljoniem informācijas var sniegt rezultātus, kas ir piemēroti jūsu meklēšanai? Apsveriet vietni Wikipedia.

Vikipēdijā tiek parādīta lapa, kurā ir iepriekš definētas entītijas, uz kurām meklēšanas vienums var attiekties, kad meklējat “darbs”, nevis tiek atgriezti visi raksti ar vārdu “darbi”.

Tādējādi Wikipedia piedāvā saiti uz rakstu, kurā ir definēta “nodarbošanās”, sadaļu cilvēkiem ar nosaukumu Jobs un citu sadaļu plašsaziņas līdzekļiem, piemēram, filmām, Video spēles, un citi izklaides veidi, kuros tiek lietots termins “darbs”.

Jūs redzēsit arī citu segmentu vietām, kurās ir ietverts meklēšanas vārds.

Rūpes par CV

Ideālā pretendenta meklējumos personāla atlases speciālisti ievērojamu savas dienas daļu pavada, pārskatot CV. Katrā CV ir viena un tā pati informācija, taču tie visi tiek pasniegti un sakārtoti atšķirīgi, kas ir tipisks nestrukturētu datu piemērs.

Visatbilstošāko informāciju par kandidātiem var ātri iegūt, pieņemot darbā komandas, izmantojot entītiju ieguvējus, tostarp personas datus (piemēram, vārdu, adresi, tālruņa numuru, dzimšanas datumu un e-pasta adresi) un informāciju par viņu izglītību un pieredzi (piemēram, sertifikātiem, grādu , uzņēmumu nosaukumi, prasmes utt.).

E-komercija

Attiecībā uz produktu meklēšanas algoritmu tiešsaistes mazumtirgotāji ar simtiem vai tūkstošiem preču varētu gūt labumu no NER.

Bez NER meklēšanas vaicājumā “melni ādas zābaki” tiktu parādīti rezultāti, kas ietvertu gan ādu, gan apavus, kas nav melni. Ja tā, e-komercijas vietnes riskē zaudēt klientus.

IMūsu gadījumā NER klasificētu meklēšanas vārdu kā produkta veidu ādas zābakiem un melno kā krāsu.

Labākās entītiju ieguves API

Google Cloud NLP

Jau apmācītiem rīkiem Google Cloud NLP nodrošina savu Natural Language API. Vai arī AutoML dabiskās valodas API ir pielāgojama daudzu veidu teksta iegūšanai un analīzei, ja vēlaties izglītot savus rīkus par savas nozares terminoloģiju.

Google Cloud NLP

API viegli mijiedarbojas ar Gmail, Google izklājlapām un citām Google lietotnēm, taču, lai tās izmantotu ar trešo pušu programmām, var būt nepieciešams sarežģītāks kods.

Ideāla biznesa iespēja ir savienot Google lietojumprogrammas un mākoņkrātuvi kā pārvaldītus pakalpojumus un API.

IBM Watson

IBM Watson ir vairāku mākoņu platforma, kas darbojas neticami ātri un nodrošina jau iebūvētas iespējas, piemēram, runas pārveidošanu tekstā, kas ir pārsteidzoša programmatūra, kas var automātiski analizēt ierakstītos audio un tālruņa zvanus.

Izmantojot CSV datus, Watson Natural Language Understanding dziļās mācīšanās AI var izveidot ekstrakcijas modeļus entītiju vai atslēgvārdu iegūšanai.

IBM Watson

Un praksē jūs varat izveidot daudz izsmalcinātākus modeļus. Visas tās funkcijas ir pieejamas, izmantojot API, lai gan ir nepieciešamas plašas zināšanas par kodēšanu.

Tas labi darbojas lieliem uzņēmumiem, kuriem ir jāpārbauda milzīgas datu kopas un kuriem ir iekšējie tehniskie resursi.

Cortical.io

Izmantojot semantisko locīšanu, neiroloģijas jēdzienu, Cortical.io nodrošina teksta izvilkšanu un NLU risinājumus.

Tas tiek darīts, lai ģenerētu "semantiskos pirkstu nospiedumus", kas norāda gan teksta nozīmi kopumā, gan specifiskos terminos. Lai parādītu attiecības starp vārdu klasteriem, semantiskie pirkstu nospiedumi attēlo teksta datus.

Cortical.io interaktīvā API dokumentācija aptver katra teksta analīzes risinājuma funkcionalitāti, un tai ir vienkārši piekļūt, izmantojot Java, Python un Javascript API.

Cortical.io

Contract Intelligence rīks no Cortical.io tika izveidots īpaši juridiskai analīzei, lai veiktu semantisku meklēšanu, pārveidotu skenētos dokumentus un palīdzētu un uzlabotu anotāciju.

Tas ir ideāli piemērots uzņēmumiem, kas meklē vienkārši lietojamas API, kurām nav vajadzīgas AI zināšanas, jo īpaši juridiskajā sektorā.

Pērtiķis Mācieties

Visas galvenās datoru valodas atbalsta MonkeyLearn API, un tajās ir izveidotas tikai dažas koda rindiņas, lai izveidotu JSON failu, kurā ir jūsu izvilktās entītijas. Ekstraktoriem un teksta analītiķiem ar iepriekšēju apmācību saskarne ir lietotājam draudzīga.

Vai arī, veicot tikai dažas vienkāršas darbības, varat izveidot unikālu nosūcēju. Lai samazinātu laiku un uzlabotu precizitāti, uzlabota dabiskās valodas apstrāde (NLP) ar dziļu mašīna mācīšanās ļauj novērtēt tekstu tā, kā to darītu cilvēks.

Pērtiķis Mācieties

Turklāt SaaS API nodrošina, ka savienojumu iestatīšanai ar tādiem rīkiem kā Google izklājlapas, Excel, Zapier, Zendesk un citiem nav nepieciešamas gadiem ilgas datorzinātņu zināšanas.

Pašlaik jūsu pārlūkprogrammā ir pieejami nosaukumu nosūcējs, uzņēmuma nosūcējs un atrašanās vietas nosūcējs. Informāciju par to, kā izveidot savu, skatiet emuāra rakstā ar nosaukumu entītiju atpazīšana.

Tas ir ideāli piemērots jebkura lieluma uzņēmumiem, kas saistīti ar tehnoloģiju, mazumtirdzniecību un e-komerciju, kuriem ir nepieciešamas vienkārši ieviešamas API dažāda veida teksta izvilkšanai un teksta analīzei.

Amazones izpratne

Lai atvieglotu Amazon Comprehend iepriekš izveidoto rīku pievienošanu un tūlītēju lietošanu, viņi tiek apmācīti simtiem dažādu jomu.

Nav nepieciešami iekšējie serveri, jo tas ir uzraudzīts pakalpojums. Jo īpaši, ja pašlaik zināmā mērā izmantojat Amazon mākoni, to API viegli integrējas ar iepriekš pastāvošām lietotnēm. Un tikai nedaudz vairāk apmācot, ieguves precizitāti var palielināt.

Amazones izpratne

Viena no uzticamākajām teksta analīzes metodēm datu iegūšanai no medicīniskajiem ierakstiem un klīniskajiem pētījumiem ir Comprehend's Medical Named Entity and Relationship Extraction (NERe), kas var iegūt detalizētu informāciju par medikamentiem, nosacījumiem, testu rezultātiem un procedūrām.

Salīdzinot pacientu datus, lai novērtētu un precizētu diagnozi, tas var būt diezgan izdevīgi. Labākais risinājums uzņēmumiem, kas meklē pārvaldītu pakalpojumu ar iepriekš apmācītiem rīkiem.

Aylien

Lai nodrošinātu vieglu piekļuvi spēcīgai mašīnmācīšanās teksta analīzei, AYLIEN piedāvā trīs API spraudņus septiņās populārās programmēšanas valodās.

Viņu ziņu API nodrošina reāllaika meklēšanu un entītiju ieguvi no desmitiem tūkstošu ziņu avotu no visas pasaules.

Aylien

Entītiju izvilkšanu un vairākus citus teksta analīzes uzdevumus var veikt, izmantojot teksta analīzes API dokumentiem, sociālo mediju platformas, patērētāju aptaujas un daudz ko citu.

Visbeidzot, izmantojot teksta analīzes platformu, varat izveidot savus ekstraktorus un daudz ko citu tieši savā pārlūkprogrammā (TAP). Tas labi darbojas uzņēmumiem, kuriem ātri jāintegrē galvenokārt fiksētās API.

SpaCy

SpaCy ir Python dabiskās valodas apstrādes (NLP) pakotne, kas ir atvērtā koda, bezmaksas un kurā ir daudz iebūvētu funkciju.

Tas kļūst arvien izplatītāks NLP dati apstrāde un analīze. Nestrukturēti teksta dati tiek veidoti milzīgā mērogā, tāpēc ir ļoti svarīgi tos analizēt un iegūt no tiem ieskatu.

SpaCy

Lai to paveiktu, jums ir jāattēlo fakti datoriem saprotamā veidā. To var izdarīt, izmantojot NLP. Tas ir ārkārtīgi ātrs, ar aizkaves laiku tikai 30 ms, taču kritiski tas nav paredzēts lietošanai ar HTTPS lapām.

Šī ir jauka iespēja skenēt savus serverus vai iekštīklu, jo tā darbojas lokāli, taču tā nav rīks visa interneta izpētei.

Secinājumi

Nosaukto entītiju atpazīšana (NER) ir sistēma, ko uzņēmumi var izmantot, lai apzīmētu atbilstošu informāciju klientu atbalsta pieprasījumos, atrastu entītijas, kas norādītas klientu atsauksmēs, un ātri iegūtu svarīgus datus, piemēram, kontaktinformāciju, atrašanās vietas un datumus, cita starpā.

Visizplatītākā pieeja entītiju atpazīšanai ar nosaukumu ir, izmantojot entītiju ieguves API (neatkarīgi no tā, vai tās nodrošina atvērtā pirmkoda bibliotēkas vai SaaS produkti).

Tomēr labākās alternatīvas izvēle būs atkarīga no jūsu laika, finansēm un prasmēm. Jebkura veida uzņēmējdarbībai vienību iegūšana un sarežģītākas teksta analīzes tehnoloģijas var būt izdevīgas.

Ja mašīnmācīšanās rīki tiek pareizi mācīti, tie ir precīzi un nepamana nekādus datus, ietaupot jūsu laiku un naudu. Šos risinājumus var konfigurēt, lai tie darbotos nepārtraukti un automātiski, integrējot API.

Vienkārši izvēlieties jūsu uzņēmumam vispiemērotāko darbības veidu.

Nosauktā entītijas atpazīšana (NER) — koncepcija, lietojumprogramma un API

Kas ir NER (nosauktā entītijas atpazīšana)?