Nimega üksuse tuvastamine (NER) – kontseptsioon, rakendus ja API-d

Meil on kaasasündinud võime neid kuuldes või lugedes ära tunda ja liigitada sõnu üksikisikuteks, kohtadeks, asukohtadeks, väärtusteks ja muuks. Inimesed suudavad sõnu kiiresti kategoriseerida, tuvastada ja aru saada.

Näiteks saate nime "Steve Jobs" kuuldes kategoriseerida objekti ja kiiresti välja tuua vähemalt kolm kuni neli omadust.

Isik: "Steve Jobs"

Organisatsioon: "Apple"

Asukoht: "California"

Kuna arvutitel puudub see kaasasündinud oskus, peame aitama neil sõnu või teksti ära tunda ja neid klassifitseerida. Selles olukorras kasutatakse nimega üksuse tuvastamist (NER).

Selles artiklis uurime üksikasjalikult NER-i (nimetatud üksuse tuvastamist), sealhulgas selle tähtsust, eeliseid, parimaid NER-i API-sid ja palju muud.

Mis on NER (nimetatud üksuse tuvastamine)?

Loomuliku keele töötlemise (NLP) lähenemine, mida tuntakse nimega olemituvastuse (NER) nime all, mida mõnikord nimetatakse olemi tuvastamiseks või olemi eraldamiseks, tunneb tekstis automaatselt ära nimelised olemid ja rühmitab need etteantud kategooriatesse.

Üksused sisaldavad üksikisikute nimesid, gruppe, kohti, kuupäevi, summasid, dollarisummasid, protsente ja palju muud. Nimega olemituvastuse abil saate seda kasutada andmebaasi jaoks oluliste andmete kogumiseks või olulise teabe eraldamiseks, et mõista, millest dokument räägib.

NER on nurgakivi, millest AI-süsteem sõltub teksti suhtelise semantika ja sentimentide analüüsimisel, isegi kui NLP kujutab endast olulist edasiminekut tekstianalüüsi protsessis.

Mis on NER-i tähtsus?

Tekstianalüütilise lähenemisviisi alus on NER. ML-mudelile tuleb algselt anda miljoneid näidiseid eelnevalt määratletud kategooriatega, enne kui see inglise keelest aru saab.

API paraneb aja jooksul nende komponentide äratundmisel tekstides, mida ta esimest korda loeb. Tekstianalüüsi mootori võimsus suureneb koos NER-i võimekuse ja tugevusega.

Nagu siin näha, käivitab NER mitu ML-i toimingut.

Semantiline otsing

Semantiline otsing on nüüd Google'is saadaval. Saate sisestada küsimuse ja see annab endast parima, et vastata vastusega. Teabe leidmiseks otsib kasutaja, digitaalsed assistendid, nagu Alexa, Siri, vestlusbotid ja teised, kasutavad teatud tüüpi semantilist otsingut.

Seda funktsiooni võib tabada või mitte, kuid selle kasutusi on üha rohkem ja nende tõhusus kasvab kiiresti.

Andmete analüüs

See on üldine fraas algoritmide kasutamiseks struktureerimata andmete põhjal analüüsi loomiseks. See ühendab nende andmete kuvamise meetodid asjakohaste andmete otsimise ja kogumise protsessiga.

See võib toimuda tulemuste sirgjoonelise statistilise selgituse või andmete visuaalse esituse vormis. Teatud teema vastu huvi ja seotust saab analüüsida YouTube'i vaadete teabe põhjal, sealhulgas siis, kui vaatajad klõpsavad konkreetsel videol.

Toote tärnide hinnanguid saab analüüsida e-kaubanduse saitidelt kogutud andmete põhjal, et anda üldine hinnang toote toimivuse kohta.

Sentimentide analüüs

NER-i edasi uurides, sentiment analüüs suudab teha vahet headel ja halbadel arvustustel isegi siis, kui tärnide hinnangutest puudub teave.

Ta on teadlik, et sellistel terminitel nagu "ülehinnatud", "kiire" ja "loll" on negatiivne varjund, samas kui sellistel mõistetel nagu "kasulik", "kiire" ja "lihtne" on olemas. Sõna "lihtne" võiks arvutimängus tõlgendada negatiivselt.

Keerukad algoritmid suudavad ära tunda ka asjade omavahelisi seoseid.

Tekstianalüüs

Sarnaselt andmeanalüütikaga eraldab tekstianalüüs teabe struktureerimata tekstistringidest ja kasutab oluliste andmete nullimiseks NER-i.

Seda saab kasutada andmete kogumiseks toote mainimiste, keskmise hinna või terminite kohta, mida kliendid teatud kaubamärgi kirjeldamiseks kõige sagedamini kasutavad.

Video sisu analüüs

Kõige keerulisemad on need süsteemid, mis eraldavad videoteabest andmeid näotuvastuse, helianalüüsi ja pildituvastuse abil.

Videosisu analüüsi abil saate leida YouTube'i "lahtipakkimise" videoid, Twitchi mänguesitlusi, oma helimaterjalide huulte sünkroonimist rullidel ja palju muud.

Selleks, et veebivideomaterjalide mahu kasvades ei jääks ilma olulisest teabest selle kohta, kuidas inimesed teie toote või teenusega ühendust võtavad, on NER-põhise videosisu analüüsi kiiremad ja leidlikumad tehnikad hädavajalikud.

NER-i reaalne rakendus

Nimetatud üksuse tuvastamine (NER) tuvastab tekstis olulised aspektid, nagu inimeste nimed, asukohad, kaubamärgid, rahalised väärtused ja palju muud.

Tekstist suuremate üksuste ekstraheerimine aitab sorteerida struktureerimata andmeid ja tuvastada olulist teavet, mis on suurte andmekogumite käsitlemisel kriitilise tähtsusega.

Siin on mõned põnevad näited nimega olemi tuvastamisest pärismaailmas:

Klientide tagasiside analüüsimine

Veebiarvustused on suurepärane tarbijate tagasiside allikas, kuna need võivad anda teile üksikasjalikku teavet selle kohta, mis klientidele teie kaubad meeldib ja mida vihkavad ning milliseid teie ettevõtte valdkondi tuleks täiustada.

Kogu seda kliendi sisendit saab korraldada NER-süsteemide abil, mis suudavad tuvastada ka korduvaid probleeme.

Näiteks kasutades NER-i kohtade tuvastamiseks, mida sageli viidatakse klientide ebasoodsates arvustustes, võite otsustada keskenduda teatud kontoriharule.

Soovitus sisu kohta

Loetava artikliga seotud artiklite loendi leiate veebisaitidelt, nagu BBC ja CNN, kui loete seal mõnda artiklit.

Need veebisaidid annavad soovitusi täiendavate veebisaitide jaoks, mis pakuvad teavet üksuste kohta, mille nad on NER-i abil loetavast sisust eraldanud.

Korraldage pileteid klienditoes

Kui haldate klientidelt saadavate tugipiletite arvu suurenemist, saate klientide päringutele kiiremini vastamiseks kasutada nimega olemituvastusalgoritme.

Automatiseerige aeganõudvad klienditeenindustööd, nagu klientide kaebuste ja päringute klassifitseerimine, et säästa raha, suurendada klientide õnne ja suurendada lahenduste määra.

Olemi ekstraheerimist saab kasutada ka asjakohaste andmete (nt tootenimed või seerianumbrid) ekstraheerimiseks, et hõlbustada piletite suunamist õigele agendile või meeskonnale selle probleemi lahendamiseks.

Otsingu algoritm

Kas olete kunagi küsinud, kuidas miljoneid teavet sisaldavad veebisaidid võivad teie otsingu jaoks asjakohaseid tulemusi anda? Mõelge veebisaidile Wikipedia.

Wikipedia kuvab lehe, mis sisaldab eelmääratletud üksusi, millega otsingutermin võib seostuda, kui otsite sõna "töökohad", selle asemel, et tagastada kõik artiklid, milles on sõna "töökohad".

Seega pakub Wikipedia linki artiklile, mis defineerib "ameti", jaotist inimestele nimega Jobs ja teist valdkonda meedia jaoks, nagu filmid, Videomängudeja muud meelelahutusviisid, kus esineb termin „töökohad”.

Samuti näete otsingusõna sisaldavate asukohtade jaoks teist segmenti.

CV-de eest hoolitsemine

Ideaalset taotlejat otsides kulutavad värbajad märkimisväärse osa oma päevast CV-de läbivaatamisele. Igal CV-l on sama teave, kuid need kõik on esitatud ja korraldatud erinevalt, mis on tüüpiline näide struktureerimata andmetest.

Kõige asjakohasema teabe kandidaatide kohta saab kiiresti hankida, värbades üksuste väljavõtteid kasutavaid meeskondi, sealhulgas isikuandmeid (nt nimi, aadress, telefoninumber, sünnikuupäev ja e-posti aadress) ning teavet nende hariduse ja kogemuste kohta (nt tunnistused, kraad). , ettevõtete nimed, oskused jne).

E-kaubandus

Seoses oma tooteotsingu algoritmiga saaksid NER-ist kasu veebimüüjad, kellel on sadu või tuhandeid kaupu.

Ilma NER-ita annaks otsing „mustad nahksaapad” tulemused, mis hõlmaksid nii nahka kui ka jalatseid, mis ei olnud mustad. Kui jah, võivad e-kaubanduse veebisaidid kliente kaotada.

Imeie puhul liigitaks NER otsingusõna nahksaabaste tootetüübiks ja musta värviks.

Parimad olemi ekstraheerimise API-d

Google Cloud NLP

Juba koolitatud tööriistade jaoks pakub Google Cloud NLP loomuliku keele API. Või on AutoML-i loomuliku keele API kohandatav mitmesuguseks teksti ekstraheerimiseks ja analüüsiks, kui soovite oma tööriistu oma tööstusharu terminoloogia kohta harida.

Google Cloud NLP

API-d suhtlevad hõlpsalt Gmaili, Google'i arvutustabelite ja muude Google'i rakendustega, kuid nende kasutamine kolmandate osapoolte programmidega võib vajada keerukamat koodi.

Ideaalne ärivõimalus on ühendada Google'i rakendused ja pilvmälu hallatavate teenuste ja API-dena.

IBM Watson

IBM Watson on mitme pilve platvorm, mis toimib uskumatult kiiresti ja pakub eelehitatud võimalusi, nagu kõne tekstiks muutmine, mis on hämmastav tarkvara, mis suudab salvestatud heli- ja telefonikõnesid automaatselt analüüsida.

CSV-andmete abil saab Watson Natural Language Understandingi süvaõppe AI luua üksuste või märksõnade eraldamiseks väljavõttemudeleid.

IBM Watson

Ja harjutades saate luua palju keerukamaid mudeleid. Kõik selle funktsioonid on juurdepääsetavad API-de kaudu, kuigi vaja on ulatuslikke kodeerimisteadmisi.

See sobib hästi suurtele ettevõtetele, kes peavad uurima tohutuid andmekogumeid ja omama sisemisi tehnilisi ressursse.

Cortical.io

Kasutades Semantilist voltimist, neuroloogia mõistet, pakub Cortical.io teksti väljavõtmist ja NLU lahendusi.

Seda tehakse semantiliste sõrmejälgede genereerimiseks, mis näitavad nii teksti tähendust tervikuna kui ka konkreetseid termineid. Sõnaklastrite vaheliste suhete demonstreerimiseks kujutavad semantilised sõrmejäljed tekstiandmeid.

Cortical.io interaktiivne API dokumentatsioon hõlmab iga tekstianalüüsi lahenduse funktsionaalsust ning sellele on Java, Pythoni ja Javascripti API-de abil lihtne juurde pääseda.

Cortical.io

Cortical.io lepinguteabe tööriist loodi spetsiaalselt juriidiliseks analüüsiks, et teha semantilisi otsinguid, teisendada skannitud dokumente ning aidata ja täiustada annotatsiooniga.

See sobib ideaalselt ettevõtetele, kes otsivad lihtsalt kasutatavaid API-sid, mis ei vaja AI-teadmisi, eriti juriidilises sektoris.

Ahv Õpi

Kõiki peamisi arvutikeeli toetavad MonkeyLearni API-d ja need seadistavad teie ekstraktitud olemeid sisaldava JSON-faili loomiseks vaid mõne koodirea. Eelneva koolitusega väljatõmbajatele ja tekstianalüütikutele on liides kasutajasõbralik.

Või saate mõne lihtsa sammuga luua ainulaadse ekstraktori. Aja vähendamiseks ja täpsuse parandamiseks kasutage täiustatud loomuliku keele töötlemist (NLP) koos sügava keelega masinõpe võimaldab teil teksti hinnata nii, nagu inimene seda teeks.

Ahv Õpi

Lisaks tagavad SaaS-i API-d, et ühenduste loomine selliste tööriistadega nagu Google Sheets, Excel, Zapier, Zendesk ja teised ei nõua aastatepikkuseid teadmisi arvutiteadusest.

Praegu on teie brauseris saadaval nimede ekstraktor, ettevõtte ekstraktor ja asukoha ekstraktor. Lisateavet oma loomise kohta leiate nimega olemi tuvastamise ajaveebi artiklist.

See sobib ideaalselt igas suuruses tehnoloogia, jaemüügi ja e-kaubandusega tegelevatele ettevõtetele, kes vajavad erinevat tüüpi teksti ekstraheerimiseks ja analüüsimiseks lihtsalt rakendatavaid API-sid.

Amazoni mõistmine

Amazon Comprehendi eelehitatud tööriistade kohese ühendamise ja kasutamise hõlbustamiseks koolitatakse neid sadades erinevates valdkondades.

Ettevõttesiseseid servereid pole vaja, kuna see on jälgitav teenus. Eriti kui kasutate praegu mingil tasemel Amazoni pilve, integreeruvad nende API-d hõlpsalt juba olemasolevate rakendustega. Ja ainult veidi rohkem treenides saab ekstraheerimise täpsust tõsta.

Amazoni mõistmine

Üks kõige usaldusväärsemaid tekstianalüüsi meetodeid meditsiiniliste dokumentide ja kliiniliste uuringute andmete saamiseks on Comprehendi meditsiinilise nimega üksuse ja suhete ekstraktsioon (NERe), mis võimaldab saada üksikasju ravimite, seisundite, testitulemuste ja protseduuride kohta.

Patsiendiandmete võrdlemine diagnoosi hindamiseks ja täpsustamiseks võib olla üsna kasulik. Parim valik ettevõtetele, kes otsivad eelkoolitatud tööriistadega hallatavat teenust.

Aylien

Et pakkuda lihtsat juurdepääsu tugevale masinõppe tekstianalüüsile, pakub AYLIEN kolme API pistikprogrammi seitsmes populaarses programmeerimiskeeles.

Nende uudiste API pakub reaalajas otsingut ja olemite ekstraheerimist kümnetest tuhandetest uudisteallikatest üle kogu maailma.

Aylien

Olemi ekstraheerimist ja mitmeid muid tekstianalüüsi ülesandeid saab teha dokumentide tekstianalüüsi API-ga, Sotsiaalse meedia platvormid, tarbijaküsitlused ja palju muud.

Lõpuks saate tekstianalüüsi platvormi kasutades luua oma väljavõtteid ja muud otse brauseris (TAP). See sobib hästi ettevõtetele, kes peavad kiiresti integreerima peamiselt fikseeritud API-sid.

SpaCy

SpaCy on Pythoni loomuliku keele töötlemise (NLP) pakett, mis on avatud lähtekoodiga, tasuta ja millel on palju sisseehitatud funktsioone.

See muutub üha tavalisemaks NLP andmed töötlemine ja analüüs. Struktureerimata tekstiandmeid luuakse tohutul skaalal, mistõttu on ülioluline neid analüüsida ja neist teadmisi ammutada.

SpaCy

Selle saavutamiseks peate esitama fakte viisil, mida arvutid mõistavad. Saate seda teha NLP kaudu. See on ülikiire, viivitusajaga vaid 30 ms, kuid kriitiliselt öeldes pole see mõeldud kasutamiseks HTTPS-i lehtedega.

See on hea võimalus oma serverite või sisevõrgu skannimiseks, kuna see töötab kohapeal, kuid see ei ole tööriist kogu Interneti uurimiseks.

Järeldus

Nimetatud üksuste tuvastamine (NER) on süsteem, mida ettevõtted saavad kasutada klienditoe taotlustes asjakohase teabe märgistamiseks, klientide tagasisides viidatud üksuste leidmiseks ja muu hulgas oluliste andmete (nt kontaktandmed, asukohad ja kuupäevad) kiireks väljavõtmiseks.

Kõige tavalisem lähenemine nimega olemi tuvastamisele on olemi ekstraheerimise API-de kasutamine (olgu need saadaval avatud lähtekoodiga teegid või SaaS-i tooted).

Parima alternatiivi valimine sõltub aga teie ajast, rahalistest vahenditest ja oskustest. Igasuguse äri puhul võivad üksuste ekstraheerimine ja keerukamad tekstianalüüsi tehnoloogiad ilmselgelt kasuks tulla.

Kui masinõppetööriistu õpetatakse õigesti, on need täpsed ega jäta tähelepanuta ühtegi teavet, säästes teie aega ja raha. Saate konfigureerida need lahendused pidevalt ja automaatselt töötama, integreerides API-sid.

Valige lihtsalt teie ettevõtte jaoks parim tegevussuund.

Nimega üksuse tuvastamine (NER) – kontseptsioon, rakendus ja API-d

Mis on NER (nimetatud üksuse tuvastamine)?