Prepoznavanje imenovanih entitet (NER) – koncept, aplikacija in API-ji

Imamo prirojeno sposobnost prepoznavanja in razvrščanja besed v posameznike, kraje, lokacije, vrednosti in drugo, kadar koli jih slišimo ali preberemo. Ljudje smo sposobni hitro kategorizirati, identificirati in razumeti besede.

Na primer, lahko kategorizirate predmet in hitro pridete do vsaj treh do štirih lastnosti, ko slišite ime "Steve Jobs",

Oseba: "Steve Jobs"

Organizacija: “Apple”

Lokacija: "Kalifornija"

Ker računalniki nimajo te prirojene spretnosti, jim moramo pomagati pri prepoznavanju besed ali besedila in njihovem razvrščanju. V tej situaciji se uporablja prepoznavanje poimenovane entitete (NER).

V tem članku bomo podrobno preučili NER (Named Entity Recognition), vključno z njegovim pomenom, prednostmi, vrhunskimi API-ji NER in še veliko več.

Kaj je NER (Named Entity Recognition)?

Pristop obdelave naravnega jezika (NLP), znan kot prepoznavanje poimenovane entitete (NER), včasih poznan kot identifikacija entitete ali ekstrakcija entitete, samodejno prepozna poimenovane entitete v besedilu in jih združi v vnaprej določene kategorije.

Entitete vključujejo imena posameznikov, skupin, krajev, datumov, zneskov, zneskov v dolarjih, odstotkov in več. S prepoznavanjem poimenovane entitete ga lahko uporabite za zbiranje pomembnih podatkov za zbirko podatkov ali za pridobivanje pomembnih informacij za razumevanje dokumenta.

NER je temeljni kamen, od katerega je odvisen sistem umetne inteligence za analizo besedila glede relativne semantike in čustev, tudi če NLP predstavlja pomemben napredek v procesu analize besedila.

Kakšen je pomen NER?

Osnova pristopa besedilne analitike je NER. Model ML mora najprej dobiti milijone vzorcev z vnaprej določenimi kategorijami, preden lahko razume angleško.

API se sčasoma izboljša pri prepoznavanju teh komponent v besedilih, ki jih bere prvič. Moč mehanizma za analizo besedila se poveča s sposobnostjo in močjo zmogljivosti NER.

Kot je prikazano tukaj, več operacij ML sproži NER.

Semantično iskanje

Semantično iskanje je zdaj na voljo v Googlu. Vnesete lahko vprašanje in poskušal bo po svojih najboljših močeh odgovoriti z odgovorom. Za iskanje informacij, ki jih uporabnik išče, digitalni pomočniki, kot so Alexa, Siri, chatboti in drugi, uporabljajo vrsto semantičnega iskanja.

To funkcijo je mogoče zadeti ali zgrešiti, vendar se uporablja vedno več, njihova učinkovitost pa hitro narašča.

Podatkovna analiza

To je splošna fraza za uporabo algoritmov za ustvarjanje analize iz nestrukturiranih podatkov. Združuje metode za prikaz teh podatkov s postopkom iskanja in zbiranja ustreznih podatkov.

To je lahko v obliki enostavne statistične razlage rezultatov ali vizualne predstavitve podatkov. Analizo zanimanja in sodelovanja z določeno temo je mogoče izvesti z uporabo informacij iz ogledov v YouTubu, vključno s tem, ko gledalci kliknejo določen videoposnetek.

Ocene z zvezdicami izdelka je mogoče analizirati z zbiranjem podatkov s spletnih mest za e-trgovino, da se zagotovi skupna ocena, kako dobro deluje izdelek.

Analiza občutka

Nadaljnje raziskovanje NER, Analiza klime lahko razlikuje med dobrimi in slabimi ocenami tudi v odsotnosti informacij iz ocen z zvezdicami.

Zaveda se, da imajo izrazi, kot so »precenjeno«, »neumno« in »neumno« negativne konotacije, medtem ko izrazi, kot so »uporaben«, »hiter« in »enostaven«, imajo. Besedo "enostavno" bi lahko v računalniški igri razlagali negativno.

Sofisticirani algoritmi lahko prepoznajo tudi razmerje med stvarmi.

Text Analytics

Podobno kot podatkovna analiza analiza besedila izvleče informacije iz nestrukturiranih besedilnih nizov in uporablja NER, da se osredotoči na pomembne podatke.

Uporablja se lahko za zbiranje podatkov o omembah izdelka, povprečni ceni ali izrazih, ki jih kupci najpogosteje uporabljajo za opis določene blagovne znamke.

Analiza video vsebine

Najbolj zapleteni sistemi so tisti, ki ekstrahirajo podatke iz video informacij z uporabo prepoznavanja obraza, analize zvoka in prepoznavanja slike.

Z analizo video vsebine lahko najdete YouTubove videoposnetke »razpakiranja«, predstavitve iger Twitch, sinhronizacijo z ustnicami vašega zvočnega materiala na Reels in še več.

Da bi se izognili zamudi pomembnih informacij o tem, kako se ljudje povežejo z vašim izdelkom ali storitvijo, ko obseg spletnega video materiala raste, so bistvenega pomena hitrejše in bolj domiselne tehnike za analizo video vsebine, ki temelji na NER.

Realna uporaba NER

Prepoznavanje poimenovane entitete (NER) identificira bistvene vidike v besedilu, kot so imena ljudi, lokacije, blagovne znamke, denarne vrednosti in drugo.

Ekstrahiranje glavnih entitet v besedilu pomaga pri razvrščanju nestrukturiranih podatkov in odkrivanju pomembnih informacij, kar je ključnega pomena pri delu z velikimi zbirkami podatkov.

Tukaj je nekaj zanimivih primerov prepoznavanja poimenovanih entitet iz resničnega sveta:

Analiziranje povratnih informacij strank

Spletne ocene so fantastičen vir povratnih informacij potrošnikov, saj vam lahko zagotovijo podrobne informacije o tem, kaj je strankam všeč in kaj sovraži pri vašem blagu, ter katera področja vašega podjetja je treba izboljšati.

Ves ta vnos odjemalca je mogoče organizirati z uporabo sistemov NER, ki lahko prepoznajo tudi ponavljajoče se težave.

Na primer, z uporabo NER za prepoznavanje krajev, ki so pogosto navedeni v negativnih ocenah strank, se lahko odločite, da se osredotočite na določeno poslovalnico.

Priporočilo za vsebino

Seznam člankov, ki so povezani s tistim, ki ga berete, lahko najdete na spletnih mestih, kot sta BBC in CNN, ko tam preberete članek.

Ta spletna mesta dajejo priporočila za dodatna spletna mesta, ki ponujajo informacije o entitetah, ki so jih pridobili iz vsebine, ki jo berete z uporabo NER.

Organizirajte vstopnice v podpori strankam

Algoritme za prepoznavanje poimenovanih entitet lahko uporabite za hitrejše odzivanje na zahteve strank, če upravljate povečanje števila zahtevkov za podporo strank.

Avtomatizirajte zamudna opravila skrbi za stranke, kot je razvrščanje pritožb in poizvedb strank, da prihranite denar, povečate zadovoljstvo strank in povečate stopnje reševanja.

Ekstrakcija entitete se lahko uporablja tudi za ekstrahiranje ustreznih podatkov, kot so imena izdelkov ali serijske številke, da poenostavite usmerjanje vstopnic k pravemu agentu ali ekipi za reševanje te težave.

Algoritem iskanja

Ste se kdaj vprašali, kako lahko spletna mesta z milijoni informacij ustvarijo rezultate, ki ustrezajo vašemu iskanju? Razmislite o spletni strani Wikipedia.

Wikipedia prikaže stran, ki vsebuje vnaprej določene subjekte, na katere se iskalni izraz lahko nanaša, ko iščete »delovna mesta«, namesto da vrne vse članke z besedo »delovna mesta«.

Tako Wikipedia ponuja povezavo do članka, ki opredeljuje "poklic", razdelek za ljudi z imenom Jobs in drugo področje za medije, kot so filmi, video igre, in druge oblike zabave, kjer se pojavi izraz "delovna mesta".

Videli bi tudi drug segment za lokacije, ki vsebujejo iskalno besedo.

Skrb za življenjepise

V iskanju idealnega kandidata zaposlovalci porabijo velik del svojega dneva za pregledovanje življenjepisov. Vsak življenjepis vsebuje enake podatke, vendar so vsi predstavljeni in organizirani drugače, kar je tipičen primer nestrukturiranih podatkov.

Najustreznejše informacije o kandidatih lahko hitro pridobijo ekipe za zaposlovanje, ki uporabljajo ekstraktorje entitet, vključno z osebnimi podatki (kot so ime, naslov, telefonska številka, datum rojstva in e-pošta) ter informacijami o njihovi izobrazbi in izkušnjah (kot so certifikati, diploma). , imena podjetij, veščine itd.).

E-trgovina

Kar zadeva njihov algoritem iskanja izdelkov, bi spletnim trgovcem na drobno z več sto ali tisoči izdelkov koristil NER.

Brez NER bi iskanje »črni usnjeni škornji« vrnilo rezultate, ki so vključevali usnje in obutev, ki ni bila črna. Če je tako, spletna mesta za e-trgovino tvegajo izgubo strank.

IV našem primeru bi NER iskalno besedo kategoriziral kot vrsto izdelka za usnjene škornje in črno kot barvo.

Najboljši API-ji za ekstrakcijo entitet

Google Cloud NLP

Za že usposobljena orodja ponuja Google Cloud NLP API za naravni jezik. Ali pa je vmesnik AutoML Natural Language API prilagodljiv za številne vrste ekstrakcij in analiz besedila, če želite svoja orodja poučiti o terminologiji vaše panoge.

API-ji zlahka komunicirajo z Gmailom, Google Preglednicami in drugimi Googlovimi aplikacijami, vendar lahko njihova uporaba s programi tretjih oseb zahteva bolj zapleteno kodo.

Idealna poslovna možnost je povezava Googlovih aplikacij in Cloud Storage kot upravljanih storitev in API-jev.

IBM Watson

IBM Watson je platforma z več oblaki, ki deluje neverjetno hitro in ponuja vnaprej vgrajene zmogljivosti, kot je pretvorba govora v besedilo, kar je neverjetna programska oprema, ki lahko samodejno analizira posnete zvoke in telefonske klice.

Z uporabo podatkov CSV lahko umetna inteligenca Watson Natural Language Understanding za globoko učenje ustvari ekstrakcijske modele za ekstrahiranje entitet ali ključnih besed.

In s prakso lahko ustvarite modele, ki so veliko bolj prefinjeni. Vse njegove funkcionalnosti so dostopne prek API-jev, čeprav je potrebno obsežno znanje kodiranja.

Deluje dobro za velika podjetja, ki potrebujejo pregled ogromnih naborov podatkov in imajo notranje tehnične vire.

Cortical.io

Z uporabo semantičnega zgibanja, pojma iz nevrologije, Cortical.io zagotavlja ekstrakcijo besedila in rešitve NLU.

To se naredi za ustvarjanje »semantičnih prstnih odtisov«, ki nakazujejo pomen besedila v celoti in posebne izraze. Da bi prikazali razmerja med besednimi skupinami, semantični prstni odtisi prikazujejo besedilne podatke.

Interaktivna dokumentacija API-ja Cortical.io pokriva funkcionalnost vsake od rešitev za analizo besedila in je preprosta za dostop z API-ji Java, Python in Javascript.

Orodje Contract Intelligence podjetja Cortical.io je bilo ustvarjeno posebej za pravno analizo za izvajanje semantičnih iskanj, preoblikovanje skeniranih dokumentov ter pomoč in izboljšavo z opombami.

Idealen je za podjetja, ki iščejo API-je, ki so preprosti za uporabo in ne potrebujejo znanja AI, zlasti v pravnem sektorju.

Opica se uči

API-ji MonkeyLearn podpirajo vse glavne računalniške jezike in nastavite le nekaj vrstic kode za izdelavo datoteke JSON, ki vsebuje vaše ekstrahirane entitete. Za ekstraktorje in besedilne analitike s predhodnim usposabljanjem je vmesnik uporabniku prijazen.

Ali pa lahko v le nekaj preprostih korakih ustvarite edinstven ekstraktor. Za zmanjšanje časa in izboljšanje natančnosti, napredna obdelava naravnega jezika (NLP) z globoko strojno učenje vam omogoča, da ocenite besedilo, kot bi ga oseba.

Poleg tega API-ji SaaS zagotavljajo, da nastavitev povezav z orodji, kot so Google Preglednice, Excel, Zapier, Zendesk in druga, ne zahteva let znanja računalništva.

Trenutno so v vašem brskalniku na voljo ekstraktor imen, ekstraktor podjetij in ekstraktor lokacij. Za informacije o tem, kako sestaviti svojega, si oglejte članek v spletnem dnevniku o prepoznavanju imenovanih entitet.

Idealen je za podjetja vseh velikosti, ki se ukvarjajo s tehnologijo, maloprodajo in e-trgovino, ki potrebujejo preproste API-je za različne vrste ekstrakcije besedila in analize besedila.

Amazonsko razumevanje

Da bi olajšali priključitev in takojšnjo uporabo predzgrajenih orodij Amazon Comprehend, so usposobljeni na stotinah različnih področij.

Nobeni notranji strežniki niso potrebni, ker je to nadzorovana storitev. Še posebej, če trenutno uporabljate Amazonov oblak do določene ravni, se njihovi API-ji enostavno integrirajo s predhodno obstoječimi aplikacijami. In z le malo več usposabljanja je mogoče povečati natančnost ekstrakcije.

Ena najbolj zanesljivih tehnik analize besedila za pridobivanje podatkov iz zdravstvenih kartotek in kliničnih preskušanj je Comprehend's Medical Named Entity and Relationship Extraction (NERe), ki lahko izlušči podrobnosti o zdravilih, pogojih, rezultatih testov in postopkih.

Primerjava podatkov o bolnikih za oceno in natančno nastavitev diagnoze je lahko zelo koristna. Najboljša možnost za podjetja, ki iščejo upravljano storitev z vnaprej usposobljenimi orodji.

Aylien

Da bi zagotovili enostaven dostop do robustne analize besedila strojnega učenja, AYLIEN ponuja tri vtičnike API v sedmih priljubljenih programskih jezikih.

Njihov API za novice omogoča iskanje v realnem času in ekstrakcijo entitet iz več deset tisoč virov novic z vsega sveta.

Aylien

Izvleček entitet in več drugih nalog analize besedila je mogoče izvesti z API-jem za analizo besedila na dokumentih, družbeni mediji platforme, ankete potrošnikov in drugo.

Končno lahko s platformo za analizo besedila ustvarite lastne ekstraktorje in še več neposredno v brskalniku (TAP). Dobro deluje za podjetja, ki morajo hitro integrirati predvsem fiksne API-je.

SpaCy

SpaCy je paket Python Natural Language Processing (NLP), ki je odprtokoden, brezplačen in ima ogromno vgrajenih funkcij.

Vse pogosteje je za NLP podatki obdelava in analiza. Nestrukturirani besedilni podatki se ustvarjajo v ogromnem obsegu, zato jih je ključnega pomena analizirati in iz njih pridobiti vpoglede.

SpaCy

Da bi to dosegli, morate prikazati dejstva na način, ki ga lahko razumejo računalniki. To lahko storite z NLP. Je izredno hiter, z zamikom le 30 ms, a kar je kritično, ni namenjen za uporabo s stranmi HTTPS.

To je dobra možnost za skeniranje lastnih strežnikov ali intraneta, ker deluje lokalno, vendar ni orodje za preučevanje celotnega interneta.

zaključek

Prepoznavanje imenovanih entitet (NER) je sistem, ki ga lahko podjetja uporabljajo za označevanje ustreznih informacij v zahtevah za podporo strankam, iskanje subjektov, navedenih v povratnih informacijah strank, in hitro ekstrahiranje ključnih podatkov, kot so kontaktni podatki, lokacije in datumi, med drugim.

Najpogostejši pristop k prepoznavanju poimenovanih entitet je z uporabo API-jev za ekstrakcijo entitet (ne glede na to, ali jih zagotavljajo odprtokodne knjižnice ali izdelki SaaS).

Vendar bo izbira najboljše alternative odvisna od vašega časa, financ in nabora spretnosti. Za katero koli vrsto posla sta ekstrahiranje entitet in bolj izpopolnjene tehnologije analize besedila očitno lahko koristne.

Ko so orodja za strojno učenje pravilno naučena, so natančna in ne spregledajo nobenih podatkov, kar vam prihrani čas in denar. Te rešitve lahko z integracijo API-jev konfigurirate za neprekinjeno in samodejno delovanje.

Preprosto izberite način ukrepanja, ki je najboljši za vaše podjetje.

Prepoznavanje imenovanih entitet (NER) – koncept, aplikacija in API-ji

Kaj je NER (Named Entity Recognition)?