Nafngreind einingaviðurkenning (NER)

Við höfum þann meðfædda hæfileika að þekkja og flokka orð í einstaklinga, staði, staði, gildi og fleira hvenær sem við heyrum eða lesum þau. Menn eru færir um að flokka, bera kennsl á og skilja orð hratt.

Til dæmis geturðu flokkað hlut og komið fljótt með að minnsta kosti þrjá til fjóra eiginleika þegar þú heyrir nafnið „Steve Jobs,“

Persóna: "Steve Jobs"

Stofnun: "Apple"

Staðsetning: „Kalifornía“

Þar sem tölvur skortir þessa meðfæddu færni verðum við að aðstoða þær við að þekkja orð eða texta og flokka hann. Nafnuð einingaviðurkenning (NER) er notuð í þessum aðstæðum.

Í þessari grein munum við skoða NER (Named Entity Recognition) í smáatriðum, þar á meðal mikilvægi þess, kosti, helstu NER API og margt fleira.

Hvað er NER (Named Entity Recognition)?

Náttúruleg málvinnsla (NLP) nálgun sem kallast nafngreind einingaviðurkenning (NER), stundum þekkt sem einingaauðkenning eða einingaútdráttur, viðurkennir sjálfkrafa nafngreindar einingar í texta og flokkar þær í fyrirfram ákveðna flokka.

Aðilar innihalda nöfn einstaklinga, hópa, staði, dagsetningar, upphæðir, dollaraupphæðir, prósentur og fleira. Með nafngreindri aðilaviðurkenningu geturðu annað hvort notað hana til að safna mikilvægum gögnum fyrir gagnagrunn eða til að draga út mikilvægar upplýsingar til að skilja um hvað skjal snýst.

NER er hornsteinninn sem gervigreind kerfi er háð til að greina texta með tilliti til afstæðrar merkingarfræði og tilfinninga, jafnvel þótt NLP tákni verulega framfarir í textagreiningarferlinu.

Hvaða þýðingu hefur NER?

Grunnurinn að textagreiningaraðferð er NER. ML líkan verður í upphafi að fá milljónir sýna með fyrirfram skilgreindum flokkum áður en það getur skilið ensku.

API batnar með tímanum við að þekkja þessa þætti í texta sem það er að lesa í fyrsta skipti. Kraftur textagreiningarvélarinnar eykst með hæfni og styrk NER getu.

Eins og sést hér eru nokkrar ML aðgerðir ræstar af NER.

Merkingarfræðileg leit

Merkingarleit er nú fáanleg á Google. Þú getur slegið inn spurningu og hún mun reyna sitt besta til að svara með svari. Til þess að finna upplýsingarnar sem notandi er að leita að nota stafrænir aðstoðarmenn eins og Alexa, Siri, chatbots og aðrir eins konar merkingarleit.

Þessi aðgerð getur verið högg eða missa, en það er vaxandi fjöldi notkunar fyrir hana og virkni þeirra eykst hratt.

Gögn Analytics

Þetta er almenn setning til að nota reiknirit til að búa til greiningu úr óskipulögðum gögnum. Það samþættir aðferðir til að birta þessi gögn með því ferli að finna og safna viðeigandi gögnum.

Þetta gæti verið í formi einfaldrar tölfræðilegrar skýringar á niðurstöðunum eða sjónrænnar framsetningar á gögnunum. Greining á áhuga á og þátttöku í tilteknu efni er hægt að gera með því að nota upplýsingar frá YouTube skoðunum, þar á meðal þegar áhorfendur smella af tilteknu myndbandi.

Hægt er að greina stjörnueinkunn vöru með því að nota gagnaskrapun frá rafrænum viðskiptasíðum til að gefa heildareinkunn um hversu vel varan stendur sig.

Tilfinningagreining

Frekari kanna NER, viðhorfsgreining getur greint á milli góðra og slæmra umsagna, jafnvel þótt ekki liggi fyrir upplýsingar frá stjörnueinkunnum.

Það er meðvitað um að hugtök eins og „ofmetin“, „fífl“ og „heimska“ hafa neikvæða merkingu, en hugtök eins og „gagnlegt“, „fljótt“ og „auðvelt“ gera það. Orðið „auðvelt“ gæti verið túlkað neikvætt í tölvuleik.

Háþróuð reiknirit geta einnig greint tengslin á milli hluta.

Textagreining

Líkt og gagnagreiningar, textagreining dregur út upplýsingar úr ómótuðum textastrengjum og notar NER til að núllstilla mikilvæg gögn.

Það er hægt að nota til að taka saman gögn um umtal vörunnar, meðalverð eða þau hugtök sem viðskiptavinir nota oftast til að lýsa ákveðnu vörumerki.

Greining myndbandaefnis

Flóknustu kerfin eru þau sem draga gögn úr myndbandsupplýsingum með því að nota andlitsgreiningu, hljóðgreiningu og myndgreiningu.

Með því að nota greiningu á myndefnisinnihaldi geturðu fundið YouTube „unboxing“ myndbönd, Twitch leikjasýningar, varasamstillingar á hljóðefninu þínu á Reels og fleira.

Til að forðast að missa af mikilvægum upplýsingum um hvernig fólk tengist vörunni þinni eða þjónustu eftir því sem magn myndbandsefnis á netinu eykst, eru hraðari og frumlegri aðferðir við NER-undirstaða greiningu myndbandaefnis nauðsynlegar.

Raunveruleg umsókn um NER

Named entity recognition (NER) auðkennir mikilvæga þætti í texta eins og nöfn fólks, staðsetningar, vörumerki, peningaleg verðmæti og fleira.

Útdráttur helstu eininganna í texta hjálpar til við að flokka óskipulögð gögn og finna mikilvægar upplýsingar, sem er mikilvægt þegar unnið er með stór gagnasöfn.

Hér eru nokkur heillandi dæmi úr raunveruleikanum um nafngreinda aðilaviðurkenningu:

Að greina athugasemdir viðskiptavina

Umsagnir á netinu eru frábær uppspretta viðbragða neytenda þar sem þær geta veitt þér nákvæmar upplýsingar um hvað viðskiptavinir líkar við og hatar vörurnar þínar sem og hvaða svæði fyrirtækis þíns þarf að bæta.

Allt þetta inntak viðskiptavinar er hægt að skipuleggja með því að nota NER kerfi, sem einnig geta greint endurtekin vandamál.

Til dæmis, með því að nota NER til að bera kennsl á staði sem oft er vitnað í í óhagstæðum umsögnum viðskiptavina, geturðu ákveðið að einbeita þér að ákveðnu skrifstofuútibúi.

Tilmæli um efni

Lista yfir greinar sem tengjast þeirri sem þú ert að lesa er að finna á vefsíðum eins og BBC og CNN þegar þú lest atriði þar.

Þessar vefsíður gera tillögur um fleiri vefsíður sem bjóða upp á upplýsingar um aðila sem þeir hafa dregið úr efninu sem þú ert að lesa með því að nota NER.

Skipuleggðu miða í þjónustuveri

Þú getur notað nafngreindar einingarþekkingaralgrím til að bregðast hraðar við beiðnum viðskiptavina ef þú ert að stjórna aukningu á fjölda stuðningsmiða frá viðskiptavinum.

Gerðu sjálfvirkan tímafrekt þjónustuverk, eins og að flokka kvartanir og fyrirspurnir viðskiptavina, til að spara þér peninga, auka ánægju viðskiptavina og auka úrlausnarhlutfall.

Einingaútdráttur er einnig hægt að nota til að draga út viðeigandi gögn, svo sem vöruheiti eða raðnúmer, til að gera það einfaldara að beina miðum til rétts umboðsmanns eða liðs til að leysa það mál.

Leitaralgrímið

Hefur þú einhvern tíma efast um hvernig vefsíður með milljónir upplýsinga geta skilað niðurstöðum sem eiga við um leitina þína? Skoðum vefsíðuna Wikipedia.

Wikipedia sýnir síðu sem inniheldur fyrirfram skilgreindar einingar sem leitarorðið getur tengst þegar þú leitar að „störfum“ í stað þess að skila öllum greinum með orðinu „störf“ í þeim.

Þannig býður Wikipedia upp á hlekk á greinina sem skilgreinir „starf,“ hluta fyrir fólk sem heitir Jobs og annað svæði fyrir fjölmiðla eins og kvikmyndir, vídeó leikur, og annars konar skemmtun þar sem hugtakið „störf“ kemur fyrir.

Þú myndir líka sjá annan hluta fyrir staðsetningar sem innihalda leitarorðið.

Að sjá um ferilskrár

Í leit að kjörnum umsækjanda eyða ráðningaraðilar verulegum hluta dagsins í að fara yfir ferilskrár. Sérhver ferilskrá hefur sömu upplýsingar, en þær eru allar kynntar og skipulagðar á annan hátt, sem er dæmigert dæmi um óskipulögð gögn.

Hægt er að draga út mikilvægustu upplýsingarnar um umsækjendur fljótt með því að ráða teymi sem nota útdráttaraðila, þar á meðal persónuupplýsingar (svo sem nafn, heimilisfang, símanúmer, fæðingardag og tölvupóst) og upplýsingar um menntun þeirra og reynslu (svo sem vottorð, gráðu). , fyrirtækjanöfn, færni osfrv.).

E-verslun

Varðandi reiknirit vöruleitar, þá myndu smásalar á netinu með hundruð eða þúsundir vöru njóta góðs af NER.

Án NER myndi leit að „svörtum leðurstígvélum“ skila niðurstöðum sem innihéldu bæði leður og skófatnað sem var ekki svartur. Ef svo er er hætta á að rafræn viðskipti tapi viðskiptavinum.

IÍ okkar tilviki myndi NER flokka leitarorðið sem vörutegund fyrir leðurstígvél og svart sem litinn.

Bestu einingaútdráttarforritaskilin

Google Cloud NLP

Fyrir þegar þjálfuð verkfæri býður Google Cloud NLP upp á Natural Language API. Eða AutoML Natural Language API er aðlögunarhæft fyrir margs konar textaútdrátt og greiningu ef þú vilt fræða verkfærin þín um hugtök iðnaðarins þíns.

Forritaskilin eiga auðvelt með að hafa samskipti við Gmail, Google Sheets og önnur Google forrit, en notkun þeirra með forritum frá þriðja aðila getur þurft flóknari kóða.

Kjörinn viðskiptakostur er að tengja Google forrit og Cloud Storage sem stýrða þjónustu og API.

IBM Watson

IBM Watson er fjölskýjavettvangur sem skilar sér ótrúlega fljótt og býður upp á fyrirframbyggða möguleika, svo sem tal-í-texta, sem er ótrúlegur hugbúnaður sem getur sjálfkrafa greint hljóð- og símtöl sem tekin eru upp.

Með því að nota CSV gögn getur djúpnám AI Watson Natural Language Understanding búið til útdráttarlíkön til að draga út einingar eða leitarorð.

Og með æfingu geturðu búið til líkön sem eru miklu flóknari. Öll virkni þess er aðgengileg í gegnum API, þó að þörf sé á víðtækri kóðunarþekkingu.

Það virkar vel fyrir stór fyrirtæki sem þurfa að skoða gríðarstór gagnasöfn og hafa innri tækniauðlind.

Cortical.io

Cortical.io býður upp á textaútdrátt og NLU lausnir með því að nota merkingarfræðilega fellingu, hugmynd frá taugafræði.

Þetta er gert til að búa til „merkingarfræðileg fingraför,“ sem gefa til kynna bæði merkingu texta í heild sinni og sérstökum skilmálum. Til að sýna fram á tengsl milli orðaklasa sýna merkingarfingraför textagögn.

Gagnvirk API skjöl Cortical.io fjalla um virkni hverrar textagreiningarlausna og það er einfalt að nálgast það með því að nota Java, Python og Javascript API.

Contract Intelligence tólið frá Cortical.io var búið til sérstaklega fyrir lagalega greiningu til að gera merkingarleit, umbreyta skönnuðum skjölum og hjálpa og auka með athugasemdum.

Það er tilvalið fyrir fyrirtæki sem leita að einföldum í notkun API sem þurfa ekki þekkingu á gervigreind, sérstaklega í lögfræðigeiranum.

Monkey Learn

Öll helstu tölvutungumálin eru studd af API MonkeyLearn og setja einfaldlega aðeins upp nokkrar línur af kóða til að búa til JSON skrá sem inniheldur útdrættar einingar þínar. Fyrir útdrætti og textafræðinga með fyrri þjálfun er viðmótið notendavænt.

Eða, með örfáum einföldum skrefum, geturðu búið til einstakan útdrátt. Til að draga úr tíma og bæta nákvæmni, háþróuð náttúruleg málvinnsla (NLP) með djúpri vél nám gerir þér kleift að meta texta eins og einstaklingur myndi gera.

Að auki tryggja SaaS API að uppsetning tenginga við verkfæri eins og Google Sheets, Excel, Zapier, Zendesk og fleiri krefst ekki margra ára tölvufræðiþekkingar.

Eins og er fáanlegt í vafranum þínum eru nafnið útdráttur, fyrirtækisútdráttur og staðsetningarútdráttur. Til að fá upplýsingar um hvernig á að smíða þitt eigið, sjá blogggrein um nafngreinda aðilaviðurkenningu.

Það er tilvalið fyrir fyrirtæki af öllum stærðum sem taka þátt í tækni, smásölu og rafrænum viðskiptum sem þurfa einföld í útfærslu API fyrir ýmis konar textaútdrátt og textagreiningu.

Amazon skilur

Til þess að gera það einfalt að tengja við og nota forsmíðuð verkfæri Amazon Comprehend strax, eru þeir þjálfaðir á hundruðum mismunandi sviðum.

Engir innri netþjónar eru nauðsynlegir vegna þess að þetta er eftirlitsþjónusta. Sérstaklega ef þú notar Amazon skýið á einhverju stigi eins og er, þá sameinast API þeirra auðveldlega við forrit sem áður voru. Og með aðeins meiri þjálfun er hægt að auka nákvæmni útdráttar.

Ein áreiðanlegasta textagreiningaraðferðin til að fá gögn úr sjúkraskrám og klínískum rannsóknum er Comprehend's Medical Named Entity and Relationship Extraction (NERe), sem getur dregið út upplýsingar um lyf, aðstæður, niðurstöður úr prófum og aðferðir.

Þegar borin eru saman gögn um sjúklinga til að meta og fínstilla greiningu getur það verið mjög gagnlegt. Besti kosturinn fyrir fyrirtæki sem leita að stýrðri þjónustu með fyrirfram þjálfuðum verkfærum.

Aylien

Til að veita greiðan aðgang að öflugri textagreiningu í vélanámi býður AYLIEN upp á þrjár API viðbætur á sjö vinsælum forritunarmálum.

News API þeirra veitir rauntíma leit og einingaútdrátt frá tugþúsundum fréttaheimilda um allan heim.

Aylien

Einingaútdráttur og nokkur önnur textagreiningarverkefni er hægt að framkvæma með því að nota Text Analysis API á skjölum, félagslega fjölmiðla palla, neytendakannanir og fleira.

Að lokum, með því að nota Text Analysis Platform, geturðu búið til þína eigin útdráttarvél og fleira beint í vafranum þínum (TAP). Það virkar vel fyrir fyrirtæki sem þurfa að samþætta fyrst og fremst föst API fljótt.

SpaCy

SpaCy er Python Natural Language Processing (NLP) pakki sem er opinn, ókeypis og hefur fullt af innbyggðum eiginleikum.

Það verður æ algengara fyrir NLP gögn úrvinnslu og greiningu. Óskipulögð textagögn eru búin til á gríðarstórum mælikvarða og því er mikilvægt að greina þau og draga úr þeim innsýn.

SpaCy

Til að ná því verður þú að lýsa staðreyndum á þann hátt að tölvur geti skilið. Þú getur gert það í gegnum NLP. Það er ákaflega fljótlegt, með töf sem er aðeins 30 ms, en mikilvægast er að það er ekki ætlað til notkunar með HTTPS síðum.

Þetta er góður kostur til að skanna eigin netþjóna eða innra netið vegna þess að það starfar á staðnum, en það er ekki tæki til að rannsaka allt internetið.

Niðurstaða

Nafngreind einingaviðurkenning (NER) er kerfi sem fyrirtæki geta notað til að merkja viðeigandi upplýsingar í beiðnum um þjónustuver, finna aðila sem vísað er til í athugasemdum viðskiptavina og draga fljótt út mikilvæg gögn eins og tengiliðaupplýsingar, staðsetningar og dagsetningar, meðal annars.

Algengasta aðferðin við að vera nefnd einingsviðurkenning er með því að nota einingaútdráttar-API (hvort sem þau eru veitt af opnum bókasöfnum eða SaaS vörum).

Hins vegar, að velja besta valið mun treysta á tíma þinn, fjárhag og hæfileika. Fyrir hvers kyns viðskipti getur einingaútdráttur og flóknari textagreiningartækni greinilega verið hagkvæm.

Þegar vélanámstæki eru rétt kennd eru þau nákvæm og horfa ekki framhjá neinum gögnum, sem sparar þér tíma og peninga. Þú getur stillt þessar lausnir til að keyra stöðugt og sjálfvirkt með því að samþætta API.

Veldu einfaldlega þá aðgerð sem hentar fyrirtækinu þínu best.

Nafngreind einingaviðurkenning (NER) – Hugtak, forrit og API

Hvað er NER (Named Entity Recognition)?