Njohja e njësive të emërtuara (NER) - Koncepti, aplikacioni dhe API-të

Ne kemi aftësinë e lindur për të njohur dhe klasifikuar fjalët në individë, vende, vendndodhje, vlera dhe më shumë sa herë që i dëgjojmë ose lexojmë ato. Njerëzit janë në gjendje të kategorizojnë, identifikojnë dhe kuptojnë fjalët shpejt.

Për shembull, ju mund të kategorizoni një objekt dhe të dilni shpejt me të paktën tre deri në katër cilësi kur dëgjoni emrin "Steve Jobs".

Personi: "Steve Jobs"

Organizimi: "Apple"

Vendndodhja: "Kaliforni"

Meqenëse kompjuterëve u mungon kjo aftësi e lindur, ne duhet t'i ndihmojmë ata në njohjen e fjalëve ose tekstit dhe klasifikimin e tyre. Në këtë situatë përdoret Njohja e Entit të Emërtuar (NER).

Në këtë artikull, ne do të shqyrtojmë në detaje NER (Njohja e Entitetit të Emërtuar) duke përfshirë rëndësinë e tij, përfitimet, API-të kryesore NER dhe shumë më tepër.

Çfarë është NER (Njohja e Entit të Emërtuar)?

Një qasje e përpunimit të gjuhës natyrore (NLP) e njohur si njohja e entitetit të emërtuar (NER), e njohur ndonjëherë si identifikimi i entitetit ose nxjerrja e entitetit, i njeh automatikisht entitetet e emërtuara në një tekst dhe i grupon ato në kategori të paracaktuara.

Subjektet përfshijnë emra individësh, grupe, vende, data, shuma, shuma në dollarë, përqindje dhe më shumë. Me njohjen e entitetit të emërtuar, ju mund ta përdorni ose për të mbledhur të dhëna të rëndësishme për një bazë të dhënash ose për të nxjerrë informacion jetik për të kuptuar se për çfarë bëhet fjalë një dokument.

NER është gurthemeli nga i cili varet një sistem AI për të analizuar tekstin për semantikën dhe ndjenjën relative, edhe nëse NLP përfaqëson një përparim të rëndësishëm në procesin e analizës së tekstit.

Cila është rëndësia e NER?

Themeli i një qasjeje të analitikës së tekstit është NER. Një modeli ML fillimisht duhet t'i jepet miliona mostrave me kategori të paracaktuara përpara se të kuptojë anglisht.

API përmirësohet me kalimin e kohës në njohjen e këtyre komponentëve në tekstet që lexon për herë të parë. Fuqia e motorit të analizës së tekstit rritet me kompetencën dhe fuqinë e aftësisë NER.

Siç shihet këtu, disa operacione ML shkaktohen nga NER.

Kërkimi semantik

Kërkimi semantik tani është i disponueshëm në Google. Ju mund të vendosni një pyetje dhe do të përpiqet të përgjigjet me një përgjigje. Për të gjetur informacionin që një përdorues kërkon, asistentët dixhitalë si Alexa, Siri, chatbots dhe të tjerë përdorin një lloj kërkimi semantik.

Ky funksion mund të goditet ose të humbasë, por ka një numër në rritje të përdorimit të tij dhe efektiviteti i tyre po rritet me shpejtësi.

Analiza e të dhënave

Kjo është një frazë e përgjithshme për përdorimin e algoritmeve për të krijuar analiza nga të dhëna të pastrukturuara. Ai integron metodat për shfaqjen e këtyre të dhënave me procesin e gjetjes dhe mbledhjes së të dhënave përkatëse.

Kjo mund të marrë formën e një shpjegimi të drejtpërdrejtë statistikor të rezultateve ose një paraqitje vizuale të të dhënave. Analiza e interesit dhe angazhimi në një temë të caktuar mund të bëhet duke përdorur informacionin nga shikimet në YouTube, duke përfshirë kur shikuesit klikojnë një video specifike.

Vlerësimet e yjeve të një produkti mund të analizohen duke përdorur grumbullimin e të dhënave nga faqet e tregtisë elektronike për të siguruar një rezultat të përgjithshëm se sa mirë po funksionon produkti.

Analiza e ndjenjës

Duke eksploruar më tej NER, Analiza ndjenjë mund të dallojë vlerësimet e mira dhe të këqija edhe në mungesë të informacionit nga vlerësimet e yjeve.

Është i vetëdijshëm se termat si "i mbivlerësuar", "i çuditshëm" dhe "budallai" kanë konotacione negative, ndërsa termat si "i dobishëm", "i shpejtë" dhe "i lehtë". Fjala "e lehtë" mund të interpretohet negativisht në një lojë kompjuterike.

Algoritmet e sofistikuara gjithashtu mund të njohin marrëdhëniet midis gjërave.

Analiza e Tekstit

Ngjashëm me analitikën e të dhënave, analiza e tekstit nxjerr informacion nga vargjet e pastrukturuara të tekstit dhe përdor NER për të zero në të dhënat e rëndësishme.

Mund të përdoret për të përpiluar të dhëna mbi përmendjet e një produkti, çmimin mesatar ose termat që klientët përdorin më shpesh për të përshkruar një markë të caktuar.

Analiza e përmbajtjes së videos

Sistemet më të ndërlikuara janë ato që nxjerrin të dhëna nga informacioni video duke përdorur njohjen e fytyrës, analizën audio dhe njohjen e figurës.

Duke përdorur analizën e përmbajtjes së videos, mund të gjeni video të "zhboksimit" të YouTube, demonstrime të lojërave Twitch, sinkronizime me buzë të materialit tuaj audio në Reels dhe më shumë.

Për të shmangur humbjen e informacionit të rëndësishëm në lidhje me mënyrën se si njerëzit lidhen me produktin ose shërbimin tuaj ndërsa vëllimi i materialit video në internet rritet, teknikat më të shpejta dhe më shpikëse për analizën e përmbajtjes video të bazuar në NER janë thelbësore.

Aplikimi në botën reale i NER

Njohja e entitetit të emërtuar (NER) identifikon aspekte thelbësore në një tekst si emrat e njerëzve, vendndodhjet, markat, vlerat monetare dhe më shumë.

Nxjerrja e entiteteve kryesore në një tekst ndihmon në renditjen e të dhënave të pastrukturuara dhe zbulimin e informacionit të rëndësishëm, gjë që është kritike kur kemi të bëjmë me grupe të dhënash të mëdha.

Këtu janë disa shembuj magjepsës të botës reale të njohjes së entitetit të emërtuar:

Analizimi i komenteve të klientit

Rishikimet në internet janë një burim fantastik i reagimeve të konsumatorëve pasi ato mund t'ju ofrojnë informacion të detajuar në lidhje me atë që klientët pëlqejnë dhe urrejnë për mallrat tuaja, si dhe se cilat fusha të kompanisë suaj duhet të përmirësohen.

E gjithë kjo hyrje e klientit mund të organizohet duke përdorur sistemet NER, të cilat gjithashtu mund të identifikojnë çështjet që përsëriten.

Për shembull, duke përdorur NER për të identifikuar vendet që shpesh citohen në rishikimet e pafavorshme të klientëve, mund të vendosni të përqendroheni në një degë të caktuar zyre.

Rekomandim për përmbajtjen

Një listë artikujsh që janë të lidhur me atë që po lexoni mund të gjendet në faqet e internetit si BBC dhe CNN kur lexoni një artikull atje.

Këto faqe interneti bëjnë rekomandime për uebsajte shtesë që ofrojnë informacion në lidhje me entitetet që ata kanë nxjerrë nga përmbajtja që po lexoni duke përdorur NER.

Organizoni Biletat në Mbështetjen e Klientit

Ju mund të përdorni algoritmet e njohjes së subjekteve me emër për t'iu përgjigjur kërkesave të klientit më shpejt nëse po menaxhoni një rritje të numrit të biletave të mbështetjes nga klientët.

Automatizoni punët e kujdesit ndaj klientit që kërkojnë kohë, të tilla si klasifikimi i ankesave dhe pyetjeve të klientëve, për të kursyer para, për të rritur lumturinë e klientit dhe për të rritur normat e zgjidhjes.

Nxjerrja e entitetit mund të përdoret gjithashtu për të nxjerrë të dhëna përkatëse, të tilla si emrat e produkteve ose numrat serialë, për ta bërë më të thjeshtë dërgimin e biletave te agjenti ose ekipi i duhur për zgjidhjen e këtij problemi.

Algoritmi i kërkimit

A keni pyetur ndonjëherë se si faqet e internetit me miliona pjesë informacioni mund të prodhojnë rezultate që janë të rëndësishme për kërkimin tuaj? Konsideroni faqen e internetit Wikipedia.

Wikipedia shfaq një faqe që përmban entitete të paracaktuara me të cilat termi i kërkimit mund të lidhet kur kërkoni për "punë", në vend që të ktheni të gjithë artikujt me fjalën "punë" në to.

Kështu, Wikipedia ofron një lidhje me artikullin që përcakton "profesionin", një seksion për njerëzit me emrin Jobs dhe një zonë tjetër për media të tilla si filmat, video games, dhe forma të tjera argëtimi ku shfaqet termi "punë".

Do të shihni gjithashtu një segment tjetër për vendndodhjet që përmbajnë fjalën e kërkimit.

Kujdesi për CV-të

Në kërkim të aplikantit ideal, rekrutuesit shpenzojnë një pjesë të konsiderueshme të ditës së tyre duke rishikuar CV-të. Çdo rezyme ka të njëjtin informacion, por të gjitha ato paraqiten dhe organizohen ndryshe, që është një shembull tipik i të dhënave të pastrukturuara.

Informacioni më i rëndësishëm për kandidatët mund të nxirret shpejt duke rekrutuar ekipe që përdorin nxjerrësit e entiteteve, duke përfshirë të dhënat personale (si emri, adresa, numri i telefonit, data e lindjes dhe emaili) dhe informacione rreth arsimimit dhe përvojës së tyre (siç janë certifikatat, diploma , emrat e kompanive, aftësitë, etj).

E-commerce

Lidhur me algoritmin e tyre të kërkimit të produkteve, shitësit me pakicë në internet me qindra ose mijëra mallra do të përfitonin nga NER.

Pa NER, një kërkim për "çizme lëkure të zeza" do të kthente rezultate që përfshinin edhe lëkurën dhe këpucët që nuk ishin të zeza. Nëse po, faqet e internetit të tregtisë elektronike rrezikojnë të humbasin klientët.

INë rastin tonë, NER do ta kategorizonte fjalën e kërkimit si një lloj produkti për çizmet prej lëkure dhe të zezën si ngjyrë.

API-të më të mira të nxjerrjes së entitetit

Google Cloud NLP

Për mjetet e trajnuara tashmë, Google Cloud NLP ofron API-në e tij të Gjuhës Natyrore. Ose, AutoML Natural Language API është i adaptueshëm për shumë lloje të nxjerrjes dhe analizës së tekstit nëse doni të edukoni mjetet tuaja mbi terminologjinë e industrisë suaj.

API-të ndërveprojnë lehtësisht me Gmail, Google Sheets dhe aplikacione të tjera të Google, por përdorimi i tyre me programe të palëve të treta mund të kërkojë kod më kompleks.

Opsioni ideal i biznesit është të lidhni aplikacionet e Google dhe "Cloud Storage" si shërbime dhe API të menaxhuara.

IBM Watson

IBM Watson është një platformë me shumë re që funksionon jashtëzakonisht shpejt dhe ofron aftësi të para-ndërtuara, të tilla si fjalimi në tekst, që është një softuer i mahnitshëm që mund të analizojë automatikisht thirrjet audio dhe telefonike të regjistruara.

Me përdorimin e të dhënave CSV, AI-ja e të mësuarit të thellë të Watson Natural Language Understanding mund të krijojë modele ekstraktimi për të nxjerrë entitete ose fjalë kyçe.

Dhe me praktikë, ju mund të krijoni modele që janë shumë më të sofistikuara. Të gjitha funksionalitetet e tij janë të aksesueshme përmes API-ve, megjithëse nevojiten njohuri të gjera për kodimin.

Ai funksionon mirë për bizneset e mëdha që kërkojnë të ekzaminojnë grupe të mëdha të dhënash dhe të kenë burime të brendshme teknike.

Kortikale.io

Duke përdorur Semantic Folding, një nocion nga neurologjia, Cortical.io ofron nxjerrjen e tekstit dhe zgjidhje NLU.

Kjo bëhet për të gjeneruar "gjurmë gishtash semantike", të cilat tregojnë kuptimin e një teksti në tërësinë e tij dhe termat specifikë. Për të demonstruar marrëdhëniet midis grupimeve të fjalëve, gjurmët semantike të gishtave përshkruajnë të dhëna teksti.

Dokumentacioni interaktiv i API-së i Cortical.io mbulon funksionalitetin e secilës prej zgjidhjeve të analizës së tekstit dhe është i thjeshtë për t'u aksesuar duke përdorur API-të Java, Python dhe Javascript.

Mjeti i Inteligjencës së Kontratës nga Cortical.io u krijua posaçërisht për analiza ligjore për të bërë kërkime semantike, për të transformuar dokumentet e skanuara dhe për të ndihmuar dhe përmirësuar me shënime.

Është ideale për bizneset që kërkojnë API të thjeshta për t'u përdorur që nuk kanë nevojë për njohuri të AI, veçanërisht në sektorin ligjor.

Majmuni Mësoni

Të gjitha gjuhët kryesore të kompjuterit mbështeten nga API-të e MonkeyLearn dhe vendosin vetëm disa rreshta kodi për të prodhuar një skedar JSON që përmban entitetet tuaja të nxjerra. Për nxjerrësit dhe analistët e tekstit me trajnim paraprak, ndërfaqja është e përshtatshme për përdoruesit.

Ose, në vetëm disa hapa të thjeshtë, mund të krijoni një nxjerrës unik. Për të reduktuar kohën dhe për të përmirësuar saktësinë, përpunimi i avancuar i gjuhës natyrore (NLP) me thellësi Mësimi makinë ju mundëson të vlerësoni tekstin ashtu siç do ta bënte një person.

Për më tepër, API-të e SaaS sigurojnë që vendosja e lidhjeve me mjete si Google Sheets, Excel, Zapier, Zendesk dhe të tjera nuk kërkon vite të tëra njohurish për shkencën kompjuterike.

Aktualisht në shfletuesin tuaj janë të disponueshme emrat ekstraktues, ekstraktuesi i kompanisë dhe nxjerrësi i vendndodhjes. Për informacion se si të ndërtoni tuajin, shihni artikullin e blogut të njohjes së entitetit me emër.

Ai është ideal për bizneset e të gjitha madhësive të përfshira në teknologji, shitje me pakicë dhe tregti elektronike që kanë nevojë për API të thjeshta për t'u zbatuar për lloje të ndryshme të nxjerrjes së tekstit dhe analizës së tekstit.

Amazon Comprehend

Për ta bërë të thjeshtë futjen dhe përdorimin e mjeteve të para-ndërtuara të Amazon Comprehend menjëherë, ata janë trajnuar në qindra fusha të ndryshme.

Nuk kërkohen serverë të brendshëm sepse ky është një shërbim i monitoruar. Veçanërisht nëse aktualisht përdorni cloud-in e Amazon deri në një nivel, API-të e tyre integrohen lehtësisht me aplikacionet ekzistuese më parë. Dhe vetëm me pak më shumë stërvitje, saktësia e nxjerrjes mund të rritet.

Një nga teknikat më të besueshme të analizës së tekstit për marrjen e të dhënave nga të dhënat mjekësore dhe provat klinike është Comprehend's Medical Named Entity and Relationship Extraction (NERe), e cila mund të nxjerrë detaje mbi medikamentet, kushtet, rezultatet e testimit dhe procedurat.

Kur krahasoni të dhënat e pacientit për të vlerësuar dhe rregulluar diagnozën, mund të jetë mjaft e dobishme. Opsioni më i mirë për bizneset që kërkojnë një shërbim të menaxhuar me mjete të para-trajnuara.

Aylien

Për të siguruar qasje të lehtë në analizën e fuqishme të tekstit të mësimit të makinerive, AYLIEN ofron tre shtojca API në shtatë gjuhë programimi të njohura.

API-ja e tyre e lajmeve ofron kërkim në kohë reale dhe nxjerrje të entitetit nga dhjetëra mijëra burime lajmesh nga e gjithë bota.

Aylien

Nxjerrja e entitetit dhe disa detyra të tjera të analizës së tekstit mund të kryhen duke përdorur API-në e analizës së tekstit në dokumente, Mediat sociale platformat, sondazhet e konsumatorëve dhe më shumë.

Së fundi, duke përdorur Platformën e Analizës së Tekstit, mund të krijoni ekstraktuesit tuaj dhe më shumë drejtpërdrejt në shfletuesin tuaj (TAP). Funksionon mirë për kompanitë që duhet të integrojnë shpejt API-të e fiksuara kryesisht.

SpaCy

SpaCy është një paketë Python Natyrore e Përpunimit të Gjuhës (NLP) që është me burim të hapur, falas dhe ka një sërë veçorish të integruara.

Po bëhet gjithnjë e më e zakonshme për Të dhënat NLP përpunimi dhe analizimi. Të dhënat tekstuale të pastrukturuara krijohen në një shkallë të madhe, prandaj është thelbësore që ato të analizohen dhe të nxirren njohuri prej tyre.

SpaCy

Për ta arritur këtë, ju duhet t'i portretizoni faktet në një mënyrë që kompjuterët të mund t'i kuptojnë. Ju mund ta bëni këtë përmes NLP. Është jashtëzakonisht i shpejtë, me një kohë vonese prej vetëm 30 ms, por në mënyrë kritike, nuk është menduar për përdorim me faqet HTTPS.

Ky është një opsion i mirë për të skanuar serverët ose intranetin tuaj sepse funksionon në nivel lokal, por nuk është një mjet për të studiuar të gjithë internetin.

Përfundim

Njohja e entitetit të emërtuar (NER) është një sistem që bizneset mund ta përdorin për të etiketuar informacionin përkatës në kërkesat e mbështetjes së klientit, për të gjetur entitete të referuara në komentet e klientëve dhe për të nxjerrë shpejt të dhëna thelbësore si detajet e kontaktit, vendndodhjet dhe datat, ndër të tjera.

Qasja më e zakonshme për të emërtuar njohjen e entitetit është përdorimi i API-ve të nxjerrjes së entiteteve (qoftë nëse ato ofrohen nga biblioteka me burim të hapur ose produkte SaaS).

Sidoqoftë, zgjedhja e alternativës më të mirë do të mbështetet në kohën, financat dhe aftësitë tuaja. Për çdo lloj biznesi, nxjerrja e subjekteve dhe teknologjitë më të sofistikuara të analizës së tekstit mund të jenë qartësisht të dobishme.

Kur mjetet e mësimit të makinerive mësohen saktë, ato janë të sakta dhe nuk anashkalojnë asnjë të dhënë, duke ju kursyer kohë dhe para. Ju mund t'i konfiguroni këto zgjidhje që të funksionojnë vazhdimisht dhe automatikisht duke integruar API-të.

Thjesht zgjidhni kursin e veprimit që është më i miri për kompaninë tuaj.

Njohja e njësive të emërtuara (NER) – Koncepti, Aplikacioni dhe API-të

Çfarë është NER (Njohja e Entit të Emërtuar)?