Rozpoznávanie pomenovaných entít (NER) – koncept, aplikácia a API

Máme vrodenú schopnosť rozpoznať a klasifikovať slová na jednotlivcov, miesta, miesta, hodnoty a ďalšie, kedykoľvek ich počujeme alebo čítame. Ľudia sú schopní rýchlo kategorizovať, identifikovať a pochopiť slová.

Môžete napríklad kategorizovať objekt a rýchlo prísť s najmenej tromi až štyrmi vlastnosťami, keď počujete meno „Steve Jobs“.

Osoba: "Steve Jobs"

Organizácia: "Apple"

Miesto: “Kalifornia”

Keďže počítačom chýba táto vrodená zručnosť, musíme im pomáhať pri rozpoznávaní slov alebo textu a pri ich klasifikácii. V tejto situácii sa používa rozpoznávanie pomenovanej entity (NER).

V tomto článku podrobne preskúmame NER (Named Entity Recognition) vrátane jeho dôležitosti, výhod, najlepších NER API a oveľa viac.

Čo je NER (rozpoznávanie pomenovaných entít)?

Prístup spracovania prirodzeného jazyka (NLP) známy ako rozpoznávanie pomenovanej entity (NER), niekedy známy ako identifikácia entity alebo extrakcia entity, automaticky rozpoznáva pomenované entity v texte a zoskupuje ich do vopred určených kategórií.

Entity zahŕňajú mená jednotlivcov, skupiny, miesta, dátumy, sumy, sumy v dolároch, percentá a ďalšie. Pomocou rozpoznávania pomenovaných entít ho môžete použiť na zhromažďovanie dôležitých údajov pre databázu alebo na extrahovanie dôležitých informácií, aby ste pochopili, o čom dokument je.

NER je základným kameňom, od ktorého závisí systém AI pri analýze textu z hľadiska relatívnej sémantiky a sentimentu, aj keď NLP predstavuje významný pokrok v procese textovej analýzy.

Aký je význam NER?

Základom prístupu textovej analýzy je NER. Model ML musí najprv dostať milióny vzoriek s vopred definovanými kategóriami, aby mohol porozumieť angličtine.

Rozhranie API sa časom zlepšuje pri rozpoznávaní týchto komponentov v textoch, ktoré číta prvýkrát. Výkon nástroja textovej analýzy sa zvyšuje s kompetenciou a silou schopnosti NER.

Ako je tu vidieť, niekoľko operácií ML spúšťa NER.

Sémantické vyhľadávanie

Sémantické vyhľadávanie je teraz k dispozícii na Googli. Môžete zadať otázku a tá sa pokúsi čo najlepšie odpovedať odpoveďou. Aby používateľ našiel informácie, ktoré hľadá, digitálni asistenti ako Alexa, Siri, chatboti a iní používajú typ sémantického vyhľadávania.

Táto funkcia môže byť zasiahnutá alebo vynechaná, ale existuje čoraz väčší počet jej použití a ich účinnosť rýchlo stúpa.

Data Analytics

Toto je všeobecná fráza pre použitie algoritmov na vytvorenie analýzy z neštruktúrovaných údajov. Integruje metódy na zobrazovanie týchto údajov s procesom hľadania a zhromažďovania príslušných údajov.

Môže to mať formu jednoduchého štatistického vysvetlenia výsledkov alebo vizuálneho znázornenia údajov. Analýzu záujmu o určitú tému a interakcie s ňou možno vykonať pomocou informácií zo zhliadnutí YouTube, a to aj vtedy, keď diváci kliknú na konkrétne video.

Hodnotenie produktu hviezdičkami možno analyzovať pomocou zoškrabovania údajov zo stránok elektronického obchodu, aby ste získali celkové skóre toho, ako dobre si produkt vedie.

Analýza sentimentu

Ďalšie skúmanie NER, analýza sentimentu dokáže rozlíšiť medzi dobrými a zlými recenziami aj pri absencii informácií z hodnotenia hviezdičkami.

Uvedomuje si, že výrazy ako „preceňovaný“, „nešikovný“ a „hlúpy“ majú negatívne konotácie, zatiaľ čo výrazy ako „užitočný“, „rýchly“ a „ľahký“ áno. Slovo „ľahký“ by sa v počítačovej hre dalo interpretovať negatívne.

Sofistikované algoritmy dokážu rozpoznať aj vzťah medzi vecami.

Analýza textu

Podobne ako pri dátovej analýze, textová analýza extrahuje informácie z neštruktúrovaných textových reťazcov a používa NER na vynulovanie dôležitých údajov.

Môže sa použiť na zostavenie údajov o produktoch, priemernej cene alebo výrazoch, ktoré zákazníci najčastejšie používajú na opis určitej značky.

Analýza obsahu videa

Najkomplikovanejšie systémy sú tie, ktoré extrahujú údaje z video informácií pomocou rozpoznávania tváre, analýzy zvuku a rozpoznávania obrázkov.

Pomocou analýzy obsahu videa môžete nájsť videá „rozbaľovania“ YouTube, ukážky hier Twitch, synchronizáciu vášho zvukového materiálu na kotúčoch a ďalšie.

Aby ste predišli premeškaniu dôležitých informácií o tom, ako sa ľudia pripájajú k vášmu produktu alebo službe, keďže objem online video materiálu rastie, sú nevyhnutné rýchlejšie a vynaliezavejšie techniky pre analýzu video obsahu na báze NER.

Aplikácia NER v reálnom svete

Rozpoznávanie pomenovaných entít (NER) identifikuje základné aspekty v texte, ako sú mená ľudí, miesta, značky, peňažné hodnoty a ďalšie.

Extrakcia hlavných entít v texte pomáha pri triedení neštruktúrovaných údajov a zisťovaní významných informácií, čo je kritické pri práci s veľkými množinami údajov.

Tu je niekoľko fascinujúcich skutočných príkladov rozpoznávania pomenovaných entít:

Analýza spätnej väzby od zákazníkov

Online recenzie sú fantastickým zdrojom spätnej väzby od spotrebiteľov, pretože vám môžu poskytnúť podrobné informácie o tom, čo sa zákazníkom páči a čo nenávidí na vašom tovare, ako aj o tom, ktoré oblasti vašej spoločnosti je potrebné zlepšiť.

Všetky tieto vstupy od klienta je možné organizovať pomocou systémov NER, ktoré tiež dokážu identifikovať opakujúce sa problémy.

Napríklad pomocou NER na identifikáciu miest, ktoré sú často citované v nepriaznivých hodnoteniach zákazníkov, sa môžete rozhodnúť sústrediť sa na určitú pobočku kancelárie.

Odporúčanie pre obsah

Zoznam článkov, ktoré súvisia s tým, ktorý práve čítate, nájdete na webových stránkach ako BBC a CNN, keď si tam prečítate položku.

Tieto webové stránky poskytujú odporúčania pre ďalšie webové stránky, ktoré ponúkajú informácie o subjektoch, ktoré získali z obsahu, ktorý čítate pomocou NER.

Usporiadajte vstupenky v zákazníckej podpore

Ak riadite nárast počtu žiadostí o podporu od zákazníkov, môžete použiť algoritmy na rozpoznávanie pomenovaných entít, aby ste rýchlejšie reagovali na požiadavky klientov.

Automatizujte časovo náročné úkony starostlivosti o zákazníkov, ako je klasifikácia sťažností a otázok zákazníkov, aby ste ušetrili peniaze, zvýšili spokojnosť zákazníkov a zvýšili mieru vyriešenia.

Extrakciu entít možno použiť aj na extrahovanie príslušných údajov, ako sú názvy produktov alebo sériové čísla, aby sa zjednodušilo smerovanie lístkov k správnemu agentovi alebo tímu na vyriešenie tohto problému.

Algoritmus vyhľadávania

Položili ste si niekedy otázku, ako môžu webové stránky s miliónmi informácií produkovať výsledky, ktoré sú relevantné pre vaše vyhľadávanie? Zvážte webovú stránku Wikipedia.

Wikipedia zobrazuje stránku obsahujúcu preddefinované entity, s ktorými môže hľadaný výraz súvisieť, keď hľadáte „prácu“, namiesto vrátenia všetkých článkov so slovom „práce“.

Wikipedia teda ponúka odkaz na článok, ktorý definuje „povolanie“, sekciu pre ľudí s názvom Jobs a ďalšiu oblasť pre médiá, ako sú filmy, videohrya iné formy zábavy, kde sa vyskytuje pojem „zamestnanie“.

Uvidíte aj ďalší segment pre miesta obsahujúce hľadané slovo.

Starostlivosť o životopisy

Pri hľadaní ideálneho uchádzača trávia náboroví pracovníci značnú časť svojho dňa prehodnocovaním životopisov. Každý resumé obsahuje rovnaké informácie, ale všetky sú prezentované a usporiadané inak, čo je typický príklad neštruktúrovaných údajov.

Najrelevantnejšie informácie o kandidátoch možno rýchlo extrahovať náborom tímov využívajúcich extraktory entít vrátane osobných údajov (ako je meno, adresa, telefónne číslo, dátum narodenia a e-mail) a informácií o ich vzdelaní a skúsenostiach (ako sú certifikáty, titul , názvy spoločností, zručnosti atď.).

E-commerce

Pokiaľ ide o ich algoritmus vyhľadávania produktov, online maloobchodníci so stovkami alebo tisíckami tovaru by profitovali z NER.

Bez NER by vyhľadávanie „čierne kožené čižmy“ vrátilo výsledky, ktoré zahŕňali kožu aj obuv, ktoré neboli čierne. Ak áno, webovým stránkam elektronického obchodu hrozí strata klientov.

IV našom prípade by NER kategorizoval hľadané slovo ako typ produktu pre kožené čižmy a čiernu ako farbu.

Najlepšie rozhrania API na extrakciu entít

Google Cloud NLP

Pre už vyškolené nástroje poskytuje Google Cloud NLP svoje rozhranie Natural Language API. Alebo, AutoML Natural Language API je prispôsobiteľné pre mnoho druhov extrakcie a analýzy textu, ak chcete vzdelávať svoje nástroje v terminológii vášho odvetvia.

Google Cloud NLP

Rozhrania API jednoducho interagujú s Gmailom, Tabuľkami Google a ďalšími aplikáciami Google, ale ich používanie s programami tretích strán môže vyžadovať zložitejší kód.

Ideálnou obchodnou možnosťou je prepojenie aplikácií Google a cloudového úložiska ako spravovaných služieb a rozhraní API.

IBM Watson

IBM Watson je multi-cloudová platforma, ktorá funguje neuveriteľne rýchlo a poskytuje vopred vytvorené funkcie, ako je prevod reči na text, čo je úžasný softvér, ktorý dokáže automaticky analyzovať zaznamenané audio a telefónne hovory.

Pomocou údajov CSV dokáže umelá inteligencia Watson Natural Language Understanding vytvoriť modely extrakcie na extrahovanie entít alebo kľúčových slov.

IBM Watson

A s praxou môžete vytvárať modely, ktoré sú oveľa sofistikovanejšie. Všetky jeho funkcie sú dostupné cez API, aj keď sú potrebné rozsiahle znalosti kódovania.

Funguje to dobre pre veľké podniky, ktoré vyžadujú skúmanie obrovských súborov údajov a majú interné technické zdroje.

Cortical.io

Pomocou sémantického skladania, pojmu z neurológie, Cortical.io poskytuje extrakciu textu a riešenia NLU.

Robí sa to s cieľom vygenerovať „sémantické odtlačky prstov“, ktoré označujú význam textu v jeho celku aj konkrétnych výrazov. Aby sa demonštrovali vzťahy medzi zhlukmi slov, sémantické odtlačky prstov zobrazujú textové údaje.

Interaktívna dokumentácia API Cortical.io pokrýva funkčnosť každého z riešení textovej analýzy a je jednoduchý prístup pomocou API Java, Python a Javascript.

Cortical.io

Nástroj Contract Intelligence od Cortical.io bol vytvorený špeciálne na právnu analýzu na vykonávanie sémantického vyhľadávania, transformáciu naskenovaných dokumentov a pomoc a vylepšenie pomocou anotácií.

Je ideálny pre podniky, ktoré hľadajú ľahko použiteľné API, ktoré nepotrebujú znalosti AI, najmä v právnom sektore.

Monkey Learn

Všetky hlavné počítačové jazyky sú podporované rozhraniami API MonkeyLearn a jednoducho nastavujú iba niekoľko riadkov kódu na vytvorenie súboru JSON obsahujúceho vaše extrahované entity. Pre extraktorov a textových analytikov s predchádzajúcim školením je rozhranie užívateľsky prívetivé.

Alebo si v niekoľkých jednoduchých krokoch môžete vytvoriť jedinečný extraktor. Ak chcete skrátiť čas a zlepšiť presnosť, pokročilé spracovanie prirodzeného jazyka (NLP) s hĺbkou strojové učenie umožňuje vyhodnotiť text ako človek.

Monkey Learn

Rozhrania SaaS API navyše zaisťujú, že nastavenie prepojení s nástrojmi, ako sú Tabuľky Google, Excel, Zapier, Zendesk a ďalšie, si nevyžaduje roky počítačových znalostí.

V súčasnosti sú vo vašom prehliadači k dispozícii extraktor mien, extraktor spoločnosti a extraktor polohy. Informácie o tom, ako vytvoriť svoj vlastný, nájdete v článku blogu o rozpoznávaní pomenovaných entít.

Je ideálny pre podniky všetkých veľkostí, ktoré sa zaoberajú technológiami, maloobchodom a elektronickým obchodom, ktoré potrebujú jednoducho implementovateľné rozhrania API na rôzne typy extrakcie textu a analýzy textu.

Amazon Comprehend

Aby bolo jednoduché zapojenie a okamžité používanie vopred vytvorených nástrojov Amazon Comprehend, sú vyškolení v stovkách rôznych oblastí.

Nevyžadujú sa žiadne interné servery, pretože ide o monitorovanú službu. Najmä ak v súčasnosti na určitej úrovni využívate cloud spoločnosti Amazon, ich rozhrania API sa ľahko integrujú s už existujúcimi aplikáciami. A len s trochou viac tréningu je možné zvýšiť presnosť extrakcie.

Amazon Comprehend

Jednou z najspoľahlivejších techník textovej analýzy na získavanie údajov zo zdravotných záznamov a klinických skúšok je aplikácia Comprehend's Medical Named Entity and Relationship Extraction (NERe), ktorá dokáže extrahovať podrobnosti o liekoch, podmienkach, výsledkoch testov a postupoch.

Pri porovnávaní údajov o pacientoch na posúdenie a doladenie diagnózy môže byť celkom prospešné. Najlepšia voľba pre podniky, ktoré hľadajú riadenú službu s vopred vyškolenými nástrojmi.

Aylien

S cieľom poskytnúť jednoduchý prístup k robustnej textovej analýze strojového učenia ponúka AYLIEN tri zásuvné moduly API v siedmich populárnych programovacích jazykoch.

Ich News API poskytuje vyhľadávanie v reálnom čase a extrakciu entít z desiatok tisíc zdrojov správ z celého sveta.

Aylien

Extrakciu entít a niekoľko ďalších úloh analýzy textu je možné vykonať pomocou rozhrania API analýzy textu na dokumentoch, sociálne médiá platformy, spotrebiteľské prieskumy a ďalšie.

Nakoniec, pomocou platformy na analýzu textu si môžete vytvoriť svoje vlastné extraktory a ďalšie priamo vo vašom prehliadači (TAP). Funguje to dobre pre spoločnosti, ktoré potrebujú rýchlo integrovať primárne fixné API.

SpaCy

SpaCy je balík Python Natural Language Processing (NLP), ktorý je open source, bezplatný a má množstvo vstavaných funkcií.

Je to čoraz bežnejšie pre NLP údaje spracovanie a analýza. Neštruktúrované textové údaje sa vytvárajú v obrovskom rozsahu, preto je dôležité ich analyzovať a extrahovať z nich poznatky.

SpaCy

Aby ste to dosiahli, musíte zobraziť fakty spôsobom, ktorý počítače dokážu pochopiť. Môžete to urobiť prostredníctvom NLP. Je extrémne rýchly, s oneskorením iba 30 ms, ale čo je dôležité, nie je určený na použitie so stránkami HTTPS.

Je to pekná možnosť na skenovanie vlastných serverov alebo intranetu, pretože funguje lokálne, ale nie je to nástroj na štúdium celého internetu.

záver

Rozpoznávanie pomenovaných entít (NER) je systém, ktorý môžu podniky použiť na označenie relevantných informácií v žiadostiach o podporu zákazníkov, nájdenie entít, na ktoré sa odkazuje v spätnej väzbe od zákazníkov, a rýchle extrahovanie dôležitých údajov, ako sú kontaktné údaje, miesta a dátumy, okrem iného.

Najbežnejším prístupom k rozpoznávaniu entít je použitie rozhraní API na extrakciu entít (či už sú poskytované knižnicami s otvoreným zdrojovým kódom alebo produktmi SaaS).

Výber najlepšej alternatívy však bude závisieť od vášho času, financií a zručností. Pre akýkoľvek druh podnikania môže byť extrakcia entít a sofistikovanejšie technológie analýzy textu jednoznačne výhodné.

Keď sú nástroje strojového učenia správne naučené, sú presné a neprehliadnu žiadne údaje, čo vám šetrí čas a peniaze. Integráciou rozhraní API môžete tieto riešenia nakonfigurovať tak, aby sa spúšťali nepretržite a automaticky.

Jednoducho si vyberte postup, ktorý je pre vašu spoločnosť najlepší.

Named Entity Recognition (NER) – koncept, aplikácia a API

Čo je NER (rozpoznávanie pomenovaných entít)?