Named Entity Recognition (NER) – koncepció, alkalmazás és API-k

Velünk született képességünk, hogy felismerjük és osztályozzuk a szavakat egyénekre, helyekre, helyszínekre, értékekre és egyebekre, amikor csak halljuk vagy olvassuk őket. Az emberek gyorsan kategorizálják, azonosítják és megértik a szavakat.

Például kategorizálhat egy objektumot, és gyorsan legalább három-négy tulajdonságot találhat ki, amikor meghallja a „Steve Jobs” nevet.

Személy: "Steve Jobs"

Szervezet: "Apple"

Helyszín: "Kalifornia"

Mivel a számítógépekből hiányzik ez a veleszületett készség, segítenünk kell őket a szavak vagy szövegek felismerésében és osztályozásában. Ebben a helyzetben a nevesített entitásfelismerést (NER) használják.

Ebben a cikkben részletesen megvizsgáljuk a NER-t (Named Entity Recognition), beleértve annak fontosságát, előnyeit, a legnépszerűbb NER API-kat és még sok mást.

Mi az a NER (névvel rendelkező entitás felismerés)?

Az elnevezett entitásfelismerés (NER) néven ismert természetes nyelvi feldolgozási (NLP) megközelítés, amelyet néha entitásazonosításnak vagy entitáskivonásnak is neveznek, automatikusan felismeri a megnevezett entitásokat a szövegben, és előre meghatározott kategóriákba csoportosítja őket.

Az entitások közé tartoznak az egyének nevei, csoportok, helyek, dátumok, összegek, dollárösszegek, százalékok stb. Az elnevezett entitásfelismeréssel vagy jelentős adatok gyűjtésére egy adatbázishoz, vagy létfontosságú információk kinyerésére használhatja, hogy megértse, miről szól egy dokumentum.

A NER az a sarokkő, amelytől az AI-rendszer függ a szöveg relatív szemantikai és hangulati elemzéséhez, még akkor is, ha az NLP jelentős előrelépést jelent a szövegelemzési folyamatban.

Mi a NER jelentősége?

A szövegelemzési megközelítés alapja a NER. Egy ML modellnek először több millió mintát kell adni előre meghatározott kategóriákkal, mielőtt megértené az angol nyelvet.

Az API idővel fejlődik ezen összetevők felismerésében az első alkalommal olvasott szövegekben. A szövegelemző motor teljesítménye a NER képesség kompetenciájával és erejével nő.

Amint az itt látható, számos ML-műveletet a NER indít el.

Szemantikai keresés

A szemantikus keresés már elérhető a Google-on. Megadhat egy kérdést, és a rendszer mindent megtesz, hogy válaszoljon. Az információ megtalálása érdekében a felhasználó olyan digitális asszisztenseket keres, mint az Alexa, Siri, chatbotok és mások, egyfajta szemantikai keresést alkalmaznak.

Ezt a funkciót el lehet találni vagy kihagyni, de egyre több felhasználási lehetőség van, és a hatékonyságuk is rohamosan növekszik.

Adatelemzés

Ez egy általános kifejezés az algoritmusok strukturálatlan adatokból történő elemzéséhez. Az adatok megjelenítésére szolgáló módszereket integrálja a releváns adatok megtalálásának és gyűjtésének folyamatába.

Ez történhet az eredmények egyszerű statisztikai magyarázatával vagy az adatok vizuális megjelenítésével. Egy adott téma iránti érdeklődés és elkötelezettség elemzése elvégezhető a YouTube-nézetekből származó információk alapján, beleértve azt is, amikor a nézők egy adott videóra kattintanak.

A termékek csillagos értékelései e-kereskedelmi webhelyekről származó adatokkal elemezhetők, hogy általános pontszámot kapjanak a termék teljesítményéről.

Érzelmi elemzés

A NER további felfedezése, hangulat elemzés különbséget tud tenni a jó és a rossz vélemények között, még a csillagos értékelésekből származó információk hiányában is.

Tisztában van azzal, hogy az olyan kifejezések, mint a „túlértékelt”, „finomságos” és „hülye”, negatív jelentéssel bírnak, míg a „hasznos”, „gyors” és „könnyű” kifejezések igen. A „könnyű” szó negatívan értelmezhető egy számítógépes játékban.

A kifinomult algoritmusok a dolgok közötti kapcsolatot is képesek felismerni.

Szöveges elemzés

Az adatelemzéshez hasonlóan a szövegelemzés a strukturálatlan szöveges karakterláncokból nyeri ki az információkat, és a NER-t használja a fontos adatok nullázására.

Használható adatok összeállítására egy termék megemlítéséről, az átlagárról vagy azokról a kifejezésekről, amelyeket a vásárlók leggyakrabban használnak egy adott márka leírására.

Videótartalom-elemzés

A legbonyolultabb rendszerek azok, amelyek arcfelismeréssel, hangelemzéssel és képfelismeréssel kinyernek adatokat a videoinformációkból.

A videótartalom-elemzés segítségével megtalálhatja a YouTube „kicsomagoló” videóit, a Twitch játék bemutatóit, a hanganyagok szájszinkronizálását a tekercseken és még sok mást.

Annak elkerülése érdekében, hogy az online videoanyagok mennyiségének növekedésével ne vesszenek el fontos információk arról, hogyan csatlakoznak az emberek az Ön termékéhez vagy szolgáltatásához, elengedhetetlenek a NER-alapú videótartalom-elemzés gyorsabb és ötletesebb technikái.

A NER valós alkalmazása

A nevesített entitásfelismerés (NER) olyan lényeges szempontokat azonosít a szövegben, mint például az emberek neve, a helyek, a márkák, a pénzbeli értékek stb.

A fő entitások kibontása egy szövegben segít a strukturálatlan adatok rendezésében és a jelentős információk észlelésében, ami kritikus fontosságú nagy adatkészletek kezelésekor.

Íme néhány lenyűgöző valós példa az elnevezett entitás felismerésére:

Ügyfél-visszajelzések elemzése

Az online vélemények a fogyasztói visszajelzések fantasztikus forrásai, mivel részletes információkat nyújtanak arról, hogy a vásárlók mit szeretnek és mit utálnak az Ön áruival kapcsolatban, valamint arról, hogy vállalatának mely területein kell fejleszteni.

Mindezek a kliens bemenetek NER-rendszerek segítségével szervezhetők, amelyek az ismétlődő problémákat is azonosítani tudják.

Például, ha a NER segítségével azonosítja azokat a helyeket, amelyekre gyakran hivatkoznak a kedvezőtlen vásárlói vélemények, dönthet úgy, hogy egy bizonyos irodai fiókra koncentrál.

Ajánlás a tartalomhoz

Az éppen olvasott cikkhez kapcsolódó cikkek listája megtalálható az olyan webhelyeken, mint a BBC és a CNN, ha ott olvas egy tételt.

Ezek a webhelyek ajánlásokat tesznek további webhelyekre, amelyek információkat kínálnak azokról az entitásokról, amelyeket a NER segítségével olvasott tartalomból kinyertek.

Jegyek rendezése az ügyfélszolgálaton

A megnevezett entitásfelismerő algoritmusok segítségével gyorsabban válaszolhat az ügyfelek kéréseire, ha az ügyfelektől érkező támogatási jegyek számának növekedését kezeli.

Automatizálja az időigényes ügyfélszolgálati feladatokat, például az ügyfelek panaszainak és megkereséseinek osztályozását, hogy pénzt takarítson meg, növelje az ügyfelek elégedettségét és növelje a megoldási arányt.

Az entitáskivonat felhasználható a vonatkozó adatok, például terméknevek vagy sorozatszámok kinyerésére is, hogy egyszerűbbé tegyék a jegyek irányítását a megfelelő ügynökhöz vagy csapathoz a probléma megoldásához.

A keresési algoritmus

Felmerült már benned a kérdés, hogy a több millió információt tartalmazó webhelyek hogyan hozhatnak olyan eredményeket, amelyek relevánsak az Ön keresésében? Tekintsük a Wikipédia webhelyet.

A Wikipédia egy olyan oldalt jelenít meg, amely előre definiált entitásokat tartalmaz, amelyekre a keresőkifejezés vonatkozhat, amikor az „állások” kifejezésre keres, ahelyett, hogy minden olyan cikket adna vissza, amelyekben szerepel a „jobs” szó.

Így a Wikipédia egy hivatkozást kínál a „foglalkozást” definiáló cikkre, egy szakaszt a Jobs nevű emberek számára, és egy másik területet a médiához, például a filmekhez, videojátékokés egyéb szórakozási formák, ahol megjelenik a „munkahely” kifejezés.

Egy másik szegmens is megjelenik a keresőszót tartalmazó helyekhez.

Az önéletrajzok gondozása

Az ideális jelentkezőt keresve a toborzók a napjuk jelentős részét önéletrajzok áttekintésével töltik. Minden önéletrajz ugyanazokat az információkat tartalmazza, de mindegyik másképp van bemutatva és rendszerezve, ami tipikus példája a strukturálatlan adatoknak.

A jelöltekről a legrelevánsabb információk gyorsan kinyerhetők, ha entitáskivonatokat alkalmazó csapatokat toboroznak, beleértve a személyes adatokat (például név, cím, telefonszám, születési dátum és e-mail cím), valamint a végzettségükre és tapasztalataikra vonatkozó információkat (például bizonyítványok, végzettség). , cégnevek, készségek stb.).

E-kereskedelem

Ami a termékkereső algoritmusát illeti, a több száz vagy több ezer árut forgalmazó online kereskedők számára előnyös lenne a NER.

A NER nélkül a „fekete bőrcsizma” kifejezésre olyan találatokat adna, amelyekben a bőr és a nem fekete lábbeli is szerepel. Ha igen, az e-kereskedelmi webhelyek ügyfelek elvesztését kockáztatják.

Ia mi esetünkben a NER a keresőszót a bőrcsizmák terméktípusaként, színként pedig a feketét kategorizálja.

Legjobb Entity Extraction API-k

Google Cloud NLP

A már betanított eszközökhöz a Google Cloud NLP biztosítja a Natural Language API-t. Vagy az AutoML Natural Language API sokféle szövegkivonáshoz és -elemzéshez adaptálható, ha eszközeit iparága terminológiájára szeretné oktatni.

Google Cloud NLP

Az API-k könnyen kölcsönhatásba lépnek a Gmaillel, a Google Táblázatokkal és más Google-alkalmazásokkal, de a harmadik féltől származó programokkal való használatuk bonyolultabb kódot igényelhet.

Az ideális üzleti lehetőség a Google-alkalmazások és a Cloud Storage összekapcsolása felügyelt szolgáltatásokként és API-kként.

IBM Watson

Az IBM Watson egy többfelhős platform, amely hihetetlenül gyorsan működik, és olyan előre beépített képességekkel rendelkezik, mint például a beszéd-szövegké alakítás, amely egy csodálatos szoftver, amely képes automatikusan elemezni a rögzített hang- és telefonhívásokat.

A CSV-adatok felhasználásával a Watson Natural Language Understanding mélytanuló MI-je kinyerési modelleket hozhat létre entitások vagy kulcsszavak kinyerésére.

IBM Watson

Gyakorlattal pedig sokkal kifinomultabb modelleket hozhat létre. Minden funkciója elérhető API-kon keresztül, bár széleskörű kódolási ismeretekre van szükség.

Jól működik a nagyvállalatok számára, amelyeknek hatalmas adatkészleteket kell megvizsgálniuk, és belső technikai erőforrásokkal kell rendelkezniük.

Cortical.io

A szemantikus hajtogatást, a neurológia fogalmát használva a Cortical.io szövegkivonási és NLU-megoldásokat kínál.

Ennek célja „szemantikus ujjlenyomatok” létrehozása, amelyek mind a szöveg egészének, mind pedig konkrét kifejezéseinek jelentését jelzik. A szócsoportok közötti kapcsolatok bemutatása érdekében a szemantikus ujjlenyomatok szöveges adatokat ábrázolnak.

A Cortical.io interaktív API-dokumentációja lefedi az egyes szövegelemző megoldások funkcionalitását, és egyszerűen elérhető a Java, Python és Javascript API-k használatával.

Cortical.io

A Cortical.io Contract Intelligence eszközét kifejezetten jogi elemzésre hozták létre szemantikai keresések elvégzésére, szkennelt dokumentumok átalakítására, valamint megjegyzésekkel történő segítségnyújtásra és javításra.

Ideális azoknak a vállalkozásoknak, akik egyszerűen használható API-kat keresnek, amelyeknek nincs szükségük mesterséges intelligencia ismeretekre, különösen a jogi szektorban.

Majom Tanulj

Az összes főbb számítógépes nyelvet támogatják a MonkeyLearn API-k, és csak néhány sornyi kódot kell beállítani a kibontott entitásokat tartalmazó JSON-fájl létrehozásához. Az előzetes képzettséggel rendelkező kivonatolók és szövegelemzők számára a felület felhasználóbarát.

Vagy néhány egyszerű lépésben létrehozhat egy egyedi elszívót. Az idő csökkentése és a pontosság növelése érdekében a fejlett természetes nyelvi feldolgozás (NLP) mély gépi tanulás lehetővé teszi, hogy úgy értékelje a szöveget, ahogyan azt egy személy tenné.

Majom Tanulj

Ezenkívül a SaaS API-k biztosítják, hogy a kapcsolatok létrehozásához olyan eszközökkel, mint a Google Sheets, Excel, Zapier, Zendesk és más eszközök, ne legyen szükség több éves számítástechnikai ismeretekre.

A böngészőjében jelenleg elérhető a névkivonat, a cégkivonó és a helykivonó. A saját létrehozásával kapcsolatos információkért tekintse meg a megnevezett entitásfelismerési blog cikkét.

Ideális minden méretű, technológiai, kiskereskedelmi és e-kereskedelemmel foglalkozó vállalkozás számára, akiknek egyszerűen megvalósítható API-kra van szükségük a különféle típusú szövegkivonásokhoz és szövegelemzésekhez.

Amazon Comprehend

Az Amazon Comprehend előre elkészített eszközeinek csatlakoztatása és azonnali azonnali használata egyszerűbbé tétele érdekében több száz különböző területen képezték ki őket.

Nincs szükség házon belüli szerverekre, mert ez egy felügyelt szolgáltatás. Különösen, ha jelenleg valamilyen szinten kihasználja az Amazon felhőjét, az API-k könnyen integrálhatók a korábban létező alkalmazásokkal. És csak egy kis edzéssel növelhető az extrakciós pontosság.

Amazon Comprehend

Az egyik legmegbízhatóbb szövegelemzési technika az orvosi feljegyzésekből és klinikai vizsgálatokból származó adatok megszerzésére a Comprehend Medical Named Entity and Relationship Extraction (NERe), amely részleteket tud kinyerni a gyógyszerekről, állapotokról, vizsgálati eredményekről és eljárásokról.

A betegek adatainak összehasonlítása a diagnózis értékelése és pontosítása érdekében igen hasznos lehet. A legjobb megoldás azoknak a vállalkozásoknak, akik menedzselt szolgáltatást keresnek előre betanított eszközökkel.

Aylien

A robusztus gépi tanulási szövegelemzéshez való könnyű hozzáférés érdekében az AYLIEN három API beépülő modult kínál hét népszerű programozási nyelven.

A News API valós idejű keresést és entitáskivonatot biztosít több tízezer hírforrásból a világ minden tájáról.

Aylien

Az entitáskivonás és számos más szövegelemzési feladat elvégezhető a Text Analysis API segítségével dokumentumokon, Közösségi média platformok, fogyasztói felmérések és egyebek.

Végül a Szövegelemző Platform használatával létrehozhatja saját kivonatait és még sok mást közvetlenül a böngészőjében (TAP). Jól működik azoknak a cégeknek, akiknek gyorsan kell integrálniuk elsősorban a rögzített API-kat.

Borsos

A SpaCy egy Python Natural Language Processing (NLP) csomag, amely nyílt forráskódú, ingyenes, és rengeteg beépített funkcióval rendelkezik.

Egyre gyakoribb a NLP adatok feldolgozás és elemzés. A strukturálatlan szöveges adatok óriási léptékben jönnek létre, ezért elengedhetetlen ezek elemzése és betekintést nyerni belőlük.

Borsos

Ennek eléréséhez a tényeket úgy kell ábrázolnia, hogy a számítógépek megértsék. Megteheti az NLP-n keresztül. Rendkívül gyors, mindössze 30 ms-os késleltetési idővel, de kritikus szempontból nem HTTPS-oldalakkal való használatra készült.

Ez egy jó lehetőség a saját szerverek vagy intranet ellenőrzésére, mivel helyileg működik, de nem a teljes internet tanulmányozására alkalmas.

Következtetés

A nevesített entitásfelismerés (NER) egy olyan rendszer, amelyet a vállalkozások használhatnak az ügyfélszolgálati kérésekben a vonatkozó információk címkézésére, az ügyfelek visszajelzéseiben hivatkozott entitások megkeresésére, és többek között olyan kulcsfontosságú adatok gyors kinyerésére, mint a kapcsolattartási adatok, helyszínek és dátumok.

Az elnevezett entitásfelismerés leggyakoribb módja az entitáskivonat API-k használata (függetlenül attól, hogy nyílt forráskódú könyvtárak vagy SaaS-termékek biztosítják őket).

A legjobb alternatíva kiválasztása azonban az Ön idejétől, pénzügyeitől és készségeitől függ. Bármilyen vállalkozás esetében az entitáskivonás és a kifinomultabb szövegelemzési technológiák egyértelműen előnyösek lehetnek.

Ha a gépi tanulási eszközöket megfelelően tanítják, akkor azok pontosak, és nem hagynak figyelmen kívül semmilyen adatot, így időt és pénzt takaríthat meg. Ezeket a megoldásokat API-k integrálásával beállíthatja úgy, hogy folyamatosan és automatikusan fussanak.

Egyszerűen válassza ki a cége számára legmegfelelőbb cselekvési módot.

Named Entity Recognition (NER) – koncepció, alkalmazás és API-k

Mi az a NER (névvel rendelkező entitás felismerés)?