Edukien aurkibidea[Ezkutatu][Erakutsi]
Hitzak pertsona, leku, kokapen, balio eta gehiago antzeman eta sailkatzeko berezko gaitasuna dugu entzuten edo irakurtzen ditugunean. Gizakiak gai dira hitzak azkar sailkatu, identifikatu eta ulertzeko.
Esate baterako, objektu bat sailkatu dezakezu eta azkar hiru edo lau ezaugarri aurki ditzakezu "Steve Jobs" izena entzuten duzunean.
- Pertsona: "Steve Jobs"
- Antolakuntza: "Apple"
- Kokapena: "Kalifornia"
Ordenagailuek berezko trebetasun hori falta dutenez, hitzak edo testuak ezagutzen eta sailkatzen lagundu behar diegu. Entitate izendunen aitorpena (NER) erabiltzen da egoera honetan.
Artikulu honetan, NER (Named Entity Recognition) zehatz-mehatz aztertuko dugu, bere garrantzia, onurak, NER API nagusiak eta askoz gehiago barne.
Zer da NER (Named Entity Recognition)?
Named Entity Recognition (NER) izenez ezagutzen den hizkuntza naturalaren prozesamenduaren (NLP) hurbilketa batek, batzuetan entitateen identifikazioa edo entitateen erauzketa gisa ezagutzen dena, automatikoki ezagutzen ditu testu batean izendatutako entitateak eta aurrez zehaztutako kategorietan multzokatzen ditu.
Entitateek pertsonen, taldeen, lekuen, datak, zenbatekoak, dolarraren zenbatekoak, ehunekoak eta abar biltzen dituzte. Izendatutako entitateen aitorpenarekin, datu-base baterako datu esanguratsuak biltzeko edo ezinbesteko informazioa ateratzeko erabil dezakezu dokumentu bat zer den ulertzeko.
NER da AI sistema baten menpe dagoen oinarria testua semantika eta sentimendu erlatiboa aztertzeko, nahiz eta NLPk aurrerapen handia suposatu testuaren analisiaren prozesuan.
Zein da NERren garrantzia?
Testu-analisiaren ikuspegiaren oinarria NER da. Hasiera batean ML eredu bati milioika lagin eman behar zaizkio aldez aurretik definitutako kategoriekin, ingelesa ulertu ahal izateko.
APIa hobetzen da denborarekin osagai hauek lehen aldiz irakurtzen ari den testuetan ezagutzen. Testu-analisi-motorren potentzia handitzen da NER gaitasunaren gaitasun eta indarrarekin.
Hemen ikusten den bezala, hainbat ML eragiketa abiarazten ditu NER-ek.
Bilaketa semantikoa
Bilaketa semantikoa eskuragarri dago orain Google-n. Galdera bat sar dezakezu, eta ahalegina egingo du erantzun batekin erantzuten. Erabiltzaile bat bilatzen ari den informazioa aurkitzeko, Alexa, Siri, chatbot-ak eta beste batzuk bezalako laguntzaile digitalak bilaketa semantiko mota bat erabiltzen dute.
Funtzio hau huts egin daiteke, baina gero eta erabilera gehiago dago eta haien eraginkortasuna azkar hazten ari da.
Datuen analisia
Hau da egiturarik gabeko datuetatik analisiak sortzeko algoritmoak erabiltzeko esaldi orokorra. Datu horiek bistaratzeko metodoak integratzen ditu datu egokiak bilatzeko eta biltzeko prozesuarekin.
Honek emaitzen azalpen estatistiko zuzen baten edo datuen irudikapen bisual baten forma har dezake. Gai jakin baten gaineko interesa eta konpromisoaren analisia YouTube-ko ikustaldietako informazioa erabiliz egin daiteke, ikusleek bideo jakin batean klik egiten dutenean barne.
Produktu baten izar balorazioak merkataritza elektronikoko guneetako datuen scraping erabiliz azter daitezke, produktuak nola egiten duen jakiteko puntuazio orokorra emateko.
Sentimenduen analisia
NER gehiago aztertuz, sentimenduen azterketa iritzi onak eta txarrak bereiz ditzakete izarren balorazioen informaziorik ez dagoen arren.
Badaki "gainbaloratua", "fiddly" eta "ergel" moduko terminoek konnotazio negatiboak dituztela, "erabilgarria", "azkar" eta "erraza" bezalako terminoek, aldiz. "Erraza" hitza negatiboki interpretatu liteke ordenagailu joko batean.
Algoritmo sofistikatuek gauzen arteko erlazioa ere ezagutu dezakete.
Testuen analitika
Datuen analisiaren antzera, testu-analisiak testu-kateetatik informazioa ateratzen du eta NER erabiltzen du datu garrantzitsuak lortzeko.
Produktu baten aipamenei, batez besteko prezioari edo bezeroek marka jakin bat deskribatzeko gehien erabiltzen dituzten terminoei buruzko datuak biltzeko erabil daiteke.
Bideo Edukien Azterketa
Sistema konplikatuenak bideo-informaziotik datuak ateratzen dituztenak dira, aurpegi-ezagutza, audio-analisia eta irudi-ezagutza erabiliz.
Bideo-edukiaren analisia erabiliz, YouTube-ren "deskargatzeko" bideoak, Twitch jokoen erakustaldiak, zure audio-materialaren sinkronizazioak Reels-en eta abar aurki ditzakezu.
Lineako bideo-materialaren bolumena hazten den heinean jendea zure produktu edo zerbitzuarekin konektatzen denari buruzko informazio garrantzitsua gal ez dadin, ezinbestekoak dira NERn oinarritutako bideo-edukiak aztertzeko teknika azkarragoak eta asmatzaileagoak.
NERren mundu errealeko aplikazioa
Named Entity Recognition-ek (NER) testu batean funtsezko alderdiak identifikatzen ditu, hala nola pertsonen izenak, kokapenak, markak, diru-balioak eta abar.
Testu bateko entitate nagusiak ateratzeak egituratu gabeko datuak ordenatzen laguntzen du eta informazio esanguratsua detektatzen laguntzen du, eta hori funtsezkoa da datu multzo handiei aurre egiteko.
Hona hemen izendun entitateen aitorpenaren mundu errealeko adibide liluragarri batzuk:
Bezeroen iritziak aztertzea
Lineako iritziak kontsumitzaileen iritzi-iturri bikainak dira, bezeroek zure ondasunei buruz zer gustatzen zaien eta gorroto dutenari buruzko informazio zehatza eman diezazuketelako, baita zure konpainiako zer arlo hobetu behar diren ere.
Bezeroen sarrera hori guztia NER sistemen bidez antola daiteke, errepikatzen diren arazoak ere identifikatu ditzaketenak.
Esate baterako, NER erabilita bezeroen iritzi txarrak askotan aipatzen diren tokiak identifikatzeko, bulegoko adar jakin batean kontzentratzea erabaki dezakezu.
Edukirako gomendioa
Irakurtzen ari zarenarekin lotuta dauden artikuluen zerrenda BBC eta CNN bezalako webguneetan aurki daiteke elementu bat irakurtzen duzunean.
Webgune hauek NER erabiliz irakurtzen ari zaren edukietatik ateratako entitateei buruzko informazioa eskaintzen duten webgune gehigarrietarako gomendioak egiten dituzte.
Antolatu Sarrerak Bezeroarentzako Arreta Zerbitzuan
Izendatutako entitateak ezagutzeko algoritmoak erabil ditzakezu bezeroen eskaerei azkarrago erantzuteko, bezeroen laguntza-txartelen kopuruaren gehikuntza kudeatzen ari bazara.
Automatizatu denbora behar duten bezeroen arretarako lanak, hala nola bezeroen kexak eta kontsultak sailkatzea, dirua aurrezteko, bezeroen zoriontasuna areagotzeko eta ebazpen-tasak areagotzeko.
Entitatearen erauzketa datu egokiak ateratzeko ere erabil daiteke, hala nola, produktuen izenak edo serie-zenbakiak, txartelak arazo hori konpontzeko agente edo talde egokira bideratzea errazteko.
Bilaketa algoritmoa
Inoiz galdetu al duzu nola milioika informazio duten webguneek zure bilaketarako egokiak diren emaitzak nola eman ditzaketen? Demagun Wikipedia webgunea.
Wikipediak orrialde bat bistaratzen du bilaketa-terminoak "lanpostuak" bilatzen dituzunean aurrez definitutako entitateak dituena, "lanpostuak" hitza duten artikulu guztiak itzuli beharrean.
Hala, Wikipediak "okupazioa" definitzen duen artikuluaren esteka eskaintzen du, Jobs izeneko pertsonen atal bat eta beste alor bat komunikabideetarako, hala nola filmak, bideo-jokoak, eta beste entretenimendu forma batzuk non "lanak" terminoa agertzen den.
Bilaketa-hitza duten kokapenetarako beste segmentu bat ere ikusiko zenuke.
Curriculumak zaintzea
Eskatzaile idealaren bila, kontratatzaileek egunaren zati handi bat curriculumak berrikusten pasatzen dute. Curriculum guztiek informazio bera dute, baina denak modu ezberdinean aurkezten eta antolatuta daude, hori da egiturarik gabeko datuen adibide tipikoa.
Hautagaiei buruzko informaziorik garrantzitsuena azkar atera daiteke entitate-erauzgailuak erabiltzen dituzten taldeak kontratatuz, datu pertsonalak barne (adibidez, izena, helbidea, telefono-zenbakia, jaiotze-data eta posta elektronikoa) eta haien hezkuntza eta esperientziari buruzko informazioa (adibidez, ziurtagiriak, titulua). , enpresen izenak, trebetasunak, etab).
E-commerce
Produktuen bilaketa-algoritmoari dagokionez, ehunka edo milaka produktu dituzten lineako merkatariek NERren onura izango lukete.
NER gabe, "larruzko bota beltzak" bilaketak beltzak ez ziren larrua eta oinetakoak barne hartzen zituzten emaitzak emango lituzke. Hala bada, merkataritza elektronikoko webguneek bezeroak galtzeko arriskua dute.
IGure kasuan, NER-k bilaketa-hitza larruzko boten produktu mota gisa sailkatuko luke eta kolore gisa beltza.
Entitateak erauzteko API onenak
Google Cloud NLP
Dagoeneko prestatutako tresnetarako, Google Cloud NLP-k bere Natural Language APIa eskaintzen du. Edo, AutoML Natural Language APIa testu-erauzketa eta analisi mota askotarako moldagarria da zure tresnak zure industriaren terminologian hezi nahi badituzu.
APIek Gmail, Google Sheets eta Google-ko beste aplikazio batzuekin erraz elkarreragiten dute, baina hirugarrenen programekin erabiltzeak kode konplexuagoa behar izan dezake.
Negozio-aukera aproposa Google aplikazioak eta Cloud Storage kudeatutako zerbitzu eta API gisa konektatzea da.
IBM Watson
IBM Watson hodei anitzeko plataforma bat da, izugarri azkar funtzionatzen duena eta aurrez eraikitako gaitasunak eskaintzen dituena, hala nola, ahots-testurako, grabatutako audioa eta telefono-deiak automatikoki azter ditzakeen software harrigarria da.
CSV datuak erabiliz, Watson Natural Language Understanding-en deep learning AI-ak erauzketa-ereduak sor ditzake entitateak edo gako-hitzak ateratzeko.
Eta praktikarekin, askoz sofistikatuagoak diren ereduak sor ditzakezu. Bere funtzionalitate guztiak APIen bidez eskura daitezke, nahiz eta kodeketa ezagutza zabala behar den.
Ondo funtzionatzen du datu multzo izugarriak aztertu eta barne baliabide teknikoak dituzten enpresa handientzat.
Kortikala.io
Semantic Folding, neurologiako nozioa erabiliz, Cortical.io-k testu-erauzketa eta NLU irtenbideak eskaintzen ditu.
Hau "hatz-marka semantikoak" sortzeko egiten da, testu baten esanahia termino osoetan zein zehatzetan adierazten dutenak. Hitz multzoen arteko erlazioak erakusteko, hatz-marka semantikoek testu-datuak irudikatzen dituzte.
Cortical.io-ren API interaktiboen dokumentazioak testu-analisi-soluzio bakoitzaren funtzionalitateak biltzen ditu, eta Java, Python eta Javascript APIak erabiliz atzitzeko erraza da.
Cortical.io-ko Contract Intelligence tresna lege-analisirako bereziki sortu zen bilaketa semantikoak egiteko, eskaneatutako dokumentuak eraldatzeko eta oharpenekin laguntzeko eta hobetzeko.
Ezin hobea da AI ezagutzarik behar ez duten erabiltzeko errazak diren APIak bilatzen dituzten enpresentzat, bereziki lege-sektorean.
Tximinoa Ikasi
Ordenagailu-lengoaia nagusi guztiak MonkeyLearn-en APIek onartzen dituzte eta kode-lerro batzuk besterik ez dituzte konfiguratu zure ateratako entitateak dituen JSON fitxategi bat sortzeko. Aurretik prestakuntza duten erauzgailu eta testu analistarentzat, interfazea erabilerraza da.
Edo, urrats sinple batzuetan, erauzgailu berezia sor dezakezu. Denbora murrizteko eta zehaztasuna hobetzeko, hizkuntza naturalaren prozesamendu aurreratua (NLP) sakonarekin makina ikaskuntza Testua pertsona batek egingo lukeen moduan ebaluatzeko aukera ematen dizu.
Gainera, SaaS APIek Google Sheets, Excel, Zapier, Zendesk eta beste hainbat tresnekin konexioak ezartzeak ez duela urteetako informatika ezagutza behar ziurtatzen dute.
Une honetan zure arakatzailean eskuragarri daude izen-erauzketa, enpresa-erauzketa eta kokapen-erauzlea. Zurea eraikitzeko moduari buruzko informazio gehiago lortzeko, ikusi izendatutako entitateak ezagutzeko blog-artikulua.
Testu-erauzketa eta testu-analisi mota ezberdinetarako API errazak behar dituzten teknologian, txikizkakoan eta merkataritza elektronikoan parte hartzen duten tamaina guztietako enpresentzat aproposa da.
Amazon Comprehend
Amazon Comprehend-en aurrez eraikitako tresnak berehala konektatzea eta erabiltzeko erraza izan dadin, ehunka arlo ezberdinetan trebatzen dira.
Ez da barneko zerbitzaririk behar, hau kontrolatutako zerbitzu bat delako. Batez ere gaur egun Amazon-en hodeia mailaren batean erabiltzen baduzu, haien APIak erraz integratzen dira lehen zeuden aplikazioekin. Eta entrenamendu apur bat gehiagorekin, erauzketa zehaztasuna areagotu daiteke.
Mediku-erregistroetatik eta saiakuntza klinikoetatik datuak lortzeko testu-analisi-teknika fidagarrienetako bat Comprehend-en Medical Named Entity and Relationship Extraction (NERe) da, botika, baldintzei, proben emaitzei eta prozedurei buruzko xehetasunak atera ditzakeena.
Pazientearen datuak alderatzean, diagnostikoa ebaluatzeko eta doitzeko, nahiko onuragarria izan daiteke. Aurrez prestatutako tresnekin kudeatutako zerbitzu bat bilatzen duten enpresentzat aukerarik onena.
Aylien
Ikaskuntza automatikoko testu-analisi sendorako sarbide erraza eskaintzeko, AYLIENek hiru API plug-in eskaintzen ditu zazpi programazio-lengoaia ezagunetan.
Beren News API-k denbora errealeko bilaketa eta entitateen erauzketa eskaintzen ditu mundu osoko milaka berri iturritatik.
Entitateak ateratzea eta beste hainbat testu-analisi-lan egin daitezke dokumentuetan Testu-Analisi APIa erabiliz, social media plataformak, kontsumitzaileentzako inkestak eta abar.
Azkenik, Testu Analisi Plataforma erabiliz, zure erauzgailuak eta gehiago zuzenean sor ditzakezu zure arakatzailean (TAP). Ondo funtzionatzen du nagusiki API finkoak azkar integratu behar dituzten enpresentzat.
SpaCy
SpaCy Python Natural Language Processing (NLP) pakete bat da, kode irekikoa, doakoa eta integratutako funtzio ugari dituena.
Gero eta ohikoagoa da NLP datuak prozesatzea eta analisia. Egituratu gabeko testu-datuak eskala izugarrian sortzen dira, beraz, funtsezkoa da haiek aztertzea eta bertatik ikuspegiak ateratzea.
Hori lortzeko, gertaerak erretratatu behar dituzu ordenagailuek ulertzeko moduan. NLP bidez egin dezakezu. Oso azkarra da, 30 ms-ko atzerapen-denbora du, baina larriki, ez da HTTPS orriekin erabiltzeko pentsatuta.
Aukera polita da zure zerbitzariak edo intranetak eskaneatzeko, lokalean funtzionatzen duelako, baina ez da internet osoa aztertzeko tresna.
Ondorioa
Entitate izendunen aitorpena (NER) enpresek bezeroarentzako laguntza-eskaeretan informazio egokia etiketatzeko erabil dezaketen sistema da, bezeroen iritzietan erreferentziatutako entitateak aurkitzeko eta datu erabakigarriak azkar ateratzeko, besteak beste, harremanetarako xehetasunak, kokapenak eta datak, besteak beste.
Entitateen aitorpena izendatzeko hurbilketa ohikoena entitateak erauzteko APIak erabiltzea da (kode irekiko liburutegiek edo SaaS produktuek eskaintzen dituzten ala ez).
Hala ere, alternatiba onena aukeratzeak zure denbora, finantzak eta trebetasun multzoan oinarrituko dira. Edozein motatako negozioetarako, entitateen erauzketa eta testu-analisiaren teknologia sofistikatuagoak onuragarriak izan daitezke.
Ikaskuntza automatikoko tresnak behar bezala irakasten direnean, zehatzak dira eta ez dute inongo daturik aintzakotzat hartzen, denbora eta dirua aurreztuz. Soluzio hauek etengabe eta automatikoki exekutatzeko konfigura ditzakezu APIak integratuz.
Besterik gabe, aukeratu zure enpresarako egokiena den ekintza.
Utzi erantzun bat