Мазмуну[Жашыруу][Көрсөтүү]
Бизде сөздөрдү укканда же окуганда инсандарга, жерлерге, жайгашкан жерлерге, баалуулуктарга жана башкаларга таануу жана классификациялоо тубаса жөндөмүбүз бар. Адамдар сөздөрдү тез классификациялап, аныктоого жана түшүнүүгө жөндөмдүү.
Мисалы, сиз "Стив Джобс" деген ысымды укканда объектти категорияларга бөлүп, жок дегенде үч-төрт сапатты тез ойлоп таба аласыз.
- Адам: "Стив Джобс"
- Уюм: "Apple"
- Жайгашкан жери: "Калифорния"
Компьютерлерде бул тубаса жөндөм жок болгондуктан, биз аларга сөздөрдү же текстти таанууга жана аны классификациялоого жардам беришибиз керек. Бул жагдайда аталган объектти таануу (NER) колдонулат.
Бул макалада биз NERди (Аты аталган объектти таануу) майда-чүйдөсүнө чейин карап чыгабыз, анын ичинде анын мааниси, артыкчылыктары, эң мыкты NER API'лери жана башка көптөгөн нерселер.
NER (Ad Entity Recognition) деген эмне?
Табигый тилди иштетүү (NLP) ыкмасы аталган объектти таануу (NER), кээде объектти идентификациялоо же объект чыгаруу катары белгилүү, тексттеги аталган объекттерди автоматтык түрдө тааныйт жана аларды алдын ала аныкталган категорияларга топтойт.
Субъекттерге жеке адамдардын, топтордун, жерлердин, даталардын, суммалардын, доллардын суммасынын, пайыздардын жана башкалардын аттары кирет. Аты аталган объектти таануу менен, сиз аны маалымат базасы үчүн маанилүү маалыматтарды чогултуу үчүн же документтин эмне жөнүндө экенин түшүнүү үчүн маанилүү маалыматты алуу үчүн колдоно аласыз.
NER - бул NLP текстти аналитика процессинде олуттуу прогрессти билдирсе дагы, салыштырмалуу семантика жана сезим үчүн текстти талдоо үчүн AI системасы көз каранды болгон негиз.
NERдин мааниси эмнеде?
Тексттик аналитиканын негизи NER болуп саналат. ML моделине англис тилин түшүнүү үчүн алгач алдын ала категориялары бар миллиондогон үлгүлөр берилиши керек.
API биринчи жолу окуп жаткан тексттердеги бул компоненттерди таанууда убакыттын өтүшү менен жакшырат. Тексттик аналитика кыймылдаткычынын күчү NER жөндөмүнүн компетенттүүлүгү жана күчү менен жогорулайт.
Бул жерде көрүнүп тургандай, бир нече ML операциялары NER тарабынан ишке ашырылат.
Семантикалык издөө
Семантикалык издөө эми Google'да жеткиликтүү. Сиз суроо киргизсеңиз болот, ал жооп менен жооп берүүгө болгон аракетин жумшайт. Маалыматты табуу үчүн колдонуучу издеп жатат, Alexa, Siri, чатботтор жана башкалар сыяктуу санариптик жардамчылар семантикалык издөөнүн бир түрүн колдонушат.
Бул функцияны колдонсо болот, бирок аны колдонуунун саны өсүүдө жана алардын натыйжалуулугу тездик менен өсүп жатат.
берилиштер Аналитика
Бул структураланбаган маалыматтардан талдоо түзүү үчүн алгоритмдерди колдонуу үчүн жалпы сөз айкашы. Ал тиешелүү маалыматтарды табуу жана чогултуу процесси менен бул маалыматтарды көрсөтүү ыкмаларын бириктирет.
Бул жыйынтыктардын түз статистикалык түшүндүрмөсү же маалыматтардын визуалдык көрүнүшү түрүндө болушу мүмкүн. Белгилүү бир темага болгон кызыгууну жана ага катышууну талдоо YouTube көрүүлөрүндөгү маалыматты колдонуу менен, анын ичинде көрүүчүлөр белгилүү бир видеону чыкылдатканда жасалышы мүмкүн.
Продукттун жылдыз рейтингин электрондук коммерция сайттарынан алынган маалыматтардын жардамы менен талдап чыгууга болот, бул продукт канчалык деңгээлде жакшы экенине жалпы баа берүү.
Сезим анализи
Андан ары NER изилдөө, сезимдерди талдоо жылдыздардын рейтингинен маалымат жок болсо да, жакшы жана жаман сын-пикирлерди айырмалай алат.
"Ашыкча бааланган", "акылсыз" жана "акмак" сыяктуу терминдер терс мааниге ээ, ал эми "пайдалуу", "тез" жана "жеңил" сыяктуу терминдер бар экенин билет. "Оңой" деген сөздү компьютердик оюнда терс чечмелесе болот.
Татаал алгоритмдер нерселердин ортосундагы байланышты да тааный алат.
Текст Аналитика
Берилиштер аналитикасына окшоп, тексттик талдоо структураланбаган текст саптарынан маалыматты чыгарат жана маанилүү маалыматтарды нөлгө түшүрүү үчүн NER колдонот.
Бул продукттун эскерилиши, орточо баасы же кардарлардын белгилүү бир брендди сүрөттөө үчүн эң көп колдонгон терминдери боюнча маалыматтарды түзүү үчүн колдонулушу мүмкүн.
Видеонун мазмунун талдоо
Эң татаал системалар - бул бет таануу, аудио анализ жана сүрөт таануу аркылуу видео маалыматтан маалыматтарды алуу.
Видеоконтенттин анализин колдонуп, YouTube'дун "кутусунан чыгаруу" видеолорун, Twitch оюнунун демонстрацияларын, Reelsдеги аудио материалыңыздын эрин синхрондоштуруусун жана башкаларды таба аласыз.
Онлайн видеоматериалдардын көлөмү көбөйгөн сайын адамдар сиздин продуктуңузга же кызматыңызга кантип туташып жатканы тууралуу маанилүү маалыматты өткөрүп жибербөө үчүн, NER негизинде видео контентти талдоо үчүн тезирээк жана ойлоп табуучулук ыкмалары абдан маанилүү.
NERдин реалдуу дүйнөдөгү колдонмосу
Аты аталган объектти таануу (NER) тексттеги адамдардын аттары, жерлер, бренддер, акча баалуулуктары жана башкалар сыяктуу маанилүү аспектилерди аныктайт.
Тексттеги негизги объекттерди чыгаруу структураланбаган маалыматтарды сорттоого жана чоң маалымат топтомдору менен иштөөдө маанилүү болгон маанилүү маалыматты табууга жардам берет.
Бул жерде аталган объектти таануунун кээ бир кызыктуу реалдуу мисалдары келтирилген:
Кардар пикирлерин талдоо
Онлайн сын-пикирлер керектөөчүлөрдүн пикирлеринин фантастикалык булагы болуп саналат, анткени алар сизге товарларыңыздын кардарлары эмнени жактырганы жана жек көрүшү, ошондой эле компанияңыздын кайсы тармактарын өркүндөтүшү керектиги жөнүндө толук маалыматты бере алат.
Бул кардар киргизүүнүн баарын NER тутумдары аркылуу уюштурууга болот, ал ошондой эле кайталануучу маселелерди аныктай алат.
Мисалы, кардарлардын жагымсыз сын-пикирлеринде айтылган жерлерди аныктоо үчүн NERди колдонуу менен, сиз белгилүү бир кеңсе филиалына көңүл бурууну чече аласыз.
Мазмун үчүн сунуш
Сиз окуп жаткан макалага байланышкан макалалардын тизмесин Би-Би-Си жана CNN сыяктуу веб-сайттардан тапса болот.
Бул веб-сайттар NER аркылуу сиз окуп жаткан мазмундан алынган объекттер жөнүндө маалыматты сунуш кылган кошумча веб-сайттарга сунуштарды беришет.
Кардарларды колдоо кызматында билеттерди уюштуруңуз
Кардарлардан келген колдоо билеттеринин санынын көбөйүшүн башкарып жатсаңыз, кардардын суроо-талаптарына тезирээк жооп берүү үчүн аталган объектти таануу алгоритмдерин колдоно аласыз.
Акчаңызды үнөмдөө, кардарлардын бактысын жогорулатуу жана чечүү ылдамдыгын жогорулатуу үчүн кардарлардын даттанууларын жана суроо-талаптарын классификациялоо сыяктуу көп убакытты талап кылган кардарларды тейлөө жумуштарын автоматташтырыңыз.
Объекттин экстракциясы ошондой эле өнүмдөрдүн аталыштары же сериялык номерлери сыяктуу тиешелүү маалыматтарды алуу үчүн колдонулушу мүмкүн, бул маселени чечүү үчүн билеттерди туура агентке же командага багыттоону жеңилдетүү.
Издөө алгоритми
Миллиондогон маалыматы бар веб-сайттар сиздин издөөңүзгө ылайыктуу натыйжаларды кантип чыгара аларын эч качан сурадыңыз беле? Википедия сайтын карап көрөлү.
Wikipedia сиз "жумуш" деген сөз менен бардык макалаларды кайтаруунун ордуна, издөө термини тиешелүү болушу мүмкүн болгон алдын ала аныкталган объекттерди камтыган баракчаны көрсөтөт.
Ошентип, Wikipedia "кесипти" аныктаган макалага шилтемени, Jobs аттуу адамдар үчүн бөлүмдү жана кинолор сыяктуу медиа үчүн башка аймакты сунуштайт. оюндар, жана "жумуш" деген термин кездешкен көңүл ачуунун башка түрлөрү.
Ошондой эле издөө сөзүн камтыган жерлер үчүн дагы бир сегментти көрөсүз.
Резюмелерге кам көрүү
Идеалдуу талапкерди издөөдө жалдоочулар резюмелерди карап чыгууга күнүнүн олуттуу бөлүгүн өткөрүшөт. Ар бир резюме бирдей маалыматка ээ, бирок алардын бардыгы ар кандай берилген жана уюштурулган, бул структураланбаган маалыматтардын типтүү мисалы.
Талапкерлер жөнүндө эң керектүү маалымат жеке маалыматтарды (мисалы, аты-жөнү, дареги, телефон номери, туулган датасы жана электрондук почтасы) жана алардын билими жана тажрыйбасы (сертификаттары, даражасы сыяктуу) жөнүндө маалыматты камтыган, юридикалык жактын экстракторлорунун жардамы менен жалдоо топтору тарабынан тез арада алынышы мүмкүн. , компаниянын аттары, жөндөмдөрү ж.б.).
E-соода
Продукцияларды издөө алгоритмине келсек, жүздөгөн же миңдеген товарлары бар онлайн сатуучулар NERден пайда көрүшөт.
NER болбосо, "кара булгаары бут кийимдерди" издөө кара эмес булгаары менен бут кийимди камтыган жыйынтыктарды берет. Андай болсо, электрондук коммерция веб-сайттары кардарларды жоготуп алуу коркунучу бар.
IБиздин учурда, NER издөө сөзүн булгаары өтүктөр үчүн продукт түрү катары, ал эми түс катары караны категорияга бөлөт.
Best Entity Extraction API'лери
Google Cloud NLP
Буга чейин үйрөтүлгөн куралдар үчүн, Google Cloud NLP анын Natural Language API менен камсыз кылат. Же болбосо, AutoML Natural Language API текстти чыгаруунун жана талдоонун көптөгөн түрлөрүнө ылайыкташа алат, эгерде сиз куралдарыңызды тармактын терминологиясы боюнча үйрөткүңүз келсе.
API'лер Gmail, Google Sheets жана башка Google колдонмолору менен оңой иштешет, бирок аларды үчүнчү тараптын программалары менен колдонуу татаалыраак кодду талап кылышы мүмкүн.
Идеалдуу бизнес опциясы Google колдонмолорун жана Cloud Storage'ди башкарылуучу кызматтар жана API катары туташтыруу болуп саналат.
IBM Уотсон
IBM Watson – бул укмуштуудай тез аткарылуучу жана алдын ала түзүлгөн мүмкүнчүлүктөрдү, мисалы, жазылган аудио жана телефон чалууларын автоматтык түрдө талдоочу укмуштуудай программалык камсыздоону камсыз кылган көп булут платформасы.
CSV маалыматтарын колдонуу менен, Watson Natural Language Understanding терең үйрөнүү AI объекттерди же ачкыч сөздөрдү чыгаруу үчүн экстракция моделдерин түзө алат.
Жана практика менен сиз алда канча татаал моделдерди түзө аласыз. Анын бардык функциялары API аркылуу жеткиликтүү, бирок кеңири коддоо билими талап кылынат.
Бул эбегейсиз чоң маалымат топтомун изилдөөнү талап кылган жана ички техникалык ресурстарга ээ ири бизнес үчүн жакшы иштейт.
Cortical.io
Semantic Folding, неврологиянын түшүнүгүн колдонуп, Cortical.io текстти чыгарууну жана NLU чечимдерин камсыз кылат.
Бул тексттин маанисин бүтүндөй жана конкреттүү терминдер менен да көрсөткөн "семантикалык манжа издерин" түзүү үчүн жасалат. Сөз кластерлеринин ортосундагы байланыштарды көрсөтүү үчүн манжалардын семантикалык издери тексттик маалыматтарды чагылдырат.
Cortical.io'нун интерактивдүү API документтери текстти талдоо чечимдеринин ар биринин функционалдуулугун камтыйт жана Java, Python жана Javascript API'лерин колдонуу менен кирүү оңой.
Cortical.io компаниясынын Contract Intelligence куралы семантикалык издөөлөрдү жүргүзүү, сканерленген документтерди трансформациялоо жана аннотацияга жардам берүү жана жакшыртуу үчүн юридикалык талдоо үчүн атайын түзүлгөн.
Бул AI билимин талап кылбаган колдонууга жөнөкөй API'лерди издеген ишканалар үчүн идеалдуу, айрыкча юридикалык сектордо.
Monkey Learn
Бардык негизги компьютер тилдери MonkeyLearn'тин API'лери тарабынан колдоого алынат жана алынган объекттериңизди камтыган JSON файлын өндүрүү үчүн жөн гана бир нече сап кодду орнотот. Алдын ала даярдыгы бар экстракторлор жана текст аналитиктери үчүн интерфейс колдонуучуга ыңгайлуу.
Же болбосо, бир нече жөнөкөй кадам менен сиз уникалдуу экстракторду түзө аласыз. Убакытты кыскартуу жана тактыкты жакшыртуу үчүн, терең менен өнүккөн табигый тилди иштетүү (NLP). машина үйрөнүү текстти адам катары баалоого мүмкүндүк берет.
Кошумчалай кетсек, SaaS API'лери Google Sheets, Excel, Zapier, Zendesk жана башкалар сыяктуу инструменттер менен байланыштарды орнотуу үчүн көп жылдык компьютердик илимди талап кылбайт.
Учурда браузериңизде атын чыгаруучу, компанияны чыгаруучу жана жайгашкан жерди чыгаруучу бар. Өзүңдү кантип куруу керектиги жөнүндө маалымат алуу үчүн аталган объектти таануу блогунун макаласын караңыз.
Бул технология, чекене соода жана электрондук коммерция менен алектенген бардык өлчөмдөгү бизнес үчүн идеалдуу, алар текстти чыгаруунун жана текстти талдоонун ар кандай түрлөрү үчүн жөнөкөй API'лерге муктаж.
Amazon Comprehend
Amazon Comprehendдин алдын ала жасалган куралдарын дароо туташтыруу жана колдонууну жөнөкөй кылуу үчүн, алар жүздөгөн ар түрдүү тармактарда үйрөтүлгөн.
Эч кандай ички серверлер талап кылынбайт, анткени бул көзөмөлгө алынган кызмат. Айрыкча, эгер сиз учурда Amazon булутун кандайдыр бир деңгээлде колдонсоңуз, алардын API'лери мурда бар колдонмолор менен оңой интеграцияланат. Жана бир аз көбүрөөк машыгуу менен, казып алуунун тактыгын жогорулатууга болот.
Медициналык жазуулардан жана клиникалык сыноолордон маалыматтарды алуу үчүн эң ишенимдүү текстти талдоо ыкмаларынын бири Comprehend's Medical Named Entity and Relationship Extraction (NERe) болуп саналат, ал дары-дармектер, шарттар, тесттин натыйжалары жана процедуралар боюнча чоо-жайын ала алат.
Диагнозду баалоо жана тактоо үчүн пациенттин маалыматтарын салыштыруу абдан пайдалуу болушу мүмкүн. Алдын ала даярдалган куралдар менен башкарылуучу кызматты издеген ишканалар үчүн эң жакшы вариант.
Айлиен
Күчтүү машина үйрөнүү текст талдоо жеңил жетүү үчүн, AYLIEN жети популярдуу программалоо тилинде үч API плагиндерди сунуш кылат.
Алардын News API дүйнө жүзүндөгү он миңдеген жаңылык булактарынан реалдуу убакыт режиминде издөөнү жана объектти чыгарууну камсыз кылат.
Текстти талдоо жана башка бир нече тапшырмаларды документтердеги Text Analysis API аркылуу жүргүзүүгө болот, коомдук Медиа платформалар, керектөөчүлөрдүн сурамжылоолору жана башкалар.
Акыр-аягы, Текст талдоо платформасын колдонуп, сиз өзүңүздүн экстракторлоруңузду түзө аласыз жана браузериңизде түз түзө аласыз (TAP). Бул биринчи кезекте туруктуу API'лерди тез интеграциялоо керек болгон компаниялар үчүн жакшы иштейт.
SpaCy
SpaCy бул Python Natural Language Processing (NLP) пакети, ал ачык булактуу, акысыз жана көптөгөн камтылган өзгөчөлүктөргө ээ.
Бул үчүн барган сайын кеңири таралган NLP маалыматтары кайра иштетүү жана талдоо. Структураланбаган тексттик маалыматтар эбегейсиз масштабда түзүлөт, ошондуктан аны талдоо жана андан түшүнүк алуу абдан маанилүү.
Муну ишке ашыруу үчүн, сиз фактыларды компьютерлер түшүнө тургандай кылып көрсөтүшүңүз керек. Сиз муну NLP аркылуу кыла аласыз. Бул өтө тез, 30 мс гана артта калуу убактысы менен, бирок маанилүүсү, ал HTTPS баракчалары менен колдонууга арналган эмес.
Бул өзүңүздүн серверлериңизди же интранетиңизди сканерлөө үчүн жакшы вариант, анткени ал локалдык түрдө иштейт, бирок ал бүт интернетти изилдөө үчүн курал эмес.
жыйынтыктоо
Аты аталган объектти таануу (NER) бул ишканалар кардарларды колдоо суроо-талаптарында тиешелүү маалыматты белгилөө, кардарлардын пикиринде шилтеме берилген субъекттерди табуу жана байланыш маалыматтары, жайгашкан жерлер жана даталар сыяктуу маанилүү маалыматтарды тез алуу үчүн колдоно ала турган система.
Объектти таануунун эң кеңири таралган ыкмасы бул объектти экстракциялоо API'лерин колдонуу (алар ачык булактуу китепканалар же SaaS продуктулары тарабынан камсыз кылынабы).
Бирок, эң жакшы альтернативаны тандоо сиздин убактыңызга, каржыңызга жана жөндөмүңүзгө көз каранды. Бизнестин ар кандай түрү үчүн объектти казып алуу жана татаалыраак текстти талдоо технологиялары пайдалуу болушу мүмкүн.
Машина үйрөнүү куралдары туура үйрөтүлгөндө, алар так жана эч кандай маалыматты көз жаздымда калтырбайт, бул сиздин убактыңызды жана акчаңызды үнөмдөйт. API'лерди интеграциялоо менен бул чечимдерди үзгүлтүксүз жана автоматтык түрдө иштетүү үчүн конфигурациялай аласыз.
Жөн гана компанияңыз үчүн эң ылайыктуу иш-аракет курсун тандаңыз.
Таштап Жооп