Змест[Схаваць][Паказаць]
У нас ёсць прыроджаная здольнасць распазнаваць і класіфікаваць словы па асобах, месцах, месцах, значэннях і шмат іншага, калі мы іх чуем або чытаем. Людзі здольныя хутка класіфікаваць, ідэнтыфікаваць і разумець словы.
Напрыклад, вы можаце класіфікаваць аб'ект і хутка прыдумаць як мінімум тры-чатыры якасці, калі пачуеце імя "Стыў Джобс",
- Асоба: «Стыў Джобс»
- Арганізацыя: «Яблык»
- Размяшчэнне: «Каліфорнія»
Паколькі камп'ютэрам не хапае гэтага прыроджанага навыку, мы павінны дапамагчы ім распазнаваць словы або тэкст і класіфікаваць іх. У гэтай сітуацыі выкарыстоўваецца распазнаванне названых аб'ектаў (NER).
У гэтым артыкуле мы падрабязна разгледзім NER (распазнаванне названых аб'ектаў), у тым ліку яго важнасць, перавагі, лепшыя NER API і многае іншае.
Што такое NER (распазнаванне названых аб'ектаў)?
Падыход апрацоўкі натуральнай мовы (NLP), вядомы як распазнаванне названых аб'ектаў (NER), часам вядомы як ідэнтыфікацыя аб'ектаў або выманне аб'ектаў, аўтаматычна распазнае названыя аб'екты ў тэксце і групуе іх у загадзя вызначаныя катэгорыі.
Суб'екты ўключаюць імёны асоб, групы, месцы, даты, сумы, сумы ў доларах, працэнты і многае іншае. З распазнаваннем найменных аб'ектаў вы можаце альбо выкарыстоўваць яго для збору значных даных для базы дадзеных, альбо для здабывання важнай інфармацыі, каб зразумець, пра што дакумент.
NER з'яўляецца краевугольным каменем, ад якога залежыць сістэма штучнага інтэлекту для аналізу тэксту на прадмет адноснай семантыкі і пачуццяў, нават калі NLP уяўляе сабой значны прагрэс у працэсе аналізу тэксту.
Якое значэнне NER?
Асновай падыходу тэкставай аналітыкі з'яўляецца NER. Першапачаткова мадэль ML павінна атрымаць мільёны ўзораў з загадзя вызначанымі катэгорыямі, перш чым яна зможа разумець англійскую мову.
API з часам паляпшаецца ў распазнаванні гэтых кампанентаў у тэкстах, якія ён чытае ўпершыню. Магутнасць рухавіка тэкставай аналітыкі павялічваецца разам з кампетэнтнасцю і сілай магчымасці NER.
Як відаць, некалькі аперацый ML запускаюцца NER.
Семантычны пошук
Семантычны пошук цяпер даступны ў Google. Вы можаце ўвесці пытанне, і ён паспрабуе з усіх сіл адказаць адказам. Каб знайсці інфармацыю, якую шукае карыстальнік, такія лічбавыя памочнікі, як Alexa, Siri, чат-боты і іншыя, выкарыстоўваюць тып семантычнага пошуку.
Гэтую функцыю можна трапіць або прамахнуцца, але яе выкарыстанне становіцца ўсё больш, і яе эфектыўнасць хутка расце.
Аналітыка дадзеных
Гэта агульная фраза для выкарыстання алгарытмаў для стварэння аналізу з неструктураваных даных. Ён аб'ядноўвае метады адлюстравання гэтых даных з працэсам пошуку і збору адпаведных даных.
Гэта можа мець форму простага статыстычнага тлумачэння вынікаў або візуальнага прадстаўлення даных. Аналіз цікавасці і ўзаемадзеяння з пэўнай тэмай можа быць зроблены з выкарыстаннем інфармацыі з праглядаў на YouTube, у тым ліку калі гледачы націскаюць на пэўнае відэа.
Колькасць зорак прадукту можна прааналізаваць з дапамогай збору даных з сайтаў электроннай камерцыі, каб атрымаць агульную ацэнку таго, наколькі добра працуе прадукт.
Аналіз пачуццяў
Далейшае вывучэнне NER, аналіз настрояў можа адрозніваць добрыя і дрэнныя водгукі нават пры адсутнасці інфармацыі з зорных рэйтынгаў.
Яно ўсведамляе, што такія тэрміны, як «пераацэнены», «непрыстойны» і «дурны», маюць негатыўныя канатацыі, у той час як такія тэрміны, як «карысны», «хуткі» і «лёгкі». У камп’ютарнай гульні слова “лёгкі” можа трактавацца негатыўна.
Складаныя алгарытмы таксама могуць распазнаваць сувязь паміж рэчамі.
Тэкстычная аналітыка
Падобна аналітыцы даных, аналіз тэксту здабывае інфармацыю з неструктураваных тэкставых радкоў і выкарыстоўвае NER для канцэнтрацыі важных даных.
Ён можа быць выкарыстаны для збору дадзеных аб згадках прадукту, сярэдняй цане або тэрмінах, якія кліенты часцей за ўсё выкарыстоўваюць для апісання пэўнага брэнда.
Аналіз відэакантэнту
Найбольш складаныя сістэмы - гэта тыя, якія здабываюць дадзеныя з відэаінфармацыі з дапамогай распазнання твараў, аналізу гуку і распазнання малюнкаў.
Выкарыстоўваючы аналіз кантэнту відэа, вы можаце знайсці відэа "распакоўкі" YouTube, дэманстрацыі гульняў Twitch, сінхранізацыю вуснаў вашага аўдыяматэрыялу на Reels і многае іншае.
Каб пазбегнуць страты важнай інфармацыі аб тым, як людзі падключаюцца да вашага прадукту або паслугі па меры павелічэння аб'ёму онлайн-відэаматэрыялаў, важныя больш хуткія і вынаходлівыя метады аналізу відэакантэнту на аснове NER.
Рэальнае прымяненне NER
Распазнаванне названых аб'ектаў (NER) вызначае істотныя аспекты ў тэксце, такія як імёны людзей, месцы, брэнды, грашовыя каштоўнасці і многае іншае.
Выманне асноўных аб'ектаў у тэксце дапамагае сартаваць неструктураваныя даныя і выяўляць важную інфармацыю, што вельмі важна пры працы з вялікімі наборамі даных.
Вось некалькі цікавых рэальных прыкладаў распазнання названых аб'ектаў:
Аналіз водгукаў кліентаў
Інтэрнэт-агляды з'яўляюцца фантастычнай крыніцай водгукаў спажыўцоў, паколькі яны могуць даць вам падрабязную інфармацыю аб тым, што кліентам падабаецца і ненавідзяць аб вашых таварах, а таксама аб тым, якія вобласці вашай кампаніі трэба палепшыць.
Увесь гэты ўвод кліента можа быць арганізаваны з дапамогай сістэм NER, якія таксама могуць ідэнтыфікаваць праблемы, якія паўтараюцца.
Напрыклад, выкарыстоўваючы NER для вызначэння месцаў, якія часта згадваюцца ў неспрыяльных водгуках кліентаў, вы можаце вырашыць засяродзіцца на пэўным аддзяленні офіса.
Рэкамендацыя па змесце
Спіс артыкулаў, звязаных з тым, што вы чытаеце, можна знайсці на такіх вэб-сайтах, як BBC і CNN, калі вы чытаеце там артыкул.
Гэтыя вэб-сайты даюць рэкамендацыі для дадатковых вэб-сайтаў, якія прапануюць інфармацыю аб аб'ектах, якія яны вынялі з кантэнту, які вы чытаеце з дапамогай NER.
Арганізуйце білеты ў падтрымцы кліентаў
Вы можаце выкарыстоўваць алгарытмы распазнавання найменных аб'ектаў, каб хутчэй адказваць на запыты кліентаў, калі вы кіруеце павелічэннем колькасці зваротаў у службу падтрымкі ад кліентаў.
Аўтаматызуйце працаёмкія работы па абслугоўванні кліентаў, такія як класіфікацыя скаргаў і запытаў кліентаў, каб зэканоміць грошы, павялічыць задавальненне кліентаў і павысіць частату вырашэння праблем.
Выманне аб'ектаў таксама можа быць выкарыстана для здабывання адпаведных даных, такіх як назвы прадуктаў або серыйныя нумары, каб было прасцей накіраваць білеты патрэбнаму агенту або камандзе для вырашэння гэтай праблемы.
Алгарытм пошуку
Вы калі-небудзь сумняваліся, як вэб-сайты з мільёнамі звестак могуць даваць вынікі, якія адпавядаюць вашаму пошуку? Разгледзім сайт Wikipedia.
Вікіпедыя паказвае старонку, якая змяшчае загадзя вызначаныя аб'екты, да якіх можа адносіцца пошукавы тэрмін, калі вы шукаеце «вакансіі», замест таго, каб вяртаць усе артыкулы са словам «вакансіі».
Такім чынам, Вікіпедыя прапануе спасылку на артыкул, які вызначае «прафесію», раздзел для людзей з імем Джобс і іншую вобласць для СМІ, такіх як фільмы, відэагульні, і іншыя віды забавы, у якіх сустракаецца тэрмін "праца".
Вы таксама ўбачыце іншы сегмент для месцаў, якія змяшчаюць пошукавае слова.
Сыход за рэзюмэ
У пошуках ідэальнага прэтэндэнта рэкрутэры праводзяць значную частку свайго дня, разглядаючы рэзюмэ. Кожнае рэзюмэ змяшчае аднолькавую інфармацыю, але ўсе яны прадстаўлены і арганізаваны па-рознаму, што з'яўляецца тыповым прыкладам неструктураваных даных.
Самая актуальная інфармацыя аб кандыдатах можа быць хутка атрымана з дапамогай вярбоўшчыкаў з дапамогай экстрактараў аб'ектаў, уключаючы асабістыя даныя (напрыклад, імя, адрас, нумар тэлефона, дату нараджэння і адрас электроннай пошты) і інфармацыю аб іх адукацыі і вопыце (напрыклад, сертыфікаты, ступень , назвы кампаній, навыкі і г.д.).
электронная камерцыя
Што тычыцца іх алгарытму пошуку прадукту, інтэрнэт-крамы з сотнямі ці тысячамі тавараў выйграюць ад NER.
Без NER пошук па слову «чорныя скураныя боты» даваў бы вынікі, якія ўключалі як скуру, так і абутак, якія не былі чорнымі. У такім выпадку вэб-сайты электроннай камерцыі рызыкуюць страціць кліентаў.
IУ нашым выпадку NER класіфікуе пошукавае слова як тып прадукту для скураных ботаў і чорны як колер.
Лепшыя API для здабывання аб'ектаў
Google Cloud NLP
Для ўжо падрыхтаваных інструментаў Google Cloud NLP прадастаўляе API натуральнай мовы. Або AutoML Natural Language API можна адаптаваць для многіх відаў вылучэння і аналізу тэксту, калі вы хочаце навучыць свае інструменты тэрміналогіі вашай галіны.
API лёгка ўзаемадзейнічаюць з Gmail, Google Sheets і іншымі праграмамі Google, але для іх выкарыстання са староннімі праграмамі можа спатрэбіцца больш складаны код.
Ідэальны варыянт для бізнесу - злучыць прыкладанні Google і Cloud Storage як кіраваныя сэрвісы і API.
IBM Watson
IBM Watson - гэта шматвоблачная платформа, якая працуе неверагодна хутка і забяспечвае загадзя створаныя магчымасці, такія як пераўтварэнне маўлення ў тэкст, якое з'яўляецца дзіўным праграмным забеспячэннем, якое можа аўтаматычна аналізаваць запісаныя аўдыё і тэлефонныя званкі.
Выкарыстоўваючы даныя CSV, штучны інтэлект глыбокага навучання Watson Natural Language Understanding можа ствараць мадэлі экстракцыі для здабывання аб'ектаў або ключавых слоў.
І з практыкай вы можаце ствараць значна больш складаныя мадэлі. Усе яго функцыянальныя магчымасці даступныя праз API, хоць неабходныя шырокія веды кадавання.
Гэта добра працуе для буйных прадпрыемстваў, якія патрабуюць вывучэння велізарных набораў даных і маюць унутраныя тэхнічныя рэсурсы.
Cortical.io
Выкарыстоўваючы Semantic Folding, паняцце з неўралогіі, Cortical.io забяспечвае выманне тэксту і рашэнні NLU.
Гэта робіцца для стварэння «семантычных адбіткаў пальцаў», якія паказваюць як сэнс тэксту ў цэлым, так і асобныя тэрміны. Каб прадэманстраваць адносіны паміж кластарамі слоў, семантычныя адбіткі адлюстроўваюць тэкставыя дадзеныя.
Інтэрактыўная дакументацыя па API Cortical.io ахоплівае функцыянальнасць кожнага з рашэнняў для аналізу тэксту, і да яе просты доступ з дапамогай API Java, Python і Javascript.
Інструмент Contract Intelligence ад Cortical.io быў створаны спецыяльна для прававога аналізу для правядзення семантычнага пошуку, трансфармацыі адсканаваных дакументаў, а таксама дапамогі і паляпшэння з дапамогай анатацый.
Ён ідэальна падыходзіць для кампаній, якія шукаюць простыя ў выкарыстанні API, якім не патрэбныя веды штучнага інтэлекту, асабліва ў юрыдычным сектары.
Малпа вучыцца
Усе асноўныя камп'ютэрныя мовы падтрымліваюцца API-інтэрфейсамі MonkeyLearn і наладжваюць толькі некалькі радкоў кода для стварэння файла JSON, які змяшчае вынятыя аб'екты. Для экстрактараў і тэкставых аналітыкаў з папярэдняй падрыхтоўкай інтэрфейс зручны.
Або ўсяго за некалькі простых крокаў вы можаце стварыць унікальны экстрактар. Каб скараціць час і павысіць дакладнасць, пашыраная апрацоўка натуральнай мовы (NLP) з глыбокай навучанне з дапамогай машыны дазваляе ацэньваць тэкст як чалавек.
Акрамя таго, SaaS API гарантуюць, што наладжванне злучэнняў з такімі інструментамі, як Google Sheets, Excel, Zapier, Zendesk і іншымі, не патрабуе гадоў ведаў у галіне інфарматыкі.
У цяперашні час у вашым браўзеры даступны экстрактар імёнаў, экстракт кампаніі і экстракт месцазнаходжання. Для атрымання інфармацыі аб тым, як стварыць свой уласны, глядзіце артыкул у блогу аб распазнаванні найменных аб'ектаў.
Ён ідэальна падыходзіць для прадпрыемстваў любога памеру, звязаных з тэхналогіямі, рознічным гандлем і электроннай камерцыяй, якім патрэбныя простыя ў рэалізацыі API для розных тыпаў вымання тэксту і аналізу тэксту.
Амазонка
Каб палегчыць падключэнне і неадкладнае выкарыстанне ўбудаваных інструментаў Amazon Comprehend, яны навучаюцца сотням розных абласцей.
Унутраныя серверы не патрабуюцца, таму што гэта паслуга, якая кантралюецца. У прыватнасці, калі вы зараз выкарыстоўваеце воблака Amazon на пэўным узроўні, іх API лёгка інтэгруюцца з раней існуючымі праграмамі. І толькі з крыху большай падрыхтоўкай можна павысіць дакладнасць здабычы.
Адным з найбольш надзейных метадаў аналізу тэксту для атрымання даных з медыцынскіх запісаў і клінічных выпрабаванняў з'яўляецца метад вылучэння медыцынскай іменнай сутнасці і адносін (NERe) кампаніі Comprehend, які можа атрымаць падрабязную інфармацыю аб леках, станах, выніках аналізаў і працэдурах.
Параўнанне дадзеных пацыентаў для ацэнкі і дакладнай налады дыягназу можа быць вельмі карысным. Лепшы варыянт для прадпрыемстваў, якія шукаюць кіраваны сэрвіс з папярэдне падрыхтаванымі інструментамі.
Айліен
Каб забяспечыць лёгкі доступ да надзейнага аналізу тэксту машыннага навучання, AYLIEN прапануе тры плагіны API на сямі папулярных мовах праграмавання.
Іх API навін забяспечвае пошук у рэжыме рэальнага часу і выманне аб'ектаў з дзясяткаў тысяч крыніц навін з усяго свету.
Выманне аб'ектаў і некаторыя іншыя задачы аналізу тэксту можна выканаць з дапамогай API аналізу тэксту на дакументах, сацыяльныя медыя платформы, апытанні спажыўцоў і многае іншае.
Нарэшце, выкарыстоўваючы платформу аналізу тэксту, вы можаце ствараць уласныя экстрактары і многае іншае непасрэдна ў вашым браўзеры (TAP). Гэта добра працуе для кампаній, якім неабходна хутка інтэграваць галоўным чынам фіксаваныя API.
SpaCy
SpaCy - гэта пакет Python Natural Language Processing (NLP) з адкрытым зыходным кодам, бясплатны і мае масу ўбудаваных функцый.
Гэта становіцца ўсё больш распаўсюджаным для Дадзеныя НЛП апрацоўка і аналіз. Неструктураваныя тэкставыя дадзеныя ствараюцца ў велізарных маштабах, таму вельмі важна іх аналізаваць і здабываць з іх разуменне.
Каб дасягнуць гэтага, вы павінны адлюстраваць факты такім чынам, каб іх маглі зразумець кампутары. Вы можаце зрабіць гэта праз НЛП. Гэта вельмі хутка, з часам затрымкі ўсяго 30 мс, але важна тое, што ён не прызначаны для выкарыстання са старонкамі HTTPS.
Гэта добры варыянт для сканавання вашых уласных сервераў або інтрасеткі, таму што ён працуе лакальна, але гэта не інструмент для вывучэння ўсяго Інтэрнэту.
заключэнне
Распазнаванне названых аб'ектаў (NER) - гэта сістэма, якую прадпрыемствы могуць выкарыстоўваць для пазначэння адпаведнай інфармацыі ў запытах службы падтрымкі кліентаў, пошуку аб'ектаў, на якія спасылаюцца кліенты ў водгуках, і хуткага здабывання важных даных, такіх як кантактныя дадзеныя, месцазнаходжанне і даты, сярод іншага.
Самы распаўсюджаны падыход да распазнання названых аб'ектаў - гэта выкарыстанне API для здабывання аб'ектаў (незалежна ад таго, прадастаўляюцца яны бібліятэкамі з адкрытым зыходным кодам або прадуктамі SaaS).
Аднак выбар лепшай альтэрнатывы будзе залежаць ад вашага часу, фінансаў і набору навыкаў. Для любога віду бізнесу выманне сутнасці і больш дасканалыя тэхналогіі аналізу тэксту могуць быць відавочна карыснымі.
Калі інструменты машыннага навучання правільна навучаны, яны дакладныя і не выпускаюць з-пад увагі ніякіх даных, што дазваляе зэканоміць ваш час і грошы. Вы можаце наладзіць гэтыя рашэнні для бесперапыннай і аўтаматычнай працы шляхам інтэграцыі API.
Проста выберыце курс дзеянняў, які лепш за ўсё падыходзіць для вашай кампаніі.
Пакінуць каментар