Розпізнавання іменованих об’єктів (NER) – концепція, застосування та API

У нас є вроджена здатність розпізнавати та класифікувати слова за особами, місцями, значеннями тощо, коли ми їх чуємо чи читаємо. Люди здатні класифікувати, ідентифікувати та швидко розуміти слова.

Наприклад, ви можете класифікувати об’єкт і швидко знайти принаймні три-чотири якості, коли ви почуєте ім’я «Стів Джобс».

Особа: «Стів Джобс»

Організація: «Apple»

Розташування: «Каліфорнія»

Оскільки комп’ютерам бракує цієї вродженої навички, ми повинні допомогти їм розпізнавати слова чи текст і класифікувати їх. У цій ситуації використовується розпізнавання іменованих об’єктів (NER).

У цій статті ми детально розглянемо NER (Named Entity Recognition), зокрема його важливість, переваги, найпопулярніші API NER та багато іншого.

Що таке NER (розпізнавання іменованих сутностей)?

Підхід обробки природної мови (NLP), відомий як розпізнавання іменованих сутностей (NER), іноді відомий як ідентифікація сутностей або вилучення сутностей, автоматично розпізнає іменовані сутності в тексті та групує їх у заздалегідь визначені категорії.

Сутності включають імена окремих осіб, групи, місця, дати, суми, суми в доларах, відсотки тощо. Завдяки розпізнаванню іменованих об’єктів ви можете використовувати його для збору важливих даних для бази даних або для отримання важливої інформації, щоб зрозуміти, про що йдеться в документі.

NER є наріжним каменем, від якого залежить система AI для аналізу тексту на предмет відносної семантики та почуття, навіть якщо NLP є значним прогресом у процесі аналізу тексту.

Яке значення NER?

Основою підходу текстової аналітики є NER. Спочатку модель ML має отримати мільйони зразків із заздалегідь визначеними категоріями, перш ніж вона зможе зрозуміти англійську мову.

З часом API покращує розпізнавання цих компонентів у текстах, які він читає вперше. Потужність механізму текстової аналітики зростає разом із компетенцією та потужністю можливостей NER.

Як показано тут, NER запускає кілька операцій ML.

Семантичний пошук

Семантичний пошук тепер доступний у Google. Ви можете ввести запитання, і він з усіх сил спробує відповісти відповіддю. Щоб знайти інформацію, яку шукає користувач, такі цифрові помічники, як Alexa, Siri, чат-боти та інші, використовують тип семантичного пошуку.

Цю функцію можна влучити або промахнутися, але її використання зростає, і її ефективність швидко зростає.

Analytics даних

Це загальна фраза для використання алгоритмів для створення аналізу неструктурованих даних. Він об’єднує методи відображення цих даних із процесом пошуку та збору відповідних даних.

Це може мати форму прямого статистичного пояснення результатів або візуального представлення даних. Аналіз інтересу до певної теми та зацікавленості нею можна зробити, використовуючи інформацію про перегляди YouTube, зокрема коли глядачі натискають певне відео.

Рейтинги продукту можна проаналізувати за допомогою аналізу даних із сайтів електронної комерції, щоб отримати загальну оцінку ефективності продукту.

Аналіз почуттів

Подальше вивчення NER, аналіз настроїв може відрізнити хороші від поганих відгуків навіть за відсутності інформації з рейтингів зірок.

Він усвідомлює, що такі терміни, як «переоцінений», «непоганий» і «дурний», мають негативні конотації, тоді як такі терміни, як «корисний», «швидкий» і «простий». Слово «легкий» у комп’ютерній грі можна трактувати негативно.

Складні алгоритми також можуть розпізнавати зв’язок між речами.

Аналітика тексту

Подібно до аналітики даних, аналіз тексту витягує інформацію з неструктурованих текстових рядків і використовує NER для зосередження важливих даних.

Його можна використовувати для збирання даних про згадування продукту, середню ціну або терміни, які клієнти найчастіше використовують для опису певного бренду.

Аналіз відеоконтенту

Найскладніші системи - це ті, які витягують дані з відеоінформації за допомогою розпізнавання обличчя, аналізу звуку та розпізнавання зображення.

Використовуючи аналіз вмісту відео, ви можете знайти відео «розпакування» YouTube, демонстрації ігор Twitch, синхронізацію аудіоматеріалу на Reels тощо.

Щоб уникнути втрати важливої інформації про те, як люди підключаються до вашого продукту чи послуги, оскільки обсяг онлайнового відеоматеріалу зростає, необхідні швидші та винахідливіші методи аналізу відеоконтенту на основі NER.

Реальне застосування NER

Розпізнавання іменованих об’єктів (NER) визначає важливі аспекти в тексті, такі як імена людей, місця розташування, бренди, грошові значення тощо.

Виділення основних об’єктів у тексті допомагає сортувати неструктуровані дані та виявляти важливу інформацію, що є критично важливим під час роботи з великими наборами даних.

Ось декілька захоплюючих реальних прикладів розпізнавання іменованих об’єктів:

Аналіз відгуків клієнтів

Онлайн-огляди є фантастичним джерелом відгуків споживачів, оскільки вони можуть надати вам детальну інформацію про те, що клієнти люблять і ненавидять у ваших товарах, а також про те, які сфери вашої компанії потрібно покращити.

Весь цей вхід клієнта можна організувати за допомогою систем NER, які також можуть ідентифікувати повторювані проблеми.

Наприклад, використовуючи NER для визначення місць, які часто згадуються в несприятливих відгуках клієнтів, ви можете вирішити зосередитися на певній філії офісу.

Організуйте квитки в службу підтримки клієнтів

Ви можете використовувати алгоритми розпізнавання іменованих об’єктів, щоб швидше відповідати на запити клієнтів, якщо ви керуєте збільшенням кількості звернень до служби підтримки від клієнтів.

Автоматизуйте трудомісткі роботи з обслуговування клієнтів, такі як класифікація скарг і запитів клієнтів, щоб заощадити гроші, підвищити рівень задоволеності клієнтів і збільшити рівень вирішення.

Екстракція сутностей також може використовуватися для отримання відповідних даних, таких як назви продуктів або серійні номери, щоб спростити перенаправлення квитків потрібному агенту або команді для вирішення цієї проблеми.

Алгоритм пошуку

Ви коли-небудь сумнівалися, як веб-сайти з мільйонами інформації можуть давати результати, які стосуються вашого пошуку? Розглянемо веб-сайт Wikipedia.

Вікіпедія відображає сторінку, що містить попередньо визначені сутності, до яких може бути пов’язаний пошуковий термін, коли ви шукаєте «вакансії», замість того, щоб повертати всі статті зі словом «вакансії».

Таким чином, Вікіпедія пропонує посилання на статтю, яка визначає «професію», розділ для людей на ім’я «Вакансії» та іншу область для медіа, таких як фільми, відеоігрита інші форми розваг, де вживається термін «роботи».

Ви також побачите інший сегмент для місць, які містять пошукове слово.

Догляд за резюме

У пошуках ідеального претендента рекрутери витрачають значну частину свого дня на перегляд резюме. Кожне резюме містить однакову інформацію, але всі вони представлені та організовані по-різному, що є типовим прикладом неструктурованих даних.

Найважливішу інформацію про кандидатів можна швидко отримати за допомогою команд рекрутингу за допомогою інструментів для виділення об’єктів, включаючи особисті дані (такі як ім’я, адреса, номер телефону, дата народження та електронна пошта) та інформацію про їх освіту та досвід (такі як сертифікати, ступінь , назви компаній, навички тощо).

Електронна торгівля

Що стосується алгоритму пошуку продукту, онлайн-магазини з сотнями чи тисячами товарів виграють від NER.

Без NER пошук за запитом «чорні шкіряні чоботи» дасть результати, які включатимуть як шкіру, так і взуття, які не були чорними. Якщо так, веб-сайти електронної комерції ризикують втратити клієнтів.

IУ нашому випадку NER класифікує пошукове слово як тип продукту для шкіряних черевиків і чорний як колір.

Найкращі API вилучення сутностей

Google Cloud NLP

Для вже навчених інструментів Google Cloud NLP надає API природної мови. Або API природної мови AutoML можна адаптувати для багатьох видів вилучення та аналізу тексту, якщо ви хочете навчити свої інструменти термінології вашої галузі.

Google Cloud NLP

API легко взаємодіють із Gmail, Google Sheets та іншими програмами Google, але для їх використання зі сторонніми програмами може знадобитися складніший код.

Ідеальним варіантом для бізнесу є підключення додатків Google і Cloud Storage як керованих служб і API.

IBM Watson

IBM Watson — це мультихмарна платформа, яка працює неймовірно швидко та надає такі готові можливості, як перетворення мовлення в текст, дивовижне програмне забезпечення, яке може автоматично аналізувати записані аудіо та телефонні дзвінки.

Використовуючи дані CSV, ШІ глибокого навчання Watson Natural Language Understanding може створювати моделі вилучення для вилучення об’єктів або ключових слів.

IBM Watson

І, попрактикувавшись, ви можете створювати набагато складніші моделі. Усі його функціональні можливості доступні через API, хоча потрібні великі знання кодування.

Це добре працює для великих компаній, яким потрібно вивчати величезні набори даних і мати внутрішні технічні ресурси.

Cortical.io

Використовуючи семантичне згортання, поняття з неврології, Cortical.io забезпечує вилучення тексту та рішення NLU.

Це робиться для створення «семантичних відбитків», які вказують як на значення тексту в цілому, так і на окремі терміни. Щоб продемонструвати зв’язки між кластерами слів, семантичні відбитки зображують текстові дані.

Інтерактивна документація щодо API Cortical.io охоплює функціональні можливості кожного з рішень аналізу тексту, і до неї легко отримати доступ за допомогою API Java, Python і Javascript.

Cortical.io

Інструмент Contract Intelligence від Cortical.io був створений спеціально для юридичного аналізу, щоб здійснювати семантичний пошук, трансформувати відскановані документи, а також допомагати та вдосконалювати анотації.

Він ідеально підходить для компаній, які шукають прості у використанні API, які не потребують знань ШІ, особливо в юридичному секторі.

Мавпа вчиться

Усі основні комп’ютерні мови підтримуються API MonkeyLearn і налаштовують лише кілька рядків коду для створення файлу JSON, який містить ваші витягнуті об’єкти. Для екстракторів і аналітиків тексту з попередньою підготовкою інтерфейс зручний.

Або за кілька простих кроків ви можете створити унікальний екстрактор. Щоб скоротити час і підвищити точність, вдосконалена обробка природної мови (NLP) з глибоким навчання за допомогою машини дозволяє оцінити текст так, як це зробить людина.

Мавпа вчиться

Крім того, API SaaS гарантують, що для встановлення з’єднань із такими інструментами, як Google Sheets, Excel, Zapier, Zendesk та іншими, не потрібні роки знань з інформатики.

Наразі у вашому браузері доступні інструменти вилучення назви, витягання компанії та витягування розташування. Щоб отримати інформацію про те, як створити власний, перегляньте статтю блогу про розпізнавання іменованих сутностей.

Він ідеально підходить для підприємств будь-якого розміру, пов’язаних із технологіями, роздрібною торгівлею та електронною комерцією, яким потрібні прості у реалізації API для різних типів вилучення та аналізу тексту.

«Амазонка»

Щоб спростити підключення та миттєве використання попередньо створених інструментів Amazon Comprehend, вони навчаються сотням різних галузей.

Внутрішні сервери не потрібні, оскільки це контрольована служба. Зокрема, якщо ви зараз використовуєте хмару Amazon на певному рівні, їхні API легко інтегруються з уже існуючими програмами. І лише трохи тренувавшись, точність вилучення можна підвищити.

«Амазонка»

Одним із найнадійніших методів аналізу тексту для отримання даних із медичних записів і клінічних випробувань є вилучення медичних іменованих сутностей і зв’язків (NERe) компанії Comprehend, за допомогою якого можна отримувати деталі про ліки, умови, результати тестів і процедури.

Порівняння даних пацієнтів для оцінки та точного налаштування діагнозу може бути дуже корисним. Найкращий варіант для підприємств, яким потрібна керована послуга з попередньо навченими інструментами.

Айлієн

Щоб забезпечити легкий доступ до надійного аналізу тексту машинного навчання, AYLIEN пропонує три плагіни API на семи популярних мовах програмування.

Їх API новин забезпечує пошук у реальному часі та вилучення об’єктів із десятків тисяч джерел новин з усього світу.

Айлієн

Вилучення сутностей і кілька інших завдань аналізу тексту можна виконувати за допомогою API аналізу тексту на документах, соціальні медіа платформи, опитування споживачів тощо.

Нарешті, за допомогою платформи аналізу тексту ви можете створювати власні екстрактори та багато іншого прямо у своєму браузері (TAP). Це добре працює для компаній, яким потрібно швидко інтегрувати переважно фіксовані API.

SpaCy

SpaCy — це пакет Python Natural Language Processing (NLP) із відкритим кодом, безкоштовний і має масу вбудованих функцій.

Це стає все більш поширеним для Дані НЛП обробка та аналіз. Неструктуровані текстові дані створюються у величезних масштабах, тому вкрай важливо аналізувати їх і витягувати з них ідеї.

SpaCy

Щоб досягти цього, ви повинні зобразити факти так, щоб їх могли зрозуміти комп’ютери. Це можна зробити через НЛП. Він надзвичайно швидкий, із часом затримки лише 30 мс, але, що важливо, він не призначений для використання зі сторінками HTTPS.

Це хороший варіант для сканування ваших власних серверів або внутрішньої мережі, оскільки він працює локально, але це не інструмент для вивчення всього Інтернету.

Висновок

Розпізнавання іменованих об’єктів (NER) – це система, яку компанії можуть використовувати для позначення відповідної інформації в запитах на підтримку клієнтів, пошуку об’єктів, на які посилаються у відгуках клієнтів, і швидкого вилучення важливих даних, як-от контактні дані, місцезнаходження та дати, серед іншого.

Найпоширенішим підходом до розпізнавання іменованих сутностей є використання API вилучення сутностей (незалежно від того, надаються вони бібліотеками з відкритим кодом або продуктами SaaS).

Однак вибір найкращої альтернативи залежатиме від вашого часу, фінансів і навичок. Для будь-якого виду бізнесу вилучення сутностей і більш складні технології аналізу тексту можуть бути однозначно корисними.

Якщо інструменти машинного навчання правильно навчаються, вони точні й не пропускають жодних даних, заощаджуючи ваш час і гроші. Ви можете налаштувати ці рішення на безперервну й автоматичну роботу, інтегрувавши API.

Просто виберіть курс дій, який найкраще підходить для вашої компанії.

Розпізнавання іменованих об’єктів (NER) – концепція, застосування та API

Що таке NER (розпізнавання іменованих сутностей)?