شناسایی نهاد نامگذاری شده (NER) - مفهوم، برنامه و APIها

ما این توانایی ذاتی را داریم که هر زمان که کلمات را می شنویم یا می خوانیم، آنها را به افراد، مکان ها، مکان ها، ارزش ها و موارد دیگر تشخیص دهیم و دسته بندی کنیم. انسان قادر است کلمات را به سرعت دسته بندی، شناسایی و درک کند.

به عنوان مثال، شما می توانید یک شی را دسته بندی کنید و با شنیدن نام "استیو جابز" به سرعت به حداقل سه تا چهار ویژگی برسید.

شخص: "استیو جابز"

سازمان: "اپل"

مکان: "کالیفرنیا"

از آنجایی که کامپیوترها فاقد این مهارت ذاتی هستند، باید به آنها در تشخیص کلمات یا متن و طبقه بندی آن کمک کنیم. در این شرایط از شناسایی نهاد نامگذاری شده (NER) استفاده می شود.

در این مقاله، NER (تشخیص نهاد نامگذاری شده) را به طور مفصل بررسی خواهیم کرد، از جمله اهمیت، مزایا، API های برتر NER و موارد دیگر.

NER (تشخیص نهاد نامگذاری شده) چیست؟

یک رویکرد پردازش زبان طبیعی (NLP) که به عنوان شناسایی موجودیت نام‌گذاری شده (NER) شناخته می‌شود، که گاهی اوقات به عنوان شناسایی موجودیت یا استخراج موجودیت شناخته می‌شود، به طور خودکار موجودیت‌های نام‌گذاری شده را در یک متن شناسایی می‌کند و آنها را در دسته‌های از پیش تعیین‌شده گروه‌بندی می‌کند.

موجودیت ها شامل نام افراد، گروه ها، مکان ها، تاریخ ها، مبالغ، مبالغ دلاری، درصدها و موارد دیگر است. با شناسایی موجودیت نام‌گذاری شده، می‌توانید از آن برای جمع‌آوری داده‌های مهم برای پایگاه داده یا استخراج اطلاعات حیاتی برای درک اینکه یک سند در مورد چیست استفاده کنید.

NER سنگ بنای است که یک سیستم هوش مصنوعی برای تجزیه و تحلیل متن از نظر معنایی و احساسات نسبی به آن وابسته است، حتی اگر NLP نشان دهنده پیشرفت قابل توجهی در فرآیند تجزیه و تحلیل متن باشد.

اهمیت NER چیست؟

اساس رویکرد تحلیل متن NER است. یک مدل ML در ابتدا باید میلیون ها نمونه با دسته بندی های از پیش تعریف شده داده شود تا بتواند انگلیسی را بفهمد.

API با گذشت زمان در تشخیص این مؤلفه ها در متونی که برای اولین بار می خواند بهبود می یابد. قدرت موتور تجزیه و تحلیل متن با صلاحیت و قدرت قابلیت NER افزایش می یابد.

همانطور که در اینجا مشاهده می شود، چندین عملیات ML توسط NER راه اندازی می شوند.

جستجوی معنایی

جستجوی معنایی اکنون در گوگل در دسترس است. شما می توانید یک سوال را وارد کنید، و تمام تلاش خود را می کند تا با پاسخ پاسخ دهید. برای یافتن اطلاعاتی که کاربر به دنبال آن است، دستیارهای دیجیتالی مانند الکسا، سیری، ربات‌های گفتگو و دیگران از نوعی جستجوی معنایی استفاده می‌کنند.

این عملکرد می تواند مورد ضربه یا از دست دادن قرار گیرد، اما تعداد استفاده های فزاینده ای از آن وجود دارد و کارایی آنها به سرعت در حال افزایش است.

تجزیه و تحلیل داده ها

این یک عبارت کلی برای استفاده از الگوریتم ها برای ایجاد تحلیل از داده های بدون ساختار است. روش های نمایش این داده ها را با فرآیند یافتن و جمع آوری داده های مربوطه ادغام می کند.

این ممکن است به شکل یک توضیح آماری ساده از نتایج یا نمایش تصویری داده ها باشد. تجزیه و تحلیل علاقه و تعامل با یک موضوع خاص را می توان با استفاده از اطلاعات بازدیدهای YouTube انجام داد، از جمله زمانی که بینندگان روی یک ویدیوی خاص کلیک می کنند.

رتبه‌بندی ستاره‌های یک محصول را می‌توان با استفاده از جمع‌آوری داده‌ها از سایت‌های تجارت الکترونیک تجزیه و تحلیل کرد تا امتیاز کلی از عملکرد محصول ارائه شود.

تجزیه و تحلیل احساسات

کاوش بیشتر NER، تجزیه و تحلیل احساسات می تواند بین نظرات خوب و بد حتی در صورت عدم وجود اطلاعات از رتبه بندی ستاره ها تمایز قائل شود.

آگاه است که عباراتی مانند "بیش از حد"، "بیهوده" و "احمق" دارای معانی منفی هستند، در حالی که عباراتی مانند "مفید"، "سریع" و "آسان" دارای مفاهیم منفی هستند. کلمه "آسان" را می توان در یک بازی رایانه ای منفی تفسیر کرد.

الگوریتم های پیچیده همچنین می توانند رابطه بین چیزها را تشخیص دهند.

تجزیه و تحلیل متن

مشابه تجزیه و تحلیل داده ها، تجزیه و تحلیل متن اطلاعات را از رشته های متنی بدون ساختار استخراج می کند و از NER برای به صفر رساندن داده های مهم استفاده می کند.

می‌توان از آن برای جمع‌آوری داده‌ها در مورد اشاره‌های یک محصول، میانگین قیمت، یا اصطلاحاتی که مشتریان اغلب برای توصیف یک برند خاص استفاده می‌کنند، استفاده کرد.

تجزیه و تحلیل محتوای ویدیویی

پیچیده ترین سیستم هایی هستند که داده ها را از اطلاعات ویدئویی با استفاده از تشخیص چهره، تجزیه و تحلیل صدا و تشخیص تصویر استخراج می کنند.

با استفاده از تجزیه و تحلیل محتوای ویدیویی، می‌توانید ویدیوهای «جعبه‌گشایی» یوتیوب، نمایش‌های بازی Twitch، همگام‌سازی لب مواد صوتی خود را در Reels و موارد دیگر پیدا کنید.

برای جلوگیری از از دست دادن اطلاعات مهم در مورد نحوه اتصال افراد به محصول یا خدمات شما با افزایش حجم محتوای ویدیویی آنلاین، تکنیک‌های سریع‌تر و ابداعی‌تر برای تجزیه و تحلیل محتوای ویدیویی مبتنی بر NER ضروری است.

کاربرد دنیای واقعی NER

شناسایی موجودیت نام‌گذاری شده (NER) جنبه‌های اساسی یک متن مانند نام افراد، مکان‌ها، مارک‌ها، ارزش‌های پولی و موارد دیگر را شناسایی می‌کند.

استخراج موجودیت‌های اصلی در یک متن به مرتب‌سازی داده‌های بدون ساختار و شناسایی اطلاعات مهم کمک می‌کند، که در برخورد با مجموعه‌های داده بزرگ بسیار مهم است.

در اینجا چند نمونه شگفت انگیز در دنیای واقعی از شناسایی موجودیت نامگذاری شده آورده شده است:

تجزیه و تحلیل بازخورد مشتریان

بررسی‌های آنلاین منبع فوق‌العاده‌ای برای بازخورد مصرف‌کننده هستند، زیرا می‌توانند اطلاعات دقیقی در مورد آنچه که مشتریان در مورد کالاهای شما دوست دارند و از آنها متنفرند و همچنین اینکه چه حوزه‌هایی از شرکت شما نیاز به بهبود دارند را در اختیار شما قرار می‌دهند.

همه این ورودی های مشتری را می توان با استفاده از سیستم های NER سازماندهی کرد، که همچنین می تواند مشکلات تکرار شونده را شناسایی کند.

به عنوان مثال، با استفاده از NER برای شناسایی مکان‌هایی که اغلب در بررسی‌های نامطلوب مشتریان ذکر شده‌اند، می‌توانید تصمیم بگیرید که روی یک شعبه اداری خاص تمرکز کنید.

توصیه برای محتوا

وقتی مطلبی را در آنجا می خوانید، فهرستی از مقالات مرتبط با مقاله ای را که می خوانید، می توانید در وب سایت هایی مانند BBC و CNN پیدا کنید.

این وب‌سایت‌ها توصیه‌هایی برای وب‌سایت‌های اضافی ارائه می‌کنند که اطلاعاتی را در مورد موجودیت‌هایی که از محتوایی که با استفاده از NER می‌خوانید استخراج کرده‌اند ارائه می‌دهند.

بلیط ها را در پشتیبانی مشتری سازماندهی کنید

اگر در حال مدیریت افزایش تعداد بلیط‌های پشتیبانی از مشتریان هستید، می‌توانید از الگوریتم‌های تشخیص نهاد نام‌گذاری شده برای پاسخ سریع‌تر به درخواست‌های مشتری استفاده کنید.

کارهای وقت گیر مراقبت از مشتری، مانند طبقه بندی شکایات و سوالات مشتریان را به صورت خودکار انجام دهید تا در هزینه خود صرفه جویی کنید، رضایت مشتری را افزایش دهید و نرخ حل و فصل را افزایش دهید.

استخراج موجودیت همچنین می تواند برای استخراج داده های مربوطه، مانند نام محصول یا شماره سریال، استفاده شود تا مسیریابی بلیط ها به نماینده یا تیم مناسب برای حل آن مشکل آسان تر شود.

الگوریتم جستجو

آیا تا به حال سوال کرده اید که چگونه وب سایت هایی با میلیون ها قطعه اطلاعات می توانند نتایج مرتبط با جستجوی شما را ایجاد کنند؟ وب سایت ویکی پدیا را در نظر بگیرید.

ویکی‌پدیا صفحه‌ای حاوی موجودیت‌های از پیش تعریف‌شده را نشان می‌دهد که عبارت جستجو می‌تواند در هنگام جستجوی «شغل» به آن‌ها مرتبط باشد، به‌جای اینکه همه مقاله‌ها را با کلمه «شغل» در آنها برگرداند.

بنابراین، ویکی‌پدیا پیوندی به مقاله‌ای ارائه می‌کند که «شغل» را تعریف می‌کند، بخشی برای افرادی به نام جابز، و بخش دیگری برای رسانه‌هایی مانند فیلم‌ها، بازی های ویدئویی، و سایر اشکال سرگرمی که عبارت "شغل" ظاهر می شود.

همچنین بخش دیگری را برای مکان های حاوی کلمه جستجو می بینید.

رسیدگی به رزومه

در جستجوی متقاضی ایده آل، استخدام کنندگان بخش قابل توجهی از روز خود را صرف بررسی رزومه می کنند. هر رزومه ای اطلاعات یکسانی دارد، اما همه آنها به طور متفاوتی ارائه و سازماندهی شده اند، که نمونه ای معمولی از داده های بدون ساختار است.

مرتبط ترین اطلاعات در مورد نامزدها را می توان به سرعت توسط تیم هایی که از استخراج کنندگان نهاد استفاده می کنند استخراج کرد، از جمله اطلاعات شخصی (مانند نام، آدرس، شماره تلفن، تاریخ تولد و ایمیل) و اطلاعات مربوط به تحصیلات و تجربه آنها (مانند گواهینامه ها، مدرک تحصیلی). ، نام شرکت ها، مهارت ها و غیره).

تجارت الکترونیک

با توجه به الگوریتم جستجوی محصول خود، خرده فروشان آنلاین با صدها یا هزاران کالا از NER سود می برند.

بدون NER، جستجوی «چکمه‌های چرمی مشکی» نتایجی را نشان می‌دهد که شامل چرم و کفش‌هایی می‌شود که مشکی نیستند. اگر چنین است، وب سایت های تجارت الکترونیک در معرض خطر از دست دادن مشتریان هستند.

Iدر مورد ما، NER کلمه جستجو را به عنوان نوع محصول برای چکمه های چرمی و سیاه را به عنوان رنگ طبقه بندی می کند.

بهترین APIهای استخراج موجودیت

Google Cloud NLP

برای ابزارهایی که قبلاً آموزش دیده‌اند، Google Cloud NLP API زبان طبیعی خود را ارائه می‌کند. یا اگر می‌خواهید ابزارهای خود را با اصطلاحات صنعت خود آموزش دهید، API AutoML Natural Language برای انواع مختلفی از استخراج و تجزیه و تحلیل متن سازگار است.

Google Cloud NLP

APIها به راحتی با Gmail، Google Sheets و سایر برنامه های Google تعامل دارند، اما استفاده از آنها با برنامه های شخص ثالث می تواند به کد پیچیده تری نیاز داشته باشد.

گزینه ایده‌آل کسب‌وکار، اتصال برنامه‌های Google و Cloud Storage به عنوان سرویس‌های مدیریت‌شده و API است.

آی بی ام واتسون

IBM Watson یک پلتفرم چند ابری است که عملکرد فوق‌العاده سریعی دارد و قابلیت‌های از پیش ساخته‌شده‌ای مانند گفتار به متن را ارائه می‌کند که نرم‌افزار شگفت‌انگیزی است که می‌تواند به طور خودکار تماس‌های صوتی و تلفنی ضبط‌شده را تجزیه و تحلیل کند.

با استفاده از داده‌های CSV، هوش مصنوعی یادگیری عمیق Watson Natural Language Understanding می‌تواند مدل‌های استخراج را برای استخراج موجودیت‌ها یا کلمات کلیدی ایجاد کند.

آی بی ام واتسون

و با تمرین، می توانید مدل هایی بسازید که بسیار پیچیده تر هستند. همه عملکردهای آن از طریق APIها قابل دسترسی هستند، اگرچه دانش کدنویسی گسترده ای مورد نیاز است.

برای کسب و کارهای بزرگی که نیاز به بررسی مجموعه داده های عظیم و داشتن منابع فنی داخلی دارند، به خوبی کار می کند.

Cortical.io

Cortical.io با استفاده از Semantic Folding، مفهومی از عصب شناسی، استخراج متن و راه حل های NLU را ارائه می دهد.

این کار برای ایجاد «اثرانگشت معنایی» انجام می‌شود، که هم معنای یک متن را در کل و هم در عبارات خاص آن نشان می‌دهد. به منظور نشان دادن روابط بین خوشه های کلمه، اثر انگشت معنایی داده های متنی را به تصویر می کشد.

اسناد API تعاملی Cortical.io عملکرد هر یک از راه حل های تجزیه و تحلیل متن را پوشش می دهد و دسترسی به آن با استفاده از Java، Python و Javascript ساده است.

Cortical.io

ابزار Contract Intelligence از Cortical.io به طور خاص برای تجزیه و تحلیل حقوقی برای انجام جستجوهای معنایی، تبدیل اسناد اسکن شده، و کمک و بهبود با حاشیه نویسی ایجاد شده است.

برای مشاغلی که به دنبال APIهای ساده برای استفاده هستند که به دانش هوش مصنوعی نیازی ندارند، به ویژه در بخش حقوقی ایده آل است.

میمون یاد بگیر

همه زبان‌های اصلی رایانه توسط APIهای MonkeyLearn پشتیبانی می‌شوند و فقط چند خط کد برای تولید یک فایل JSON حاوی موجودیت‌های استخراج‌شده شما تنظیم می‌کنند. برای استخراج کنندگان و تحلیلگران متن با آموزش قبلی، رابط کاربر پسند است.

یا فقط در چند مرحله ساده می توانید یک استخراج کننده منحصر به فرد ایجاد کنید. برای کاهش زمان و بهبود دقت، پردازش پیشرفته زبان طبیعی (NLP) با عمق فراگیری ماشین به شما امکان می دهد متن را همانطور که یک شخص ارزیابی می کند ارزیابی کنید.

میمون یاد بگیر

علاوه بر این، APIهای SaaS تضمین می‌کنند که راه‌اندازی اتصالات با ابزارهایی مانند Google Sheets، Excel، Zapier، Zendesk و دیگران به سال‌ها دانش علوم رایانه نیاز ندارد.

استخراج کننده نام، استخراج کننده شرکت و استخراج کننده مکان در حال حاضر در مرورگر شما موجود است. برای اطلاعات در مورد نحوه ساختن خود، به مقاله وبلاگ شناسایی موجودیت نامگذاری شده مراجعه کنید.

این برای مشاغل با هر اندازه ای که در فناوری، خرده فروشی و تجارت الکترونیکی درگیر هستند و به APIهای ساده برای پیاده سازی برای انواع مختلف استخراج متن و تجزیه و تحلیل متن نیاز دارند، ایده آل است.

درک آمازون

به منظور ساده کردن وصل کردن و استفاده از ابزارهای از پیش ساخته شده Amazon Comprehend بلافاصله، آنها در صدها زمینه مختلف آموزش دیده اند.

هیچ سرور داخلی مورد نیاز نیست زیرا این یک سرویس نظارت است. به خصوص اگر در حال حاضر از ابر آمازون تا حدی استفاده می کنید، API های آنها به راحتی با برنامه های قبلی موجود ادغام می شوند. و تنها با کمی آموزش بیشتر، می توان دقت استخراج را افزایش داد.

درک آمازون

یکی از قابل اعتمادترین تکنیک های تجزیه و تحلیل متن برای به دست آوردن داده ها از سوابق پزشکی و کارآزمایی های بالینی، استخراج موجودیت و رابطه با نام پزشکی Comprehend (NERe) است که می تواند جزئیات داروها، شرایط، نتایج آزمایش و روش ها را استخراج کند.

هنگام مقایسه داده های بیمار برای ارزیابی و تنظیم دقیق تشخیص، می تواند بسیار مفید باشد. بهترین گزینه برای مشاغلی که به دنبال خدمات مدیریت شده با ابزارهای از پیش آموزش دیده هستند.

آیلین

به منظور دسترسی آسان به تجزیه و تحلیل متن یادگیری ماشینی قوی، AYLIEN سه پلاگین API را در هفت زبان برنامه نویسی محبوب ارائه می دهد.

News API آنها جستجوی بلادرنگ و استخراج موجودیت را از ده ها هزار منبع خبری از سراسر جهان فراهم می کند.

آیلین

استخراج موجودیت و چندین کار تجزیه و تحلیل متن دیگر را می توان با استفاده از Text Analysis API روی اسناد انجام داد. رسانه های اجتماعی پلتفرم‌ها، نظرسنجی‌های مصرف‌کننده و موارد دیگر.

در نهایت، با استفاده از پلتفرم تجزیه و تحلیل متن، می توانید استخراج کننده های خود را ایجاد کنید و بیشتر در مرورگر خود (TAP) ایجاد کنید. برای شرکت هایی که نیاز به ادغام سریع API های اصلی ثابت دارند، به خوبی کار می کند.

اسپای سی

SpaCy یک بسته پردازش زبان طبیعی (NLP) پایتون است که منبع باز، رایگان و دارای تعداد زیادی ویژگی داخلی است.

برای داده های NLP پردازش و تجزیه و تحلیل داده های متنی بدون ساختار در مقیاس عظیمی ایجاد می شوند، بنابراین تجزیه و تحلیل آن و استخراج بینش از آن بسیار مهم است.

اسپای سی

برای انجام این کار، باید حقایق را به گونه ای به تصویر بکشید که رایانه ها بتوانند آن را درک کنند. شما می توانید این کار را از طریق NLP انجام دهید. این بسیار سریع است، با تاخیر تنها 30 میلی ثانیه، اما به طور بحرانی، برای استفاده با صفحات HTTPS در نظر گرفته نشده است.

این گزینه خوبی برای اسکن سرورها یا اینترانت خود است زیرا به صورت محلی عمل می کند، اما ابزاری برای مطالعه کل اینترنت نیست.

نتیجه

شناسایی موجودیت نام‌گذاری شده (NER) سیستمی است که کسب‌وکارها می‌توانند از آن برای برچسب‌گذاری اطلاعات مربوطه در درخواست‌های پشتیبانی مشتری، یافتن نهادهای ارجاع‌شده در بازخورد مشتری، و استخراج سریع داده‌های مهم مانند جزئیات تماس، مکان‌ها، و تاریخ‌ها و موارد دیگر استفاده کنند.

متداول‌ترین رویکرد برای نام‌گذاری شناسایی موجودیت، استفاده از APIهای استخراج موجودیت است (خواه توسط کتابخانه‌های منبع باز یا محصولات SaaS ارائه شوند).

با این حال، انتخاب بهترین جایگزین به زمان، امور مالی و مجموعه مهارت شما بستگی دارد. برای هر نوع تجارت، استخراج موجودیت و فن آوری های پیچیده تر تجزیه و تحلیل متن می تواند به وضوح سودمند باشد.

وقتی ابزارهای یادگیری ماشین به درستی آموزش داده شوند، دقیق هستند و هیچ داده ای را نادیده نمی گیرند و در وقت و هزینه شما صرفه جویی می کنند. شما می توانید با یکپارچه سازی API ها، این راه حل ها را به گونه ای پیکربندی کنید که به طور مداوم و خودکار اجرا شوند.

به سادگی مسیر کاری را انتخاب کنید که برای شرکت شما بهترین است.

شناسایی نهاد نامگذاری شده (NER) - مفهوم، برنامه و APIها

NER (تشخیص نهاد نامگذاری شده) چیست؟