فهرست مندرجات[پنهان شدن][نمایش]
ما این توانایی ذاتی را داریم که هر زمان که کلمات را می شنویم یا می خوانیم، آنها را به افراد، مکان ها، مکان ها، ارزش ها و موارد دیگر تشخیص دهیم و دسته بندی کنیم. انسان قادر است کلمات را به سرعت دسته بندی، شناسایی و درک کند.
به عنوان مثال، شما می توانید یک شی را دسته بندی کنید و با شنیدن نام "استیو جابز" به سرعت به حداقل سه تا چهار ویژگی برسید.
- شخص: "استیو جابز"
- سازمان: "اپل"
- مکان: "کالیفرنیا"
از آنجایی که کامپیوترها فاقد این مهارت ذاتی هستند، باید به آنها در تشخیص کلمات یا متن و طبقه بندی آن کمک کنیم. در این شرایط از شناسایی نهاد نامگذاری شده (NER) استفاده می شود.
در این مقاله، NER (تشخیص نهاد نامگذاری شده) را به طور مفصل بررسی خواهیم کرد، از جمله اهمیت، مزایا، API های برتر NER و موارد دیگر.
NER (تشخیص نهاد نامگذاری شده) چیست؟
یک رویکرد پردازش زبان طبیعی (NLP) که به عنوان شناسایی موجودیت نامگذاری شده (NER) شناخته میشود، که گاهی اوقات به عنوان شناسایی موجودیت یا استخراج موجودیت شناخته میشود، به طور خودکار موجودیتهای نامگذاری شده را در یک متن شناسایی میکند و آنها را در دستههای از پیش تعیینشده گروهبندی میکند.
موجودیت ها شامل نام افراد، گروه ها، مکان ها، تاریخ ها، مبالغ، مبالغ دلاری، درصدها و موارد دیگر است. با شناسایی موجودیت نامگذاری شده، میتوانید از آن برای جمعآوری دادههای مهم برای پایگاه داده یا استخراج اطلاعات حیاتی برای درک اینکه یک سند در مورد چیست استفاده کنید.
NER سنگ بنای است که یک سیستم هوش مصنوعی برای تجزیه و تحلیل متن از نظر معنایی و احساسات نسبی به آن وابسته است، حتی اگر NLP نشان دهنده پیشرفت قابل توجهی در فرآیند تجزیه و تحلیل متن باشد.
اهمیت NER چیست؟
اساس رویکرد تحلیل متن NER است. یک مدل ML در ابتدا باید میلیون ها نمونه با دسته بندی های از پیش تعریف شده داده شود تا بتواند انگلیسی را بفهمد.
API با گذشت زمان در تشخیص این مؤلفه ها در متونی که برای اولین بار می خواند بهبود می یابد. قدرت موتور تجزیه و تحلیل متن با صلاحیت و قدرت قابلیت NER افزایش می یابد.
همانطور که در اینجا مشاهده می شود، چندین عملیات ML توسط NER راه اندازی می شوند.
جستجوی معنایی
جستجوی معنایی اکنون در گوگل در دسترس است. شما می توانید یک سوال را وارد کنید، و تمام تلاش خود را می کند تا با پاسخ پاسخ دهید. برای یافتن اطلاعاتی که کاربر به دنبال آن است، دستیارهای دیجیتالی مانند الکسا، سیری، رباتهای گفتگو و دیگران از نوعی جستجوی معنایی استفاده میکنند.
این عملکرد می تواند مورد ضربه یا از دست دادن قرار گیرد، اما تعداد استفاده های فزاینده ای از آن وجود دارد و کارایی آنها به سرعت در حال افزایش است.
تجزیه و تحلیل داده ها
این یک عبارت کلی برای استفاده از الگوریتم ها برای ایجاد تحلیل از داده های بدون ساختار است. روش های نمایش این داده ها را با فرآیند یافتن و جمع آوری داده های مربوطه ادغام می کند.
این ممکن است به شکل یک توضیح آماری ساده از نتایج یا نمایش تصویری داده ها باشد. تجزیه و تحلیل علاقه و تعامل با یک موضوع خاص را می توان با استفاده از اطلاعات بازدیدهای YouTube انجام داد، از جمله زمانی که بینندگان روی یک ویدیوی خاص کلیک می کنند.
رتبهبندی ستارههای یک محصول را میتوان با استفاده از جمعآوری دادهها از سایتهای تجارت الکترونیک تجزیه و تحلیل کرد تا امتیاز کلی از عملکرد محصول ارائه شود.
تجزیه و تحلیل احساسات
کاوش بیشتر NER، تجزیه و تحلیل احساسات می تواند بین نظرات خوب و بد حتی در صورت عدم وجود اطلاعات از رتبه بندی ستاره ها تمایز قائل شود.
آگاه است که عباراتی مانند "بیش از حد"، "بیهوده" و "احمق" دارای معانی منفی هستند، در حالی که عباراتی مانند "مفید"، "سریع" و "آسان" دارای مفاهیم منفی هستند. کلمه "آسان" را می توان در یک بازی رایانه ای منفی تفسیر کرد.
الگوریتم های پیچیده همچنین می توانند رابطه بین چیزها را تشخیص دهند.
تجزیه و تحلیل متن
مشابه تجزیه و تحلیل داده ها، تجزیه و تحلیل متن اطلاعات را از رشته های متنی بدون ساختار استخراج می کند و از NER برای به صفر رساندن داده های مهم استفاده می کند.
میتوان از آن برای جمعآوری دادهها در مورد اشارههای یک محصول، میانگین قیمت، یا اصطلاحاتی که مشتریان اغلب برای توصیف یک برند خاص استفاده میکنند، استفاده کرد.
تجزیه و تحلیل محتوای ویدیویی
پیچیده ترین سیستم هایی هستند که داده ها را از اطلاعات ویدئویی با استفاده از تشخیص چهره، تجزیه و تحلیل صدا و تشخیص تصویر استخراج می کنند.
با استفاده از تجزیه و تحلیل محتوای ویدیویی، میتوانید ویدیوهای «جعبهگشایی» یوتیوب، نمایشهای بازی Twitch، همگامسازی لب مواد صوتی خود را در Reels و موارد دیگر پیدا کنید.
برای جلوگیری از از دست دادن اطلاعات مهم در مورد نحوه اتصال افراد به محصول یا خدمات شما با افزایش حجم محتوای ویدیویی آنلاین، تکنیکهای سریعتر و ابداعیتر برای تجزیه و تحلیل محتوای ویدیویی مبتنی بر NER ضروری است.
کاربرد دنیای واقعی NER
شناسایی موجودیت نامگذاری شده (NER) جنبههای اساسی یک متن مانند نام افراد، مکانها، مارکها، ارزشهای پولی و موارد دیگر را شناسایی میکند.
استخراج موجودیتهای اصلی در یک متن به مرتبسازی دادههای بدون ساختار و شناسایی اطلاعات مهم کمک میکند، که در برخورد با مجموعههای داده بزرگ بسیار مهم است.
در اینجا چند نمونه شگفت انگیز در دنیای واقعی از شناسایی موجودیت نامگذاری شده آورده شده است:
تجزیه و تحلیل بازخورد مشتریان
بررسیهای آنلاین منبع فوقالعادهای برای بازخورد مصرفکننده هستند، زیرا میتوانند اطلاعات دقیقی در مورد آنچه که مشتریان در مورد کالاهای شما دوست دارند و از آنها متنفرند و همچنین اینکه چه حوزههایی از شرکت شما نیاز به بهبود دارند را در اختیار شما قرار میدهند.
همه این ورودی های مشتری را می توان با استفاده از سیستم های NER سازماندهی کرد، که همچنین می تواند مشکلات تکرار شونده را شناسایی کند.
به عنوان مثال، با استفاده از NER برای شناسایی مکانهایی که اغلب در بررسیهای نامطلوب مشتریان ذکر شدهاند، میتوانید تصمیم بگیرید که روی یک شعبه اداری خاص تمرکز کنید.
توصیه برای محتوا
وقتی مطلبی را در آنجا می خوانید، فهرستی از مقالات مرتبط با مقاله ای را که می خوانید، می توانید در وب سایت هایی مانند BBC و CNN پیدا کنید.
این وبسایتها توصیههایی برای وبسایتهای اضافی ارائه میکنند که اطلاعاتی را در مورد موجودیتهایی که از محتوایی که با استفاده از NER میخوانید استخراج کردهاند ارائه میدهند.
بلیط ها را در پشتیبانی مشتری سازماندهی کنید
اگر در حال مدیریت افزایش تعداد بلیطهای پشتیبانی از مشتریان هستید، میتوانید از الگوریتمهای تشخیص نهاد نامگذاری شده برای پاسخ سریعتر به درخواستهای مشتری استفاده کنید.
کارهای وقت گیر مراقبت از مشتری، مانند طبقه بندی شکایات و سوالات مشتریان را به صورت خودکار انجام دهید تا در هزینه خود صرفه جویی کنید، رضایت مشتری را افزایش دهید و نرخ حل و فصل را افزایش دهید.
استخراج موجودیت همچنین می تواند برای استخراج داده های مربوطه، مانند نام محصول یا شماره سریال، استفاده شود تا مسیریابی بلیط ها به نماینده یا تیم مناسب برای حل آن مشکل آسان تر شود.
الگوریتم جستجو
آیا تا به حال سوال کرده اید که چگونه وب سایت هایی با میلیون ها قطعه اطلاعات می توانند نتایج مرتبط با جستجوی شما را ایجاد کنند؟ وب سایت ویکی پدیا را در نظر بگیرید.
ویکیپدیا صفحهای حاوی موجودیتهای از پیش تعریفشده را نشان میدهد که عبارت جستجو میتواند در هنگام جستجوی «شغل» به آنها مرتبط باشد، بهجای اینکه همه مقالهها را با کلمه «شغل» در آنها برگرداند.
بنابراین، ویکیپدیا پیوندی به مقالهای ارائه میکند که «شغل» را تعریف میکند، بخشی برای افرادی به نام جابز، و بخش دیگری برای رسانههایی مانند فیلمها، بازی های ویدئویی، و سایر اشکال سرگرمی که عبارت "شغل" ظاهر می شود.
همچنین بخش دیگری را برای مکان های حاوی کلمه جستجو می بینید.
رسیدگی به رزومه
در جستجوی متقاضی ایده آل، استخدام کنندگان بخش قابل توجهی از روز خود را صرف بررسی رزومه می کنند. هر رزومه ای اطلاعات یکسانی دارد، اما همه آنها به طور متفاوتی ارائه و سازماندهی شده اند، که نمونه ای معمولی از داده های بدون ساختار است.
مرتبط ترین اطلاعات در مورد نامزدها را می توان به سرعت توسط تیم هایی که از استخراج کنندگان نهاد استفاده می کنند استخراج کرد، از جمله اطلاعات شخصی (مانند نام، آدرس، شماره تلفن، تاریخ تولد و ایمیل) و اطلاعات مربوط به تحصیلات و تجربه آنها (مانند گواهینامه ها، مدرک تحصیلی). ، نام شرکت ها، مهارت ها و غیره).
تجارت الکترونیک
با توجه به الگوریتم جستجوی محصول خود، خرده فروشان آنلاین با صدها یا هزاران کالا از NER سود می برند.
بدون NER، جستجوی «چکمههای چرمی مشکی» نتایجی را نشان میدهد که شامل چرم و کفشهایی میشود که مشکی نیستند. اگر چنین است، وب سایت های تجارت الکترونیک در معرض خطر از دست دادن مشتریان هستند.
Iدر مورد ما، NER کلمه جستجو را به عنوان نوع محصول برای چکمه های چرمی و سیاه را به عنوان رنگ طبقه بندی می کند.
بهترین APIهای استخراج موجودیت
Google Cloud NLP
برای ابزارهایی که قبلاً آموزش دیدهاند، Google Cloud NLP API زبان طبیعی خود را ارائه میکند. یا اگر میخواهید ابزارهای خود را با اصطلاحات صنعت خود آموزش دهید، API AutoML Natural Language برای انواع مختلفی از استخراج و تجزیه و تحلیل متن سازگار است.
APIها به راحتی با Gmail، Google Sheets و سایر برنامه های Google تعامل دارند، اما استفاده از آنها با برنامه های شخص ثالث می تواند به کد پیچیده تری نیاز داشته باشد.
گزینه ایدهآل کسبوکار، اتصال برنامههای Google و Cloud Storage به عنوان سرویسهای مدیریتشده و API است.
آی بی ام واتسون
IBM Watson یک پلتفرم چند ابری است که عملکرد فوقالعاده سریعی دارد و قابلیتهای از پیش ساختهشدهای مانند گفتار به متن را ارائه میکند که نرمافزار شگفتانگیزی است که میتواند به طور خودکار تماسهای صوتی و تلفنی ضبطشده را تجزیه و تحلیل کند.
با استفاده از دادههای CSV، هوش مصنوعی یادگیری عمیق Watson Natural Language Understanding میتواند مدلهای استخراج را برای استخراج موجودیتها یا کلمات کلیدی ایجاد کند.
و با تمرین، می توانید مدل هایی بسازید که بسیار پیچیده تر هستند. همه عملکردهای آن از طریق APIها قابل دسترسی هستند، اگرچه دانش کدنویسی گسترده ای مورد نیاز است.
برای کسب و کارهای بزرگی که نیاز به بررسی مجموعه داده های عظیم و داشتن منابع فنی داخلی دارند، به خوبی کار می کند.
Cortical.io
Cortical.io با استفاده از Semantic Folding، مفهومی از عصب شناسی، استخراج متن و راه حل های NLU را ارائه می دهد.
این کار برای ایجاد «اثرانگشت معنایی» انجام میشود، که هم معنای یک متن را در کل و هم در عبارات خاص آن نشان میدهد. به منظور نشان دادن روابط بین خوشه های کلمه، اثر انگشت معنایی داده های متنی را به تصویر می کشد.
اسناد API تعاملی Cortical.io عملکرد هر یک از راه حل های تجزیه و تحلیل متن را پوشش می دهد و دسترسی به آن با استفاده از Java، Python و Javascript ساده است.
ابزار Contract Intelligence از Cortical.io به طور خاص برای تجزیه و تحلیل حقوقی برای انجام جستجوهای معنایی، تبدیل اسناد اسکن شده، و کمک و بهبود با حاشیه نویسی ایجاد شده است.
برای مشاغلی که به دنبال APIهای ساده برای استفاده هستند که به دانش هوش مصنوعی نیازی ندارند، به ویژه در بخش حقوقی ایده آل است.
میمون یاد بگیر
همه زبانهای اصلی رایانه توسط APIهای MonkeyLearn پشتیبانی میشوند و فقط چند خط کد برای تولید یک فایل JSON حاوی موجودیتهای استخراجشده شما تنظیم میکنند. برای استخراج کنندگان و تحلیلگران متن با آموزش قبلی، رابط کاربر پسند است.
یا فقط در چند مرحله ساده می توانید یک استخراج کننده منحصر به فرد ایجاد کنید. برای کاهش زمان و بهبود دقت، پردازش پیشرفته زبان طبیعی (NLP) با عمق فراگیری ماشین به شما امکان می دهد متن را همانطور که یک شخص ارزیابی می کند ارزیابی کنید.
علاوه بر این، APIهای SaaS تضمین میکنند که راهاندازی اتصالات با ابزارهایی مانند Google Sheets، Excel، Zapier، Zendesk و دیگران به سالها دانش علوم رایانه نیاز ندارد.
استخراج کننده نام، استخراج کننده شرکت و استخراج کننده مکان در حال حاضر در مرورگر شما موجود است. برای اطلاعات در مورد نحوه ساختن خود، به مقاله وبلاگ شناسایی موجودیت نامگذاری شده مراجعه کنید.
این برای مشاغل با هر اندازه ای که در فناوری، خرده فروشی و تجارت الکترونیکی درگیر هستند و به APIهای ساده برای پیاده سازی برای انواع مختلف استخراج متن و تجزیه و تحلیل متن نیاز دارند، ایده آل است.
درک آمازون
به منظور ساده کردن وصل کردن و استفاده از ابزارهای از پیش ساخته شده Amazon Comprehend بلافاصله، آنها در صدها زمینه مختلف آموزش دیده اند.
هیچ سرور داخلی مورد نیاز نیست زیرا این یک سرویس نظارت است. به خصوص اگر در حال حاضر از ابر آمازون تا حدی استفاده می کنید، API های آنها به راحتی با برنامه های قبلی موجود ادغام می شوند. و تنها با کمی آموزش بیشتر، می توان دقت استخراج را افزایش داد.
یکی از قابل اعتمادترین تکنیک های تجزیه و تحلیل متن برای به دست آوردن داده ها از سوابق پزشکی و کارآزمایی های بالینی، استخراج موجودیت و رابطه با نام پزشکی Comprehend (NERe) است که می تواند جزئیات داروها، شرایط، نتایج آزمایش و روش ها را استخراج کند.
هنگام مقایسه داده های بیمار برای ارزیابی و تنظیم دقیق تشخیص، می تواند بسیار مفید باشد. بهترین گزینه برای مشاغلی که به دنبال خدمات مدیریت شده با ابزارهای از پیش آموزش دیده هستند.
آیلین
به منظور دسترسی آسان به تجزیه و تحلیل متن یادگیری ماشینی قوی، AYLIEN سه پلاگین API را در هفت زبان برنامه نویسی محبوب ارائه می دهد.
News API آنها جستجوی بلادرنگ و استخراج موجودیت را از ده ها هزار منبع خبری از سراسر جهان فراهم می کند.
استخراج موجودیت و چندین کار تجزیه و تحلیل متن دیگر را می توان با استفاده از Text Analysis API روی اسناد انجام داد. رسانه های اجتماعی پلتفرمها، نظرسنجیهای مصرفکننده و موارد دیگر.
در نهایت، با استفاده از پلتفرم تجزیه و تحلیل متن، می توانید استخراج کننده های خود را ایجاد کنید و بیشتر در مرورگر خود (TAP) ایجاد کنید. برای شرکت هایی که نیاز به ادغام سریع API های اصلی ثابت دارند، به خوبی کار می کند.
اسپای سی
SpaCy یک بسته پردازش زبان طبیعی (NLP) پایتون است که منبع باز، رایگان و دارای تعداد زیادی ویژگی داخلی است.
برای داده های NLP پردازش و تجزیه و تحلیل داده های متنی بدون ساختار در مقیاس عظیمی ایجاد می شوند، بنابراین تجزیه و تحلیل آن و استخراج بینش از آن بسیار مهم است.
برای انجام این کار، باید حقایق را به گونه ای به تصویر بکشید که رایانه ها بتوانند آن را درک کنند. شما می توانید این کار را از طریق NLP انجام دهید. این بسیار سریع است، با تاخیر تنها 30 میلی ثانیه، اما به طور بحرانی، برای استفاده با صفحات HTTPS در نظر گرفته نشده است.
این گزینه خوبی برای اسکن سرورها یا اینترانت خود است زیرا به صورت محلی عمل می کند، اما ابزاری برای مطالعه کل اینترنت نیست.
نتیجه
شناسایی موجودیت نامگذاری شده (NER) سیستمی است که کسبوکارها میتوانند از آن برای برچسبگذاری اطلاعات مربوطه در درخواستهای پشتیبانی مشتری، یافتن نهادهای ارجاعشده در بازخورد مشتری، و استخراج سریع دادههای مهم مانند جزئیات تماس، مکانها، و تاریخها و موارد دیگر استفاده کنند.
متداولترین رویکرد برای نامگذاری شناسایی موجودیت، استفاده از APIهای استخراج موجودیت است (خواه توسط کتابخانههای منبع باز یا محصولات SaaS ارائه شوند).
با این حال، انتخاب بهترین جایگزین به زمان، امور مالی و مجموعه مهارت شما بستگی دارد. برای هر نوع تجارت، استخراج موجودیت و فن آوری های پیچیده تر تجزیه و تحلیل متن می تواند به وضوح سودمند باشد.
وقتی ابزارهای یادگیری ماشین به درستی آموزش داده شوند، دقیق هستند و هیچ داده ای را نادیده نمی گیرند و در وقت و هزینه شما صرفه جویی می کنند. شما می توانید با یکپارچه سازی API ها، این راه حل ها را به گونه ای پیکربندی کنید که به طور مداوم و خودکار اجرا شوند.
به سادگی مسیر کاری را انتخاب کنید که برای شرکت شما بهترین است.
پاسخ دهید