جدول المحتويات[يخفي][يعرض]
لدينا القدرة الفطرية على التعرف على الكلمات وتصنيفها إلى أفراد ، وأماكن ، ومواقع ، وقيم ، والمزيد كلما سمعناها أو قرأناها. يستطيع البشر تصنيف الكلمات وتحديدها وفهمها بسرعة.
على سبيل المثال ، يمكنك تصنيف كائن ما والتوصل سريعًا إلى ثلاث إلى أربع صفات على الأقل عندما تسمع اسم "ستيف جوبز"
- الشخص: "Steve Jobs"
- المنظمة: "Apple"
- الموقع: "كاليفورنيا"
نظرًا لأن أجهزة الكمبيوتر تفتقر إلى هذه المهارة الفطرية ، يجب أن نساعدهم في التعرف على الكلمات أو النصوص وتصنيفها. يتم استخدام التعرف على الكيانات المسماة (NER) في هذه الحالة.
في هذه المقالة ، سنفحص NER (التعرف على الكيانات المسماة) بالتفصيل ، بما في ذلك أهميته ، وفوائده ، وأهم واجهات برمجة تطبيقات NER ، وغير ذلك الكثير.
ما هو NER (التعرف على الكيان المحدد)؟
يتعرف أسلوب معالجة اللغة الطبيعية (NLP) المعروف باسم التعرف على الكيان المسمى (NER) ، والذي يُعرف أحيانًا باسم تعريف الكيان أو استخراج الكيان ، تلقائيًا على الكيانات المسماة في النص ويجمعها في فئات محددة مسبقًا.
تتضمن الكيانات أسماء الأفراد والمجموعات والأماكن والتواريخ والمبالغ والمبالغ بالدولار والنسب المئوية والمزيد. من خلال التعرف على الكيان المسمى ، يمكنك إما استخدامه لجمع بيانات مهمة لقاعدة بيانات أو لاستخراج معلومات حيوية لفهم ماهية المستند.
NER هو حجر الزاوية الذي يعتمد عليه نظام الذكاء الاصطناعي من أجل تحليل النص من أجل الدلالات والمشاعر النسبية ، حتى لو كان البرمجة اللغوية العصبية يمثل تقدمًا كبيرًا في عملية تحليل النص.
ما هي أهمية NER؟
أساس نهج التحليلات النصية هو NER. يجب إعطاء نموذج ML في البداية ملايين العينات بفئات محددة مسبقًا قبل أن يتمكن من فهم اللغة الإنجليزية.
تتحسن واجهة برمجة التطبيقات مع مرور الوقت في التعرف على هذه المكونات في النصوص التي تقرأها لأول مرة. تزداد قوة محرك تحليلات النص مع كفاءة وقوة قدرة NER.
كما هو موضح هنا ، يتم تشغيل العديد من عمليات ML بواسطة NER.
البحث الدلالي
البحث الدلالي متاح الآن على جوجل. يمكنك إدخال سؤال ، وسيبذل قصارى جهده للإجابة بإجابة. من أجل العثور على المعلومات ، يبحث المستخدم عن المساعدين الرقميين مثل Alexa و Siri و chatbots وغيرهم يستخدمون نوعًا من البحث الدلالي.
يمكن إصابة هذه الوظيفة أو تفويتها ، ولكن هناك عدد متزايد من الاستخدامات لها ، وفعاليتها تزداد بسرعة.
تحليلات البيانات
هذه عبارة عامة لاستخدام الخوارزميات لإنشاء تحليل من بيانات غير منظمة. إنه يدمج طرق عرض هذه البيانات مع عملية البحث عن البيانات ذات الصلة وجمعها.
قد يأخذ هذا شكل شرح إحصائي مباشر للنتائج أو تمثيل مرئي للبيانات. يمكن تحليل الاهتمام بموضوع معين والتفاعل معه باستخدام معلومات من مشاهدات YouTube ، بما في ذلك عندما ينقر المشاهدون على مقطع فيديو معين.
يمكن تحليل التقييمات النجمية للمنتج باستخدام كشط البيانات من مواقع التجارة الإلكترونية لتوفير النتيجة الإجمالية لمدى جودة أداء المنتج.
تحليل المشاعر
مزيد من استكشاف NER ، تحليل المشاعر يمكن أن يميز بين المراجعات الجيدة والسيئة حتى في حالة عدم وجود معلومات من تقييمات النجوم.
وهي تدرك أن مصطلحات مثل "المبالغة" و "الحماقة" و "الغبية" لها دلالات سلبية ، في حين أن مصطلحات مثل "مفيد" و "سريع" و "سهل" لها دلالات سلبية. يمكن تفسير كلمة "سهل" بشكل سلبي في لعبة الكمبيوتر.
يمكن للخوارزميات المتطورة أيضًا التعرف على العلاقة بين الأشياء.
تحليلات النص
على غرار تحليلات البيانات ، يستخرج تحليل النص المعلومات من سلاسل نصية غير منظمة ويستخدم NER إلى الصفر في البيانات المهمة.
يمكن استخدامه لتجميع بيانات حول إشارات المنتج أو متوسط السعر أو المصطلحات التي يستخدمها العملاء بشكل متكرر لوصف علامة تجارية معينة.
تحليل محتوى الفيديو
أكثر الأنظمة تعقيدًا هي تلك التي تستخرج البيانات من معلومات الفيديو باستخدام التعرف على الوجه وتحليل الصوت والتعرف على الصور.
باستخدام تحليل محتوى الفيديو ، يمكنك العثور على مقاطع فيديو "unboxing" على YouTube ، وعروض ألعاب Twitch ، ومزامنة الشفاه لموادك الصوتية على Reels ، والمزيد.
من أجل تجنب فقدان المعلومات المهمة حول كيفية اتصال الأشخاص بمنتجك أو خدمتك مع نمو حجم مواد الفيديو عبر الإنترنت ، من الضروري استخدام تقنيات أسرع وأكثر إبداعًا لتحليل محتوى الفيديو المستند إلى NER.
تطبيق العالم الحقيقي لـ NER
يحدد التعرف على الكيان المسمى (NER) الجوانب الأساسية في النص مثل أسماء الأشخاص والمواقع والعلامات التجارية والقيم النقدية والمزيد.
يساعد استخراج الكيانات الرئيسية في النص في فرز البيانات غير المهيكلة واكتشاف المعلومات المهمة ، وهو أمر بالغ الأهمية عند التعامل مع مجموعات البيانات الكبيرة.
فيما يلي بعض الأمثلة الرائعة في العالم الحقيقي للتعرف على الكيانات المسماة:
تحليل ملاحظات العملاء
تعد المراجعات عبر الإنترنت مصدرًا رائعًا لتعليقات المستهلكين حيث يمكنها تزويدك بمعلومات مفصلة حول ما يحبه العملاء وما يكرهونه بشأن سلعك بالإضافة إلى المجالات التي تحتاج إلى تحسين في شركتك.
يمكن تنظيم كل مدخلات العميل هذه باستخدام أنظمة NER ، والتي يمكنها أيضًا تحديد المشكلات المتكررة.
على سبيل المثال ، باستخدام NER لتحديد الأماكن التي غالبًا ما يتم الاستشهاد بها في تقييمات العملاء غير المواتية ، يمكنك أن تقرر التركيز على فرع مكتب معين.
توصية للمحتوى
يمكن العثور على قائمة بالمقالات المرتبطة بما تقرأه على مواقع الويب مثل BBC و CNN عندما تقرأ عنصرًا هناك.
تقدم مواقع الويب هذه توصيات لمواقع ويب إضافية تقدم معلومات حول الكيانات التي استخرجتها من المحتوى الذي تقرأه باستخدام NER.
تنظيم التذاكر في دعم العملاء
يمكنك استخدام خوارزميات التعرف على الكيانات المسماة للاستجابة لطلبات العميل بسرعة أكبر إذا كنت تدير زيادة في عدد بطاقات الدعم من العملاء.
قم بأتمتة الأعمال المنزلية التي تستغرق وقتًا طويلاً في رعاية العملاء ، مثل تصنيف شكاوى العملاء واستفساراتهم ، لتوفير المال ، وزيادة سعادة العملاء ، وزيادة معدلات الحل.
يمكن أيضًا استخدام استخراج الكيانات لاستخراج البيانات ذات الصلة ، مثل أسماء المنتجات أو الأرقام التسلسلية ، لتسهيل توجيه التذاكر إلى الوكيل أو الفريق المناسب لحل هذه المشكلة.
خوارزمية البحث
هل تساءلت يومًا كيف يمكن للمواقع التي تحتوي على ملايين المعلومات أن تنتج نتائج ذات صلة ببحثك؟ ضع في اعتبارك موقع ويكيبيديا.
تعرض Wikipedia صفحة تحتوي على كيانات محددة مسبقًا يمكن لمصطلح البحث أن يرتبط بها عند البحث عن "وظائف" ، بدلاً من إرجاع جميع المقالات التي تحتوي على كلمة "وظائف" فيها.
وبالتالي ، تقدم ويكيبيديا رابطًا للمقال الذي يعرف "المهنة" ، وقسمًا للأشخاص المسماة جوبز ، ومنطقة أخرى لوسائل الإعلام مثل الأفلام ، ألعاب الفيديو، وغيرها من أشكال الترفيه حيث يظهر مصطلح "الوظائف".
قد ترى أيضًا مقطعًا آخر للمواقع التي تحتوي على كلمة البحث.
رعاية السير الذاتية
بحثًا عن المتقدم المثالي ، يقضي المجندون جزءًا كبيرًا من يومهم في مراجعة السير الذاتية. تحتوي كل سيرة ذاتية على نفس المعلومات ، ولكن يتم تقديمها جميعًا وتنظيمها بشكل مختلف ، وهو مثال نموذجي للبيانات غير المنظمة.
يمكن استخراج المعلومات الأكثر صلة بالمرشحين بسرعة عن طريق توظيف فرق تستخدم مستخلصات الكيانات ، بما في ذلك البيانات الشخصية (مثل الاسم والعنوان ورقم الهاتف وتاريخ الميلاد والبريد الإلكتروني) ومعلومات حول تعليمهم وخبراتهم (مثل الشهادات والدرجة العلمية). وأسماء الشركات والمهارات وما إلى ذلك).
التجارة الإلكترونية
فيما يتعلق بخوارزمية البحث عن المنتجات الخاصة بهم ، فإن تجار التجزئة عبر الإنترنت الذين لديهم مئات أو آلاف السلع سيستفيدون من NER.
بدون NER ، سيؤدي البحث عن "أحذية جلدية سوداء" إلى ظهور نتائج تتضمن كلاً من الجلد والأحذية التي لم تكن سوداء. إذا كان الأمر كذلك ، فإن مواقع التجارة الإلكترونية تخاطر بفقدان العملاء.
Iفي حالتنا ، ستصنف NER كلمة البحث كنوع منتج للأحذية الجلدية والأسود كلون.
أفضل واجهات برمجة تطبيقات لاستخراج الكيانات
جوجل كلاود البرمجة اللغوية العصبية
بالنسبة للأدوات التي تم تدريبها بالفعل ، توفر Google Cloud NLP واجهة برمجة تطبيقات اللغة الطبيعية الخاصة بها. أو ، فإن AutoML Natural Language API قابلة للتكيف مع العديد من أنواع استخراج النص وتحليله إذا كنت ترغب في تعليم أدواتك حول مصطلحات الصناعة الخاصة بك.
تتفاعل واجهات برمجة التطبيقات بسهولة مع Gmail وجداول بيانات Google وتطبيقات Google الأخرى ، ولكن استخدامها مع برامج الجهات الخارجية قد يحتاج إلى رمز أكثر تعقيدًا.
الخيار المثالي للأعمال هو ربط تطبيقات Google والتخزين السحابي كخدمات مُدارة وواجهات برمجة التطبيقات.
IBM واتسون
يعد IBM Watson نظامًا أساسيًا متعدد السحابة يعمل بسرعة مذهلة ويوفر إمكانات مسبقة الصنع ، مثل تحويل الكلام إلى نص ، وهو برنامج مذهل يمكنه تلقائيًا تحليل المكالمات الصوتية والمكالمات الهاتفية المسجلة.
باستخدام بيانات CSV ، يمكن للذكاء الاصطناعي للتعلم العميق في Watson Natural Language Understanding إنشاء نماذج استخراج لاستخراج الكيانات أو الكلمات الرئيسية.
ومع الممارسة ، يمكنك إنشاء نماذج أكثر تعقيدًا. يمكن الوصول إلى جميع وظائفه من خلال واجهات برمجة التطبيقات ، على الرغم من الحاجة إلى معرفة ترميز واسعة النطاق.
إنه يعمل جيدًا للشركات الكبيرة التي تتطلب فحص مجموعات بيانات هائلة ولديها موارد تقنية داخلية.
القشرية
باستخدام الطي الدلالي ، وهو مفهوم من علم الأعصاب ، يوفر Cortical.io استخراج النص وحلول NLU.
يتم ذلك لتوليد "بصمات دلالية" ، والتي تشير إلى كل من معنى النص بمصطلحاته الكاملة والمحددة. من أجل إظهار العلاقات بين مجموعات الكلمات ، تصور بصمات الأصابع الدلالية بيانات النص.
تغطي وثائق واجهة برمجة التطبيقات التفاعلية الخاصة بـ Cortical.io وظائف كل من حلول تحليل النص ، ومن السهل الوصول إليها باستخدام واجهات برمجة تطبيقات Java و Python و Javascript.
تم إنشاء أداة استخبارات العقد من Cortical.io خصيصًا للتحليل القانوني لإجراء عمليات البحث الدلالية وتحويل المستندات الممسوحة ضوئيًا والمساعدة في التعليقات التوضيحية وتحسينها.
إنه مثالي للشركات التي تبحث عن واجهات برمجة تطبيقات سهلة الاستخدام ولا تحتاج إلى معرفة بالذكاء الاصطناعي ، لا سيما في القطاع القانوني.
تعلم القرد
يتم دعم جميع لغات الكمبيوتر الرئيسية بواسطة واجهات برمجة التطبيقات الخاصة بـ MonkeyLearn وإعداد بضعة أسطر فقط من التعليمات البرمجية لإنتاج ملف JSON يحتوي على الكيانات المستخرجة. بالنسبة للمستخرجين ومحللي النصوص الذين حصلوا على تدريب مسبق ، فإن الواجهة سهلة الاستخدام.
أو ، في بضع خطوات بسيطة ، يمكنك إنشاء مستخرج فريد. لتقليل الوقت وتحسين الدقة ، معالجة اللغة الطبيعية المتقدمة (NLP) بعمق آلة التعلم تمكنك من تقييم النص كما يفعل أي شخص.
بالإضافة إلى ذلك ، تضمن واجهات برمجة تطبيقات SaaS أن إعداد الاتصالات بأدوات مثل جداول بيانات Google و Excel و Zapier و Zendesk وغيرها لا يتطلب سنوات من المعرفة بعلوم الكمبيوتر.
يتوفر حاليًا في المستعرض الخاص بك مستخرج الاسم ومستخرج الشركة ومستخرج الموقع. للحصول على معلومات حول كيفية إنشاء الخاصة بك ، راجع مقالة مدونة التعرف على الكيانات المسماة.
إنه مثالي للشركات من جميع الأحجام المشاركة في التكنولوجيا وتجارة التجزئة والتجارة الإلكترونية التي تحتاج إلى واجهات برمجة تطبيقات سهلة التنفيذ لأنواع مختلفة من استخراج النص وتحليل النص.
فهم الأمازون
من أجل تسهيل توصيل واستخدام أدوات Amazon Comprehend سابقة الإنشاء مباشرة ، تم تدريبهم في مئات المجالات المختلفة.
لا يلزم وجود خوادم داخلية لأن هذه خدمة تخضع للمراقبة. خاصة إذا كنت تستخدم حاليًا سحابة Amazon إلى مستوى ما ، فإن واجهات برمجة التطبيقات الخاصة بهم تتكامل بسهولة مع التطبيقات الموجودة مسبقًا. ومع القليل من التدريب فقط ، يمكن رفع دقة الاستخراج.
من أكثر تقنيات تحليل النص التي يمكن الاعتماد عليها للحصول على البيانات من السجلات الطبية والتجارب السريرية (NERe) من Comprehend's Medical Named Entity and Relationship Extraction (NERe) ، والذي يمكنه استخراج تفاصيل حول الأدوية والحالات ونتائج الاختبارات والإجراءات.
عند مقارنة بيانات المريض لتقييم وضبط التشخيص ، يمكن أن يكون مفيدًا للغاية. الخيار الأفضل للشركات التي تبحث عن خدمة مُدارة بأدوات مُدربة مسبقًا.
أيلين
من أجل توفير وصول سهل إلى تحليل نصي قوي لتعلم الآلة ، تقدم AYLIEN ثلاثة مكونات إضافية لواجهة برمجة التطبيقات في سبع لغات برمجة شائعة.
توفر News API الخاصة بهم البحث في الوقت الفعلي واستخراج الكيانات من عشرات الآلاف من مصادر الأخبار من جميع أنحاء العالم.
يمكن تنفيذ استخراج الكيانات والعديد من مهام تحليل النص الأخرى باستخدام واجهة برمجة تطبيقات تحليل النص في المستندات ، وسائل التواصل الاجتماعي المنصات واستطلاعات المستهلكين والمزيد.
أخيرًا ، باستخدام منصة تحليل النص ، يمكنك إنشاء أدوات الاستخراج الخاصة بك وأكثر مباشرة في متصفحك (TAP). إنه يعمل بشكل جيد للشركات التي تحتاج إلى دمج واجهات برمجة التطبيقات الثابتة بشكل أساسي بسرعة.
سبا
SpaCy هي حزمة Python Natural Language Processing (NLP) مفتوحة المصدر ومجانية وتحتوي على الكثير من الميزات المضمنة.
إنها تزداد شيوعًا بالنسبة لـ بيانات البرمجة اللغوية العصبية المعالجة والتحليل. يتم إنشاء البيانات النصية غير المنظمة على نطاق هائل ، لذلك من الضروري تحليلها واستخلاص الأفكار منها.
لتحقيق ذلك ، يجب أن تصور الحقائق بطريقة يمكن لأجهزة الكمبيوتر فهمها. يمكنك القيام بذلك من خلال البرمجة اللغوية العصبية. إنه سريع للغاية ، مع وقت تأخير يبلغ 30 مللي ثانية فقط ، ولكن بشكل حاسم ، فهو غير مخصص للاستخدام مع صفحات HTTPS.
يعد هذا خيارًا رائعًا لفحص الخوادم أو الإنترانت الخاصة بك لأنه يعمل محليًا ، ولكنه ليس أداة لدراسة الإنترنت بالكامل.
وفي الختام
التعرف على الكيان المُسمى (NER) هو نظام يمكن للشركات استخدامه لتسمية المعلومات ذات الصلة في طلبات دعم العملاء ، والعثور على الكيانات المشار إليها في تعليقات العملاء ، واستخراج البيانات المهمة بسرعة مثل تفاصيل الاتصال والمواقع والتواريخ ، من بين أشياء أخرى.
الطريقة الأكثر شيوعًا لتسمية التعرف على الكيان هي من خلال استخدام واجهات برمجة التطبيقات لاستخراج الكيانات (سواء تم توفيرها بواسطة مكتبات مفتوحة المصدر أو منتجات SaaS).
ومع ذلك ، فإن اختيار أفضل بديل سيعتمد على وقتك وأموالك ومهاراتك. بالنسبة لأي نوع من الأعمال ، يمكن أن يكون استخراج الكيانات وتقنيات تحليل النص الأكثر تعقيدًا مفيدًا بشكل واضح.
عندما يتم تدريس أدوات التعلم الآلي بشكل صحيح ، فإنها تكون دقيقة ولا تتجاهل أي بيانات ، مما يوفر لك الوقت والمال. يمكنك تكوين هذه الحلول للتشغيل بشكل مستمر وتلقائي من خلال دمج واجهات برمجة التطبيقات.
ما عليك سوى اختيار مسار العمل الأفضل لشركتك.
اترك تعليق