جدول المحتويات[يخفي][يعرض]
أنا متأكد من أنك سمعت عن الذكاء الاصطناعي ، وكذلك كلمات مثل التعلم الآلي ومعالجة اللغة الطبيعية (NLP).
خاصة إذا كنت تعمل في شركة تتعامل مع مئات ، إن لم يكن الآلاف ، من جهات اتصال العملاء كل يوم.
إن تحليل بيانات منشورات وسائل التواصل الاجتماعي ، ورسائل البريد الإلكتروني ، والمحادثات ، والردود على الاستبيانات المفتوحة ، وغيرها من المصادر ليست عملية بسيطة ، بل إنها تصبح أكثر صعوبة عندما يُعهد بها إلى الأشخاص فقط.
هذا هو السبب في أن الكثير من الناس متحمسون لإمكانيات الذكاء الاصطناعي لعملهم اليومي وللمؤسسات.
يستخدم تحليل النص المدعوم بالذكاء الاصطناعي مجموعة واسعة من الأساليب أو الخوارزميات لتفسير اللغة بشكل عضوي ، أحدها هو تحليل الموضوع ، والذي يستخدم لاكتشاف الموضوعات تلقائيًا من النصوص.
يمكن للشركات استخدام نماذج تحليل الموضوعات لنقل المهام السهلة إلى الأجهزة بدلاً من إثقال كاهل العمال بالكثير من البيانات.
ضع في اعتبارك مقدار الوقت الذي قد يوفره فريقك ويخصصه لمزيد من العمل الأساسي إذا كان بإمكان الكمبيوتر التصفية من خلال قوائم لا حصر لها من استطلاعات العملاء أو مشكلات الدعم كل صباح.
في هذا الدليل ، سننظر في نمذجة الموضوع ، والطرق المختلفة لنمذجة الموضوع ، والحصول على بعض الخبرة العملية معها.
ما هو موضوع النمذجة؟
نمذجة الموضوع هي نوع من التنقيب عن النص يتم فيه الإحصاء غير الخاضع للإشراف والإشراف آلة التعلم يتم استخدام التقنيات لاكتشاف الاتجاهات في مجموعة أو حجم كبير من النص غير المهيكل.
يمكن أن يستغرق الأمر مجموعتك الضخمة من المستندات واستخدام طريقة تشابه لترتيب الكلمات في مجموعات من المصطلحات واكتشاف الموضوعات.
يبدو هذا معقدًا وصعبًا بعض الشيء ، لذلك دعونا نبسط إجراء نمذجة الموضوع!
افترض أنك تقرأ جريدة بها مجموعة من أقلام التظليل الملونة في يدك.
أليس هذا من الطراز القديم؟
أدرك أنه في هذه الأيام ، قلة من الناس يقرؤون الصحف المطبوعة ؛ كل شيء رقمي ، وأقلام التحديد أصبحت شيئًا من الماضي! تظاهر بأنك والدك أو والدتك!
لذلك ، عندما تقرأ الجريدة ، فإنك تسلط الضوء على المصطلحات المهمة.
افتراض آخر!
يمكنك استخدام صبغة مختلفة للتأكيد على الكلمات الرئيسية للموضوعات المختلفة. يمكنك تصنيف الكلمات الرئيسية بناءً على اللون والموضوعات المتوفرة.
كل مجموعة من الكلمات المميزة بلون معين هي قائمة من الكلمات الرئيسية لموضوع معين. يوضح مقدار الألوان المختلفة التي اخترتها عدد السمات.
هذا هو موضوع النمذجة الأساسية. يساعد في فهم مجموعات النصوص الكبيرة وتنظيمها وتلخيصها.
ومع ذلك ، ضع في اعتبارك أنه لكي تكون نماذج الموضوعات الآلية فعالة ، فإنها تتطلب قدرًا كبيرًا من المحتوى. إذا كان لديك ورقة قصيرة ، فقد ترغب في الذهاب إلى المدرسة القديمة واستخدام أقلام التظليل!
من المفيد أيضًا قضاء بعض الوقت في التعرف على البيانات. سيعطيك هذا إحساسًا أساسيًا بما يجب أن يجده نموذج الموضوع.
على سبيل المثال ، قد تكون تلك المذكرات حول علاقاتك الحالية والسابقة. وبالتالي ، كنت أتوقع أن يأتي صديقي الآلي الذي يعمل في مجال التنقيب عن الرسائل النصية بأفكار مماثلة.
يمكن أن يساعدك هذا في تحليل جودة الموضوعات التي حددتها بشكل أفضل ، وإذا لزم الأمر ، قم بتعديل مجموعات الكلمات الرئيسية.
مكونات نمذجة الموضوع
النموذج الاحتمالي
يتم دمج المتغيرات العشوائية والتوزيعات الاحتمالية في تمثيل حدث أو ظاهرة في النماذج الاحتمالية.
يوفر النموذج القطعي استنتاجًا واحدًا محتملاً لحدث ما ، بينما يوفر النموذج الاحتمالي توزيعًا احتماليًا كحل.
تأخذ هذه النماذج بعين الاعتبار حقيقة أننا نادراً ما نمتلك معرفة كاملة بالموقف. هناك دائمًا عنصر العشوائية الذي يجب مراعاته.
على سبيل المثال ، يعتمد التأمين على الحياة على حقيقة أننا نعلم أننا سنموت ، لكننا لا نعرف متى. قد تكون هذه النماذج حتمية جزئيًا أو عشوائية جزئيًا أو عشوائية بالكامل.
استرجاع المعلومات
استرجاع المعلومات (IR) هو برنامج يقوم بتنظيم وتخزين واسترجاع وتقييم المعلومات من مستودعات المستندات ، وخاصة المعلومات النصية.
تساعد التكنولوجيا المستخدمين على اكتشاف المعلومات التي يحتاجون إليها ، لكنها لا تقدم إجابات واضحة على استفساراتهم. يخطر بوجود وموقع الأوراق التي قد توفر المعلومات اللازمة.
المستندات ذات الصلة هي تلك التي تلبي احتياجات المستخدم. سيعيد نظام IR الخالي من العيوب المستندات المحددة فقط.
تماسك الموضوع
يسجل ترابط الموضوع موضوعًا واحدًا عن طريق حساب درجة التشابه الدلالي بين مصطلحات الموضوع ذات الدرجات العالية. تساعد هذه المقاييس في التمييز بين الموضوعات التي يمكن تفسيرها لغويًا والموضوعات التي تمثل نتائج استدلال إحصائي.
إذا كانت مجموعة من الادعاءات أو الحقائق تدعم بعضها البعض ، فيقال إنها متماسكة.
نتيجة لذلك ، يمكن فهم مجموعة الحقائق المتماسكة في سياق يشمل جميع الحقائق أو معظمها. "اللعبة هي رياضة جماعية" و "تُلعب بالكرة" و "تتطلب اللعبة مجهودًا بدنيًا هائلاً" كلها أمثلة على مجموعات حقائق متماسكة.
طرق مختلفة لنمذجة الموضوع
يمكن تنفيذ هذا الإجراء الحرج من خلال مجموعة متنوعة من الخوارزميات أو المنهجيات. من بين هؤلاء:
- تخصيص Dirichlet الكامن (LDA)
- عامل المصفوفة غير السلبي (NMF)
- التحليل الدلالي الكامن (LSA)
- التحليل الدلالي الكامن الاحتمالي (pLSA)
تخصيص Dirichlet الكامن (LDA)
لاكتشاف العلاقات بين النصوص المتعددة في مجموعة ما ، يتم استخدام المفهوم الإحصائي والرسومي لتخصيص Latent Dirichlet Allocation.
باستخدام نهج تعظيم الاستثناء المتغير (VEM) ، يتم تحقيق أكبر تقدير احتمالية من المجموعة الكاملة للنص.
تقليديا ، يتم اختيار الكلمات القليلة الأولى من حقيبة الكلمات.
ومع ذلك ، فإن الجملة لا معنى لها تماما.
وفقًا لهذه التقنية ، سيتم تمثيل كل نص من خلال توزيع احتمالي للموضوعات ، وكل موضوع من خلال توزيع احتمالي للكلمات.
عامل المصفوفة غير السلبي (NMF)
المصفوفة ذات القيم غير السلبية تعد عامل التخصيب أسلوبًا متطورًا لاستخراج الميزات.
عندما يكون هناك العديد من الصفات والسمات غامضة أو ضعيفة القدرة على التنبؤ ، فإن NMF تكون مفيدة. يمكن أن تولد NMF أنماطًا أو موضوعات أو موضوعات مهمة من خلال الجمع بين الخصائص.
ينشئ NMF كل ميزة كمجموعة خطية من مجموعة السمات الأصلية.
تحتوي كل ميزة على مجموعة من المعاملات التي تمثل أهمية كل سمة في السمة. كل سمة عددية وكل قيمة لكل سمة فئة لها معاملها الخاص.
جميع المعاملات موجبة.
التحليل الدلالي الكامن
إنها طريقة تعلم أخرى غير خاضعة للإشراف تُستخدم لاستخراج الارتباطات بين الكلمات في مجموعة من المستندات وهي التحليل الدلالي الكامن.
هذا يساعدنا على اختيار الوثائق المناسبة. وتتمثل مهمتها الأساسية في تقليل أبعاد مجموعة البيانات النصية الهائلة.
تعمل هذه البيانات غير الضرورية كضجيج في الخلفية في الحصول على الرؤى اللازمة من البيانات.
التحليل الدلالي الكامن الاحتمالي (pLSA)
التحليل الدلالي الاحتمالي الكامن (PLSA) ، المعروف أحيانًا بالفهرسة الدلالية الكامنة الاحتمالية (PLSI ، لا سيما في دوائر استرجاع المعلومات) ، هو نهج إحصائي لتحليل البيانات ثنائية الوضع والتواجد المشترك.
في الواقع ، على غرار التحليل الدلالي الكامن ، الذي ظهر منه PLSA ، يمكن اشتقاق تمثيل منخفض الأبعاد للمتغيرات المرصودة من حيث تقاربها مع متغيرات خفية معينة.
التدريب العملي على نمذجة الموضوع في بايثون
الآن ، سوف أطلعك على مهمة نمذجة الموضوع باستخدام Python لغة برمجة باستخدام مثال من العالم الحقيقي.
سأقوم بنمذجة المقالات البحثية. تأتي مجموعة البيانات التي سأستخدمها هنا من kaggle.com. يمكنك بسهولة الحصول على جميع الملفات التي أستخدمها في هذا العمل من هذا صفحة.
لنبدأ مع Topic Modeling باستخدام Python عن طريق استيراد جميع المكتبات الأساسية:
الخطوة التالية هي قراءة جميع مجموعات البيانات التي سأستخدمها في هذه المهمة:
تحليل البيانات استكشافية
EDA (تحليل البيانات الاستكشافية) هي طريقة إحصائية تستخدم العناصر المرئية. يستخدم الملخصات الإحصائية والتمثيلات الرسومية لاكتشاف الاتجاهات والأنماط واختبار الافتراضات.
سأقوم ببعض تحليل البيانات الاستكشافية قبل أن أبدأ نمذجة الموضوع لمعرفة ما إذا كانت هناك أي أنماط أو علاقات في البيانات:
سنجد الآن القيم الخالية لمجموعة بيانات الاختبار:
الآن سوف أرسم مدرج تكراري و boxplot للتحقق من العلاقة بين المتغيرات.
يختلف عدد الأحرف في مجموعة ملخصات القطار اختلافًا كبيرًا.
في القطار ، لدينا ما لا يقل عن 54 حرفًا ولا يزيد عن 4551 حرفًا. 1065 هو متوسط عدد الأحرف.
تبدو مجموعة الاختبار أكثر إثارة للاهتمام من مجموعة التدريب لأن مجموعة الاختبار بها 46 حرفًا بينما تحتوي مجموعة التدريب على 2841.
نتيجة لذلك ، بلغ متوسط مجموعة الاختبار 1058 حرفًا ، وهو ما يشبه مجموعة التدريب.
يتبع عدد الكلمات في مجموعة التعلم نمطًا مشابهًا لعدد الأحرف.
يُسمح بـ 8 كلمات على الأقل و 665 كلمة كحد أقصى. ونتيجة لذلك ، فإن متوسط عدد الكلمات هو 153.
مطلوب ما لا يقل عن سبع كلمات في الملخص و 452 كلمة كحد أقصى في مجموعة الاختبار.
الوسيط ، في هذه الحالة ، هو 153 ، وهو مطابق للمتوسط في مجموعة التدريب.
استخدام العلامات لنمذجة الموضوع
هناك العديد من استراتيجيات النمذجة للموضوع. سأستخدم العلامات في هذا التمرين ؛ دعنا نلقي نظرة على كيفية القيام بذلك من خلال فحص العلامات:
تطبيقات نمذجة الموضوع
- يمكن استخدام ملخص نصي لتمييز موضوع المستند أو الكتاب.
- يمكن استخدامه لإزالة تحيز المرشح من درجات الامتحان.
- يمكن استخدام نمذجة الموضوع لبناء العلاقات الدلالية بين الكلمات في النماذج القائمة على الرسم البياني.
- يمكن أن تعزز خدمة العملاء من خلال الكشف عن الكلمات الرئيسية والرد عليها في استفسار العميل. سيكون لدى العملاء ثقة أكبر بك نظرًا لأنك قدمت لهم المساعدة التي يحتاجونها في الوقت المناسب ودون التسبب في أي متاعب لهم. نتيجة لذلك ، يرتفع ولاء العملاء بشكل كبير ، وتزيد قيمة الشركة.
وفي الختام
نمذجة الموضوع هي نوع من النمذجة الإحصائية المستخدمة للكشف عن "الموضوعات" المجردة الموجودة في مجموعة من النصوص.
إنه شكل من أشكال النموذج الإحصائي المستخدم في آلة التعلم ومعالجة اللغة الطبيعية للكشف عن المفاهيم المجردة الموجودة في مجموعة من النصوص.
إنها طريقة تنقيب عن النص تُستخدم على نطاق واسع للعثور على الأنماط الدلالية الكامنة في النص الأساسي.
اترك تعليق