جدول المحتويات[يخفي][يعرض]
أحد المعايير الأساسية لأي نوع من أنشطة الشركات هو الاستخدام الفعال للمعلومات. في مرحلة ما ، يتجاوز حجم البيانات التي تم إنشاؤها سعة المعالجة الأساسية.
هذا هو المكان الذي تلعب فيه خوارزميات التعلم الآلي. ومع ذلك ، قبل حدوث أي من هذا ، يجب دراسة المعلومات وتفسيرها. باختصار ، هذا هو ما يستخدم التعلم الآلي غير الخاضع للإشراف.
في هذه المقالة ، سنقوم بفحص التعلم الآلي غير الخاضع للإشراف بشكل متعمق ، بما في ذلك الخوارزميات وحالات الاستخدام وغير ذلك الكثير.
ما هو التعلم الآلي غير الخاضع للإشراف؟
تحدد خوارزميات التعلم الآلي غير الخاضعة للإشراف الأنماط في مجموعة البيانات التي ليس لها نتيجة معروفة أو مصنفة. إشراف خوارزميات التعلم الآلي لديك إخراج مسمى.
تساعدك معرفة هذا التمييز على فهم سبب عدم إمكانية استخدام أساليب التعلم الآلي غير الخاضعة للإشراف لحل مشكلات الانحدار أو التصنيف ، نظرًا لأنك لا تعرف قيمة / إجابة بيانات الإخراج. لا يمكنك تدريب خوارزمية بشكل طبيعي إذا كنت لا تعرف القيمة / الإجابة.
علاوة على ذلك ، يمكن استخدام التعلم غير الخاضع للإشراف لتحديد البنية الأساسية للبيانات. تكتشف هذه الخوارزميات الأنماط المخفية أو مجموعات البيانات دون الحاجة إلى تفاعل بشري.
إن قدرتها على اكتشاف أوجه التشابه والتباين في المعلومات تجعلها خيارًا رائعًا لتحليل البيانات الاستكشافية ، وتقنيات البيع المتقاطع ، وتجزئة المستهلك ، وتحديد الصورة.
ضع في اعتبارك السيناريو التالي: أنت في متجر بقالة وترى فاكهة مجهولة لم ترها من قبل. يمكنك بسهولة التمييز بين الفاكهة غير المعروفة والمختلفة عن غيرها من الفاكهة حولها بناءً على ملاحظاتك عن شكلها أو حجمها أو لونها.
خوارزميات التعلم الآلي غير الخاضعة للرقابة
التكتل
التجميع هو بلا شك نهج التعلم غير الخاضع للإشراف الأكثر استخدامًا. يضع هذا النهج عناصر البيانات ذات الصلة في مجموعات يتم إنشاؤها عشوائيًا.
في حد ذاته ، يكتشف نموذج ML أي أنماط و / أو أوجه تشابه و / أو اختلافات في بنية بيانات غير مصنفة. سيكون النموذج قادرًا على اكتشاف أي مجموعات أو فئات طبيعية في البيانات.
الأنواع
هناك عدة أشكال للتجميع يمكن استخدامها. دعونا نلقي نظرة على أهمها أولاً.
- التجميع الحصري ، المعروف أحيانًا باسم التجميع "الثابت" ، هو نوع من التجميع ينتمي فيه جزء واحد من البيانات إلى مجموعة واحدة فقط.
- يسمح التجميع المتداخل ، المعروف غالبًا باسم التجميع "الناعم" ، لكائنات البيانات بالانتماء إلى أكثر من مجموعة واحدة وبدرجات متفاوتة. علاوة على ذلك ، يمكن استخدام التجميع الاحتمالي لمعالجة مشاكل التجميع "الناعمة" أو تقدير الكثافة ، وكذلك لتقييم احتمال أو احتمالية وجود نقاط بيانات تنتمي إلى مجموعات معينة.
- إنشاء تسلسل هرمي لعناصر البيانات المجمعة هو هدف التجميع الهرمي ، كما يشير الاسم. يتم تفكيك عناصر البيانات أو دمجها بناءً على التسلسل الهرمي لإنشاء مجموعات.
استخدم حالات:
- إكتشاف عيب خلقي:
يمكن اكتشاف أي نوع من البيانات الخارجية باستخدام التجميع. يمكن للشركات العاملة في مجال النقل واللوجستيات ، على سبيل المثال ، الاستفادة من كشف الشذوذ لاكتشاف العوائق اللوجستية أو الكشف عن الأجزاء الميكانيكية التالفة (الصيانة التنبؤية).
يمكن للمؤسسات المالية استخدام التكنولوجيا لاكتشاف المعاملات الاحتيالية والاستجابة بسرعة ، مما قد يوفر الكثير من المال. تعرف على المزيد حول اكتشاف التشوهات والاحتيال من خلال مشاهدة الفيديو الخاص بنا.
- تقسيم العملاء والأسواق:
يمكن أن تساعد خوارزميات التجميع في تجميع الأشخاص الذين لديهم خصائص متشابهة وإنشاء شخصيات مستهلكين لتسويق أكثر فعالية ومبادرات هادفة.
K- الوسائل
K-mean هي طريقة تجميع تُعرف أيضًا باسم التقسيم أو التجزئة. يقسم نقاط البيانات إلى عدد محدد مسبقًا من المجموعات المعروفة باسم K.
في طريقة K-mean ، يعد K هو المدخلات لأنك تخبر الكمبيوتر عن عدد المجموعات التي تريد تحديدها في بياناتك. يتم لاحقًا تعيين كل عنصر من عناصر البيانات إلى أقرب مركز مجموعة ، والمعروف باسم النقطه الوسطى (النقاط السوداء في الصورة).
هذا الأخير بمثابة مساحات تخزين البيانات. يمكن إجراء تقنية التجميع عدة مرات حتى يتم تحديد المجموعات جيدًا.
ضبابي K- يعني
Fuzzy K-mean هو امتداد لتقنية K-mean ، والتي تستخدم للقيام بالتجميع المتداخل. على عكس تقنية K-mean ، تشير الوسائل الغامضة K إلى أن نقاط البيانات قد تنتمي إلى العديد من المجموعات بدرجات متفاوتة من القرب من كل منها.
يتم استخدام المسافة بين نقاط البيانات والنقطة الوسطى للعنقدة لحساب القرب. نتيجة لذلك ، يمكن أن تكون هناك مناسبات تتداخل فيها مجموعات مختلفة.
نماذج خليط غاوسي
نماذج الخليط الغاوسي (GMMs) هي طريقة مستخدمة في التجميع الاحتمالي. نظرًا لأن المتوسط والتباين غير معروفين ، تفترض النماذج أن هناك عددًا ثابتًا من توزيعات Gaussian ، يمثل كل منها مجموعة متميزة.
لتحديد الكتلة التي تنتمي إليها نقطة بيانات معينة ، يتم استخدام الطريقة بشكل أساسي.
المجموعات الهرمية
يمكن أن تبدأ استراتيجية التجميع الهرمي بكل نقطة بيانات مخصصة لمجموعة مختلفة. يتم دمج المجموعتين الأقرب لبعضهما البعض في كتلة واحدة. يستمر الدمج المتكرر حتى تبقى مجموعة واحدة فقط في الأعلى.
تُعرف هذه الطريقة بالطريقة التصاعدية أو التراكمية. إذا بدأت بجميع عناصر البيانات المرتبطة بنفس المجموعة ثم أجريت عمليات تقسيم حتى يتم تعيين كل عنصر بيانات كمجموعة منفصلة ، تُعرف الطريقة بالتجميع الهرمي من أعلى إلى أسفل أو تقسيمي.
خوارزمية Apriori
شاع تحليل سلة السوق خوارزميات apriori ، مما أدى إلى محركات توصية متنوعة لمنصات الموسيقى والمتاجر عبر الإنترنت.
يتم استخدامها في مجموعات بيانات المعاملات للعثور على مجموعات العناصر المتكررة ، أو مجموعات العناصر ، من أجل التنبؤ باحتمالية استهلاك منتج واحد بناءً على استهلاك منتج آخر.
على سبيل المثال ، إذا بدأت تشغيل راديو OneRepublic على Spotify بأغنية "Counting Stars" ، فمن المؤكد جدًا أن إحدى الأغاني الأخرى على هذه القناة ستكون أغنية Imagine Dragon ، مثل "Bad Liar".
يعتمد هذا على عادات الاستماع السابقة بالإضافة إلى أنماط الاستماع للآخرين. تحسب طرق Apriori مجموعات العناصر باستخدام شجرة التجزئة ، حيث تعبر عرض مجموعة البيانات أولاً.
تخفيض الأبعاد
يعد تقليل الأبعاد نوعًا من التعلم غير الخاضع للإشراف الذي يستخدم مجموعة من الاستراتيجيات لتقليل عدد الميزات - أو الأبعاد - في مجموعة البيانات. اسمح لنا بالتوضيح.
قد يكون من المغري دمج أكبر قدر ممكن من البيانات أثناء إنشاء ملف مجموعة بيانات للتعلم الآلي. لا تخطئ في فهمنا: تعمل هذه الاستراتيجية بشكل جيد لأن المزيد من البيانات عادةً ما تؤدي إلى نتائج أكثر دقة.
افترض أن البيانات مخزنة في فضاء N-dimensional ، حيث تمثل كل ميزة بُعدًا مختلفًا. قد يكون هناك مئات الأبعاد إذا كان هناك الكثير من البيانات.
ضع في اعتبارك جداول بيانات Excel ، مع أعمدة تمثل الخصائص والصفوف التي تمثل عناصر البيانات. عندما يكون هناك عدد كبير جدًا من الأبعاد ، قد تعمل خوارزميات ML بشكل سيئ و عرض مرئي للمعلومات يمكن أن تصبح صعبة.
لذلك من المنطقي تحديد الخصائص أو الأبعاد ، ونقل المعلومات ذات الصلة فقط. الحد من الأبعاد هو ذلك فقط. يسمح بكمية يمكن التحكم فيها من مدخلات البيانات دون المساس بسلامة مجموعة البيانات.
تحليل المكونات الرئيسية (PCA)
تحليل المكون الرئيسي هو نهج تقليل الأبعاد. يتم استخدامه لتقليل عدد الميزات في مجموعات البيانات الضخمة ، مما يؤدي إلى زيادة بساطة البيانات دون التضحية بالدقة.
يتم ضغط مجموعة البيانات بطريقة تُعرف باسم استخراج الميزات. يشير إلى أنه تم مزج عناصر من المجموعة الأصلية في مجموعة جديدة أصغر. تُعرف هذه السمات الجديدة بالمكونات الأساسية.
بالطبع ، هناك خوارزميات إضافية يمكنك استخدامها في تطبيقات التعلم غير الخاضعة للإشراف. العناصر المذكورة أعلاه هي الأكثر شيوعًا ، ولهذا تمت مناقشتها بمزيد من التفصيل.
تطبيق التعلم غير الخاضع للإشراف
- يتم استخدام طرق التعلم غير الخاضعة للإشراف لمهام الإدراك البصري مثل التعرف على الأشياء.
- يوفر التعلم الآلي غير الخاضع للإشراف جوانب مهمة لأنظمة التصوير الطبي ، مثل تحديد الصور ، والتصنيف ، والتجزئة ، والتي تُستخدم في الأشعة وعلم الأمراض لتشخيص المرضى بسرعة وبشكل موثوق.
- يمكن أن يساعد التعلم غير الخاضع للإشراف في تحديد اتجاهات البيانات التي يمكن استخدامها لإنشاء استراتيجيات بيع أكثر فعالية باستخدام البيانات السابقة عن سلوك المستهلك. أثناء عملية الدفع ، يتم استخدام هذا من قبل الشركات عبر الإنترنت لاقتراح الوظائف الإضافية المناسبة للعملاء.
- يمكن لأساليب التعلم غير الخاضعة للإشراف غربلة كميات هائلة من البيانات للعثور على القيم المتطرفة. قد تثير هذه التشوهات إشعارًا بوجود خلل في المعدات أو خطأ بشري أو انتهاكات أمنية.
مشاكل التعلم غير الخاضع للإشراف
يعد التعلم غير الخاضع للإشراف جذابًا بعدة طرق ، بدءًا من إمكانية العثور على رؤى مهمة بشأنه البيانات لتجنب تسمية البيانات المكلفة عمليات. ومع ذلك ، هناك العديد من العيوب لاستخدام هذه الاستراتيجية في التدريب نماذج التعلم الآلي التي يجب أن تكون على علم بها. وهنا بعض الأمثلة.
- نظرًا لأن بيانات الإدخال تفتقر إلى الملصقات التي تعمل كمفاتيح استجابة ، فقد تكون نتائج نماذج التعلم غير الخاضعة للإشراف أقل دقة.
- يعمل التعلم غير الخاضع للإشراف بشكل متكرر مع مجموعات بيانات ضخمة ، والتي يمكن أن تزيد من التعقيد الحسابي.
- يستلزم النهج تأكيد المخرجات من قبل البشر ، سواء أكانوا متخصصين داخليين أو خارجيين في موضوع التحقيق.
- يجب أن تدرس الخوارزميات وتحسب كل سيناريو محتمل طوال مرحلة التدريب ، والتي تستغرق بعض الوقت.
وفي الختام
يعد الاستخدام الفعال للبيانات هو المفتاح لإنشاء ميزة تنافسية في سوق معين.
يمكنك تقسيم البيانات باستخدام خوارزميات التعلم الآلي غير الخاضعة للرقابة لفحص تفضيلات جمهورك المستهدف أو لتحديد كيفية استجابة إصابة معينة لعلاج معين.
هناك العديد من التطبيقات العملية ، و علماء البياناتيمكن للمهندسين والمهندسين المعماريين مساعدتك في تحديد أهدافك وتطوير حلول ML فريدة لشركتك.
اترك تعليق