الگوریتم های یادگیری ماشین بدون نظارت

فهرست مندرجات[پنهان شدن][نمایش]

یادگیری ماشینی بدون نظارت چیست؟
الگوریتم های یادگیری ماشین بدون نظارت+-
کاربرد یادگیری بدون نظارت
مسائل مربوط به یادگیری بدون نظارت
نتیجه

یکی از معیارهای اولیه برای هر نوع فعالیت شرکتی، استفاده مؤثر از اطلاعات است. در برخی موارد، حجم داده های ایجاد شده از ظرفیت پردازش اولیه فراتر می رود.

اینجاست که الگوریتم های یادگیری ماشین وارد عمل می شوند. با این حال، قبل از وقوع هر یک از این موارد، اطلاعات باید مطالعه و تفسیر شوند. به طور خلاصه، این همان چیزی است که یادگیری ماشینی بدون نظارت برای آن استفاده می شود.

در این مقاله، یادگیری ماشینی بدون نظارت عمیق، از جمله الگوریتم‌های آن، موارد استفاده و موارد دیگر را بررسی خواهیم کرد.

یادگیری ماشینی بدون نظارت چیست؟

الگوریتم‌های یادگیری ماشین بدون نظارت، الگوهایی را در یک مجموعه داده شناسایی می‌کنند که پیامد شناخته شده یا برچسب‌گذاری‌شده‌ای ندارند. تحت نظارت الگوریتم های یادگیری ماشین خروجی برچسب دار داشته باشید

دانستن این تمایز به شما کمک می‌کند بفهمید چرا روش‌های یادگیری ماشین بدون نظارت نمی‌توانند برای حل مشکلات رگرسیون یا طبقه‌بندی استفاده شوند، زیرا نمی‌دانید مقدار/پاسخ داده‌های خروجی چقدر می‌تواند باشد. اگر مقدار/پاسخ را ندانید، نمی توانید الگوریتمی را به طور معمول آموزش دهید.

علاوه بر این، یادگیری بدون نظارت می تواند برای شناسایی ساختار بنیادی داده ها مورد استفاده قرار گیرد. این الگوریتم ها الگوهای پنهان یا گروه بندی داده ها را بدون نیاز به تعامل انسانی تشخیص می دهند.

ظرفیت آن برای تشخیص شباهت ها و تضادها در اطلاعات، آن را به یک انتخاب عالی برای تجزیه و تحلیل داده های اکتشافی، تکنیک های فروش متقابل، تقسیم بندی مصرف کننده و شناسایی تصویر تبدیل می کند.

سناریوی زیر را در نظر بگیرید: در یک فروشگاه مواد غذایی هستید و میوه ای ناشناس می بینید که قبلاً هرگز ندیده اید. بر اساس مشاهدات خود از شکل، اندازه یا رنگ آن، می توانید به راحتی میوه ناشناخته را متفاوت از سایر میوه های اطراف تشخیص دهید.

الگوریتم های یادگیری ماشین بدون نظارت

خوشه بندی

خوشه بندی بدون شک پرکاربردترین رویکرد یادگیری بدون نظارت است. این رویکرد اقلام داده مرتبط را در خوشه هایی که به طور تصادفی تولید می شوند قرار می دهد.

یک مدل ML به خودی خود هر گونه الگو، شباهت و/یا تفاوت را در یک ساختار داده طبقه بندی نشده کشف می کند. یک مدل قادر خواهد بود هر گروه بندی یا کلاس طبیعی را در داده ها کشف کند.

خوشه بندی

انواع

انواع مختلفی از خوشه بندی وجود دارد که می توان از آنها استفاده کرد. بیایید ابتدا به مهمترین آنها نگاه کنیم.

خوشه‌بندی انحصاری، که گاهی اوقات به عنوان خوشه‌بندی «سخت» شناخته می‌شود، نوعی گروه‌بندی است که در آن یک تکه داده تنها به یک خوشه تعلق دارد.
خوشه‌بندی همپوشانی که اغلب به عنوان خوشه‌بندی «نرم» شناخته می‌شود، به اشیاء داده اجازه می‌دهد تا به بیش از یک خوشه به درجات مختلف تعلق داشته باشند. علاوه بر این، خوشه‌بندی احتمالی می‌تواند برای مقابله با مشکلات خوشه‌بندی «نرم» یا برآورد چگالی، و همچنین برای ارزیابی احتمال یا احتمال نقاط داده متعلق به خوشه‌های خاص مورد استفاده قرار گیرد.
همانطور که از نام آن مشخص است، ایجاد سلسله مراتبی از اقلام داده گروه بندی شده، هدف خوشه بندی سلسله مراتبی است. اقلام داده بر اساس سلسله مراتب برای تولید خوشه ها تجزیه و یا ترکیب می شوند.

از موارد استفاده کنید:

تشخیص ناهنجاری:

هر نوع پرت در داده ها را می توان با استفاده از خوشه بندی تشخیص داد. برای مثال، شرکت‌های حمل‌ونقل و لجستیک می‌توانند از تشخیص ناهنجاری برای کشف موانع لجستیکی یا افشای قطعات مکانیکی آسیب‌دیده (تعمیر و نگهداری پیش‌بینی‌شده) استفاده کنند.

موسسات مالی می توانند از این فناوری برای شناسایی تراکنش های تقلبی استفاده کنند و به سرعت پاسخ دهند و به طور بالقوه در هزینه های زیادی صرفه جویی کنند. با تماشای ویدیوی ما در مورد تشخیص ناهنجاری ها و تقلب بیشتر بیاموزید.

تقسیم بندی مشتریان و بازارها:

الگوریتم‌های خوشه‌بندی می‌توانند به گروه‌بندی افرادی که ویژگی‌های مشابهی دارند و ایجاد شخصیت‌های مصرف‌کننده برای بازاریابی مؤثرتر و ابتکارات هدفمند کمک کنند.

k-means

K-means یک روش خوشه بندی است که به عنوان پارتیشن بندی یا تقسیم بندی نیز شناخته می شود. نقاط داده را به تعداد از پیش تعیین شده از خوشه ها به نام K تقسیم می کند.

در روش K-means، K ورودی است زیرا شما به کامپیوتر می گویید که چه تعداد خوشه را می خواهید در داده های خود شناسایی کنید. هر آیتم داده متعاقباً به نزدیکترین مرکز خوشه، که به عنوان مرکز (نقاط سیاه در تصویر) شناخته می شود، اختصاص داده می شود.

K به معنی

دومی به عنوان فضای ذخیره سازی داده عمل می کند. تکنیک خوشه بندی را می توان چندین بار انجام داد تا زمانی که خوشه ها به خوبی تعریف شوند.

K فازی به معنی

K-means فازی توسعه تکنیک K-means است که برای انجام خوشه بندی همپوشانی استفاده می شود. بر خلاف تکنیک K-means، K-means فازی نشان می دهد که نقاط داده ممکن است متعلق به بسیاری از خوشه ها با درجات مختلف مجاورت به هر یک باشند.

فاصله بین نقاط داده و مرکز خوشه برای محاسبه مجاورت استفاده می شود. در نتیجه، ممکن است مواردی وجود داشته باشد که خوشه های مختلف با هم همپوشانی داشته باشند.

مدل های مخلوط گاوسی

مدل‌های مخلوط گاوسی (GMMs) روشی است که در خوشه‌بندی احتمالی استفاده می‌شود. از آنجایی که میانگین و واریانس ناشناخته هستند، مدل‌ها فرض می‌کنند که تعداد ثابتی از توزیع‌های گاوسی وجود دارد که هر کدام یک خوشه مجزا را نشان می‌دهند.

برای تعیین اینکه یک نقطه داده خاص به کدام خوشه تعلق دارد، این روش اساسا استفاده می شود.

خوشه بندی سلسله مراتبی

استراتژی خوشه‌بندی سلسله مراتبی می‌تواند با هر نقطه داده‌ای که به خوشه‌ای متفاوت اختصاص داده می‌شود آغاز شود. دو خوشه که نزدیکترین آنها به یکدیگر هستند سپس در یک خوشه ترکیب می شوند. ادغام تکراری تا زمانی ادامه می یابد که تنها یک خوشه در بالا باقی بماند.

این روش به عنوان پایین به بالا یا تجمعی شناخته می شود. اگر همه اقلام داده‌ای را که به یک خوشه گره خورده‌اند شروع کنید و سپس تقسیم‌بندی‌ها را انجام دهید تا هر آیتم داده به‌عنوان یک خوشه جداگانه اختصاص داده شود، این روش به عنوان خوشه‌بندی سلسله مراتبی از بالا به پایین یا تقسیم‌کننده شناخته می‌شود.

الگوریتم Apriori

تجزیه و تحلیل سبد بازار، الگوریتم‌های پیشینی را رایج کرد و در نتیجه موتورهای پیشنهادی مختلفی برای پلتفرم‌های موسیقی و فروشگاه‌های آنلاین ایجاد کرد.

آنها در مجموعه داده های تراکنشی برای یافتن مجموعه اقلام مکرر یا گروه بندی اقلام به منظور پیش بینی احتمال مصرف یک محصول بر اساس مصرف محصول دیگر استفاده می شوند.

به عنوان مثال، اگر من شروع به پخش رادیوی OneRepublic در Spotify با "Counting Stars" کنم، یکی از آهنگ های دیگر این کانال قطعاً یک آهنگ Imagine Dragon خواهد بود، مانند "Bad Liar".

این بر اساس عادات شنیداری قبلی من و همچنین الگوهای گوش دادن دیگران است. روش‌های Apriori مجموعه‌های آیتم‌ها را با استفاده از درخت هش شمارش می‌کنند و ابتدا از وسعت مجموعه داده‌ها عبور می‌کنند.

کاهش ابعاد

کاهش ابعاد نوعی یادگیری بدون نظارت است که از مجموعه ای از استراتژی ها برای به حداقل رساندن تعداد ویژگی ها - یا ابعاد - در یک مجموعه داده استفاده می کند. اجازه دهید شفاف سازی کنیم.

می‌تواند وسوسه‌انگیز باشد که در هنگام ایجاد داده‌های خود تا حد امکان، داده‌ها را ترکیب کنید مجموعه داده برای یادگیری ماشین. ما را اشتباه نگیرید: این استراتژی به خوبی کار می‌کند زیرا داده‌های بیشتر معمولاً یافته‌های دقیق‌تری به دست می‌دهد.

فرض کنید که داده ها در فضای N-بعدی ذخیره می شوند و هر ویژگی ابعاد متفاوتی را نشان می دهد. اگر داده های زیادی وجود داشته باشد ممکن است صدها بعد وجود داشته باشد.

صفحات گسترده اکسل را در نظر بگیرید، با ستون هایی که ویژگی ها و ردیف هایی را نشان دهنده اقلام داده هستند. هنگامی که ابعاد بیش از حد وجود دارد، الگوریتم‌های ML ممکن است عملکرد ضعیفی داشته باشند تجسم داده ها می تواند دشوار شود.

بنابراین منطقی است که ویژگی ها یا ابعاد را محدود کنیم و فقط اطلاعات مربوطه را منتقل کنیم. کاهش ابعاد فقط همین است. این اجازه می دهد تا مقدار قابل کنترلی از ورودی های داده را بدون به خطر انداختن یکپارچگی مجموعه داده ها کنترل کنید.

تجزیه و تحلیل مincipلفه های اصلی (PCA)

تحلیل مؤلفه اصلی یک رویکرد کاهش ابعاد است. از آن برای به حداقل رساندن تعداد ویژگی ها در مجموعه داده های عظیم استفاده می شود که منجر به سادگی بیشتر داده ها بدون کاهش دقت می شود.

فشرده سازی مجموعه داده با روشی به نام استخراج ویژگی انجام می شود. این نشان می دهد که عناصر مجموعه اصلی در یک مجموعه جدید و کوچکتر ترکیب شده اند. این صفات جدید به عنوان اجزای اولیه شناخته می شوند.

البته، الگوریتم‌های دیگری نیز وجود دارد که می‌توانید در برنامه‌های آموزشی بدون نظارت خود از آنها استفاده کنید. موارد ذکر شده در بالا فقط رایج ترین هستند، به همین دلیل است که آنها با جزئیات بیشتری مورد بحث قرار می گیرند.

کاربرد یادگیری بدون نظارت

روش های یادگیری بدون نظارت برای کارهای ادراک بصری مانند تشخیص اشیا استفاده می شود.
یادگیری ماشینی بدون نظارت جنبه‌های حیاتی را به سیستم‌های تصویربرداری پزشکی می‌دهد، مانند شناسایی، طبقه‌بندی و تقسیم‌بندی تصویر، که در رادیولوژی و آسیب‌شناسی برای تشخیص سریع و قابل اعتماد بیماران استفاده می‌شود.
یادگیری بدون نظارت می تواند به شناسایی روندهای داده ای کمک کند که می تواند برای ایجاد استراتژی های فروش متقابل موثرتر با استفاده از داده های گذشته در مورد رفتار مصرف کننده استفاده شود. در طول فرآیند پرداخت، این مورد توسط مشاغل آنلاین برای پیشنهاد افزونه های مناسب به مشتریان استفاده می شود.
روش‌های یادگیری بدون نظارت می‌توانند حجم عظیمی از داده‌ها را برای یافتن موارد پرت غربال کنند. این ناهنجاری‌ها ممکن است در مورد تجهیزات ناکارآمد، اشتباه انسانی یا نقض‌های امنیتی هشدار دهند.

مسائل مربوط به یادگیری بدون نظارت

یادگیری بدون نظارت به طرق مختلف جذاب است، از پتانسیل یافتن بینش های مهم داده ها برای جلوگیری از برچسب گذاری پرهزینه داده ها عملیات با این حال، چندین اشکال در استفاده از این استراتژی برای آموزش وجود دارد مدل های یادگیری ماشین که باید از آن آگاه باشید. در اینجا چند نمونه آورده شده است.

از آنجایی که داده‌های ورودی فاقد برچسب‌هایی هستند که به عنوان کلیدهای پاسخ عمل می‌کنند، نتایج مدل‌های یادگیری بدون نظارت می‌تواند دقیق‌تر باشد.
یادگیری بدون نظارت اغلب با مجموعه داده های عظیم کار می کند، که می تواند پیچیدگی محاسباتی را افزایش دهد.
این رویکرد مستلزم تایید خروجی توسط انسان، متخصص داخلی یا خارجی در موضوع تحقیق است.
الگوریتم ها باید هر سناریوی ممکن را در طول مرحله آموزش بررسی و محاسبه کنند که مدتی طول می کشد.

نتیجه

استفاده موثر از داده ها کلید ایجاد یک مزیت رقابتی در یک بازار خاص است.

می‌توانید داده‌ها را با استفاده از الگوریتم‌های یادگیری ماشینی بدون نظارت تقسیم‌بندی کنید تا اولویت‌های مخاطبان هدف خود را بررسی کنید یا تعیین کنید که عفونت خاصی به یک درمان خاص چگونه پاسخ می‌دهد.

چندین برنامه کاربردی وجود دارد، و دانشمندان دادهمهندسان و معماران می توانند به شما در تعیین اهداف و توسعه راه حل های منحصر به فرد ML برای شرکت شما کمک کنند.

الگوریتم های یادگیری ماشینی بدون نظارت

یادگیری ماشینی بدون نظارت چیست؟