یکی از معیارهای اولیه برای هر نوع فعالیت شرکتی، استفاده مؤثر از اطلاعات است. در برخی موارد، حجم داده های ایجاد شده از ظرفیت پردازش اولیه فراتر می رود.
اینجاست که الگوریتم های یادگیری ماشین وارد عمل می شوند. با این حال، قبل از وقوع هر یک از این موارد، اطلاعات باید مطالعه و تفسیر شوند. به طور خلاصه، این همان چیزی است که یادگیری ماشینی بدون نظارت برای آن استفاده می شود.
در این مقاله، یادگیری ماشینی بدون نظارت عمیق، از جمله الگوریتمهای آن، موارد استفاده و موارد دیگر را بررسی خواهیم کرد.
یادگیری ماشینی بدون نظارت چیست؟
الگوریتمهای یادگیری ماشین بدون نظارت، الگوهایی را در یک مجموعه داده شناسایی میکنند که پیامد شناخته شده یا برچسبگذاریشدهای ندارند. تحت نظارت الگوریتم های یادگیری ماشین خروجی برچسب دار داشته باشید
دانستن این تمایز به شما کمک میکند بفهمید چرا روشهای یادگیری ماشین بدون نظارت نمیتوانند برای حل مشکلات رگرسیون یا طبقهبندی استفاده شوند، زیرا نمیدانید مقدار/پاسخ دادههای خروجی چقدر میتواند باشد. اگر مقدار/پاسخ را ندانید، نمی توانید الگوریتمی را به طور معمول آموزش دهید.
علاوه بر این، یادگیری بدون نظارت می تواند برای شناسایی ساختار بنیادی داده ها مورد استفاده قرار گیرد. این الگوریتم ها الگوهای پنهان یا گروه بندی داده ها را بدون نیاز به تعامل انسانی تشخیص می دهند.
ظرفیت آن برای تشخیص شباهت ها و تضادها در اطلاعات، آن را به یک انتخاب عالی برای تجزیه و تحلیل داده های اکتشافی، تکنیک های فروش متقابل، تقسیم بندی مصرف کننده و شناسایی تصویر تبدیل می کند.
سناریوی زیر را در نظر بگیرید: در یک فروشگاه مواد غذایی هستید و میوه ای ناشناس می بینید که قبلاً هرگز ندیده اید. بر اساس مشاهدات خود از شکل، اندازه یا رنگ آن، می توانید به راحتی میوه ناشناخته را متفاوت از سایر میوه های اطراف تشخیص دهید.
الگوریتم های یادگیری ماشین بدون نظارت
خوشه بندی
خوشه بندی بدون شک پرکاربردترین رویکرد یادگیری بدون نظارت است. این رویکرد اقلام داده مرتبط را در خوشه هایی که به طور تصادفی تولید می شوند قرار می دهد.
یک مدل ML به خودی خود هر گونه الگو، شباهت و/یا تفاوت را در یک ساختار داده طبقه بندی نشده کشف می کند. یک مدل قادر خواهد بود هر گروه بندی یا کلاس طبیعی را در داده ها کشف کند.
انواع
انواع مختلفی از خوشه بندی وجود دارد که می توان از آنها استفاده کرد. بیایید ابتدا به مهمترین آنها نگاه کنیم.
- خوشهبندی انحصاری، که گاهی اوقات به عنوان خوشهبندی «سخت» شناخته میشود، نوعی گروهبندی است که در آن یک تکه داده تنها به یک خوشه تعلق دارد.
- خوشهبندی همپوشانی که اغلب به عنوان خوشهبندی «نرم» شناخته میشود، به اشیاء داده اجازه میدهد تا به بیش از یک خوشه به درجات مختلف تعلق داشته باشند. علاوه بر این، خوشهبندی احتمالی میتواند برای مقابله با مشکلات خوشهبندی «نرم» یا برآورد چگالی، و همچنین برای ارزیابی احتمال یا احتمال نقاط داده متعلق به خوشههای خاص مورد استفاده قرار گیرد.
- همانطور که از نام آن مشخص است، ایجاد سلسله مراتبی از اقلام داده گروه بندی شده، هدف خوشه بندی سلسله مراتبی است. اقلام داده بر اساس سلسله مراتب برای تولید خوشه ها تجزیه و یا ترکیب می شوند.
از موارد استفاده کنید:
- تشخیص ناهنجاری:
هر نوع پرت در داده ها را می توان با استفاده از خوشه بندی تشخیص داد. برای مثال، شرکتهای حملونقل و لجستیک میتوانند از تشخیص ناهنجاری برای کشف موانع لجستیکی یا افشای قطعات مکانیکی آسیبدیده (تعمیر و نگهداری پیشبینیشده) استفاده کنند.
موسسات مالی می توانند از این فناوری برای شناسایی تراکنش های تقلبی استفاده کنند و به سرعت پاسخ دهند و به طور بالقوه در هزینه های زیادی صرفه جویی کنند. با تماشای ویدیوی ما در مورد تشخیص ناهنجاری ها و تقلب بیشتر بیاموزید.
- تقسیم بندی مشتریان و بازارها:
الگوریتمهای خوشهبندی میتوانند به گروهبندی افرادی که ویژگیهای مشابهی دارند و ایجاد شخصیتهای مصرفکننده برای بازاریابی مؤثرتر و ابتکارات هدفمند کمک کنند.
k-means
K-means یک روش خوشه بندی است که به عنوان پارتیشن بندی یا تقسیم بندی نیز شناخته می شود. نقاط داده را به تعداد از پیش تعیین شده از خوشه ها به نام K تقسیم می کند.
در روش K-means، K ورودی است زیرا شما به کامپیوتر می گویید که چه تعداد خوشه را می خواهید در داده های خود شناسایی کنید. هر آیتم داده متعاقباً به نزدیکترین مرکز خوشه، که به عنوان مرکز (نقاط سیاه در تصویر) شناخته می شود، اختصاص داده می شود.
دومی به عنوان فضای ذخیره سازی داده عمل می کند. تکنیک خوشه بندی را می توان چندین بار انجام داد تا زمانی که خوشه ها به خوبی تعریف شوند.
K فازی به معنی
K-means فازی توسعه تکنیک K-means است که برای انجام خوشه بندی همپوشانی استفاده می شود. بر خلاف تکنیک K-means، K-means فازی نشان می دهد که نقاط داده ممکن است متعلق به بسیاری از خوشه ها با درجات مختلف مجاورت به هر یک باشند.
فاصله بین نقاط داده و مرکز خوشه برای محاسبه مجاورت استفاده می شود. در نتیجه، ممکن است مواردی وجود داشته باشد که خوشه های مختلف با هم همپوشانی داشته باشند.
مدل های مخلوط گاوسی
مدلهای مخلوط گاوسی (GMMs) روشی است که در خوشهبندی احتمالی استفاده میشود. از آنجایی که میانگین و واریانس ناشناخته هستند، مدلها فرض میکنند که تعداد ثابتی از توزیعهای گاوسی وجود دارد که هر کدام یک خوشه مجزا را نشان میدهند.
برای تعیین اینکه یک نقطه داده خاص به کدام خوشه تعلق دارد، این روش اساسا استفاده می شود.
خوشه بندی سلسله مراتبی
استراتژی خوشهبندی سلسله مراتبی میتواند با هر نقطه دادهای که به خوشهای متفاوت اختصاص داده میشود آغاز شود. دو خوشه که نزدیکترین آنها به یکدیگر هستند سپس در یک خوشه ترکیب می شوند. ادغام تکراری تا زمانی ادامه می یابد که تنها یک خوشه در بالا باقی بماند.
این روش به عنوان پایین به بالا یا تجمعی شناخته می شود. اگر همه اقلام دادهای را که به یک خوشه گره خوردهاند شروع کنید و سپس تقسیمبندیها را انجام دهید تا هر آیتم داده بهعنوان یک خوشه جداگانه اختصاص داده شود، این روش به عنوان خوشهبندی سلسله مراتبی از بالا به پایین یا تقسیمکننده شناخته میشود.
الگوریتم Apriori
تجزیه و تحلیل سبد بازار، الگوریتمهای پیشینی را رایج کرد و در نتیجه موتورهای پیشنهادی مختلفی برای پلتفرمهای موسیقی و فروشگاههای آنلاین ایجاد کرد.
آنها در مجموعه داده های تراکنشی برای یافتن مجموعه اقلام مکرر یا گروه بندی اقلام به منظور پیش بینی احتمال مصرف یک محصول بر اساس مصرف محصول دیگر استفاده می شوند.
به عنوان مثال، اگر من شروع به پخش رادیوی OneRepublic در Spotify با "Counting Stars" کنم، یکی از آهنگ های دیگر این کانال قطعاً یک آهنگ Imagine Dragon خواهد بود، مانند "Bad Liar".
این بر اساس عادات شنیداری قبلی من و همچنین الگوهای گوش دادن دیگران است. روشهای Apriori مجموعههای آیتمها را با استفاده از درخت هش شمارش میکنند و ابتدا از وسعت مجموعه دادهها عبور میکنند.
کاهش ابعاد
کاهش ابعاد نوعی یادگیری بدون نظارت است که از مجموعه ای از استراتژی ها برای به حداقل رساندن تعداد ویژگی ها - یا ابعاد - در یک مجموعه داده استفاده می کند. اجازه دهید شفاف سازی کنیم.
میتواند وسوسهانگیز باشد که در هنگام ایجاد دادههای خود تا حد امکان، دادهها را ترکیب کنید مجموعه داده برای یادگیری ماشین. ما را اشتباه نگیرید: این استراتژی به خوبی کار میکند زیرا دادههای بیشتر معمولاً یافتههای دقیقتری به دست میدهد.
فرض کنید که داده ها در فضای N-بعدی ذخیره می شوند و هر ویژگی ابعاد متفاوتی را نشان می دهد. اگر داده های زیادی وجود داشته باشد ممکن است صدها بعد وجود داشته باشد.
صفحات گسترده اکسل را در نظر بگیرید، با ستون هایی که ویژگی ها و ردیف هایی را نشان دهنده اقلام داده هستند. هنگامی که ابعاد بیش از حد وجود دارد، الگوریتمهای ML ممکن است عملکرد ضعیفی داشته باشند تجسم داده ها می تواند دشوار شود.
بنابراین منطقی است که ویژگی ها یا ابعاد را محدود کنیم و فقط اطلاعات مربوطه را منتقل کنیم. کاهش ابعاد فقط همین است. این اجازه می دهد تا مقدار قابل کنترلی از ورودی های داده را بدون به خطر انداختن یکپارچگی مجموعه داده ها کنترل کنید.
تجزیه و تحلیل مincipلفه های اصلی (PCA)
تحلیل مؤلفه اصلی یک رویکرد کاهش ابعاد است. از آن برای به حداقل رساندن تعداد ویژگی ها در مجموعه داده های عظیم استفاده می شود که منجر به سادگی بیشتر داده ها بدون کاهش دقت می شود.
فشرده سازی مجموعه داده با روشی به نام استخراج ویژگی انجام می شود. این نشان می دهد که عناصر مجموعه اصلی در یک مجموعه جدید و کوچکتر ترکیب شده اند. این صفات جدید به عنوان اجزای اولیه شناخته می شوند.
البته، الگوریتمهای دیگری نیز وجود دارد که میتوانید در برنامههای آموزشی بدون نظارت خود از آنها استفاده کنید. موارد ذکر شده در بالا فقط رایج ترین هستند، به همین دلیل است که آنها با جزئیات بیشتری مورد بحث قرار می گیرند.
کاربرد یادگیری بدون نظارت
- روش های یادگیری بدون نظارت برای کارهای ادراک بصری مانند تشخیص اشیا استفاده می شود.
- یادگیری ماشینی بدون نظارت جنبههای حیاتی را به سیستمهای تصویربرداری پزشکی میدهد، مانند شناسایی، طبقهبندی و تقسیمبندی تصویر، که در رادیولوژی و آسیبشناسی برای تشخیص سریع و قابل اعتماد بیماران استفاده میشود.
- یادگیری بدون نظارت می تواند به شناسایی روندهای داده ای کمک کند که می تواند برای ایجاد استراتژی های فروش متقابل موثرتر با استفاده از داده های گذشته در مورد رفتار مصرف کننده استفاده شود. در طول فرآیند پرداخت، این مورد توسط مشاغل آنلاین برای پیشنهاد افزونه های مناسب به مشتریان استفاده می شود.
- روشهای یادگیری بدون نظارت میتوانند حجم عظیمی از دادهها را برای یافتن موارد پرت غربال کنند. این ناهنجاریها ممکن است در مورد تجهیزات ناکارآمد، اشتباه انسانی یا نقضهای امنیتی هشدار دهند.
مسائل مربوط به یادگیری بدون نظارت
یادگیری بدون نظارت به طرق مختلف جذاب است، از پتانسیل یافتن بینش های مهم داده ها برای جلوگیری از برچسب گذاری پرهزینه داده ها عملیات با این حال، چندین اشکال در استفاده از این استراتژی برای آموزش وجود دارد مدل های یادگیری ماشین که باید از آن آگاه باشید. در اینجا چند نمونه آورده شده است.
- از آنجایی که دادههای ورودی فاقد برچسبهایی هستند که به عنوان کلیدهای پاسخ عمل میکنند، نتایج مدلهای یادگیری بدون نظارت میتواند دقیقتر باشد.
- یادگیری بدون نظارت اغلب با مجموعه داده های عظیم کار می کند، که می تواند پیچیدگی محاسباتی را افزایش دهد.
- این رویکرد مستلزم تایید خروجی توسط انسان، متخصص داخلی یا خارجی در موضوع تحقیق است.
- الگوریتم ها باید هر سناریوی ممکن را در طول مرحله آموزش بررسی و محاسبه کنند که مدتی طول می کشد.
نتیجه
استفاده موثر از داده ها کلید ایجاد یک مزیت رقابتی در یک بازار خاص است.
میتوانید دادهها را با استفاده از الگوریتمهای یادگیری ماشینی بدون نظارت تقسیمبندی کنید تا اولویتهای مخاطبان هدف خود را بررسی کنید یا تعیین کنید که عفونت خاصی به یک درمان خاص چگونه پاسخ میدهد.
چندین برنامه کاربردی وجود دارد، و دانشمندان دادهمهندسان و معماران می توانند به شما در تعیین اهداف و توسعه راه حل های منحصر به فرد ML برای شرکت شما کمک کنند.
پاسخ دهید