فهرست مندرجات[پنهان شدن][نمایش]
- 1. تایتانیک
- 2. طبقه بندی گل های ایرلندی
- 3. پیش بینی قیمت خانه بوستون
- 4. تست کیفیت شراب
- 5. پیش بینی بازار سهام
- 6. توصیه فیلم
- 7. پیش بینی واجد شرایط بودن بار
- 8. تجزیه و تحلیل احساسات با استفاده از داده های توییتر
- 9. پیش بینی فروش آینده
- 10. تشخیص اخبار جعلی
- 11. پیش بینی خرید کوپن
- 12. پیش بینی ریزش مشتری
- 13. پیش بینی فروش Wallmart
- 14. تحلیل داده های اوبر
- 15. تجزیه و تحلیل Covid-19
- نتیجه
یادگیری ماشینی یک مطالعه ساده در مورد نحوه آموزش یک برنامه یا الگوریتم کامپیوتری برای بهبود تدریجی یک شغل خاص ارائه شده در سطح بالا است. شناسایی تصویر، تشخیص تقلب، سیستم های توصیه و سایر برنامه های کاربردی یادگیری ماشین قبلاً ثابت شده است که محبوب هستند.
مشاغل ML کار انسان را ساده و کارآمد می کند و در زمان صرفه جویی می کند و نتیجه ای با کیفیت بالا را تضمین می کند. حتی گوگل، محبوب ترین موتور جستجوی جهان، از آن استفاده می کند فراگیری ماشین.
از تجزیه و تحلیل درخواست کاربر و تغییر نتیجه بر اساس نتایج گرفته تا نشان دادن موضوعات و تبلیغات پرطرفدار در رابطه با پرس و جو، گزینه های مختلفی در دسترس است.
فناوری ای که هم ادراکی باشد و هم خود تصحیح کننده باشد در آینده دور نیست.
یکی از بهترین راهها برای شروع، دستیابی به کار و طراحی یک پروژه است. بنابراین، ما فهرستی از 15 پروژه برتر یادگیری ماشین را برای مبتدیان جمع آوری کرده ایم تا شما را شروع کنید.
1. غول اسا
این اغلب به عنوان یکی از بزرگترین و لذت بخش ترین کارها برای هر کسی که علاقه مند به یادگیری بیشتر در مورد یادگیری ماشین است در نظر گرفته می شود. چالش تایتانیک یک پروژه یادگیری ماشینی پرطرفدار است که همچنین به عنوان یک راه خوب برای آشنایی با پلتفرم علم داده Kaggle عمل می کند. مجموعه داده تایتانیک از داده های واقعی از غرق شدن کشتی بدبخت تشکیل شده است.
این شامل جزئیاتی مانند سن فرد، وضعیت اجتماعی-اقتصادی، جنسیت، شماره کابین، بندر خروج، و مهمتر از همه، اینکه آیا آنها زنده مانده اند یا خیر!
تکنیک K-Nearest Neighbor و طبقهبندی درخت تصمیم برای تولید بهترین نتایج برای این پروژه تعیین شد. اگر به دنبال یک چالش سریع آخر هفته برای بهبود وضعیت خود هستید توانایی های یادگیری ماشینی، این یکی در Kaggle برای شماست.
2. طبقه بندی گل های ایرلندی
مبتدیان پروژه دسته بندی گل زنبق را دوست دارند و اگر در یادگیری ماشینی تازه کار هستید، این یک مکان عالی برای شروع است. طول کاسبرگ ها و گلبرگ ها شکوفه های زنبق را از سایر گونه ها متمایز می کند. هدف این پروژه جداسازی شکوفه ها به سه گونه است: ویرجینیا، ستوزا و ورسیکالر.
برای تمرینهای طبقهبندی، این پروژه از مجموعه داده گل زنبق استفاده میکند که به یادگیرندگان در یادگیری اصول برخورد با مقادیر و دادههای عددی کمک میکند. مجموعه داده گل زنبق یک مجموعه کوچک است که می تواند بدون نیاز به مقیاس گذاری در حافظه ذخیره شود.
3. پیش بینی قیمت خانه بوستون
معروف دیگر مجموعه داده برای مبتدیان در یادگیری ماشین داده های مسکن بوستون است. هدف آن پیش بینی ارزش خانه در محله های مختلف بوستون است. این شامل آمارهای حیاتی مانند سن، نرخ مالیات بر دارایی، نرخ جرم و جنایت و حتی نزدیکی به مراکز کار است که همه این موارد ممکن است بر قیمت مسکن تأثیر بگذارد.
مجموعه داده ساده و کوچک است، که آزمایش آن را برای تازه کارها ساده می کند. برای فهمیدن اینکه چه عواملی بر قیمت ملک در بوستون تأثیر میگذارند، از تکنیکهای رگرسیون به شدت بر روی پارامترهای مختلف استفاده میشود. این یک مکان عالی برای تمرین تکنیک های رگرسیون و ارزیابی عملکرد آنها است.
4. تست کیفیت شراب
شراب یک نوشیدنی الکلی غیرمعمول است که به سالها تخمیر نیاز دارد. در نتیجه، بطری شراب عتیقه یک شراب گران قیمت و با کیفیت است. انتخاب بطری شراب ایدهآل نیازمند سالها دانش مزه شراب است، و میتواند یک فرآیند بیسابقه باشد.
پروژه تست کیفیت شراب شراب ها را با استفاده از تست های فیزیکوشیمیایی مانند سطح الکل، اسیدیته ثابت، چگالی، pH و عوامل دیگر ارزیابی می کند. این پروژه همچنین معیارهای کیفی و کمیت شراب را تعیین می کند. در نتیجه، خرید شراب به یک نسیم تبدیل می شود.
5. پیش بینی بازار سهام
این ابتکار جالب است که آیا در بخش مالی کار می کنید یا نه. داده های بازار سهام به طور گسترده توسط دانشگاهیان، مشاغل و حتی به عنوان منبع درآمد ثانویه مورد مطالعه قرار می گیرد. توانایی یک دانشمند داده برای مطالعه و کاوش داده های سری زمانی نیز حیاتی است. داده های بازار سهام یک مکان عالی برای شروع است.
ماهیت این تلاش پیش بینی ارزش آتی سهام است. این بر اساس عملکرد فعلی بازار و همچنین آمار سال های گذشته است. Kaggle از سال 50 اطلاعات مربوط به شاخص NIFTY-2000 را جمع آوری کرده است و در حال حاضر هر هفته به روز می شود. از 1 ژانویه 2000، قیمت سهام بیش از 50 سازمان را شامل می شود.
6. توصیه فیلم
مطمئنم بعد از دیدن یک فیلم خوب این حس را داشته اید. آیا تا به حال این انگیزه را احساس کرده اید که با تماشای زیاد فیلم های مشابه، احساسات خود را تقویت کنید؟
ما می دانیم که سرویس های OTT مانند Netflix سیستم های توصیه خود را به میزان قابل توجهی بهبود بخشیده اند. به عنوان یک دانشجوی یادگیری ماشین، باید بدانید که چگونه چنین الگوریتم هایی مشتریان را بر اساس ترجیحات و بررسی های آنها هدف قرار می دهند.
مجموعه دادههای IMDB در Kaggle احتمالاً یکی از کاملترینها است که به مدلهای توصیهای اجازه میدهد بر اساس عنوان فیلم، رتبهبندی مشتری، ژانر و عوامل دیگر استنباط شوند. همچنین یک روش عالی برای یادگیری در مورد فیلترینگ مبتنی بر محتوا و مهندسی ویژگی است.
7. پیشبینی واجد شرایط بودن بار
جهان حول محور وام می چرخد. منبع اصلی سود بانکها از سود وام است. از این رو آنها تجارت اساسی آنها هستند.
افراد یا گروههایی از افراد تنها میتوانند با سرمایهگذاری پول در یک شرکت به امید افزایش ارزش آن در آینده، اقتصاد خود را گسترش دهند. گاهی برای اینکه بتوانید ریسک هایی از این قبیل را بپذیرید و حتی در برخی از لذت های دنیوی شریک شوید، طلب وام می کنید.
قبل از پذیرش وام، بانکها معمولاً فرآیند نسبتاً سختی را دنبال میکنند. از آنجایی که وامها جنبه حیاتی زندگی بسیاری از افراد را دارند، پیشبینی واجد شرایط بودن برای وامی که فردی برای آن درخواست میکند بسیار سودمند خواهد بود، و امکان برنامهریزی بهتر فراتر از پذیرش یا رد وام را فراهم میکند.
8. تجزیه و تحلیل احساسات با استفاده از داده های توییتر
با تشکر از شبکه های رسانه های اجتماعی مانند توییتر، فیس بوک و ردیت، برون یابی نظرات و روندها بسیار آسان شده است. این اطلاعات برای حذف نظرات در مورد رویدادها، افراد، ورزش ها و موضوعات دیگر استفاده می شود. ابتکارات یادگیری ماشینی مرتبط با عقیده کاوی در تنظیمات مختلفی از جمله کمپین های سیاسی و ارزیابی محصولات آمازون اعمال می شود.
این پروژه در نمونه کارها شما فوق العاده به نظر می رسد! برای تشخیص احساسات و تحلیل مبتنی بر جنبه، تکنیکهایی مانند ماشینهای بردار پشتیبان، رگرسیون و الگوریتمهای طبقهبندی را میتوان به طور گسترده مورد استفاده قرار داد (یافتن حقایق و نظرات).
9. پیش بینی فروش آینده
کسبوکارها و بازرگانان بزرگ B2C میخواهند بدانند که هر محصول موجودی آنها چقدر به فروش میرسد. پیشبینی فروش به صاحبان کسبوکار کمک میکند تا مشخص کنند کدام اقلام مورد تقاضا هستند. پیش بینی فروش دقیق به طور قابل توجهی هدر رفت را کاهش می دهد و در عین حال تأثیر افزایشی بر بودجه های آینده را نیز تعیین می کند.
خرده فروشانی مانند Walmart، IKEA، Big Basket و Big Bazaar از پیش بینی فروش برای برآورد تقاضای محصول استفاده می کنند. برای ساخت چنین پروژه های ML باید با تکنیک های مختلف پاکسازی داده های خام آشنا باشید. همچنین، درک خوبی از تحلیل رگرسیون، به ویژه رگرسیون خطی ساده، مورد نیاز است.
برای این نوع کارها، باید از کتابخانه هایی مانند Dora، Scrubadub، Pandas، NumPy و غیره استفاده کنید.
10. تشخیص اخبار جعلی
این یکی دیگر از تلاشهای پیشرفته یادگیری ماشینی است که هدف آن دانشآموزان مدرسه است. همانطور که همه ما می دانیم اخبار جعلی مانند آتش در حال انتشار است. همه چیز در رسانه های اجتماعی در دسترس است، از ارتباط افراد گرفته تا خواندن اخبار روزانه.
در نتیجه، تشخیص اخبار نادرست این روزها دشوارتر شده است. بسیاری از شبکههای اجتماعی بزرگ، مانند فیسبوک و توییتر، الگوریتمهایی برای تشخیص اخبار جعلی در پستها و فیدها دارند.
برای شناسایی اخبار نادرست، این نوع پروژه ML نیاز به درک کامل از چندین رویکرد NLP و الگوریتم های طبقه بندی (PassiveAggressiveClassifier یا Naive Bayes طبقه بندی کننده) دارد.
11. پیش بینی خرید کوپن
هنگامی که ویروس کرونا در سال 2020 به کره زمین حمله کرد، مشتریان به طور فزاینده ای به خرید آنلاین فکر می کنند. در نتیجه، مراکز خرید مجبور شده اند تجارت خود را به صورت آنلاین تغییر دهند.
از سوی دیگر، مشتریان همچنان به دنبال پیشنهادهای عالی هستند، همانطور که در فروشگاه ها بودند، و به طور فزاینده ای به دنبال کوپن های فوق العاده پس انداز هستند. حتی وب سایت هایی برای ایجاد کوپن برای چنین مشتریانی وجود دارد. با این پروژه می توانید در مورد داده کاوی در یادگیری ماشینی، تولید نمودارهای میله ای، نمودارهای دایره ای و هیستوگرام برای تجسم داده ها و مهندسی ویژگی ها بیاموزید.
برای تولید پیشبینیها، میتوانید به رویکردهای انتساب دادهها برای مدیریت مقادیر NA و شباهت کسینوس متغیرها نگاه کنید.
12. پیش بینی ریزش مشتری
مصرف کنندگان مهم ترین دارایی یک شرکت هستند و حفظ آنها برای هر کسب و کاری که هدف آن افزایش درآمد و ایجاد ارتباطات بلندمدت معنی دار با آنها است، حیاتی است.
علاوه بر این، هزینه به دست آوردن یک مشتری جدید پنج برابر بیشتر از هزینه حفظ یک مشتری موجود است. ریزش / فرسایش مشتری یک مشکل تجاری شناخته شده است که در آن مشتریان یا مشترکان تجارت با یک سرویس یا یک شرکت را متوقف می کنند.
آنها در حالت ایده آل دیگر مشتری پولی نخواهند بود. در صورتی که یک مشتری از آخرین تعامل مشتری با شرکت، مدت زمان خاصی گذشته باشد، اخاذی تلقی می شود. شناسایی اینکه آیا مشتری ریزش خواهد کرد یا خیر، و همچنین ارائه سریع اطلاعات مرتبط با هدف حفظ مشتری، برای کاهش ریزش بسیار مهم است.
مغز ما قادر به پیشبینی گردش مشتری برای میلیونها مشتری نیست. اینجا جایی است که یادگیری ماشین می تواند کمک کند.
13. پیش بینی فروش Wallmart
یکی از برجستهترین کاربردهای یادگیری ماشینی، پیشبینی فروش است که شامل شناسایی ویژگیهایی است که بر فروش محصول تأثیر میگذارد و حجم فروش آینده را پیشبینی میکند.
مجموعه داده Walmart، که حاوی دادههای فروش از 45 مکان است، در این مطالعه یادگیری ماشینی استفاده میشود. فروش هر فروشگاه، بر اساس دسته بندی، به صورت هفتگی در مجموعه داده گنجانده شده است. هدف از این پروژه یادگیری ماشینی پیشبینی فروش برای هر بخش در هر فروشگاه است تا بتوانند تصمیمهای بهتری برای بهینهسازی کانال مبتنی بر داده و برنامهریزی موجودی بگیرند.
کار با مجموعه داده Walmart دشوار است زیرا شامل رویدادهای نشانه گذاری انتخابی است که بر فروش تأثیر می گذارد و باید در نظر گرفته شود.
14. تجزیه و تحلیل داده های اوبر
وقتی نوبت به پیادهسازی و ادغام یادگیری ماشینی و یادگیری عمیق در برنامههایشان میرسد، سرویس محبوب اشتراکگذاری سواری فاصله چندانی با آنها ندارد. هر سال میلیاردها سفر را پردازش می کند و به مسافران اجازه می دهد در هر زمانی از روز یا شب سفر کنند.
از آنجایی که این پایگاه مشتریان بزرگی دارد، برای رسیدگی به شکایات مشتریان در اسرع وقت به خدمات استثنایی مشتری نیاز دارد.
اوبر مجموعه دادهای از میلیونها انتخاب دارد که میتواند از آنها برای تجزیه و تحلیل و نمایش سفرهای مشتری برای کشف بینش و بهبود تجربه مشتری استفاده کند.
15. تجزیه و تحلیل Covid-19
کووید-19 امروز جهان را فرا گرفته است، و نه صرفاً به معنای یک بیماری همه گیر. در حالی که متخصصان پزشکی بر تولید واکسن های موثر و ایمن سازی جهان تمرکز می کنند، دانشمندان داده خیلی عقب نیستند.
موارد جدید، تعداد فعال روزانه، تلفات و آمار آزمایشها همگی در اختیار عموم قرار میگیرند. پیش بینی ها به صورت روزانه بر اساس شیوع سارس در قرن گذشته انجام می شود. برای این کار، میتوانید از تحلیل رگرسیون استفاده کنید و از مدلهای پیشبینی مبتنی بر ماشین بردار پشتیبانی کنید.
نتیجه
به طور خلاصه، ما برخی از پروژه های برتر ML را مورد بحث قرار داده ایم که به شما در آزمایش برنامه نویسی یادگیری ماشین و همچنین درک ایده ها و اجرای آن کمک می کند. دانستن نحوه ادغام یادگیری ماشینی می تواند به شما کمک کند تا در حرفه خود پیشرفت کنید زیرا فناوری در هر صنعتی حاکم است.
در حین یادگیری یادگیری ماشینی، توصیه می کنیم که مفاهیم خود را تمرین کرده و همه الگوریتم های خود را بنویسید. نوشتن الگوریتم در حین یادگیری مهمتر از اجرای یک پروژه است و همچنین مزیتی در درک درست موضوعات برای شما فراهم می کند.
پاسخ دهید