فهرست مندرجات[پنهان شدن][نمایش]
- 1. تفاوت بین یادگیری ماشین، هوش مصنوعی و یادگیری عمیق را توضیح دهید.
- 2. لطفاً انواع مختلف یادگیری ماشینی را توضیح دهید.
- 3. مبادله سوگیری در مقابل واریانس چیست؟
- 4. الگوریتم های یادگیری ماشین به طور قابل توجهی در طول زمان تکامل یافته اند. چگونه می توان الگوریتم مناسب را برای استفاده از یک مجموعه داده انتخاب کرد؟
- 5. کوواریانس و همبستگی چگونه با هم تفاوت دارند؟
- 6. در یادگیری ماشینی، خوشه بندی به چه معناست؟
- 7. الگوریتم یادگیری ماشینی ترجیحی شما چیست؟
- 8. رگرسیون خطی در یادگیری ماشینی: چیست؟
- 9. تفاوت های بین KNN و k-means خوشه بندی را شرح دهید.
- 10. "سوگیری انتخاب" برای شما به چه معناست؟
- 11. قضیه بیز دقیقا چیست؟
- 12. در یک مدل یادگیری ماشینی، "مجموعه آموزشی" و "مجموعه تست" چیست؟
- 13. فرضیه در یادگیری ماشین چیست؟
- 14. بیش از حد برازش یادگیری ماشینی به چه معناست و چگونه می توان از آن جلوگیری کرد؟
- 15. طبقه بندی کننده های Naive Bayes دقیقا چیست؟
- 16. توابع هزینه و توابع ضرر به چه معناست؟
- 17. چه چیزی یک مدل مولد را از مدل افتراقی متمایز می کند؟
- 18. تغییرات بین خطاهای نوع I و نوع II را شرح دهید.
- 19. در یادگیری ماشینی، تکنیک یادگیری Ensemble چیست؟
- 20. مدل های پارامتریک دقیقا چیست؟ مثال بزن
- 21. فیلترینگ مشارکتی را شرح دهید. و همچنین فیلتر مبتنی بر محتوا؟
- 22. منظورتون از سری تایم دقیقا چیه؟
- 23. تغییرات بین الگوریتم های Gradient Boosting و Random Forest را شرح دهید.
- 24. چرا به ماتریس سردرگمی نیاز دارید؟ چیست؟
- 25. تجزیه و تحلیل مؤلفه های اصلی دقیقاً چیست؟
- 26. چرا چرخش مؤلفه برای PCA (تحلیل مؤلفه اصلی) بسیار مهم است؟
- 27. چگونه تنظیم و عادی سازی با یکدیگر متفاوت است؟
- 28. نرمال سازی و استانداردسازی چه تفاوتی با یکدیگر دارند؟
- 29. «ضریب تورم واریانس» دقیقاً به چه معناست؟
- 30. بر اساس اندازه مجموعه آموزشی، چگونه یک طبقه بندی را انتخاب می کنید؟
- 31. از چه الگوریتمی در یادگیری ماشینی به عنوان "یادگیر تنبل" یاد می شود و چرا؟
- 32. منحنی ROC و AUC چیست؟
- 33. هایپرپارامترها چیست؟ چه چیزی آنها را از پارامترهای مدل منحصر به فرد می کند؟
- 34. امتیاز F1، یادآوری و دقت به چه معناست؟
- 35. اعتبار متقاطع دقیقاً چیست؟
- 36. فرض کنید متوجه شده اید که مدل شما دارای واریانس قابل توجهی است. به نظر شما کدام الگوریتم برای مدیریت این وضعیت مناسب تر است؟
- 37. چه چیزی رگرسیون ریج را از رگرسیون کمند متمایز می کند؟
- 38. کدام یک مهمتر است: عملکرد مدل یا دقت مدل؟ کدام یک و چرا آن را ترجیح می دهید؟
- 39. چگونه یک مجموعه داده با نابرابری را مدیریت می کنید؟
- 40. چگونه می توان بین تقویت و کیسه کردن تمایز قائل شد؟
- 41- تفاوت های یادگیری استقرایی و قیاسی را توضیح دهید.
- نتیجه
کسبوکارها از فناوریهای پیشرفته مانند هوش مصنوعی (AI) و یادگیری ماشینی برای افزایش دسترسی به اطلاعات و خدمات برای افراد استفاده میکنند.
این فناوری ها توسط صنایع مختلفی از جمله بانکداری، مالی، خرده فروشی، تولید و مراقبت های بهداشتی پذیرفته شده اند.
یکی از پرطرفدارترین نقشهای سازمانی با استفاده از هوش مصنوعی برای دانشمندان داده، مهندسان هوش مصنوعی، مهندسان یادگیری ماشین و تحلیلگران داده است.
این پست شما را از طریق انواع مختلف راهنمایی می کند فراگیری ماشین سوالات مصاحبه، از ابتدایی تا پیچیده، برای کمک به شما برای آماده شدن برای هر سوالی که ممکن است هنگام جستجوی شغل ایده آل خود از شما پرسیده شود.
1. تفاوت بین یادگیری ماشین، هوش مصنوعی و یادگیری عمیق را توضیح دهید.
هوش مصنوعی از انواع روشهای یادگیری ماشینی و یادگیری عمیق استفاده میکند که به سیستمهای کامپیوتری اجازه میدهد تا وظایفی را با استفاده از هوش انسانمانند با منطق و قوانین انجام دهند.
یادگیری ماشینی از انواع آمار و روشهای یادگیری عمیق استفاده میکند تا ماشینها را قادر میسازد از عملکرد قبلی خود بیاموزند و در انجام وظایف خاص به تنهایی و بدون نظارت انسان ماهرتر شوند.
Deep Learning مجموعهای از الگوریتمها است که به نرمافزار اجازه میدهد از خودش یاد بگیرد و عملکردهای تجاری مختلفی مانند تشخیص صدا و تصویر را انجام دهد.
سیستم هایی که چند لایه بودن خود را به نمایش می گذارند شبکه های عصبی حجم وسیعی از داده ها برای یادگیری قادر به انجام یادگیری عمیق هستند.
2. لطفاً انواع مختلف یادگیری ماشینی را توضیح دهید.
یادگیری ماشین به طور کلی در سه نوع مختلف وجود دارد:
- یادگیری نظارت شده: یک مدل با استفاده از داده های برچسب دار یا تاریخی در یادگیری ماشینی نظارت شده، پیش بینی ها یا قضاوت هایی را ایجاد می کند. مجموعه داده هایی که به منظور افزایش معنای خود برچسب گذاری یا برچسب گذاری شده اند، داده های برچسب دار نامیده می شوند.
- یادگیری بدون نظارت: ما داده های برچسب گذاری شده ای برای یادگیری بدون نظارت نداریم. در داده های ورودی، یک مدل می تواند الگوها، عجیب و غریب ها و همبستگی ها را بیابد.
- یادگیری تقویتی: مدل می تواند با استفاده از تقویت یاد بگیرید یادگیری و پاداشی که برای رفتار قبلی خود دریافت کرد.
3. مبادله سوگیری در مقابل واریانس چیست؟
برازش بیش از حد نتیجه سوگیری است، که درجه ای است که یک مدل با داده ها مطابقت دارد. سوگیری ناشی از فرضیات نادرست یا خیلی ساده در شماست الگوریتم یادگیری ماشین.
واریانس به اشتباهات ناشی از پیچیدگی در الگوریتم ML شما اشاره دارد که حساسیت به درجات زیادی از واریانس در داده های آموزشی و برازش بیش از حد ایجاد می کند.
واریانس میزان تغییر یک مدل وابسته به ورودی ها است.
به عبارت دیگر، مدلهای پایه بسیار مغرضانه و در عین حال پایدار هستند (واریانس کم). تطبیق بیش از حد یک مشکل در مدلهای پیچیده است، اگرچه آنها واقعیت مدل را نشان میدهند (سوگیری کم).
به منظور جلوگیری از تغییرات زیاد و سوگیری زیاد، یک معاوضه بین سوگیری و واریانس برای بهترین کاهش خطا ضروری است.
4. الگوریتم های یادگیری ماشین به طور قابل توجهی در طول زمان تکامل یافته اند. چگونه می توان الگوریتم مناسب را برای استفاده از یک مجموعه داده انتخاب کرد؟
تکنیک یادگیری ماشینی که باید مورد استفاده قرار گیرد فقط به نوع داده در یک مجموعه داده خاص بستگی دارد.
هنگامی که داده ها خطی هستند، از رگرسیون خطی استفاده می شود. اگر داده ها غیرخطی بودن را نشان دهند، روش بسته بندی بهتر عمل می کند. اگر داده ها باید برای اهداف تجاری ارزیابی یا تفسیر شوند، می توانیم از درخت های تصمیم یا SVM استفاده کنیم.
اگر مجموعه داده شامل عکس، فیلم و صدا باشد، شبکه های عصبی ممکن است برای به دست آوردن پاسخ دقیق مفید باشند.
انتخاب الگوریتم برای یک شرایط خاص یا مجموعه ای از داده ها را نمی توان تنها با یک معیار انجام داد.
برای هدف توسعه بهترین روش برازش، ابتدا باید داده ها را با استفاده از تحلیل داده های اکتشافی (EDA) بررسی کنیم و هدف استفاده از مجموعه داده را درک کنیم.
5. کوواریانس و همبستگی چگونه با هم تفاوت دارند؟
کوواریانس چگونگی ارتباط دو متغیر به یکدیگر و چگونگی تغییر یکی در پاسخ به تغییرات دیگری را ارزیابی می کند.
اگر نتیجه مثبت باشد، نشان می دهد که ارتباط مستقیمی بین متغیرها وجود دارد و با فرض ثابت ماندن همه شرایط دیگر، با افزایش یا کاهش متغیر پایه، افزایش یا کاهش می یابد.
همبستگی پیوند بین دو متغیر تصادفی را اندازه گیری می کند و تنها سه مقدار متمایز دارد: 1، 0، و -1.
6. در یادگیری ماشینی، خوشه بندی به چه معناست؟
روشهای یادگیری بدون نظارت که نقاط داده را با هم گروهبندی میکنند، خوشهبندی نامیده میشوند. با مجموعه ای از نقاط داده، تکنیک خوشه بندی را می توان اعمال کرد.
با استفاده از این استراتژی می توانید تمام نقاط داده را بر اساس عملکرد آنها گروه بندی کنید.
ویژگی ها و کیفیت نقاط داده ای که در یک دسته قرار می گیرند مشابه هستند، در حالی که نقاط داده ای که در گروه بندی های جداگانه قرار می گیرند متفاوت هستند.
از این روش می توان برای تجزیه و تحلیل داده های آماری استفاده کرد.
7. الگوریتم یادگیری ماشینی ترجیحی شما چیست؟
شما این شانس را دارید که ترجیحات و استعدادهای منحصر به فرد خود را در این سوال نشان دهید و همچنین دانش جامع خود را از تکنیک های متعدد یادگیری ماشین نشان دهید.
در اینجا چند الگوریتم یادگیری ماشین معمولی وجود دارد که باید در مورد آنها فکر کنید:
- رگرسیون خطی
- رگرسیون لجستیک
- ساده لوح بیز
- درختان تصمیم گیری
- K یعنی
- الگوریتم جنگل تصادفی
- K-نزدیکترین همسایه (KNN)
8. رگرسیون خطی در یادگیری ماشینی: چیست؟
یک الگوریتم یادگیری ماشین نظارت شده رگرسیون خطی است.
در تحلیل پیش بینی برای تعیین ارتباط خطی بین متغیرهای وابسته و مستقل استفاده می شود.
معادله رگرسیون خطی به صورت زیر است:
Y = A + BX
که در آن:
- متغیر ورودی یا مستقل X نامیده می شود.
- متغیر وابسته یا خروجی Y است.
- ضریب X b است و فاصله آن a است.
9. تفاوت های بین KNN و k-means خوشه بندی را شرح دهید.
تمایز اولیه این است که KNN (یک روش طبقه بندی، یادگیری نظارت شده) به نقاط برچسب گذاری شده نیاز دارد در حالی که k-means نیازی ندارد (الگوریتم خوشه بندی، یادگیری بدون نظارت).
با استفاده از K-Nearest Neighbors می توانید داده های برچسب گذاری شده را به یک نقطه بدون برچسب طبقه بندی کنید. خوشهبندی K-means از میانگین فاصله بین نقاط برای یادگیری نحوه گروهبندی نقاط بدون برچسب استفاده میکند.
10. "سوگیری انتخاب" برای شما به چه معناست؟
سوگیری در مرحله نمونه گیری آزمایش به دلیل عدم دقت آماری است.
به دلیل عدم دقت، یک گروه نمونه بیشتر از سایر گروه ها در آزمایش انتخاب می شود.
اگر سوگیری انتخاب تایید نشود، می تواند منجر به نتیجه گیری نادرست شود.
11. قضیه بیز دقیقا چیست؟
وقتی از احتمالات دیگر آگاه باشیم، میتوانیم با استفاده از قضیه بیز یک احتمال را تعیین کنیم. به عبارت دیگر، احتمال وقوع یک رخداد را بر اساس اطلاعات قبلی ارائه می دهد.
یک روش صحیح برای تخمین احتمالات شرطی توسط این قضیه ارائه شده است.
هنگام توسعه مشکلات مدلسازی پیشبینی طبقهبندی و تطبیق یک مدل با یک آموزش مجموعه داده در یادگیری ماشین، قضیه بیز اعمال می شود (به عنوان مثال ساده بیز، بیز بهینه Classifier).
12. در یک مدل یادگیری ماشینی، "مجموعه آموزشی" و "مجموعه تست" چیست؟
مجموعه آموزشی:
- مجموعه آموزشی شامل نمونه هایی است که برای تحلیل و یادگیری به مدل ارسال می شود.
- این داده های برچسب گذاری شده ای است که برای آموزش مدل استفاده می شود.
- به طور معمول، 70٪ از کل داده ها به عنوان مجموعه داده آموزشی استفاده می شود.
مجموعه تست:
- مجموعه آزمون برای ارزیابی دقت تولید فرضیه مدل استفاده می شود.
- ما بدون داده های برچسب دار تست می کنیم و سپس از برچسب ها برای تایید نتایج استفاده می کنیم.
- 30٪ باقی مانده به عنوان مجموعه داده آزمایشی استفاده می شود.
13. فرضیه در یادگیری ماشین چیست؟
یادگیری ماشینی استفاده از مجموعه داده های موجود را برای درک بهتر یک تابع مشخص که ورودی به خروجی را پیوند می دهد، امکان پذیر می کند. این به عنوان تقریب تابع شناخته می شود.
در این مورد، تقریب باید برای تابع هدف ناشناخته به کار گرفته شود تا تمام مشاهدات قابل تصور بر اساس موقعیت داده شده به بهترین شکل ممکن منتقل شود.
در یادگیری ماشینی، فرضیه مدلی است که به تخمین تابع هدف و تکمیل نگاشت ورودی به خروجی مناسب کمک می کند.
انتخاب و طراحی الگوریتمها امکان تعریف فضای فرضیههای احتمالی را فراهم میکند که میتواند توسط یک مدل نمایش داده شود.
برای یک فرضیه، از حروف کوچک h (h) استفاده می شود، اما h بزرگ (H) برای کل فضای فرضیه مورد جستجو استفاده می شود. این نمادها را به اختصار بررسی می کنیم:
- فرضیه (h) مدل خاصی است که نگاشت ورودی به خروجی را تسهیل میکند و میتواند متعاقباً برای ارزیابی و پیشبینی استفاده شود.
- مجموعه فرضیه (H) یک فضای قابل جستجو از فرضیه ها است که می تواند برای نگاشت ورودی ها به خروجی ها استفاده شود. قالب بندی مسئله، مدل و پیکربندی مدل چند نمونه از محدودیت های عمومی هستند.
14. بیش از حد برازش یادگیری ماشینی به چه معناست و چگونه می توان از آن جلوگیری کرد؟
هنگامی که یک ماشین تلاش می کند از یک مجموعه داده ناکافی یاد بگیرد، بیش از حد برازش اتفاق می افتد.
در نتیجه، برازش بیش از حد با حجم داده ها همبستگی معکوس دارد. رویکرد اعتبار سنجی متقابل اجازه می دهد تا از برازش بیش از حد برای مجموعه داده های کوچک اجتناب شود. یک مجموعه داده در این روش به دو قسمت تقسیم می شود.
مجموعه داده برای تست و آموزش شامل این دو بخش خواهد بود. مجموعه داده آموزشی برای ایجاد یک مدل استفاده می شود، در حالی که مجموعه داده آزمایشی برای ارزیابی مدل با استفاده از ورودی های مختلف استفاده می شود.
این روشی است که می توان از بیش از حد مناسب جلوگیری کرد.
15. طبقه بندی کننده های Naive Bayes دقیقا چیست؟
روش های مختلف طبقه بندی طبقه بندی کننده های Naive Bayes را تشکیل می دهند. مجموعهای از الگوریتمها که به این طبقهبندیکنندهها معروف هستند، همگی بر روی یک ایده اساسی کار میکنند.
فرضی که توسط طبقهبندیکنندههای ساده بیز ارائه میشود این است که وجود یا عدم وجود یک ویژگی هیچ ارتباطی با وجود یا عدم وجود ویژگی دیگر ندارد.
به عبارت دیگر، این همان چیزی است که ما از آن به عنوان "ساده لوح" یاد می کنیم زیرا این فرض را ایجاد می کند که هر ویژگی مجموعه داده به همان اندازه مهم و مستقل است.
طبقه بندی با استفاده از طبقه بندی کننده های ساده بیز انجام می شود. استفاده از آنها ساده است و در صورتی که فرض استقلال درست باشد، نتایج بهتری نسبت به پیش بینی های پیچیده تر ایجاد می کنند.
در تجزیه و تحلیل متن، فیلتر کردن هرزنامه ها و سیستم های توصیه از آنها استفاده می شود.
16. توابع هزینه و توابع ضرر به چه معناست؟
عبارت "عملکرد از دست دادن" به فرآیند محاسبه از دست دادن زمانی اشاره دارد که فقط یک قطعه از داده ها در نظر گرفته می شود.
برعکس، ما از تابع هزینه برای تعیین مقدار کل اشتباهات برای داده های متعدد استفاده می کنیم. هیچ تمایز قابل توجهی وجود ندارد.
به عبارت دیگر، در حالی که توابع هزینه، تفاوت را برای کل مجموعه داده آموزشی جمع میکنند، توابع ضرر برای ثبت تفاوت بین مقادیر واقعی و پیشبینیشده برای یک رکورد واحد طراحی شدهاند.
17. چه چیزی یک مدل مولد را از مدل افتراقی متمایز می کند؟
یک مدل متمایز تفاوت بین چندین دسته داده را می آموزد. یک مدل تولیدی انواع داده های مختلف را انتخاب می کند.
در مسائل طبقه بندی، مدل های متمایز اغلب از مدل های دیگر بهتر عمل می کنند.
18. تغییرات بین خطاهای نوع I و نوع II را شرح دهید.
موارد مثبت کاذب در دسته خطاهای نوع I قرار می گیرند، در حالی که منفی های کاذب در دسته خطاهای نوع II قرار می گیرند (ادعا می کنند که هیچ اتفاقی در زمانی که واقعاً رخ داده است).
19. در یادگیری ماشینی، تکنیک یادگیری Ensemble چیست؟
تکنیکی به نام یادگیری گروهی، بسیاری از مدلهای یادگیری ماشین را برای تولید مدلهای قویتر ترکیب میکند.
یک مدل به دلایل مختلفی می تواند متفاوت باشد. چند علت عبارتند از:
- جمعیت های مختلف
- فرضیه های مختلف
- روش های مختلف مدل سازی
هنگام استفاده از داده های آموزش و آزمایش مدل با مشکل مواجه خواهیم شد. سوگیری، واریانس و خطای کاهش ناپذیر انواع احتمالی این اشتباه هستند.
حال، ما این تعادل بین سوگیری و واریانس را در مدل یک مبادله بایاس واریانس می نامیم و همیشه باید وجود داشته باشد. این مبادله با استفاده از یادگیری گروهی انجام می شود.
اگرچه رویکردهای گروهی مختلفی در دسترس است، دو استراتژی مشترک برای ترکیب بسیاری از مدلها وجود دارد:
- یک رویکرد بومی به نام کیسهبندی از مجموعه آموزشی برای تولید مجموعههای آموزشی اضافی استفاده میکند.
- تقویت، یک تکنیک پیچیده تر: مانند کیسه زدن، تقویت برای یافتن فرمول وزنه برداری ایده آل برای یک ست تمرینی استفاده می شود.
20. مدل های پارامتریک دقیقا چیست؟ مثال بزن
در مدل های پارامتریک مقدار محدودی از پارامترها وجود دارد. برای پیش بینی داده ها، تنها چیزی که باید بدانید پارامترهای مدل است.
موارد زیر نمونه های معمولی هستند: رگرسیون لجستیک، رگرسیون خطی و SVMهای خطی. مدل های ناپارامتریک انعطاف پذیر هستند زیرا می توانند تعداد نامحدودی از پارامترها را شامل شوند.
پارامترهای مدل و وضعیت داده های مشاهده شده برای پیش بینی داده ها مورد نیاز است. در اینجا چند نمونه معمولی وجود دارد: مدل های موضوعدرخت تصمیم و k-نزدیک ترین همسایه ها.
21. فیلترینگ مشارکتی را شرح دهید. و همچنین فیلتر مبتنی بر محتوا؟
یک روش آزمایش شده و واقعی برای ایجاد پیشنهادات محتوای مناسب، فیلتر کردن مشارکتی است.
نوعی از سیستم توصیه به نام فیلتر مشارکتی، مطالب تازه را با ایجاد تعادل بین اولویتهای کاربر و علایق مشترک، پیشبینی میکند.
ترجیحات کاربر تنها چیزی است که سیستم های توصیه کننده مبتنی بر محتوا در نظر می گیرند. با توجه به انتخاب های قبلی کاربر، توصیه های جدیدی از مطالب مرتبط ارائه شده است.
22. منظورتون از سری تایم دقیقا چیه؟
سری زمانی مجموعه ای از اعداد به ترتیب صعودی است. در یک بازه زمانی از پیش تعیین شده، حرکت نقاط داده انتخاب شده را نظارت می کند و به صورت دوره ای نقاط داده را ضبط می کند.
حداقل یا حداکثر ورودی زمانی برای سری های زمانی وجود ندارد.
سری های زمانی اغلب توسط تحلیلگران برای تجزیه و تحلیل داده ها مطابق با نیازهای منحصر به فرد خود استفاده می شود.
23. تغییرات بین الگوریتم های Gradient Boosting و Random Forest را شرح دهید.
جنگل تصادفی:
- تعداد زیادی از درختان تصمیم در انتها با هم ترکیب می شوند و به عنوان جنگل های تصادفی شناخته می شوند.
- در حالی که افزایش گرادیان هر درخت را مستقل از دیگران تولید می کند، جنگل تصادفی هر درخت را یکی یکی می سازد.
- چند کلاسه تشخیص شی با جنگل های تصادفی به خوبی کار می کند.
افزایش گرادیان:
- در حالی که جنگلهای تصادفی در پایان فرآیند به درختهای تصمیم میپیوندند، ماشینهای تقویت گرادیان آنها را از ابتدا ترکیب میکنند.
- اگر پارامترها به طور مناسب تنظیم شوند، تقویت گرادیان از نظر نتایج از جنگلهای تصادفی بهتر عمل میکند، اما اگر مجموعه داده دارای مقادیر پرت، ناهنجاری یا نویز زیادی باشد، انتخاب هوشمندانهای نیست زیرا میتواند باعث شود مدل بیش از حد مناسب شود.
- هنگامی که داده های نامتعادل وجود دارد، همانطور که در ارزیابی ریسک بلادرنگ وجود دارد، افزایش گرادیان عملکرد خوبی دارد.
24. چرا به ماتریس سردرگمی نیاز دارید؟ چیست؟
جدولی که به عنوان ماتریس سردرگمی شناخته می شود، که گاهی اوقات به عنوان ماتریس خطا شناخته می شود، به طور گسترده ای برای نشان دادن عملکرد یک مدل طبقه بندی یا طبقه بندی کننده بر روی مجموعه ای از داده های آزمایشی که مقادیر واقعی آن ها مشخص است، استفاده می شود.
این ما را قادر می سازد تا ببینیم یک مدل یا الگوریتم چگونه عمل می کند. تشخیص سوء تفاهم در دوره های مختلف برای ما ساده می شود.
این به عنوان راهی برای ارزیابی عملکرد یک مدل یا الگوریتم است.
پیشبینیهای یک مدل طبقهبندی در یک ماتریس سردرگمی جمعآوری میشوند. مقادیر شمارش برچسب هر کلاس برای تجزیه تعداد کل پیشبینیهای صحیح و نادرست استفاده شد.
جزئیات مربوط به خطاهای ایجاد شده توسط طبقه بندی کننده و همچنین انواع مختلف خطاهای ناشی از طبقه بندی کننده ها را ارائه می دهد.
25. تجزیه و تحلیل مؤلفه های اصلی دقیقاً چیست؟
با به حداقل رساندن تعداد متغیرهایی که با یکدیگر همبستگی دارند، هدف به حداقل رساندن ابعاد جمع آوری داده ها است. اما مهم است که تنوع را تا حد امکان حفظ کنید.
متغیرها به مجموعه ای کاملاً جدید از متغیرها به نام مؤلفه های اصلی تغییر می کنند.
این رایانه های شخصی متعامد هستند زیرا بردارهای ویژه یک ماتریس کوواریانس هستند.
26. چرا چرخش مؤلفه برای PCA (تحلیل مؤلفه اصلی) بسیار مهم است؟
چرخش در PCA بسیار مهم است زیرا جداسازی بین واریانس های به دست آمده توسط هر جزء را بهینه می کند و تفسیر جزء را ساده تر می کند.
اگر مولفهها چرخانده نشوند، برای بیان تنوع مؤلفهها به مؤلفههای توسعهیافته نیاز داریم.
27. چگونه تنظیم و عادی سازی با یکدیگر متفاوت است؟
عادی سازی:
داده ها در طول نرمال سازی تغییر می کنند. اگر داده ها دارای مقیاس هایی هستند که به شدت متفاوت هستند، به خصوص از کم به زیاد، باید آن را عادی کنید. هر ستون را طوری تنظیم کنید که آمارهای اساسی همه با هم سازگار باشند.
برای اطمینان از عدم از دست دادن دقت، این می تواند مفید باشد. تشخیص سیگنال در حین نادیده گرفتن نویز یکی از اهداف آموزش مدل است.
اگر به مدل کنترل کامل داده شود تا خطا کاهش یابد، احتمال بیش از حد برازش وجود دارد.
منظم سازی:
در منظم سازی، تابع پیش بینی اصلاح می شود. این موضوع از طریق منظم سازی تحت کنترل است، که به نفع عملکردهای برازش ساده تر نسبت به موارد پیچیده است.
28. نرمال سازی و استانداردسازی چه تفاوتی با یکدیگر دارند؟
دو روش پرکاربرد برای مقیاس بندی ویژگی ها، نرمال سازی و استانداردسازی هستند.
عادی سازی:
- مقیاس مجدد داده ها برای مطابقت با محدوده [0,1] به عنوان نرمال سازی شناخته می شود.
- وقتی همه پارامترها باید مقیاس مثبت یکسانی داشته باشند، نرمال سازی مفید است، اما نقاط پرت مجموعه داده از بین می رود.
منظم سازی:
- داده ها برای داشتن میانگین 0 و انحراف معیار 1 به عنوان بخشی از فرآیند استانداردسازی مجدداً مقیاس می شوند (واریانس واحد)
29. «ضریب تورم واریانس» دقیقاً به چه معناست؟
نسبت واریانس مدل به واریانس مدل با تنها یک متغیر مستقل به عنوان عامل تورم تغییرات (VIF) شناخته می شود.
VIF مقدار چند خطی موجود در مجموعه ای از چندین متغیر رگرسیونی را تخمین می زند.
واریانس مدل (VIF) مدل با یک واریانس متغیر مستقل
30. بر اساس اندازه مجموعه آموزشی، چگونه یک طبقه بندی را انتخاب می کنید؟
یک مدل بایاس بالا و واریانس کم برای یک مجموعه تمرینی کوتاه بهتر عمل می کند، زیرا احتمال اضافه برازش کمتر است. ساده لوح بیز یک نمونه است.
به منظور نشان دادن تعاملات پیچیده تر برای یک مجموعه آموزشی بزرگ، مدلی با سوگیری کم و واریانس بالا ترجیح داده می شود. رگرسیون لجستیک یک مثال خوب است.
31. از چه الگوریتمی در یادگیری ماشینی به عنوان "یادگیر تنبل" یاد می شود و چرا؟
یک یادگیرنده کند، KNN یک الگوریتم یادگیری ماشینی است. از آنجایی که K-NN هر بار که بخواهد به جای یادگیری مقادیر یا متغیرهای یادگیری ماشینی از داده های آموزشی، فاصله را به صورت پویا محاسبه می کند، مجموعه داده آموزشی را به خاطر می سپارد.
این باعث می شود K-NN یک یادگیرنده تنبل باشد.
32. منحنی ROC و AUC چیست؟
عملکرد یک مدل طبقه بندی در تمام آستانه ها به صورت گرافیکی با منحنی ROC نشان داده می شود. دارای معیارهای نرخ مثبت واقعی و نرخ مثبت کاذب است.
به بیان ساده، ناحیه زیر منحنی ROC به عنوان AUC (مساحت زیر منحنی ROC) شناخته می شود. مساحت دو بعدی منحنی ROC از (0,0) تا AUC اندازه گیری می شود (1,1). برای ارزیابی مدلهای طبقهبندی باینری، از آن به عنوان یک آماره عملکرد استفاده میشود.
33. هایپرپارامترها چیست؟ چه چیزی آنها را از پارامترهای مدل منحصر به فرد می کند؟
یک متغیر داخلی مدل به عنوان پارامتر مدل شناخته می شود. با استفاده از داده های آموزشی، مقدار یک پارامتر تقریبی می شود.
برای مدل ناشناخته، یک هایپرپارامتر یک متغیر است. مقدار را نمی توان از روی داده ها تعیین کرد، بنابراین آنها اغلب برای محاسبه پارامترهای مدل استفاده می شوند.
34. امتیاز F1، یادآوری و دقت به چه معناست؟
اندازه گیری سردرگمی معیاری است که برای سنجش اثربخشی مدل طبقه بندی استفاده می شود. برای توضیح بهتر متریک سردرگمی می توان از عبارات زیر استفاده کرد:
TP: مثبت واقعی - اینها مقادیر مثبتی هستند که به درستی پیش بینی شده بودند. این نشان می دهد که مقادیر کلاس پیش بینی شده و کلاس واقعی هر دو مثبت هستند.
TN: منفی واقعی - اینها مقادیر نامطلوبی هستند که به دقت پیش بینی شده بودند. این نشان می دهد که هم ارزش کلاس واقعی و هم کلاس پیش بینی شده منفی هستند.
این مقادیر - مثبت کاذب و منفی کاذب - زمانی رخ می دهند که کلاس واقعی شما با کلاس پیش بینی شده متفاوت باشد.
اکنون،
نسبت نرخ مثبت واقعی (TP) به تمام مشاهدات انجام شده در کلاس واقعی را فراخوانی می نامند که به آن حساسیت نیز می گویند.
فراخوان TP/(TP+FN) است.
دقت معیاری برای ارزش پیشبینی مثبت است که تعداد موارد مثبتی را که مدل واقعاً پیشبینی میکند با تعداد مثبتهای صحیحی که به دقت پیشبینی میکند مقایسه میکند.
دقت TP/(TP + FP) است
ساده ترین معیار عملکرد برای درک دقت است، که فقط نسبت مشاهدات به درستی پیش بینی شده به همه مشاهدات است.
دقت برابر با (TP+TN)/(TP+FP+FN+TN) است.
دقت و یادآوری برای ارائه امتیاز F1 وزن و میانگین می شوند. در نتیجه این امتیاز هم مثبت کاذب و هم منفی کاذب را در نظر می گیرد.
F1 اغلب از دقت ارزشمندتر است، به خصوص اگر توزیع کلاسی نابرابر داشته باشید، حتی اگر به طور شهودی درک آن به اندازه دقت ساده نباشد.
بهترین دقت زمانی حاصل می شود که هزینه مثبت کاذب و منفی کاذب قابل مقایسه باشد. در صورتی که هزینه های مرتبط با مثبت کاذب و منفی کاذب به طور قابل توجهی متفاوت باشد، ترجیح داده می شود که هم دقت و هم یادآوری را در نظر بگیرید.
35. اعتبار متقاطع دقیقاً چیست؟
یک رویکرد نمونهگیری مجدد آماری به نام اعتبارسنجی متقاطع در یادگیری ماشینی، از چندین زیر مجموعه داده برای آموزش و ارزیابی الگوریتم یادگیری ماشین در چندین دور استفاده میکند.
دسته جدیدی از دادهها که برای آموزش مدل استفاده نشدهاند، با استفاده از اعتبارسنجی متقابل آزمایش میشوند تا ببینیم مدل چقدر آن را پیشبینی میکند. از تطبیق بیش از حد داده ها از طریق اعتبارسنجی متقابل جلوگیری می شود.
K-Fold متداولترین روش نمونهگیری مجدد کل مجموعه داده را به مجموعههای K با اندازههای مساوی تقسیم میکند. اعتبار متقاطع نامیده می شود.
36. فرض کنید متوجه شده اید که مدل شما دارای واریانس قابل توجهی است. به نظر شما کدام الگوریتم برای مدیریت این وضعیت مناسب تر است؟
مدیریت تنوع بالا
برای مشکلات با تغییرات زیاد باید از تکنیک کیسهبندی استفاده کنیم.
نمونه برداری مکرر از داده های تصادفی توسط الگوریتم بسته بندی برای تقسیم داده ها به زیر گروه ها استفاده می شود. هنگامی که داده ها تقسیم شدند، می توانیم از داده های تصادفی و یک روش آموزشی خاص برای تولید قوانین استفاده کنیم.
پس از آن، از نظرسنجی می توان برای ترکیب پیش بینی های مدل استفاده کرد.
37. چه چیزی رگرسیون ریج را از رگرسیون کمند متمایز می کند؟
دو روش منظم سازی پرکاربرد عبارتند از رگرسیون Lasso (همچنین L1) و Ridge (گاهی اوقات L2 نامیده می شود). آنها برای جلوگیری از برازش بیش از حد داده ها استفاده می شوند.
به منظور کشف بهترین راه حل و به حداقل رساندن پیچیدگی، از این تکنیک ها برای تنبیه ضرایب استفاده می شود. با جریمه کردن مجموع مقادیر مطلق ضرایب، رگرسیون کمند عمل می کند.
تابع جریمه در رگرسیون ریج یا L2 از مجموع مجذورات ضرایب به دست می آید.
38. کدام یک مهمتر است: عملکرد مدل یا دقت مدل؟ کدام یک و چرا آن را ترجیح می دهید؟
این یک سوال فریبنده است، بنابراین ابتدا باید درک کرد که عملکرد مدل چیست. اگر عملکرد به عنوان سرعت تعریف شود، آنگاه به نوع برنامه بستگی دارد. هر برنامه ای که شامل یک موقعیت بلادرنگ باشد به سرعت بالا به عنوان یک جزء حیاتی نیاز دارد.
به عنوان مثال، بهترین نتایج جستجو در صورتی که رسیدن نتایج Query بیش از حد طول بکشد ارزش کمتری خواهد داشت.
اگر از عملکرد به عنوان توجیهی برای اینکه چرا باید دقت و یادآوری را بالاتر از دقت اولویت بندی کرد، استفاده شود، آنگاه امتیاز F1 برای نشان دادن موارد تجاری برای هر مجموعه داده نامتعادل مفیدتر از دقت خواهد بود.
39. چگونه یک مجموعه داده با نابرابری را مدیریت می کنید؟
یک مجموعه داده نامتعادل می تواند از تکنیک های نمونه گیری بهره مند شود. نمونه برداری را می توان به صورت زیر یا بیش از حد نمونه انجام داد.
Under Sampling به ما اجازه می دهد تا اندازه کلاس اکثریت را برای مطابقت با کلاس اقلیت کوچک کنیم، که به افزایش سرعت با توجه به ذخیره سازی و اجرای زمان اجرا کمک می کند، اما همچنین می تواند منجر به از دست رفتن داده های ارزشمند شود.
به منظور رفع مشکل از دست دادن اطلاعات ناشی از نمونه برداری بیش از حد، کلاس Minority را نمونه برداری می کنیم. با این حال، این باعث می شود که ما با مسائل بیش از حد مناسب مواجه شویم.
استراتژی های اضافی عبارتند از:
- نمونهگیری مبتنی بر خوشهای- نمونههای کلاس اقلیت و اکثریت به صورت جداگانه تحت تکنیک خوشهبندی K-means در این موقعیت قرار میگیرند. این کار برای یافتن خوشه های داده انجام می شود. سپس، هر خوشه بیش از حد نمونه برداری می شود به طوری که همه کلاس ها اندازه یکسانی داشته باشند و همه خوشه های یک کلاس دارای تعداد مساوی نمونه باشند.
- SMOTE: روش نمونه برداری بیش از حد اقلیت مصنوعی- برشی از داده ها از کلاس اقلیت به عنوان مثال استفاده می شود، پس از آن نمونه های مصنوعی اضافی که با آن قابل مقایسه هستند تولید و به مجموعه داده اصلی اضافه می شوند. این روش با نقاط داده عددی به خوبی کار می کند.
40. چگونه می توان بین تقویت و کیسه کردن تمایز قائل شد؟
Ensemble Techniques نسخه هایی دارد که به عنوان bagging و boosting شناخته می شوند.
کیسه زدن-
برای الگوریتمهایی با تنوع بالا، کیسهبندی تکنیکی است که برای کاهش واریانس استفاده میشود. یکی از این دسته از طبقه بندی کننده ها که مستعد سوگیری است، خانواده درخت تصمیم است.
نوع دادههایی که درختهای تصمیم بر روی آنها آموزش میبینند، تأثیر قابلتوجهی بر عملکرد آنها دارد. به همین دلیل، حتی با تنظیم بسیار بالا، تعمیم نتایج در آنها گاهی بسیار دشوارتر است.
اگر داده های آموزشی درخت تصمیم تغییر کند، نتایج به طور قابل توجهی متفاوت است.
در نتیجه، کیسهبندی استفاده میشود که در آن درختهای تصمیمگیری زیادی ایجاد میشوند که هر کدام با استفاده از نمونهای از دادههای اصلی آموزش داده میشوند و نتیجه نهایی میانگین همه این مدلهای مختلف است.
تقویت:
تقویت تکنیک پیشبینی با یک سیستم طبقهبندی ضعیف است که در آن هر طبقهبندیکننده ضعیف کمبودهای طبقهبندیکننده قویتر خود را جبران میکند. ما به طبقهبندیکنندهای که در مجموعه دادهای معین عملکرد بدی دارد، بهعنوان «طبقهبندی ضعیف» یاد میکنیم.
بدیهی است که تقویت یک فرآیند است تا یک الگوریتم. رگرسیون لجستیک و درخت های تصمیم کم عمق نمونه های رایج طبقه بندی کننده های ضعیف هستند.
Adaboost، Gradient Boosting و XGBoost دو الگوریتم تقویت کننده محبوب هستند، با این حال، الگوریتم های بسیار بیشتری وجود دارد.
41- تفاوت های یادگیری استقرایی و قیاسی را توضیح دهید.
هنگامی که با مثال از مجموعه ای از مثال های مشاهده شده یاد می گیرد، یک مدل از یادگیری استقرایی برای رسیدن به یک نتیجه کلی استفاده می کند. از سوی دیگر، با یادگیری قیاسی، مدل قبل از اینکه نتیجه را شکل دهد، از نتیجه استفاده می کند.
یادگیری استقرایی فرآیند نتیجه گیری از مشاهدات است.
یادگیری قیاسی فرآیند ایجاد مشاهدات بر اساس استنتاج است.
نتیجه
تبریک میگم اینها 40 سؤال اصلی مصاحبه و بالاتر برای یادگیری ماشینی هستند که اکنون پاسخ آنها را می دانید. علم داده و هوش مصنوعی با پیشرفت فناوری، مشاغل همچنان مورد تقاضا خواهند بود.
داوطلبانی که دانش خود را در مورد این فناوری های پیشرفته به روز می کنند و مجموعه مهارت های خود را بهبود می بخشند، می توانند با دستمزد رقابتی فرصت های شغلی متنوعی پیدا کنند.
اکنون که درک کاملی از نحوه پاسخگویی به برخی از سوالات مصاحبه یادگیری ماشینی دارید، میتوانید به مصاحبهها پاسخ دهید.
بسته به اهدافتان، گام زیر را بردارید. با مراجعه به Hashdork's برای مصاحبه آماده شوید سری مصاحبه.
پاسخ دهید