مٿيان 40+ مشين لرننگ انٽرويو سوال (2024)

مواد جي جدول[لڪ][ڏسو]

1. مشين لرننگ، مصنوعي ذهانت، ۽ ڊيپ لرننگ جي وچ ۾ فرق بيان ڪريو.
2. مھرباني ڪري مشين جي سکيا جا مختلف قسم بيان ڪريو.
3. ڇا آهي تعصب بمقابله ويرينس ٽريڊ آف؟
4. مشين لرننگ الگورتھم وقت سان گڏ خاص طور تي ترقي ڪئي آھي. هڪ ڊيٽا سيٽ کي استعمال ڪرڻ لاءِ صحيح الورورٿم ڪيئن چونڊيو؟
5. همٿ ۽ لاڳاپو ڪيئن مختلف آهن؟
6. مشين لرننگ ۾، ڪلسترنگ جو مطلب ڇا آھي؟
7. توهان جي پسنديده مشين لرننگ الگورتھم ڇا آهي؟
8. مشين لرننگ ۾ لڪير ريگريشن: اهو ڇا آهي؟
9. KNN ۽ k-ميان ڪلسترنگ جي وچ ۾ فرق بيان ڪريو.
10. توهان لاءِ ”چونڊ جي تعصب“ جو ڇا مطلب آهي؟
11. بيز جو نظريو اصل ۾ ڇا آهي؟
12. مشين لرننگ ماڊل ۾، 'ٽريننگ سيٽ' ۽ 'ٽيسٽ سيٽ' ڇا آهن؟
13. مشين لرننگ ۾ هڪ مفروضو ڇا آهي؟
14. مشين لرننگ اوور فٽنگ جو مطلب ڇا آھي، ۽ ان کي ڪيئن روڪي سگھجي ٿو؟
15. اصل ۾ Naive Bayes classifier ڇا آهن؟
16. قيمت جي ڪم ۽ نقصان جي ڪمن جو مطلب ڇا آھي؟
17. ڇا هڪ تخليقي ماڊل کي تعصب واري نموني کان ڌار ڪري ٿو؟
18. ٽائپ I ۽ ٽائپ II جي غلطين جي وچ ۾ فرق بيان ڪريو.
19. مشين لرننگ ۾، Ensemble لرننگ ٽيڪنڪ ڇا آهي؟
20. اصل ۾ پيرا ميٽرڪ ماڊل ڇا آهن؟ هڪ مثال ڏيو.
21. وضاحت ڪريو تعاون واري فلٽرنگ. انهي سان گڏ مواد جي بنياد تي فلٽرنگ؟
22. ٽائيم سيريز مان توهان جو اصل مطلب ڇا آهي؟
23. Gradient Boosting ۽ Random Forest algorithms جي وچ ۾ فرق بيان ڪريو.
24. توهان کي مونجهارو ميٽرڪس جي ضرورت ڇو آهي؟ اهو ڇا آهي؟
25. اصل ۾ هڪ اصول جزو تجزيو ڇا آهي؟
26. PCA (پرنسپل جزو جي تجزيي) لاءِ جزو جي گردش ايتري اهم ڇو آهي؟
27. ريگولرائزيشن ۽ نارملائيزيشن ڪيئن هڪ ٻئي کان مختلف آهن؟
28. نارملائيزيشن ۽ معيار سازي ڪيئن هڪ ٻئي کان مختلف آهن؟
29. ”متغير انفليشن فيڪٽر“ جو اصل مطلب ڇا آهي؟
30. ٽريننگ سيٽ جي سائيز جي بنياد تي، توهان ڪئين درجه بندي چونڊيندا آهيو؟
31. مشين لرننگ ۾ ڪهڙي الگورتھم کي ”سست سکيا ڏيندڙ“ چئبو آهي ۽ ڇو؟
32. ROC وکر ۽ AUC ڇا آهن؟
33. hyperparameters ڇا آهن؟ ڇا انهن کي ماڊل پيٽرولر کان منفرد بڻائي ٿو؟
34. F1 سکور، ريڪال، ۽ درستي جو مطلب ڇا آھي؟
35. صحيح طور تي ڪراس تصديق ڇا آهي؟
36. اچو ته چئو ته توهان دريافت ڪيو ته توهان جي ماڊل ۾ هڪ اهم فرق آهي. ڪهڙو الگورتھم، توهان جي راء ۾، هن صورتحال کي سنڀالڻ لاء سڀ کان وڌيڪ مناسب آهي؟
37. ريج ريگريشن کي Lasso regression کان ڇا فرق ڪري ٿو؟
38. ڪهڙو وڌيڪ اهم آهي: ماڊل ڪارڪردگي يا ماڊل جي درستگي؟ ڪنهن کي ۽ ڇو پسند ڪندو؟
39. توهان غير مساواتن سان گڏ ڊيٽا سيٽ کي ڪيئن منظم ڪندا؟
40. بوسٽنگ ۽ بيگنگ جي وچ ۾ فرق ڪيئن ڪجي؟
41. inductive ۽ deductive learning جي وچ ۾ فرق بيان ڪريو.
ٿڪل

ڪاروبار استعمال ڪري رهيا آهن جديد ٽيڪنالاجي، جهڙوڪ مصنوعي ذهانت (AI) ۽ مشين لرننگ، ماڻهن تائين معلومات ۽ خدمتن جي پهچ کي وڌائڻ لاءِ.

اهي ٽيڪنالاجيون مختلف صنعتن پاران اختيار ڪيون ويون آهن، بشمول بينڪنگ، فنانس، پرچون، پيداوار، ۽ صحت جي سار سنڀار.

AI کي استعمال ڪندي سڀ کان وڌيڪ گهربل تنظيمي ڪردار ڊيٽا سائنسدانن، مصنوعي ذهانت انجنيئرز، مشين لرننگ انجنيئرز، ۽ ڊيٽا تجزيه نگارن لاءِ آهي.

هي پوسٽ توهان جي رهنمائي ڪندي مختلف قسم جي ذريعي مشين جي سکيا انٽرويو جا سوال، بنيادي کان پيچيده تائين، توهان جي ڪنهن به سوالن لاءِ تيار ٿيڻ ۾ مدد لاءِ جيڪي توهان کان پڇيا ويندا جڏهن توهان جي مثالي نوڪري ڳولي رهيا آهيو.

1. مشين لرننگ، مصنوعي ذهانت، ۽ ڊيپ لرننگ جي وچ ۾ فرق بيان ڪريو.

مصنوعي ذهانت ڪيترن ئي مشينن جي سکيا ۽ گہرے سکيا جي طريقن کي استعمال ڪري ٿي جيڪي ڪمپيوٽر سسٽم کي ڪم ڪرڻ جي اجازت ڏين ٿيون جيڪي منطق ۽ ضابطن سان انسان جهڙي ذهانت کي استعمال ڪندي.

مشين لرننگ مختلف قسم جا انگ اکر ۽ ڊيپ لرننگ اپروچ استعمال ڪري ٿي ته جيئن مشينن کي انهن جي اڳئين ڪارڪردگيءَ مان سکڻ ۽ انساني نگراني کان سواءِ ڪجهه خاص ڪم پاڻمرادو ڪرڻ ۾ وڌيڪ ماهر ٿئي.

ڊيپ لرننگ الگورتھم جو ھڪڙو مجموعو آھي جيڪو سافٽ ويئر کي پاڻ کان سکڻ جي اجازت ڏئي ٿو ۽ مختلف تجارتي ڪمن کي انجام ڏئي ٿو، جھڙوڪ آواز ۽ تصوير جي سڃاڻپ.

سسٽم جيڪي انهن جي گهڻائي کي ظاهر ڪن ٿا نظرياتي نيٽ ورڪ سکڻ لاءِ ڊيٽا جي وڏي مقدار ۾ ڊيپ سکيا ڪرڻ جي قابل آهن.

2. مھرباني ڪري مشين جي سکيا جا مختلف قسم بيان ڪريو.

مشيني سکيا ٽن مختلف قسمن ۾ وسيع طور تي موجود آهي:

نگراني ٿيل سکيا: هڪ ماڊل اڳڪٿيون يا فيصلا ٺاهي ٿو ليبل يا تاريخي ڊيٽا استعمال ڪندي نگراني ٿيل مشين لرننگ ۾. ڊيٽا سيٽ جيڪي ٽيگ يا ليبل ڪيا ويا آهن انهن جي معني کي وڌائڻ لاء ليبل ٿيل ڊيٽا طور حوالو ڏنو ويو آهي.
غير نگراني ٿيل سکيا: اسان وٽ غير نگراني ٿيل سکيا لاءِ ليبل ٿيل ڊيٽا نه آهي. ايندڙ ڊيٽا ۾، ھڪڙو نمونو ڳولي سگھي ٿو نمونن، عجيب، ۽ لاڳاپا.
قابليت جي سکيا: ماڊل ڪري سگھي ٿو reinforcement استعمال ڪندي سکو سکيا ۽ انعام جيڪي ان جي اڳئين رويي لاءِ مليا.

3. ڇا آهي تعصب بمقابله ويرينس ٽريڊ آف؟

اوورفٽنگ تعصب جو نتيجو آهي، جيڪو اهو درجو آهي جنهن ۾ ماڊل ڊيٽا کي پورو ڪري ٿو. تعصب توهان جي غلط يا تمام سادي مفروضن جي ڪري آهي مشين سکيا الگورتھم.

ويريئنس توهان جي ML الگورٿم ۾ پيچيدگي جي ڪري پيدا ٿيندڙ غلطين ڏانهن اشارو ڪري ٿو، جيڪا ٽريننگ ڊيٽا ۽ اوور فِٽنگ ۾ ويرينس جي وڏي درجي تي حساسيت پيدا ڪري ٿي.

ويرينس اهو آهي ته هڪ ماڊل ڪيترو مختلف آهي ان پٽ تي منحصر آهي.

ٻين لفظن ۾، بنيادي ماڊل انتهائي باصلاحيت اڃا تائين مستحڪم آهن (گهٽ ويرينس). اوورفٽنگ پيچيده ماڊل سان هڪ مسئلو آهي، جيتوڻيڪ اهي ان جي باوجود ماڊل جي حقيقت کي پڪڙيندا آهن (گهٽ تعصب).

اعليٰ تغير ۽ اعليٰ تعصب ٻنهي کي روڪڻ لاءِ، بهترين غلطي جي گھٽتائي لاءِ تعصب ۽ فرق جي وچ ۾ واپار ضروري آهي.

4. مشين لرننگ الگورتھم وقت سان گڏ خاص طور تي ترقي ڪئي آھي. هڪ ڊيٽا سيٽ کي استعمال ڪرڻ لاءِ صحيح الورورٿم ڪيئن چونڊيو؟

مشين لرننگ ٽيڪنڪ جنهن کي استعمال ڪيو وڃي صرف ان تي منحصر آهي ڊيٽا جي قسم تي مخصوص ڊيٽا سيٽ ۾.

جڏهن ڊيٽا لڪير آهي، لڪير ريگريشن استعمال ڪيو ويندو آهي. بيگنگ جو طريقو بھتر ٿيندو جيڪڏھن ڊيٽا غير لڪيريءَ جي نشاندهي ڪري. اسان استعمال ڪري سگهون ٿا فيصلو وڻ يا SVM جيڪڏهن ڊيٽا جو جائزو وٺڻ يا تجارتي مقصدن لاءِ تشريح ڪرڻي آهي.

نيورل نيٽ ورڪ صحيح جواب حاصل ڪرڻ لاءِ ڪارآمد ٿي سگھن ٿا جيڪڏھن ڊيٽا سيٽ ۾ تصويرون، وڊيوز ۽ آڊيو شامل آھن.

هڪ مخصوص صورتحال يا ڊيٽا جي گڏ ڪرڻ لاءِ الگورتھم جو انتخاب صرف هڪ ماپ تي نه ٿو ڪري سگهجي.

بهترين فٽ طريقي کي ترقي ڪرڻ جي مقصد لاء، اسان کي پهريون ڀيرو ڊيٽا کي جانچڻ گهرجي ڊيٽا جي تجزيي (EDA) استعمال ڪندي ۽ سمجھڻ جي مقصد کي ڊيٽا سيٽ استعمال ڪرڻ جو مقصد.

5. همٿ ۽ لاڳاپو ڪيئن مختلف آهن؟

Covariance اندازو ڪري ٿو ته ڪيئن ٻه متغير هڪ ٻئي سان ڳنڍيل آهن ۽ ڪيئن هڪ ٻئي ۾ تبديلين جي جواب ۾ تبديل ٿي سگهي ٿي.

جيڪڏهن نتيجو مثبت آهي، اهو ظاهر ڪري ٿو ته متغيرن جي وچ ۾ هڪ سڌي ڪڙي آهي ۽ اهو هڪ اڀرندو يا گهٽجي ويندو بنيادي متغير ۾ واڌ يا گهٽتائي سان، فرض ڪيو ته ٻيا سڀئي حالتون مستقل رهنديون.

لاڳاپو ٻن بي ترتيب متغيرن جي وچ ۾ لنڪ کي ماپ ڪري ٿو ۽ صرف ٽي الڳ قدر آهن: 1، 0، ۽ -1.

6. مشين لرننگ ۾، ڪلسترنگ جو مطلب ڇا آھي؟

غير نگراني ٿيل سکيا جا طريقا جيڪي گروپ ڊيٽا پوائنٽ کي گڏ ڪن ٿا انهن کي ڪلسترنگ سڏيو ويندو آهي. ڊيٽا پوائنٽن جي گڏ ڪرڻ سان، ڪلسترنگ ٽيڪنڪ لاڳو ڪري سگھجي ٿو.

توهان هن حڪمت عملي کي استعمال ڪندي انهن جي ڪمن جي مطابق سڀني ڊيٽا پوائنٽن کي گروپ ڪري سگهو ٿا.

ڊيٽا پوائنٽس جون خاصيتون ۽ خاصيتون جيڪي ساڳئي درجي ۾ اچن ٿيون، اهي ساڳيا آهن، جڏهن ته اهي ڊيٽا پوائنٽون جيڪي الڳ الڳ گروپن ۾ اچن ٿا اهي مختلف آهن.

اهو طريقو شمارياتي ڊيٽا کي تجزيو ڪرڻ لاء استعمال ڪري سگهجي ٿو.

7. توهان جي پسنديده مشين لرننگ الگورتھم ڇا آهي؟

توهان وٽ هن سوال ۾ توهان جي ترجيحن ۽ منفرد صلاحيتن کي ظاهر ڪرڻ جو موقعو آهي، انهي سان گڏ توهان جي ڪيترن ئي مشينن جي سکيا واري ٽيڪنالاجي جي جامع ڄاڻ.

هتي ڪجھ عام مشين سکيا الگورتھم بابت سوچڻ لاء آهن:

ليڪري ريگريشن
لاجسٽڪ ريگريشن
بيوس Bayes
فيصلي جو وڻ
ڪي معنيٰ
بي ترتيب ٻيلو الگورتھم
K- ويجھي پاڙيسري (KNN)

8. مشين لرننگ ۾ لڪير ريگريشن: اهو ڇا آهي؟

هڪ نگراني ڪيل مشين لرننگ الگورٿم لڪير ريگريشن آهي.

اهو انحصار ۽ آزاد متغير جي وچ ۾ لڪير ڪنيڪشن کي طئي ڪرڻ لاء اڳڪٿي واري تجزيي ۾ ملازم آهي.

لڪير رجعت جي مساوات هن ريت آهي:

Y = A + BX

ڪٿي

ان پٽ يا آزاد متغير کي X سڏيو ويندو آهي.
انحصار يا ٻاھرين متغير Y آھي.
ايڪس جي کوٽائي ب آهي، ۽ ان جو وقفو a آهي.

9. KNN ۽ k-ميان ڪلسترنگ جي وچ ۾ فرق بيان ڪريو.

بنيادي فرق اهو آهي ته KNN (هڪ درجه بندي جو طريقو، نگراني ڪيل سکيا) کي ليبل ٿيل پوائنٽن جي ضرورت آهي جڏهن ته k-ميان نه آهي (ڪلسٽرنگ الگورٿم، غير نگراني ٿيل سکيا).

توهان K- Nearest Neighbours استعمال ڪندي ليبل ٿيل ڊيٽا کي اڻ ليبل ٿيل پوائنٽ ۾ درجه بندي ڪري سگهو ٿا. K- مطلب ڪلسترنگ پوائنٽن جي وچ ۾ اوسط فاصلو استعمال ڪري ٿو سکڻ لاءِ ته ڪيئن گروپ اڻ ليبل ٿيل پوائنٽس کي.

10. توهان لاءِ ”چونڊ جي تعصب“ جو ڇا مطلب آهي؟

تجربي جي نموني جي مرحلي ۾ تعصب انگن اکرن جي غلطي جي ڪري آهي.

ھڪڙو نمونو گروپ غلطيء جي نتيجي ۾ تجربو ۾ ٻين گروپن جي ڀيٽ ۾ وڌيڪ چونڊيو ويو آھي.

جيڪڏهن چونڊ تعصب کي تسليم نه ڪيو وڃي، اهو نتيجو غلط نتيجو ٿي سگهي ٿو.

11. بيز جو نظريو اصل ۾ ڇا آهي؟

جڏهن اسان ٻين امڪانن کان واقف آهيون، اسان بيز جي ٿيوريم کي استعمال ڪندي هڪ امڪان جو اندازو لڳائي سگهون ٿا. اهو پيش ڪري ٿو اڳئين معلومات جي بنياد تي واقعن جي پوئين امڪاني، ٻين لفظن ۾.

مشروط امڪانن جو اندازو لڳائڻ لاءِ هڪ صحيح طريقو هن نظريي جي ذريعي مهيا ڪيو ويو آهي.

جڏهن درجي بندي جي پيشڪش ماڊلنگ جي مسئلن کي ترقي ڪندي ۽ ٽريننگ لاء هڪ ماڊل کي ترتيب ڏيڻ مشين سکيا ۾ ڊيٽا سيٽ، Bayes جو نظريو لاڳو ٿئي ٿو (يعني Naive Bayes، Bayes Optimal Classifier).

12. مشين لرننگ ماڊل ۾، 'ٽريننگ سيٽ' ۽ 'ٽيسٽ سيٽ' ڇا آهن؟

تربيتي سيٽ:

ٽريننگ سيٽ مثالن تي مشتمل آهي جيڪي تجزيو ۽ سکيا لاءِ ماڊل ڏانهن موڪليا ويا آهن.
هي ليبل ٿيل ڊيٽا آهي جيڪا ماڊل کي تربيت ڏيڻ لاءِ استعمال ڪئي ويندي.
عام طور تي، ڪل ڊيٽا جو 70٪ ٽريننگ ڊيٽا سيٽ طور استعمال ڪيو ويندو آهي.

ٽيسٽ سيٽ:

ٽيسٽ سيٽ استعمال ڪيو ويندو آهي ماڊل جي مفروضي جي نسل جي درستگي کي جانچڻ لاءِ.
اسان ليبل ٿيل ڊيٽا جي بغير جانچ ڪريون ٿا ۽ پوء نتيجن جي تصديق ڪرڻ لاء ليبل استعمال ڪريو.
باقي 30٪ ٽيسٽ ڊيٽا سيٽ طور استعمال ڪيو ويندو آهي.

13. مشين لرننگ ۾ هڪ مفروضو ڇا آهي؟

مشين لرننگ موجوده ڊيٽا سيٽن جي استعمال کي قابل بڻائي ٿي هڪ ڏنل فنڪشن کي بهتر سمجهڻ لاءِ جيڪو ان پٽ کي آئوٽ پٽ سان ڳنڍي ٿو. اهو فعل لڳ ڀڳ طور سڃاتو وڃي ٿو.

ان صورت ۾، اڻڄاتل ھدف واري ڪم لاءِ لڳ ڀڳ استعمال ڪيو وڃي ته جيئن ڏنل صورتحال جي بنياد تي سڀني تصوراتي مشاهدن کي بھترين طريقي سان منتقل ڪيو وڃي.

مشين لرننگ ۾، هڪ مفروضو هڪ نمونو آهي جيڪو ٽارگيٽ فنڪشن جو اندازو لڳائڻ ۽ مناسب ان پٽ-ٽو-آوٽ-پٽ ميپنگ کي مڪمل ڪرڻ ۾ مدد ڪري ٿو.

الگورتھم جي چونڊ ۽ ڊزائن کي ممڪن فرضن جي خلا جي تعريف جي اجازت ڏئي ٿي جيڪا نموني جي نمائندگي ڪري سگهجي ٿي.

ھڪڙي مفروضي لاءِ، ننڍو ح (h) استعمال ڪيو ويندو آھي، پر سرمائي h (H) استعمال ڪيو ويندو آھي سڄي مفروضي جي جڳھ لاءِ جيڪو ڳولھيو پيو وڃي. اسان مختصر طور تي انهن نوٽس جو جائزو وٺنداسين:

هڪ مفروضو (h) هڪ خاص نمونو آهي جيڪو ان پٽ کي آئوٽ جي نقشي کي آسان بڻائي ٿو، جيڪو بعد ۾ استعمال ڪري سگهجي ٿو تشخيص ۽ اڳڪٿي لاءِ.
هڪ مفروضو سيٽ (H) مفروضن جي ڳولا واري جاءِ آهي جنهن کي استعمال ڪري سگهجي ٿو نقشي جي انپٽس کي آئوٽ پُٽ ۾. مسئلو فريمنگ، ماڊل، ۽ ماڊل جي جوڙجڪ عام حدن جا ڪجھ مثال آھن.

14. مشين لرننگ اوور فٽنگ جو مطلب ڇا آھي، ۽ ان کي ڪيئن روڪي سگھجي ٿو؟

جڏهن هڪ مشين هڪ غير مناسب ڊيٽا سيٽ مان سکڻ جي ڪوشش ڪري ٿي، اوورفٽنگ ٿيندي آهي.

نتيجي طور، overfitting inversely ڊيٽا جي مقدار سان لاڳاپو آهي. ڪراس-تصديق واري طريقي کي اجازت ڏئي ٿو ته اوورفٽنگ کي ننڍڙن ڊيٽا سيٽن کان بچڻ لاءِ. ڊيٽا سيٽ کي هن طريقي سان ٻن حصن ۾ ورهايو ويو آهي.

ٽيسٽ ۽ ٽريننگ لاءِ ڊيٽا سيٽ انهن ٻن حصن تي مشتمل هوندو. ٽريننگ ڊيٽا سيٽ استعمال ڪيو ويندو آهي ماڊل ٺاهڻ لاءِ، جڏهن ته ٽيسٽنگ ڊيٽا سيٽ استعمال ڪيو ويندو آهي ماڊل کي مختلف انپٽس استعمال ڪندي اندازو ڪرڻ لاءِ.

هي آهي overfitting کي روڪڻ لاء ڪيئن.

15. اصل ۾ Naive Bayes classifier ڇا آهن؟

مختلف درجه بندي جا طريقا Naive Bayes classifiers ٺاهيندا آهن. الورورٿمس جو هڪ سيٽ انهن ڪلاسيفيرز جي نالي سان سڃاتو وڃي ٿو سڀ هڪ ئي بنيادي خيال تي ڪم ڪن ٿا.

بيوس بيز جي درجه بندي ڪندڙن پاران ڪيل مفروضو اهو آهي ته هڪ خاصيت جي موجودگي يا غير موجودگي جو ٻي خاصيت جي موجودگي يا غير موجودگي تي ڪو به اثر نه آهي.

ٻين لفظن ۾، اھو اھو آھي جيڪو اسان کي "بيوقوف" جي طور تي حوالو ڏنو ويو آھي ڇاڪاڻ⁠تہ اھو فرض ڪري ٿو ته ھر ھڪڙي ڊيٽا سيٽ جي خصوصيت برابر ۽ آزاد آھي.

درجه بندي بي بي بي جي درجه بندي استعمال ڪندي ڪئي وئي آهي. اهي استعمال ڪرڻ آسان آهن ۽ وڌيڪ پيچيده اڳڪٿي ڪندڙن کان بهتر نتيجا پيدا ڪن ٿا جڏهن آزادي جو بنياد صحيح آهي.

متن جي تجزيي ۾، اسپام فلٽرنگ، ۽ سفارش واري نظام، اهي ملازم آهن.

16. قيمت جي ڪم ۽ نقصان جي ڪمن جو مطلب ڇا آھي؟

جملي "نقصان جي فنڪشن" کي ڳڻپيوڪر نقصان جي عمل ڏانهن اشارو ڪيو ويو آهي جڏهن ڊيٽا جو صرف هڪ ٽڪرو حساب ۾ ورتو وڃي.

ان جي برعڪس، اسان ڪيترن ئي ڊيٽا جي غلطين جي مجموعي رقم کي طئي ڪرڻ لاء قيمت فنڪشن استعمال ڪندا آهيون. ڪوبه اهم فرق موجود ناهي.

ٻين لفظن ۾، جڏهن ته قيمت افعال مجموعي طور تي سڄي ٽريننگ ڊيٽا سيٽ جي فرق کي گڏ ڪن ٿا، نقصان جي ڪارڪردگي هڪ واحد رڪارڊ لاء حقيقي ۽ پيش ڪيل قدرن جي وچ ۾ فرق کي پڪڙڻ لاء ٺهيل آهن.

17. ڇا هڪ تخليقي ماڊل کي تعصب واري نموني کان ڌار ڪري ٿو؟

هڪ امتيازي ماڊل ڪيترن ئي ڊيٽا جي زمرے جي وچ ۾ فرق سکي ٿو. هڪ پيدا ڪندڙ ماڊل مختلف ڊيٽا جي قسمن تي چونڊيندو آهي.

درجي بندي جي مسئلن تي، تبعيض واري ماڊل اڪثر ڪري ٻين ماڊل کي ختم ڪن ٿا.

18. ٽائپ I ۽ ٽائپ II جي غلطين جي وچ ۾ فرق بيان ڪريو.

غلط مثبتات ٽائپ I جي غلطين جي زمري ۾ اچن ٿيون، جڏهن ته غلط منفيات ٽائپ II جي غلطين جي تحت وڃن ٿيون (دعوي ڪرڻ ڪجھ به نه ٿيو آهي جڏهن اهو اصل ۾ آهي).

19. مشين لرننگ ۾، Ensemble لرننگ ٽيڪنڪ ڇا آهي؟

هڪ ٽيڪنڪ جنهن کي ensemble لرننگ سڏيو ويندو آهي ڪيترن ئي مشين لرننگ ماڊل کي ملائي ٿو وڌيڪ طاقتور ماڊل پيدا ڪرڻ لاءِ.

هڪ ماڊل مختلف سببن لاء مختلف ٿي سگهي ٿو. ڪيترائي سبب آهن:

مختلف آبادي
مختلف مفروضا
ماڊلنگ جا مختلف طريقا

ماڊل جي ٽريننگ ۽ ٽيسٽنگ ڊيٽا استعمال ڪرڻ دوران اسان کي هڪ مسئلو سامهون ايندو. تعصب، تفاوت، ۽ ناقابل واپسي غلطي هن غلطي جا ممڪن قسم آهن.

ھاڻي، اسان ھن بيلنس کي ماڊل ۾ تعصب ۽ ويرينس جي وچ ۾ ھڪ تعصب-متغير واپار-آف سڏين ٿا، ۽ اھو ھميشه موجود رھڻ گھرجي. هي واپار بند ensemble سکيا جي استعمال ذريعي مڪمل ڪيو ويو آهي.

جيتوڻيڪ اتي موجود مختلف ensemble طريقا موجود آهن، ڪيترن ئي ماڊل کي گڏ ڪرڻ لاء ٻه عام حڪمت عمليون آهن:

هڪ اصلي طريقو جنهن کي bagging سڏيو ويندو آهي اضافي تربيتي سيٽ تيار ڪرڻ لاءِ ٽريننگ سيٽ استعمال ڪندو آهي.
بوسٽنگ، هڪ وڌيڪ نفيس ٽيڪنڪ: گهڻو ڪري بيگنگ وانگر، بوسٽنگ استعمال ڪيو ويندو آهي هڪ ٽريننگ سيٽ لاءِ مثالي وزن وارو فارمولا ڳولڻ لاءِ.

20. اصل ۾ پيرا ميٽرڪ ماڊل ڇا آهن؟ هڪ مثال ڏيو.

پيرا ميٽرڪ ماڊلز ۾ محدود مقدار جا پيرا ميٽر آهن. ڊيٽا جي اڳڪٿي ڪرڻ لاء، توهان سڀني کي ڄاڻڻ جي ضرورت آهي ماڊل جي پيراگراف.

هيٺيون عام مثال آهن: منطقي رجعت، لڪير رجعت، ۽ لڪير SVMs. غير پيراميٽرڪ ماڊل لچڪدار هوندا آهن ڇاڪاڻ ته اهي لامحدود تعداد ۾ پيٽرول تي مشتمل هوندا.

ڊيٽا جي اڳڪٿين لاءِ ماڊل جي پيٽرولر ۽ مشاهدي واري ڊيٽا جي حالت گهربل آهي. هتي ڪجھ عام مثال آهن: موضوع جا ماڊل, فيصلا وڻ, ۽ k- ويجهن پاڙيسري.

21. وضاحت ڪريو تعاون واري فلٽرنگ. انهي سان گڏ مواد جي بنياد تي فلٽرنگ؟

تيار ڪيل مواد جي تجويزون ٺاهڻ لاءِ هڪ آزمايل ۽ صحيح طريقو گڏيل فلٽرنگ آهي.

سفارشي نظام جو هڪ فارم جنهن کي ڪولابريٽو فلٽرنگ سڏيو ويندو آهي، تازو مواد پيش ڪري ٿو صارف جي ترجيحن کي گڏيل مفادن سان متوازن ڪندي.

صارف جي ترجيحات صرف ھڪڙي شيء آھي جيڪي مواد تي ٻڌل سفارش ڪندڙ سسٽم تي غور ڪن ٿا. صارف جي اڳوڻي چونڊ جي روشني ۾، نئين سفارشون مهيا ڪيون ويون آهن لاڳاپيل مواد مان.

22. ٽائيم سيريز مان توهان جو اصل مطلب ڇا آهي؟

وقت جو سلسلو چڙهندڙ ترتيب ۾ انگن جو مجموعو آهي. اڳواٽ مقرر وقت جي دوران، اهو چونڊيل ڊيٽا پوائنٽن جي حرڪت جي نگراني ڪندو آهي ۽ وقتي طور تي ڊيٽا پوائنٽن کي پڪڙيندو آهي.

ٽائيم سيريز لاءِ ڪوبه گهٽ ۾ گهٽ يا وڌ ۾ وڌ وقت ان پٽ ناهي.

ٽائيم سيريز اڪثر تجزيه نگارن طرفان استعمال ڪيا ويندا آهن ڊيٽا جو تجزيو ڪرڻ لاءِ انهن جي منفرد گهرجن مطابق.

23. Gradient Boosting ۽ Random Forest algorithms جي وچ ۾ فرق بيان ڪريو.

بي ترتيب ٻيلو:

فيصلي جي وڻن جو هڪ وڏو تعداد آخر ۾ گڏ ڪيو ويو آهي ۽ بي ترتيب ٻيلن طور سڃاتو وڃي ٿو.
جڏهن ته تدريسي واڌارو هر وڻ کي ٻين کان آزاد طور تي پيدا ڪري ٿو، بي ترتيب ٻيلو هر وڻ کي هڪ وقت ۾ ٺاهي ٿو.
ملٽي ڪلاس اعتراض جي ڳولا بي ترتيب ٻيلن سان سٺو ڪم ڪري ٿو.

تدريسي واڌارو:

جڏهن ته رينڊم ٻيلن پروسيس جي آخر ۾ فيصلي جي وڻن ۾ شامل ٿين ٿا، گريڊينٽ بوسٽنگ مشينون انهن کي شروعات کان گڏ ڪن ٿيون.
جيڪڏهن پيرا ميٽرن کي مناسب طور تي ترتيب ڏنو وڃي ٿو، گريڊيئيٽ بوسٽنگ نتيجن جي لحاظ کان بي ترتيب ٻيلن کي ختم ڪري ٿي، پر اهو سمارٽ پسند نه آهي جيڪڏهن ڊيٽا سيٽ ۾ تمام گهڻو ٻاهريون، بي ضابطگيون، يا شور آهي ڇو ته اهو ماڊل کي اوورفٽ ٿيڻ جو سبب بڻجي سگهي ٿو.
جڏهن غير متوازن ڊيٽا آهي، جيئن حقيقي وقت خطري جي تشخيص ۾ آهي، تدريسي واڌارو سٺو ڪم ڪري ٿو.

24. توهان کي مونجهارو ميٽرڪس جي ضرورت ڇو آهي؟ اهو ڇا آهي؟

هڪ ٽيبل جنهن کي ڪنفيوژن ميٽرڪس جي نالي سان سڃاتو وڃي ٿو، ڪڏهن ڪڏهن ايرر ميٽرڪس جي نالي سان سڃاتو وڃي ٿو، وڏي پيماني تي استعمال ڪيو ويندو آهي اهو ڏيکارڻ لاءِ ته درجه بندي ماڊل، يا درجه بندي ڪندڙ، ٽيسٽ ڊيٽا جي هڪ سيٽ تي ڪيترو سٺو ڪم ڪري ٿو، جنهن لاءِ حقيقي قدر معلوم ٿين ٿا.

اهو اسان کي ڏسڻ جي قابل بنائي ٿو ته ڪيئن هڪ ماڊل يا الگورتھم انجام ڏئي ٿو. اهو اسان لاءِ آسان بڻائي ٿو مختلف ڪورسن جي وچ ۾ غلط فهميون دور ڪرڻ.

اهو هڪ طريقي جي طور تي ڪم ڪري ٿو اهو اندازو ڪرڻ لاءِ ته هڪ ماڊل يا الگورٿم ڪيترو سٺو ڪم ڪيو ويو آهي.

ھڪڙي درجه بندي ماڊل جي اڳڪٿيون ھڪڙي مونجهاري ميٽرڪس ۾ مرتب ٿيل آھن. هر ڪلاس جي ليبل جي ڳڻپ جي قيمت استعمال ڪئي وئي صحيح ۽ غلط اڳڪٿين جي ڪل تعداد کي ٽوڙڻ لاءِ.

اهو درجه بندي ڪندڙ پاران ڪيل غلطين تي تفصيل فراهم ڪري ٿو ۽ گڏوگڏ مختلف قسم جي غلطين جي ڪري درجه بندي ڪندڙ.

25. اصل ۾ هڪ اصول جزو تجزيو ڇا آهي؟

متغيرن جي تعداد کي گھٽائڻ سان جيڪي ھڪ ٻئي سان لاڳاپا آھن، مقصد آھي ڊيٽا گڏ ڪرڻ جي طول و عرض کي گھٽائڻ. پر اهو ضروري آهي ته تنوع کي ممڪن حد تائين برقرار رکڻ لاء.

متغيرن کي تبديل ڪيو ويو آهي متغيرن جي مڪمل طور تي نئين سيٽ ۾ پرنسپل اجزاء سڏيو ويندو آهي.

اهي PCs orthogonal آهن ڇاڪاڻ ته اهي هڪ covariance matrix جي eigenvectors آهن.

26. PCA (پرنسپل جزو جي تجزيي) لاءِ جزو جي گردش ايتري اهم ڇو آهي؟

گردش PCA ۾ انتهائي اهم آهي ڇاڪاڻ ته اهو هر جزو پاران حاصل ڪيل فرقن جي وچ ۾ علحدگي کي بهتر بڻائي ٿو، جزو جي تشريح کي آسان بڻائي ٿو.

اسان کي وڌايل اجزاء جي ضرورت آھي جزو جي تبديلي کي ظاهر ڪرڻ لاءِ جيڪڏھن جزا گھميل نه آھن.

27. ريگولرائزيشن ۽ نارملائيزيشن ڪيئن هڪ ٻئي کان مختلف آهن؟

عام ڪرڻ

ڊيٽا کي عام ڪرڻ دوران تبديل ڪيو ويو آهي. توھان کي ڊيٽا کي عام ڪرڻ گھرجي جيڪڏھن ان ۾ اسڪيل آھن جيڪي بلڪل مختلف آھن، خاص طور تي گھٽ کان مٿاھين تائين. هر ڪالمن کي ترتيب ڏيو ته جيئن بنيادي انگ اکر سڀ مطابقت رکن.

انهي ڳالهه کي يقيني بڻائڻ ته ڪو به نقصان نه آهي صحت جي لحاظ کان، اهو ڪارائتو ٿي سگهي ٿو. شور کي نظر انداز ڪرڻ دوران سگنل کي ڳولڻ ماڊل ٽريننگ جي مقصدن مان هڪ آهي.

جيڪڏهن ماڊل کي مڪمل ڪنٽرول ڏنو وڃي ته غلطي کي گهٽائڻ جو هڪ موقعو آهي.

ريگيولرائزيشن:

ريگيولرائزيشن ۾، اڳڪٿي واري فنڪشن کي تبديل ڪيو ويو آهي. اهو ريگولرائزيشن ذريعي ڪجهه ڪنٽرول سان مشروط آهي، جيڪو پيچيده ماڻهن جي ڀيٽ ۾ آسان فيٽنگ جي ڪم کي پسند ڪري ٿو.

28. نارملائيزيشن ۽ معيار سازي ڪيئن هڪ ٻئي کان مختلف آهن؟

فيچر اسڪيلنگ لاءِ ٻه سڀ کان وڏي پيماني تي استعمال ٿيندڙ ٽيڪنڪ آهن نارملائيزيشن ۽ معياري ڪرڻ.

عام ڪرڻ

[0,1] رينج جي مطابق ڊيٽا کي بحال ڪرڻ کي نارملائيزيشن طور سڃاتو وڃي ٿو.
جڏهن سڀني پيٽرولن کي ساڳيو مثبت پيمانو هجڻ گهرجي، عام ڪرڻ مددگار آهي، پر ڊيٽا سيٽ جي ٻاهران گم ٿي ويا آهن.

ريگيولرائزيشن:

ڊيٽا کي ٻيهر اسڪيل ڪيو ويو آهي 0 جو مطلب ۽ 1 جي معياري انحراف معياري ڪرڻ واري عمل جي حصي طور (يونٽ ويرينس)

29. ”متغير انفليشن فيڪٽر“ جو اصل مطلب ڇا آهي؟

صرف هڪ آزاد متغير سان ماڊل جي مختلف قسم جي ماڊل جي ويرينس جو تناسب متغير انفليشن فيڪٽر (VIF) طور سڃاتو وڃي ٿو.

VIF ڪيترن ئي ريگريشن متغيرن جي سيٽ ۾ موجود ملٽي ڪولينارٽي جي مقدار جو اندازو لڳائي ٿو.

ماڊل جو ويرينس (VIF) ماڊل هڪ آزاد متغير ويرينس سان

30. ٽريننگ سيٽ جي سائيز جي بنياد تي، توهان ڪئين درجه بندي چونڊيندا آهيو؟

هڪ اعلي تعصب، گهٽ ويرينس ماڊل مختصر ٽريننگ سيٽ لاءِ بهتر ڪارڪردگي ڏيکاري ٿو ڇو ته اوورفٽنگ جو امڪان گهٽ آهي. Naive Bayes ھڪڙو مثال آھي.

وڏي ٽريننگ سيٽ لاءِ وڌيڪ پيچيدگين ڳالهين جي نمائندگي ڪرڻ لاءِ، گهٽ تعصب ۽ اعليٰ ويرينس سان ماڊل کي ترجيح ڏني وڃي ٿي. منطقي رجعت هڪ سٺو مثال آهي.

31. مشين لرننگ ۾ ڪهڙي الگورتھم کي ”سست سکيا ڏيندڙ“ چئبو آهي ۽ ڇو؟

هڪ سست سکندڙ، KNN هڪ مشين لرننگ الگورتھم آهي. ڇاڪاڻ ته K-NN متحرڪ طور تي هر ڀيري فاصلي جو حساب ڪري ٿو ته اهو ڪنهن به مشين سکيا ويل ويلز يا ٽريننگ ڊيٽا مان متغير سکڻ جي بدران درجه بندي ڪرڻ چاهي ٿو، اهو ٽريننگ ڊيٽا سيٽ کي ياد ڪري ٿو.

هي K-NN کي سست سکيا ڏيندڙ بڻائي ٿو.

32. ROC وکر ۽ AUC ڇا آهن؟

سڀني حدن تي درجه بندي ماڊل جي ڪارڪردگي گرافڪ طور تي ROC وکر جي نمائندگي ڪئي وئي آهي. اهو صحيح مثبت شرح ۽ غلط مثبت شرح جي معيار آهي.

آسان لفظ ۾، ROC وکر جي هيٺان واري علائقي کي AUC طور سڃاتو وڃي ٿو (ايريا هيٺ آر او سي وکر). ROC وکر جي ٻه طرفي ايراضي (0,0) کان AUC تائين ماپي ويندي آهي (1,1). بائنري درجه بندي جي ماڊل جي تشخيص لاء، ان کي ڪارڪردگي جي شماريات طور استعمال ڪيو ويندو آهي.

33. hyperparameters ڇا آهن؟ ڇا انهن کي ماڊل پيٽرولر کان منفرد بڻائي ٿو؟

ماڊل جي اندروني متغير کي ماڊل پيٽرولر طور سڃاتو وڃي ٿو. ٽريننگ ڊيٽا کي استعمال ڪندي، هڪ پيٽرولر جي قيمت لڳ ڀڳ آهي.

ماڊل کي اڻڄاتل، هڪ هائپرپراميٽر هڪ متغير آهي. قيمت ڊيٽا مان مقرر نه ٿي ڪري سگھجي، اھڙيء طرح اھي اڪثر ڪري ملازمت وارا آھن ماڊل پيٽرولر کي ڳڻڻ لاء.

34. F1 سکور، ريڪال، ۽ درستي جو مطلب ڇا آھي؟

مونجهارو ماپ هڪ ميٽرڪ آهي جيڪو درجه بندي ماڊل جي اثرائتي اندازي کي گيج ڪرڻ لاء استعمال ڪيو ويو آهي. هيٺيون جملا استعمال ڪري سگهجن ٿا مونجهاري جي ماپ کي بهتر بيان ڪرڻ لاءِ:

TP: سچا مثبت - اهي مثبت قدر آهن جيڪي مناسب انداز ۾ پيش ڪيا ويا آهن. اهو مشورو ڏئي ٿو ته پيش ڪيل طبقي ۽ حقيقي طبقي جا قدر ٻئي مثبت آهن.

TN: سچا ناڪاري- اهي منفي قدر آهن جن جي صحيح اڳڪٿي ڪئي وئي هئي. اهو مشورو ڏئي ٿو ته حقيقي طبقي جي قيمت ۽ متوقع طبقي ٻنهي منفي آهن.

اهي قدر - غلط مثبت ۽ غلط منفي - تڏهن ٿين ٿا جڏهن توهان جو حقيقي طبقو متوقع طبقي کان مختلف آهي.

هاڻي،

حقيقي ڪلاس ۾ ڪيل سڀني مشاهدن جي حقيقي مثبت شرح (TP) جي تناسب کي ياد ڪيو ويندو آهي، جنهن کي حساسيت پڻ سڏيو ويندو آهي.

ياداشت TP/(TP+FN) آهي.

Precision مثبت اڳڪٿي ڪرڻ واري قدر جو هڪ ماپ آهي، جيڪو مثبت جي تعداد جو مقابلو ڪري ٿو ماڊل واقعي پيشنگوئي ڪري ٿو ته ڪيتري صحيح مثبت اڳڪٿي ڪري ٿي.

درستي آهي TP/(TP + FP)

سمجھڻ لاءِ سڀ کان آسان پرفارمنس ميٽرڪ درستگي آھي، جيڪا صرف سڀني مشاهدن لاءِ صحيح انداز ۾ پيش ڪيل مشاهدن جو تناسب آھي.

درستگي (TP+TN)/(TP+FP+FN+TN) جي برابر آهي.

Precision ۽ Recall F1 سکور مهيا ڪرڻ لاءِ وزن ۽ اوسط رکيا ويا آهن. نتيجي طور، هي سکور ٻنهي کي غلط مثبت ۽ غلط منفي سمجهي ٿو.

F1 اڪثر ڪري درستگي کان وڌيڪ قيمتي آهي، خاص طور تي جيڪڏهن توهان وٽ هڪ غير مساوي طبقي جي تقسيم آهي، جيتوڻيڪ اهو سمجهه ۾ اچي ٿو ته اهو سمجهڻ آسان ناهي جيترو صحيح آهي.

بهترين درستگي حاصل ڪئي ويندي آهي جڏهن غلط مثبت ۽ غلط منفي جي قيمت برابر آهي. اهو بهتر آهي ته درست ۽ ياد ڪرڻ ٻنهي کي شامل ڪيو وڃي جيڪڏهن غلط مثبت ۽ غلط منفيات سان لاڳاپيل لاڳاپا اهم طور تي مختلف آهن.

35. صحيح طور تي ڪراس تصديق ڇا آهي؟

هڪ شمارياتي ريمپلنگ اپروچ جنهن کي مشين لرننگ ۾ Cross-validation سڏيو ويندو آهي ڪيترن ئي دورن ۾ مشين لرننگ الگورٿم کي تربيت ۽ جائزو وٺڻ لاءِ ڪيترن ئي ڊيٽا سيٽ سبسٽس کي ملازمت ڏيندو آهي.

ڊيٽا جي هڪ نئين بيچ جيڪا ماڊل کي ٽريننگ ڪرڻ لاءِ استعمال نه ڪئي وئي هئي اها جانچ ڪئي وئي آهي ڪراس-تصديق استعمال ڪندي ڏسڻ لاءِ ته ماڊل ان جي ڪيتري اڳڪٿي ڪري ٿو. ڊيٽا اوورفٽنگ کي روڪيو ويو آهي ڪراس-تصديق ذريعي.

K-Fold اڪثر استعمال ٿيل ريزمپلنگ جو طريقو سڄي ڊيٽا سيٽ کي برابر سائز جي K سيٽن ۾ ورهائي ٿو. ان کي سڏيو ويندو آهي ڪراس-تصديق.

36. اچو ته چئو ته توهان دريافت ڪيو ته توهان جي ماڊل ۾ هڪ اهم فرق آهي. ڪهڙو الگورتھم، توهان جي راء ۾، هن صورتحال کي سنڀالڻ لاء سڀ کان وڌيڪ مناسب آهي؟

اعلي variability انتظام

اسان کي وڏي تبديليءَ سان مسئلن لاءِ بيجنگ ٽيڪنڪ استعمال ڪرڻ گھرجي.

بي ترتيب واري ڊيٽا جو بار بار نمونو استعمال ڪيو ويندو بيجنگ الگورٿم طرفان ڊيٽا کي ذيلي گروپن ۾ ورهائڻ لاءِ. هڪ دفعو ڊيٽا کي ورهايو ويو آهي، اسان استعمال ڪري سگهون ٿا بي ترتيب ڊيٽا ۽ هڪ مخصوص تربيتي طريقيڪار ضابطن کي پيدا ڪرڻ لاء.

ان کان پوء، پولنگ استعمال ٿي سگهي ٿي ماڊل جي اڳڪٿين کي گڏ ڪرڻ لاء.

37. ريج ريگريشن کي Lasso regression کان ڇا فرق ڪري ٿو؟

ٻه وڏي پيماني تي استعمال ٿيل باقاعده طريقا آهن Lasso (جنهن کي L1 پڻ سڏيو ويندو آهي) ۽ ريج (ڪڏهن ڪڏهن L2 سڏيو ويندو آهي) ريگريشن. اهي ڊيٽا جي overfitting کي روڪڻ لاء استعمال ڪري رهيا آهن.

بهترين حل ڳولڻ ۽ پيچيدگي کي گھٽائڻ لاء، اهي ٽيڪنڪ استعمال ڪيا ويا آهن جزا سزا ڏيڻ لاء. مجموعي قدرن جي مجموعي قدرن کي سزا ڏيڻ سان، لاسو ريگريشن هلندي آهي.

ريج يا L2 ريگريشن ۾ ڏنڊ جي فنڪشن ڪوفيفينٽس جي چوڪن جي رقم مان نڪتل آهي.

38. ڪهڙو وڌيڪ اهم آهي: ماڊل ڪارڪردگي يا ماڊل جي درستگي؟ ڪنهن کي ۽ ڇو پسند ڪندو؟

هي هڪ گمراهه ڪندڙ سوال آهي، تنهنڪري هڪ کي پهريان سمجهڻ گهرجي ته ماڊل ڪارڪردگي ڇا آهي. جيڪڏهن ڪارڪردگي رفتار جي طور تي بيان ڪئي وئي آهي، پوء اهو ايپليڪيشن جي قسم تي ڀاڙي ٿو؛ ڪنهن به ايپليڪيشن ۾ شامل آهي حقيقي وقت جي صورتحال کي تيز رفتار جي ضرورت هوندي هڪ اهم جزو طور.

مثال طور، بھترين ڳولا جا نتيجا گھٽ قيمتي ٿي ويندا جيڪڏھن سوالن جا نتيجا اچڻ ۾ گھڻو وقت وٺن.

جيڪڏهن ڪارڪردگي هڪ جواز جي طور تي استعمال ڪئي وئي آهي ڇو ته درستگي ۽ يادگيري کي درستگي کان مٿانهون ترجيح ڏني وڃي، پوءِ هڪ F1 سکور درستگی کان وڌيڪ ڪارائتو هوندو ڪاروباري ڪيس کي ظاهر ڪرڻ ۾ ڪنهن به ڊيٽا سيٽ لاءِ جيڪو غير متوازن آهي.

39. توهان غير مساواتن سان گڏ ڊيٽا سيٽ کي ڪيئن منظم ڪندا؟

هڪ غير متوازن ڊيٽا سيٽ نموني جي ٽيڪنالاجي مان فائدو حاصل ڪري سگھي ٿو. نموني نموني يا هيٺان يا اوور نموني فيشن ۾ ٿي سگهي ٿو.

نموني جي تحت اسان کي اقليتي طبقي سان ملائڻ لاءِ اڪثريت طبقي جي سائيز کي ڇڪڻ جي اجازت ڏئي ٿي، جيڪا اسٽوريج ۽ رن-ٽائم ايگزيڪيوشن جي حوالي سان رفتار وڌائڻ ۾ مدد ڪري ٿي پر قيمتي ڊيٽا جي نقصان جي نتيجي ۾ پڻ ٿي سگهي ٿي.

اوور سيمپلنگ جي ڪري معلومات جي نقصان جي مسئلي کي حل ڪرڻ لاءِ، اسان اقليتي طبقي جو نمونو وڌايو؛ ان جي باوجود، اهو اسان کي اوورفٽنگ مسئلن ۾ هلڻ جو سبب بڻائيندو آهي.

اضافي حڪمت عمليون شامل آهن:

ڪلستر تي ٻڌل اوور سيمپلنگ- اقليتي ۽ اڪثريتي طبقي جا مثال انفرادي طور تي K-ميان ڪلسترنگ ٽيڪنڪ جي تابع آهن هن صورتحال ۾. اهو ڊيٽا سيٽ ڪلستر ڳولڻ لاء ڪيو ويو آهي. ان کان پوء، هر ڪلستر کي اوور نموني ڪيو ويو آهي ته جيئن سڀني طبقن جي سائيز هڪ ئي هجي ۽ هڪ طبقي جي اندر سڀني ڪلستر جي مثالن جو هڪ برابر تعداد آهي.
SMOTE: Synthetic Minority Over-sampling Technique- اقليتي طبقي مان ڊيٽا جو هڪ ٽڪرو مثال طور استعمال ڪيو ويندو آهي، جنهن کان پوءِ اضافي مصنوعي مثالون جيڪي ان جي مقابلي ۾ آهن، پيدا ڪيون وينديون آهن ۽ اصل ڊيٽا سيٽ ۾ شامل ڪيون وينديون آهن. اهو طريقو عددي ڊيٽا پوائنٽن سان سٺو ڪم ڪري ٿو.

40. بوسٽنگ ۽ بيگنگ جي وچ ۾ فرق ڪيئن ڪجي؟

Ensemble ٽيڪنڪس جا نسخا آهن جن کي بيگنگ ۽ بوسٽنگ طور سڃاتو وڃي ٿو.

سامان کڻڻ-

الورورٿمز لاءِ هڪ اعليٰ تغير سان، بيگنگ هڪ ٽيڪنڪ آهي جيڪا ويرينس کي گهٽائڻ لاءِ استعمال ڪئي ويندي آهي. هڪ اهڙي قسم جي طبقي جو خاندان جيڪو تعصب جو شڪار آهي فيصلو وڻ جو خاندان آهي.

ڊيٽا جو قسم جنهن تي فيصلا وڻن کي تربيت ڏني وئي آهي انهن جي ڪارڪردگي تي هڪ اهم اثر آهي. انهي جي ڪري، جيتوڻيڪ تمام اعلي فائن ٽيوننگ سان، نتيجن جي عام ڪرڻ ڪڏهن ڪڏهن انهن ۾ حاصل ڪرڻ تمام گهڻو ڏکيو آهي.

جيڪڏهن فيصلي جي وڻن جي ٽريننگ ڊيٽا کي تبديل ڪيو ويو آهي، نتيجا مختلف طور تي مختلف هوندا.

نتيجي طور، بيگنگ استعمال ڪيو ويندو آهي، جنهن ۾ ڪيترائي فيصلا وڻ ٺاهيا ويا آهن، جن مان هر هڪ کي تربيت ڏني وئي آهي اصل ڊيٽا جو نمونو استعمال ڪندي، ۽ آخري نتيجو انهن سڀني مختلف ماڊلن جي اوسط آهي.

واڌارو:

بوسٽنگ هڪ n-ڪمزور ڪلاسيفائر سسٽم سان اڳڪٿيون ڪرڻ جي ٽيڪنڪ آهي جنهن ۾ هر ڪمزور ڪلاسيفائر پنهنجي مضبوط ڪلاسفير جي گهٽتائي کي پورو ڪري ٿو. اسان هڪ درجه بندي جو حوالو ڏيو ٿا جيڪو "ضعيف درجه بندي" جي طور تي ڏنل ڊيٽا سيٽ تي خراب طريقي سان انجام ڏئي ٿو.

بوسٽنگ واضح طور تي هڪ الورورٿم جي بجاءِ هڪ عمل آهي. لاجسٽڪ ريگريشن ۽ ٿلهي فيصلي جا وڻ ڪمزور طبقي جا عام مثال آهن.

Adaboost، Gradient Boosting، ۽ XGBoost آهن ٻه مشهور وڌائڻ وارا الگورتھم، جڏهن ته، ٻيا به ڪيترائي آهن.

41. inductive ۽ deductive learning جي وچ ۾ فرق بيان ڪريو.

جڏهن مشاهدو ڪيل مثالن جي هڪ سيٽ مان مثال طور سکيا، هڪ ماڊل عام نتيجي تي پهچڻ لاءِ ابتدائي سکيا استعمال ڪندو آهي. ٻئي طرف، ڪٽائي واري سکيا سان، ماڊل استعمال ڪري ٿو نتيجو ان کان اڳ جو پنهنجو ٺاهيو.

Inductive Learning مشاهدي مان نتيجا ڪڍڻ جو عمل آهي.

Deductive Learning هڪ اهڙو عمل آهي جيڪو مشاهدي جي بنياد تي پيدا ڪرڻ جو آهي.

ٿڪل

مبارڪون! اهي آهن مٿيان 40 ۽ مٿيان انٽرويو سوال مشين سکيا لاءِ جن جا جواب توهان کي هاڻي معلوم آهن. ڊيٽا سائنس ۽ مصنوعي انٽيلي جنس ٽيڪنالوجي جي ترقي جي طور تي ڪاروبار مطالبن ۾ جاري رهندو.

اميدوار جيڪي انهن جديد ٽيڪنالاجيز جي ڄاڻ کي تازه ڪاري ڪن ٿا ۽ انهن جي مهارت جي سيٽ کي بهتر بڻائي سگهن ٿا مختلف قسم جي روزگار جا موقعا مقابلي جي ادائيگي سان.

توھان ھاڻي انٽرويون جا جواب ڏيڻ سان اڳتي ھلي سگھوٿا ته توھان کي چڱيءَ طرح سمجھ آھي ته ڪھڙيءَ طرح پڇيل مشين لرننگ انٽرويو سوالن جا جواب ڪيئن ڏنا وڃن.

توھان جي مقصدن تي مدار رکندي، ھيٺ ڏنل قدم وٺو. Hashdork جي زيارت ڪندي انٽرويو لاء تيار ڪريو انٽرويو سيريز.

مٿيان 40+ مشين لرننگ انٽرويو سوال