ٹاپ 40+ مشین لرننگ انٹرویو کے سوالات (2024)

کی میز کے مندرجات[چھپائیں][دکھائیں]

1. مشین لرننگ، مصنوعی ذہانت، اور گہری تعلیم کے درمیان فرق کی وضاحت کریں۔
2. براہ کرم مشین لرننگ کی مختلف اقسام کی وضاحت کریں۔
3. تعصب بمقابلہ تغیر تجارت کیا ہے؟
4. وقت کے ساتھ ساتھ مشین لرننگ الگورتھم نمایاں طور پر تیار ہوئے ہیں۔ ڈیٹا سیٹ کو استعمال کرنے کے لیے کوئی صحیح الگورتھم کا انتخاب کیسے کرتا ہے؟
5. ہم آہنگی اور ارتباط میں کیسے فرق ہے؟
6. مشین لرننگ میں، کلسٹرنگ کا کیا مطلب ہے؟
7. آپ کا ترجیحی مشین لرننگ الگورتھم کیا ہے؟
8. مشین لرننگ میں لکیری رجعت: یہ کیا ہے؟
9. KNN اور k- یعنی کلسٹرنگ کے درمیان فرق بیان کریں۔
10. آپ کے لیے "انتخابی تعصب" کا کیا مطلب ہے؟
11. Bayes کی تھیوریم بالکل کیا ہے؟
12. مشین لرننگ ماڈل میں، 'ٹریننگ سیٹ' اور 'ٹیسٹ سیٹ' کیا ہیں؟
13. مشین لرننگ میں مفروضہ کیا ہے؟
14. مشین لرننگ اوور فٹنگ کا کیا مطلب ہے، اور اسے کیسے روکا جا سکتا ہے؟
15. Naive Bayes کے درجہ بندی کرنے والے بالکل کیا ہیں؟
16. لاگت کے افعال اور نقصان کے افعال کا کیا مطلب ہے؟
17. کیا چیز تخلیقی ماڈل کو امتیازی ماڈل سے ممتاز کرتی ہے؟
18. قسم I اور قسم II کی غلطیوں کے درمیان فرق بیان کریں۔
19. مشین لرننگ میں، Ensemble لرننگ تکنیک کیا ہے؟
20. پیرامیٹرک ماڈلز بالکل کیا ہیں؟ ایک مثال دیں۔
21. باہمی تعاون کے ساتھ فلٹرنگ کی وضاحت کریں۔ اس کے ساتھ ساتھ مواد پر مبنی فلٹرنگ؟
22. ٹائم سیریز سے آپ کا کیا مطلب ہے؟
23. گریڈینٹ بوسٹنگ اور رینڈم فاریسٹ الگورتھم کے درمیان فرق بیان کریں۔
24. آپ کو کنفیوژن میٹرکس کی ضرورت کیوں ہے؟ یہ کیا ہے؟
25. اصولی جزو کا تجزیہ دراصل کیا ہے؟
26. PCA (پرنسپل جزو تجزیہ) کے لیے اجزاء کی گردش اتنی اہم کیوں ہے؟
27. ریگولرائزیشن اور نارملائزیشن ایک دوسرے سے کیسے مختلف ہیں؟
28. نارملائزیشن اور سٹینڈرڈائزیشن ایک دوسرے سے کیسے مختلف ہیں؟
29. "متغیر افراط زر کا عنصر" کا بالکل کیا مطلب ہے؟
30. تربیتی سیٹ کے سائز کی بنیاد پر، آپ درجہ بندی کیسے کرتے ہیں؟
31. مشین لرننگ میں کس الگورتھم کو "سست سیکھنے والا" کہا جاتا ہے اور کیوں؟
32. ROC وکر اور AUC کیا ہیں؟
33. ہائپر پیرامیٹر کیا ہیں؟ انہیں ماڈل پیرامیٹرز سے منفرد کیا بناتا ہے؟
34. F1 سکور، یاد، اور درستگی کا کیا مطلب ہے؟
35. کراس توثیق دراصل کیا ہے؟
36. فرض کریں کہ آپ نے دریافت کیا ہے کہ آپ کے ماڈل میں ایک اہم تغیر ہے۔ آپ کی رائے میں، اس صورت حال سے نمٹنے کے لیے کون سا الگورتھم سب سے زیادہ موزوں ہے؟
37. کیا چیز رج ریگریشن کو لاسو ریگریشن سے ممتاز کرتی ہے؟
38. کون سا زیادہ اہم ہے: ماڈل کی کارکردگی یا ماڈل کی درستگی؟ آپ کس کو اور کیوں پسند کریں گے؟
39. آپ عدم مساوات کے ساتھ ڈیٹاسیٹ کا انتظام کیسے کریں گے؟
40. آپ بوسٹنگ اور بیگنگ میں فرق کیسے کر سکتے ہیں؟
41. انڈکٹیو اور ڈیڈکٹیو لرننگ کے درمیان فرق کی وضاحت کریں۔
نتیجہ

کاروبار افراد تک معلومات اور خدمات کی رسائی کو بڑھانے کے لیے جدید ٹیکنالوجی، جیسے مصنوعی ذہانت (AI) اور مشین لرننگ کا استعمال کر رہے ہیں۔

یہ ٹیکنالوجیز مختلف صنعتوں کی طرف سے اپنائی جا رہی ہیں، بشمول بینکنگ، فنانس، ریٹیل، مینوفیکچرنگ، اور ہیلتھ کیئر۔

AI کا استعمال کرنے والے سب سے زیادہ مطلوب تنظیمی کرداروں میں سے ایک ڈیٹا سائنسدانوں، مصنوعی ذہانت کے انجینئرز، مشین لرننگ انجینئرز، اور ڈیٹا تجزیہ کاروں کے لیے ہے۔

یہ پوسٹ آپ کو مختلف قسم کے ذریعے لے جائے گا مشین لرننگ انٹرویو کے سوالات، بنیادی سے پیچیدہ تک، آپ کو ان سوالات کے لیے تیار ہونے میں مدد کرنے کے لیے جو آپ کی مثالی ملازمت کی تلاش میں آپ سے پوچھے جا سکتے ہیں۔

1. مشین لرننگ، مصنوعی ذہانت، اور گہری تعلیم کے درمیان فرق کی وضاحت کریں۔

مصنوعی ذہانت مختلف قسم کی مشین لرننگ اور گہری سیکھنے کے طریقوں کو استعمال کرتی ہے جو کمپیوٹر سسٹمز کو انسان جیسی ذہانت کو منطق اور قواعد کے ساتھ استعمال کرتے ہوئے کام انجام دینے کی اجازت دیتی ہے۔

مشین لرننگ مختلف قسم کے اعدادوشمار اور گہری سیکھنے کے طریقوں کا استعمال کرتی ہے تاکہ مشینوں کو ان کی سابقہ کارکردگی سے سیکھنے کے قابل بنایا جا سکے اور انسانی نگرانی کے بغیر اپنے طور پر کچھ کام کرنے میں زیادہ ماہر ہو جائیں۔

ڈیپ لرننگ الگورتھم کا ایک مجموعہ ہے جو سافٹ ویئر کو خود سے سیکھنے اور مختلف قسم کے تجارتی افعال انجام دینے کی اجازت دیتا ہے، جیسے آواز اور تصویر کی شناخت۔

ایسے نظام جو اپنی کثیر پرت کو بے نقاب کرتے ہیں۔ نیند نیٹ ورک سیکھنے کے لیے ڈیٹا کی وسیع مقدار گہری سیکھنے کے قابل ہے۔

2. براہ کرم مشین لرننگ کی مختلف اقسام کی وضاحت کریں۔

مشین لرننگ تین مختلف اقسام میں وسیع پیمانے پر موجود ہے:

زیر نگرانی لرننگ: ایک ماڈل زیر نگرانی مشین لرننگ میں لیبل یا تاریخی ڈیٹا کا استعمال کرتے ہوئے پیشین گوئیاں یا فیصلے تخلیق کرتا ہے۔ ڈیٹا سیٹ جو اپنے معنی کو بڑھانے کے لیے ٹیگ یا لیبل لگائے گئے ہیں انہیں لیبل شدہ ڈیٹا کہا جاتا ہے۔
غیر زیر نگرانی سیکھنا: ہمارے پاس غیر زیر نگرانی سیکھنے کا لیبل لگا ڈیٹا نہیں ہے۔ آنے والے اعداد و شمار میں، ایک ماڈل پیٹرن، عجیب، اور ارتباط تلاش کر سکتا ہے.
کمک سیکھنا: ماڈل کر سکتے ہیں کمک کا استعمال کرتے ہوئے سیکھیں سیکھنا اور اس کے سابقہ رویے کے لیے ملنے والے انعامات۔

3. تعصب بمقابلہ تغیر تجارت کیا ہے؟

اوور فٹنگ تعصب کا نتیجہ ہے، یہ وہ ڈگری ہے جس میں ماڈل ڈیٹا کو فٹ کرتا ہے۔ تعصب آپ کے غلط یا بہت سادہ مفروضوں کی وجہ سے ہوتا ہے۔ مشین لرننگ الگورتھم.

تغیر سے مراد آپ کے ML الگورتھم میں پیچیدگی کی وجہ سے ہونے والی غلطیاں ہیں، جو تربیتی ڈیٹا اور اوور فٹنگ میں تغیر کی بڑی ڈگریوں کے لیے حساسیت پیدا کرتی ہے۔

تغیر یہ ہے کہ ان پٹ پر منحصر ماڈل کتنا مختلف ہوتا ہے۔

دوسرے لفظوں میں، بنیادی ماڈل انتہائی متعصب لیکن مستحکم ہیں (کم تغیر)۔ پیچیدہ ماڈلز کے ساتھ اوور فٹنگ ایک مسئلہ ہے، حالانکہ وہ اس کے باوجود ماڈل کی حقیقت (کم تعصب) کو پکڑ لیتے ہیں۔

اعلی تغیر اور اعلی تعصب دونوں کو روکنے کے لیے، بہترین خرابی کو کم کرنے کے لیے تعصب اور تغیر کے درمیان تجارت کا عمل ضروری ہے۔

4. وقت کے ساتھ ساتھ مشین لرننگ الگورتھم نمایاں طور پر تیار ہوئے ہیں۔ ڈیٹا سیٹ کو استعمال کرنے کے لیے کوئی صحیح الگورتھم کا انتخاب کیسے کرتا ہے؟

مشین لرننگ تکنیک جس کو استعمال کیا جانا چاہئے اس کا انحصار صرف ایک مخصوص ڈیٹاسیٹ میں ڈیٹا کی قسم پر ہے۔

جب ڈیٹا لکیری ہوتا ہے تو لکیری رجعت استعمال ہوتی ہے۔ اگر ڈیٹا غیر خطوط کی نشاندہی کرتا ہے تو بیگنگ کا طریقہ بہتر کارکردگی کا مظاہرہ کرے گا۔ اگر تجارتی مقاصد کے لیے ڈیٹا کی جانچ یا تشریح کرنی ہو تو ہم فیصلہ کن درختوں یا SVM کا استعمال کر سکتے ہیں۔

اگر ڈیٹا سیٹ میں تصاویر، ویڈیوز اور آڈیو شامل ہوں تو اعصابی نیٹ ورک درست جواب حاصل کرنے کے لیے مفید ہو سکتے ہیں۔

کسی مخصوص صورت حال یا ڈیٹا کو جمع کرنے کے لیے الگورتھم کا انتخاب صرف ایک پیمانہ پر نہیں کیا جا سکتا۔

بہترین موزوں طریقہ تیار کرنے کے مقصد کے لیے، ہمیں سب سے پہلے ایکسپلوریٹری ڈیٹا اینالیسس (EDA) کا استعمال کرتے ہوئے ڈیٹا کا جائزہ لینا چاہیے اور ڈیٹا سیٹ کے استعمال کے ہدف کو سمجھنا چاہیے۔

5. ہم آہنگی اور ارتباط میں کیسے فرق ہے؟

Covariance اس بات کا جائزہ لیتا ہے کہ دو متغیرات ایک دوسرے سے کس طرح جڑے ہوئے ہیں اور ایک دوسرے میں تبدیلی کے جواب میں کیسے تبدیل ہو سکتا ہے۔

اگر نتیجہ مثبت ہے، تو یہ اشارہ کرتا ہے کہ متغیرات کے درمیان براہ راست تعلق ہے اور یہ کہ بنیادی متغیر میں اضافے یا کمی کے ساتھ کوئی بڑھتا یا گھٹتا ہے، یہ فرض کرتے ہوئے کہ باقی تمام شرائط مستقل رہیں گی۔

ارتباط دو بے ترتیب متغیرات کے درمیان تعلق کی پیمائش کرتا ہے اور اس کی صرف تین الگ قدریں ہیں: 1، 0، اور -1۔

6. مشین لرننگ میں، کلسٹرنگ کا کیا مطلب ہے؟

غیر زیر نگرانی سیکھنے کے طریقے جو ڈیٹا پوائنٹس کو ایک ساتھ گروپ کرتے ہیں انہیں کلسٹرنگ کہا جاتا ہے۔ ڈیٹا پوائنٹس کے مجموعے کے ساتھ، کلسٹرنگ تکنیک کا اطلاق کیا جا سکتا ہے۔

آپ اس حکمت عملی کا استعمال کرتے ہوئے تمام ڈیٹا پوائنٹس کو ان کے افعال کے مطابق گروپ کر سکتے ہیں۔

ایک ہی زمرے میں آنے والے ڈیٹا پوائنٹس کی خصوصیات اور خصوصیات ایک جیسی ہیں، جبکہ ڈیٹا پوائنٹس جو الگ الگ گروپ بندیوں میں آتے ہیں وہ مختلف ہیں۔

اس نقطہ نظر کو شماریاتی ڈیٹا کا تجزیہ کرنے کے لیے استعمال کیا جا سکتا ہے۔

7. آپ کا ترجیحی مشین لرننگ الگورتھم کیا ہے؟

آپ کے پاس اس سوال میں اپنی ترجیحات اور منفرد صلاحیتوں کے ساتھ ساتھ مشین لرننگ کی متعدد تکنیکوں کے بارے میں آپ کی جامع معلومات کا مظاہرہ کرنے کا موقع ہے۔

سوچنے کے لیے یہاں چند مخصوص مشین لرننگ الگورتھم ہیں:

لکیری رجعت
لاجسٹک رجعت
بولی
فیصلہ کرنے والے درخت
K کا مطلب ہے
بے ترتیب جنگل الگورتھم
K-قریب ترین پڑوسی (KNN)

8. مشین لرننگ میں لکیری رجعت: یہ کیا ہے؟

ایک زیر نگرانی مشین لرننگ الگورتھم لکیری ریگریشن ہے۔

انحصار اور آزاد متغیر کے درمیان لکیری کنکشن کا تعین کرنے کے لیے پیشن گوئی کے تجزیے میں اس کا استعمال کیا جاتا ہے۔

لکیری رجعت کی مساوات مندرجہ ذیل ہے:

Y = A + BX

کہاں:

ان پٹ یا آزاد متغیر کو X کہا جاتا ہے۔
منحصر یا آؤٹ پٹ متغیر Y ہے۔
X کا عدد بی ہے، اور اس کا وقفہ a ہے۔

9. KNN اور k- یعنی کلسٹرنگ کے درمیان فرق بیان کریں۔

بنیادی امتیاز یہ ہے کہ KNN (ایک درجہ بندی کا طریقہ، زیر نگرانی سیکھنے) کو لیبل والے پوائنٹس کی ضرورت ہے جبکہ k- کا مطلب نہیں ہے (کلسٹرنگ الگورتھم، غیر زیر نگرانی سیکھنے)۔

آپ K-Nearest Neighbours کا استعمال کر کے لیبل والے ڈیٹا کو بغیر لیبل والے پوائنٹ میں درجہ بندی کر سکتے ہیں۔ K- یعنی کلسٹرنگ پوائنٹس کے درمیان اوسط فاصلہ استعمال کرتا ہے یہ سیکھنے کے لیے کہ بغیر لیبل والے پوائنٹس کو کیسے گروپ کیا جائے۔

10. آپ کے لیے "انتخابی تعصب" کا کیا مطلب ہے؟

تجربے کے نمونے لینے کے مرحلے میں تعصب شماریاتی غلطی کی وجہ سے ہے۔

ایک نمونہ گروپ کو غلط ہونے کے نتیجے میں تجربے میں دوسرے گروپوں سے زیادہ کثرت سے منتخب کیا جاتا ہے۔

اگر انتخابی تعصب کو تسلیم نہیں کیا جاتا ہے، تو اس کے نتیجے میں ایک غلط نتیجہ نکل سکتا ہے۔

11. Bayes کی تھیوریم بالکل کیا ہے؟

جب ہم دیگر احتمالات سے واقف ہوتے ہیں، تو ہم Bayes کے Theorem کا استعمال کرتے ہوئے ایک امکان کا تعین کر سکتے ہیں۔ یہ پیشگی معلومات کی بنیاد پر دوسرے لفظوں میں کسی وقوعہ کے بعد کا امکان پیش کرتا ہے۔

مشروط امکانات کا اندازہ لگانے کے لیے ایک درست طریقہ اس نظریہ کے ذریعے فراہم کیا گیا ہے۔

جب درجہ بندی پیشن گوئی ماڈلنگ کے مسائل تیار کرتے ہیں اور کسی ماڈل کو تربیت میں فٹ کرتے ہیں۔ مشین لرننگ میں ڈیٹا سیٹ, Bayes کے تھیوریم کا اطلاق ہوتا ہے (یعنی Naive Bayes، Bayes Optimal Classifier)۔

12. مشین لرننگ ماڈل میں، 'ٹریننگ سیٹ' اور 'ٹیسٹ سیٹ' کیا ہیں؟

تربیتی سیٹ:

تربیتی سیٹ ان مثالوں پر مشتمل ہوتا ہے جو ماڈل کو تجزیہ اور سیکھنے کے لیے بھیجے جاتے ہیں۔
یہ لیبل شدہ ڈیٹا ہے جو ماڈل کو تربیت دینے کے لیے استعمال کیا جائے گا۔
عام طور پر، کل ڈیٹا کا 70% تربیتی ڈیٹاسیٹ کے طور پر استعمال ہوتا ہے۔

ٹیسٹ سیٹ:

ٹیسٹ سیٹ ماڈل کے مفروضے کی نسل کی درستگی کا اندازہ لگانے کے لیے استعمال کیا جاتا ہے۔
ہم لیبل لگے ڈیٹا کے بغیر جانچ کرتے ہیں اور پھر نتائج کی تصدیق کے لیے لیبل استعمال کرتے ہیں۔
بقیہ 30% ٹیسٹ ڈیٹاسیٹ کے طور پر استعمال ہوتا ہے۔

13. مشین لرننگ میں مفروضہ کیا ہے؟

مشین لرننگ کسی ایسے فنکشن کو بہتر طور پر سمجھنے کے لیے موجودہ ڈیٹاسیٹس کے استعمال کو قابل بناتی ہے جو ان پٹ کو آؤٹ پٹ سے جوڑتا ہے۔ اسے فنکشن اپروکسیمیشن کہا جاتا ہے۔

اس صورت میں، ممکنہ طور پر دی گئی صورت حال کی بنیاد پر تمام قابل فہم مشاہدات کو منتقل کرنے کے لیے نامعلوم ہدف کے فنکشن کے لیے تخمینہ کا استعمال کیا جانا چاہیے۔

مشین لرننگ میں، ایک مفروضہ ایک ماڈل ہے جو ہدف کے فنکشن کا اندازہ لگانے اور مناسب ان پٹ ٹو آؤٹ پٹ میپنگ کو مکمل کرنے میں مدد کرتا ہے۔

الگورتھم کا انتخاب اور ڈیزائن ممکنہ مفروضوں کی جگہ کی تعریف کی اجازت دیتا ہے جس کی نمائندگی ماڈل کے ذریعے کی جا سکتی ہے۔

کسی ایک مفروضے کے لیے، چھوٹے حِس (h) کا استعمال کیا جاتا ہے، لیکن کیپیٹل h (H) پورے مفروضے کی جگہ کے لیے استعمال ہوتا ہے جسے تلاش کیا جا رہا ہے۔ ہم مختصراً ان اشارے کا جائزہ لیں گے:

ایک مفروضہ (h) ایک خاص ماڈل ہے جو ان پٹ کو آؤٹ پٹ میں نقشہ سازی کی سہولت فراہم کرتا ہے، جسے بعد میں تشخیص اور پیشین گوئی کے لیے استعمال کیا جا سکتا ہے۔
ایک مفروضہ سیٹ (H) مفروضوں کی ایک قابل تلاش جگہ ہے جس کا استعمال آؤٹ پٹس میں ان پٹ کو نقشہ کرنے کے لیے کیا جا سکتا ہے۔ ایشو فریمنگ، ماڈل اور ماڈل کنفیگریشن عام حدود کی چند مثالیں ہیں۔

14. مشین لرننگ اوور فٹنگ کا کیا مطلب ہے، اور اسے کیسے روکا جا سکتا ہے؟

جب کوئی مشین ناکافی ڈیٹا سیٹ سے سیکھنے کی کوشش کرتی ہے تو اوور فٹنگ ہوتی ہے۔

نتیجے کے طور پر، اوور فٹنگ ڈیٹا کے حجم کے ساتھ الٹا تعلق رکھتی ہے۔ کراس توثیق کا طریقہ چھوٹے ڈیٹا سیٹس کے لیے اوور فٹنگ سے گریز کرنے کی اجازت دیتا ہے۔ اس طریقہ کار میں ڈیٹاسیٹ کو دو حصوں میں تقسیم کیا گیا ہے۔

جانچ اور تربیت کا ڈیٹاسیٹ ان دو حصوں پر مشتمل ہوگا۔ ٹریننگ ڈیٹاسیٹ کا استعمال ماڈل بنانے کے لیے کیا جاتا ہے، جبکہ ٹیسٹنگ ڈیٹاسیٹ کا استعمال مختلف ان پٹس کا استعمال کرتے ہوئے ماڈل کا جائزہ لینے کے لیے کیا جاتا ہے۔

اوور فٹنگ کو روکنے کا طریقہ یہ ہے۔

15. Naive Bayes کے درجہ بندی کرنے والے بالکل کیا ہیں؟

درجہ بندی کے مختلف طریقے Naive Bayes کی درجہ بندی کرنے والے بناتے ہیں۔ الگورتھم کا ایک سیٹ جو ان درجہ بندیوں کے نام سے جانا جاتا ہے سب ایک ہی بنیادی خیال پر کام کرتے ہیں۔

بولی Bayes کی درجہ بندی کرنے والوں کے ذریعہ بنایا گیا مفروضہ یہ ہے کہ ایک خصوصیت کی موجودگی یا غیر موجودگی کا دوسری خصوصیت کی موجودگی یا عدم موجودگی پر کوئی اثر نہیں ہوتا ہے۔

دوسرے لفظوں میں، یہ وہی ہے جسے ہم "بولی" کہتے ہیں کیونکہ یہ یہ قیاس کرتا ہے کہ ہر ڈیٹاسیٹ وصف یکساں طور پر اہم اور آزاد ہے۔

درجہ بندی بولی Bayes درجہ بندی کا استعمال کرتے ہوئے کی جاتی ہے۔ وہ استعمال کرنے میں آسان ہیں اور زیادہ پیچیدہ پیش گوئوں سے بہتر نتائج پیدا کرتے ہیں جب آزادی کی بنیاد درست ہو۔

متن کے تجزیہ، سپیم فلٹرنگ، اور سفارش کے نظام میں، وہ ملازم ہیں.

16. لاگت کے افعال اور نقصان کے افعال کا کیا مطلب ہے؟

جملہ "نقصان کی تقریب" سے مراد کمپیوٹنگ نقصان کا عمل ہے جب ڈیٹا کے صرف ایک ٹکڑے کو مدنظر رکھا جاتا ہے۔

اس کے برعکس، ہم متعدد ڈیٹا کے لیے غلطیوں کی کل مقدار کا تعین کرنے کے لیے لاگت کے فنکشن کا استعمال کرتے ہیں۔ کوئی اہم فرق موجود نہیں ہے۔

دوسرے لفظوں میں، جہاں لاگت کے افعال پورے ٹریننگ ڈیٹاسیٹ کے فرق کو جمع کرتے ہیں، نقصان کے فنکشنز کو ایک ریکارڈ کے لیے اصل اور پیشین گوئی شدہ اقدار کے درمیان فرق کو حاصل کرنے کے لیے ڈیزائن کیا گیا ہے۔

17. کیا چیز تخلیقی ماڈل کو امتیازی ماڈل سے ممتاز کرتی ہے؟

امتیازی ماڈل کئی ڈیٹا کیٹیگریز کے درمیان فرق سیکھتا ہے۔ ایک جنریٹو ماڈل مختلف ڈیٹا کی اقسام کو حاصل کرتا ہے۔

درجہ بندی کے مسائل پر، امتیازی ماڈل اکثر دوسرے ماڈلز کو پیچھے چھوڑ دیتے ہیں۔

18. قسم I اور قسم II کی غلطیوں کے درمیان فرق بیان کریں۔

غلط مثبت قسم کی غلطیوں کے زمرے میں آتے ہیں، جب کہ غلط منفی ٹائپ II کی غلطیوں کے تحت آتے ہیں (یہ دعویٰ کرنا کہ جب حقیقت میں کچھ نہیں ہوا ہے)۔

19. مشین لرننگ میں، Ensemble لرننگ تکنیک کیا ہے؟

ensemble لرننگ نامی ایک تکنیک زیادہ طاقتور ماڈل تیار کرنے کے لیے بہت سے مشین لرننگ ماڈلز کو ملاتی ہے۔

ایک ماڈل مختلف وجوہات کی بناء پر مختلف ہوسکتا ہے۔ کئی وجوہات ہیں:

مختلف آبادی
مختلف مفروضے۔
ماڈلنگ کے مختلف طریقے

ماڈل کی تربیت اور جانچ کے ڈیٹا کا استعمال کرتے ہوئے ہمیں ایک مسئلہ درپیش ہو گا۔ تعصب، تغیر، اور ناقابل تلافی غلطی اس غلطی کی ممکنہ اقسام ہیں۔

اب، ہم ماڈل میں تعصب اور تغیر کے درمیان اس توازن کو تعصب-تغیر تجارت کا نام دیتے ہیں، اور یہ ہمیشہ موجود رہنا چاہیے۔ یہ تجارت جوڑ سیکھنے کے استعمال کے ذریعے مکمل ہوتی ہے۔

اگرچہ مختلف جوڑ بنانے کے طریقے دستیاب ہیں، لیکن بہت سے ماڈلز کو یکجا کرنے کے لیے دو مشترکہ حکمت عملییں ہیں:

بیگنگ نامی مقامی نقطہ نظر اضافی تربیتی سیٹ تیار کرنے کے لیے ٹریننگ سیٹ کا استعمال کرتا ہے۔
بوسٹنگ، ایک زیادہ نفیس تکنیک: بیگنگ کی طرح، بوسٹنگ کا استعمال ٹریننگ سیٹ کے لیے مثالی وزن کا فارمولہ تلاش کرنے کے لیے کیا جاتا ہے۔

20. پیرامیٹرک ماڈلز بالکل کیا ہیں؟ ایک مثال دیں۔

پیرامیٹرک ماڈلز میں پیرامیٹرز کی ایک محدود مقدار ہے۔ ڈیٹا کی پیشن گوئی کرنے کے لیے، آپ کو صرف ماڈل کے پیرامیٹرز جاننے کی ضرورت ہے۔

درج ذیل عام مثالیں ہیں: لاجسٹک ریگریشن، لکیری ریگریشن، اور لکیری SVMs۔ غیر پیرامیٹرک ماڈل لچکدار ہوتے ہیں کیونکہ ان میں لامحدود پیرامیٹرز ہوتے ہیں۔

ڈیٹا کی پیشین گوئیوں کے لیے ماڈل کے پیرامیٹرز اور مشاہدہ شدہ ڈیٹا کی حیثیت درکار ہے۔ یہاں کچھ عام مثالیں ہیں: موضوع کے ماڈل، فیصلے کے درخت، اور k-قریب ترین پڑوسی۔

21. باہمی تعاون کے ساتھ فلٹرنگ کی وضاحت کریں۔ اس کے ساتھ ساتھ مواد پر مبنی فلٹرنگ؟

موزوں مواد کی تجاویز تخلیق کرنے کا ایک آزمودہ اور درست طریقہ باہمی فلٹرنگ ہے۔

سفارشی نظام کی ایک شکل جسے اشتراکی فلٹرنگ کہا جاتا ہے مشترکہ مفادات کے ساتھ صارف کی ترجیحات کو متوازن کرکے تازہ مواد کی پیش گوئی کرتا ہے۔

صارف کی ترجیحات وہ واحد چیز ہیں جس پر مواد پر مبنی تجویز کنندہ نظام غور کرتے ہیں۔ صارف کے سابقہ انتخاب کی روشنی میں، متعلقہ مواد سے نئی سفارشات فراہم کی جاتی ہیں۔

22. ٹائم سیریز سے آپ کا کیا مطلب ہے؟

ٹائم سیریز صعودی ترتیب میں اعداد کا مجموعہ ہے۔ پہلے سے طے شدہ وقت کے دوران، یہ منتخب کردہ ڈیٹا پوائنٹس کی نقل و حرکت پر نظر رکھتا ہے اور وقتاً فوقتاً ڈیٹا پوائنٹس کو پکڑتا ہے۔

ٹائم سیریز کے لیے کوئی کم از کم یا زیادہ سے زیادہ ٹائم ان پٹ نہیں ہے۔

ٹائم سیریز اکثر تجزیہ کار اپنی منفرد ضروریات کے مطابق ڈیٹا کا تجزیہ کرنے کے لیے استعمال کرتے ہیں۔

23. گریڈینٹ بوسٹنگ اور رینڈم فاریسٹ الگورتھم کے درمیان فرق بیان کریں۔

بے ترتیب جنگل:

فیصلہ کرنے والے درختوں کی ایک بڑی تعداد کو آخر میں اکٹھا کیا جاتا ہے اور اسے بے ترتیب جنگلات کے نام سے جانا جاتا ہے۔
جبکہ تدریجی فروغ ہر درخت کو دوسروں سے آزادانہ طور پر پیدا کرتا ہے، بے ترتیب جنگل ہر درخت کو ایک وقت میں ایک بناتا ہے۔
ملٹی کلاس آبجیکٹ کا پتہ لگانا بے ترتیب جنگلات کے ساتھ اچھا کام کرتا ہے۔

گریڈینٹ بڑھانا:

جب کہ بے ترتیب جنگلات عمل کے اختتام پر فیصلہ کن درختوں میں شامل ہوتے ہیں، گریڈینٹ بوسٹنگ مشینیں انہیں شروع سے جوڑ دیتی ہیں۔
اگر پیرامیٹرز کو مناسب طریقے سے ایڈجسٹ کیا جاتا ہے تو، گریڈینٹ بوسٹنگ نتائج کے لحاظ سے بے ترتیب جنگلات سے بہتر کارکردگی کا مظاہرہ کرتی ہے، لیکن اگر ڈیٹا سیٹ میں بہت سارے آؤٹ لیرز، بے ضابطگیوں، یا شور ہوں تو یہ ایک زبردست انتخاب نہیں ہے کیونکہ یہ ماڈل کو زیادہ فٹ ہونے کا سبب بن سکتا ہے۔
جب غیر متوازن ڈیٹا ہوتا ہے، جیسا کہ اصل وقت میں خطرے کی تشخیص ہوتی ہے، تو گریڈینٹ بوسٹنگ اچھی کارکردگی کا مظاہرہ کرتی ہے۔

24. آپ کو کنفیوژن میٹرکس کی ضرورت کیوں ہے؟ یہ کیا ہے؟

کنفیوژن میٹرکس کے نام سے جانا جاتا ایک ٹیبل، جسے بعض اوقات ایرر میٹرکس کے نام سے جانا جاتا ہے، وسیع پیمانے پر یہ ظاہر کرنے کے لیے استعمال کیا جاتا ہے کہ درجہ بندی کا ماڈل، یا درجہ بندی کرنے والا، ٹیسٹ ڈیٹا کے اس سیٹ پر کتنی اچھی کارکردگی کا مظاہرہ کرتا ہے جس کے لیے حقیقی قدریں معلوم ہوتی ہیں۔

یہ ہمیں یہ دیکھنے کے قابل بناتا ہے کہ ماڈل یا الگورتھم کس طرح کارکردگی کا مظاہرہ کرتا ہے۔ مختلف کورسز کے درمیان غلط فہمیوں کو دور کرنا ہمارے لیے آسان بناتا ہے۔

یہ اندازہ کرنے کے طریقے کے طور پر کام کرتا ہے کہ ماڈل یا الگورتھم کتنی اچھی کارکردگی کا مظاہرہ کرتا ہے۔

درجہ بندی کے ماڈل کی پیشین گوئیاں کنفیوژن میٹرکس میں مرتب کی جاتی ہیں۔ ہر کلاس لیبل کی شمار کی قدروں کو درست اور غلط پیشین گوئیوں کی کل تعداد کو توڑنے کے لیے استعمال کیا گیا تھا۔

یہ درجہ بندی کرنے والے کی غلطیوں کے ساتھ ساتھ درجہ بندی کرنے والوں کی وجہ سے ہونے والی مختلف قسم کی غلطیوں کی تفصیلات فراہم کرتا ہے۔

25. اصولی جزو کا تجزیہ دراصل کیا ہے؟

متغیرات کی تعداد کو کم کرکے جو ایک دوسرے کے ساتھ منسلک ہیں، مقصد ڈیٹا اکٹھا کرنے کی جہت کو کم کرنا ہے۔ لیکن تنوع کو زیادہ سے زیادہ برقرار رکھنا ضروری ہے۔

متغیرات کو متغیرات کے بالکل نئے سیٹ میں تبدیل کیا جاتا ہے جسے پرنسپل اجزاء کہتے ہیں۔

یہ پی سی آرتھوگونل ہیں کیونکہ یہ کوویریئنس میٹرکس کے ایجین ویکٹر ہیں۔

26. PCA (پرنسپل جزو تجزیہ) کے لیے اجزاء کی گردش اتنی اہم کیوں ہے؟

پی سی اے میں گردش بہت اہم ہے کیونکہ یہ ہر جزو کے ذریعہ حاصل کردہ تغیرات کے درمیان علیحدگی کو بہتر بناتا ہے، جس سے اجزاء کی تشریح آسان ہوتی ہے۔

اگر اجزاء کو گھمایا نہیں جاتا ہے تو ہمیں اجزاء کی مختلف حالتوں کو ظاہر کرنے کے لئے توسیع شدہ اجزاء کی ضرورت ہوتی ہے۔

27. ریگولرائزیشن اور نارملائزیشن ایک دوسرے سے کیسے مختلف ہیں؟

معمول:

نارملائزیشن کے دوران ڈیٹا کو تبدیل کیا جاتا ہے۔ آپ کو اعداد و شمار کو معمول پر لانا چاہئے اگر اس کے پیمانے ہیں جو کافی مختلف ہیں، خاص طور پر کم سے اونچائی تک۔ ہر کالم کو اس طرح ایڈجسٹ کریں کہ بنیادی اعداد و شمار تمام ہم آہنگ ہوں۔

اس بات کا یقین کرنے کے لئے کہ صحت سے متعلق کوئی نقصان نہیں ہے، یہ مفید ہوسکتا ہے. شور کو نظر انداز کرتے ہوئے سگنل کا پتہ لگانا ماڈل ٹریننگ کے مقاصد میں سے ایک ہے۔

اگر غلطی کو کم کرنے کے لیے ماڈل کو مکمل کنٹرول دیا جائے تو اوور فٹنگ کا امکان ہے۔

ریگولرائزیشن:

ریگولرائزیشن میں، پیشن گوئی کی تقریب میں ترمیم کی جاتی ہے. یہ ریگولرائزیشن کے ذریعے کچھ کنٹرول کے ساتھ مشروط ہے، جو پیچیدہ کاموں پر آسان فٹنگ فنکشنز کی حمایت کرتا ہے۔

28. نارملائزیشن اور سٹینڈرڈائزیشن ایک دوسرے سے کیسے مختلف ہیں؟

فیچر اسکیلنگ کے لیے سب سے زیادہ استعمال ہونے والی دو تکنیکیں نارملائزیشن اور سٹینڈرڈائزیشن ہیں۔

معمول:

[0,1] رینج کے مطابق ڈیٹا کو دوبارہ اسکیل کرنا نارملائزیشن کے نام سے جانا جاتا ہے۔
جب تمام پیرامیٹرز کا ایک ہی مثبت پیمانہ ہونا ضروری ہے، تو نارملائزیشن مددگار ثابت ہوتی ہے، لیکن ڈیٹا سیٹ کے آؤٹ لیرز ختم ہو جاتے ہیں۔

ریگولرائزیشن:

معیاری کاری کے عمل کے حصے کے طور پر ڈیٹا کو 0 کا اوسط اور 1 کا معیاری انحراف کے لیے دوبارہ اسکیل کیا جاتا ہے (یونٹ ویرینس)

29. "متغیر افراط زر کا عنصر" کا بالکل کیا مطلب ہے؟

صرف ایک آزاد متغیر کے ساتھ ماڈل کے تغیر اور ماڈل کے تغیر کے تناسب کو تغیر انفلیشن فیکٹر (VIF) کے نام سے جانا جاتا ہے۔

VIF متعدد رجعت متغیرات کے ایک سیٹ میں موجود کثیر خطوطی کی مقدار کا تخمینہ لگاتا ہے۔

ایک آزاد متغیر تغیر کے ساتھ ماڈل (VIF) ماڈل کا تغیر

30. تربیتی سیٹ کے سائز کی بنیاد پر، آپ درجہ بندی کیسے کرتے ہیں؟

ایک اعلی تعصب، کم تغیر والا ماڈل مختصر تربیتی سیٹ کے لیے بہتر کارکردگی کا مظاہرہ کرتا ہے کیونکہ اوور فٹنگ کا امکان کم ہوتا ہے۔ Naive Bayes ایک مثال ہے۔

ایک بڑے تربیتی سیٹ کے لیے زیادہ پیچیدہ تعاملات کی نمائندگی کرنے کے لیے، کم تعصب اور زیادہ تغیرات والا ماڈل بہتر ہے۔ لاجسٹک ریگریشن ایک اچھی مثال ہے۔

31. مشین لرننگ میں کس الگورتھم کو "سست سیکھنے والا" کہا جاتا ہے اور کیوں؟

ایک سست سیکھنے والا، KNN ایک مشین لرننگ الگورتھم ہے۔ چونکہ K-NN ٹریننگ ڈیٹا سے مشین سے سیکھی گئی قدروں یا متغیرات کو سیکھنے کے بجائے جب بھی درجہ بندی کرنا چاہتا ہے متحرک طور پر فاصلے کا حساب لگاتا ہے، یہ تربیتی ڈیٹاسیٹ کو یاد رکھتا ہے۔

یہ K-NN کو ایک سست سیکھنے والا بناتا ہے۔

32. ROC وکر اور AUC کیا ہیں؟

تمام حدوں پر درجہ بندی کے ماڈل کی کارکردگی کو ROC منحنی خطوط کے ذریعہ پیش کیا جاتا ہے۔ اس میں حقیقی مثبت شرح اور غلط مثبت شرح کا معیار ہے۔

سیدھے الفاظ میں، ROC منحنی خطوط کے نیچے کا علاقہ AUC (آر او سی وکر کے نیچے کا علاقہ) کے نام سے جانا جاتا ہے۔ ROC وکر کا دو جہتی رقبہ (0,0) سے AUC تک ماپا جاتا ہے (1,1)۔ بائنری درجہ بندی کے ماڈلز کا اندازہ لگانے کے لیے، اسے کارکردگی کے اعدادوشمار کے طور پر استعمال کیا جاتا ہے۔

33. ہائپر پیرامیٹر کیا ہیں؟ انہیں ماڈل پیرامیٹرز سے منفرد کیا بناتا ہے؟

ماڈل کا اندرونی متغیر ماڈل پیرامیٹر کے نام سے جانا جاتا ہے۔ تربیتی ڈیٹا کا استعمال کرتے ہوئے، ایک پیرامیٹر کی قدر کا تخمینہ لگایا جاتا ہے۔

ماڈل کے لیے نامعلوم، ایک ہائپر پیرامیٹر ایک متغیر ہے۔ اعداد و شمار سے قدر کا تعین نہیں کیا جا سکتا، اس طرح وہ ماڈل پیرامیٹرز کا حساب لگانے کے لیے اکثر کام کرتے ہیں۔

34. F1 سکور، یاد، اور درستگی کا کیا مطلب ہے؟

الجھن کی پیمائش درجہ بندی کے ماڈل کی تاثیر کا اندازہ لگانے کے لیے استعمال کیا جانے والا میٹرک ہے۔ کنفیوژن میٹرک کی بہتر وضاحت کے لیے درج ذیل جملے استعمال کیے جا سکتے ہیں۔

TP: حقیقی مثبت - یہ وہ مثبت قدریں ہیں جن کی صحیح توقع کی گئی تھی۔ یہ تجویز کرتا ہے کہ متوقع طبقے اور اصل طبقے کی اقدار دونوں مثبت ہیں۔

TN: حقیقی منفی- یہ وہ منفی اقدار ہیں جن کی درست پیشین گوئی کی گئی تھی۔ اس سے پتہ چلتا ہے کہ اصل کلاس اور متوقع کلاس کی قدر دونوں منفی ہیں۔

یہ اقدار — غلط مثبت اور غلط منفی — اس وقت ہوتی ہیں جب آپ کی اصل کلاس متوقع کلاس سے مختلف ہوتی ہے۔

اب،

اصل کلاس میں کیے گئے تمام مشاہدات کے لیے حقیقی مثبت شرح (TP) کے تناسب کو یاد کہتے ہیں، جسے حساسیت بھی کہا جاتا ہے۔

یاد کرنا TP/(TP+FN) ہے۔

درستگی مثبت پیشین گوئی کی قدر کا ایک پیمانہ ہے، جو ماڈل کی واقعی پیش گوئی کی گئی مثبتات کی تعداد کا موازنہ کرتا ہے کہ یہ کتنے درست مثبتات کی درست پیشین گوئی کرتا ہے۔

درستگی ہے TP/(TP + FP)

سمجھنے کے لیے سب سے آسان پرفارمنس میٹرک درستگی ہے، جو کہ تمام مشاہدات کے لیے صحیح طور پر پیش گوئی شدہ مشاہدات کا صرف تناسب ہے۔

درستگی (TP+TN)/(TP+FP+FN+TN) کے برابر ہے۔

F1 سکور فراہم کرنے کے لیے درستگی اور یاد کو وزن اور اوسط دیا جاتا ہے۔ نتیجے کے طور پر، یہ سکور جھوٹے مثبت اور غلط منفی دونوں پر غور کرتا ہے۔

F1 اکثر درستگی سے زیادہ قیمتی ہوتا ہے، خاص طور پر اگر آپ کے پاس غیر مساوی طبقاتی تقسیم ہے، چاہے بدیہی طور پر درستگی کو سمجھنا اتنا آسان نہ ہو۔

بہترین درستگی اس وقت حاصل کی جاتی ہے جب غلط مثبت اور غلط منفی کی قیمت کا موازنہ کیا جائے۔ درستگی اور یاد دونوں کو شامل کرنا بہتر ہے اگر غلط مثبت اور غلط منفی سے وابستہ اخراجات نمایاں طور پر مختلف ہوں۔

35. کراس توثیق دراصل کیا ہے؟

مشین لرننگ میں کراس-ویلیڈیشن نامی شماریاتی دوبارہ نمونے لینے کا طریقہ کئی راؤنڈز میں مشین لرننگ الگورتھم کو تربیت دینے اور جانچنے کے لیے کئی ڈیٹاسیٹ ذیلی سیٹوں کو ملازم کرتا ہے۔

ڈیٹا کی ایک نئی کھیپ جو ماڈل کو تربیت دینے کے لیے استعمال نہیں کی گئی تھی اس کی جانچ کراس توثیق کے ذریعے کی جاتی ہے تاکہ یہ دیکھا جا سکے کہ ماڈل اس کی کتنی اچھی پیش گوئی کرتا ہے۔ کراس توثیق کے ذریعے ڈیٹا اوور فٹنگ کو روکا جاتا ہے۔

K-Fold سب سے زیادہ استعمال ہونے والا دوبارہ نمونہ لینے کا طریقہ پورے ڈیٹاسیٹ کو برابر سائز کے K سیٹوں میں تقسیم کرتا ہے۔ اسے کراس توثیق کہتے ہیں۔

36. فرض کریں کہ آپ نے دریافت کیا ہے کہ آپ کے ماڈل میں ایک اہم تغیر ہے۔ آپ کی رائے میں، اس صورت حال سے نمٹنے کے لیے کون سا الگورتھم سب سے زیادہ موزوں ہے؟

اعلی تغیرات کا انتظام

ہمیں بڑے تغیرات کے ساتھ مسائل کے لیے بیگنگ تکنیک کا استعمال کرنا چاہیے۔

بے ترتیب ڈیٹا کے بار بار نمونے لینے کا استعمال بیگنگ الگورتھم کے ذریعے ڈیٹا کو ذیلی گروپوں میں تقسیم کرنے کے لیے کیا جائے گا۔ ایک بار ڈیٹا تقسیم ہوجانے کے بعد، ہم قواعد تیار کرنے کے لیے بے ترتیب ڈیٹا اور ایک مخصوص تربیتی طریقہ کار کا استعمال کرسکتے ہیں۔

اس کے بعد، ماڈل کی پیشین گوئیوں کو یکجا کرنے کے لیے پولنگ کا استعمال کیا جا سکتا ہے۔

37. کیا چیز رج ریگریشن کو لاسو ریگریشن سے ممتاز کرتی ہے؟

دو بڑے پیمانے پر استعمال ہونے والے ریگولرائزیشن کے طریقے ہیں Lasso (L1 بھی کہا جاتا ہے) اور Ridge (کبھی کبھی L2 بھی کہا جاتا ہے) ریگریشن۔ وہ ڈیٹا کی اوور فٹنگ کو روکنے کے لیے استعمال ہوتے ہیں۔

بہترین حل تلاش کرنے اور پیچیدگی کو کم کرنے کے لیے، ان تکنیکوں کو گتانکوں کو سزا دینے کے لیے استعمال کیا جاتا ہے۔ گتانک کی مطلق قدروں کی کل سزا دے کر، لاسو ریگریشن کام کرتا ہے۔

رج یا L2 ریگریشن میں پینلٹی فنکشن گتانکوں کے مربعوں کے مجموعے سے اخذ کیا گیا ہے۔

38. کون سا زیادہ اہم ہے: ماڈل کی کارکردگی یا ماڈل کی درستگی؟ آپ کس کو اور کیوں پسند کریں گے؟

یہ ایک فریب دینے والا سوال ہے، اس لیے سب سے پہلے یہ سمجھنا چاہیے کہ ماڈل پرفارمنس کیا ہے۔ اگر کارکردگی کو رفتار کے طور پر بیان کیا جاتا ہے، تو یہ درخواست کی قسم پر انحصار کرتا ہے۔ کسی بھی ایپلی کیشن میں جس میں حقیقی وقت کی صورتحال شامل ہو اسے ایک اہم جزو کے طور پر تیز رفتاری کی ضرورت ہوگی۔

مثال کے طور پر، تلاش کے بہترین نتائج کم قیمتی ہو جائیں گے اگر استفسار کے نتائج آنے میں بہت زیادہ وقت لگے۔

اگر کارکردگی کو اس بات کے جواز کے طور پر استعمال کیا جاتا ہے کہ درستگی اور یادداشت کو درستگی سے اوپر کیوں ترجیح دی جانی چاہیے، تو F1 سکور کسی بھی ڈیٹا سیٹ کے لیے کاروباری معاملے کو ظاہر کرنے میں درستگی سے زیادہ کارآمد ہو گا جو غیر متوازن ہے۔

39. آپ عدم مساوات کے ساتھ ڈیٹاسیٹ کا انتظام کیسے کریں گے؟

ایک غیر متوازن ڈیٹا سیٹ نمونے لینے کی تکنیک سے فائدہ اٹھا سکتا ہے۔ نمونے لینے یا تو کم یا زیادہ نمونے والے انداز میں کیے جا سکتے ہیں۔

سیمپلنگ کے تحت ہمیں اقلیتی طبقے سے مماثل اکثریتی طبقے کے سائز کو سکڑنے کی اجازت دیتا ہے، جو اسٹوریج اور رن ٹائم ایگزیکیوشن کے حوالے سے رفتار بڑھانے میں مدد کرتا ہے لیکن اس کے نتیجے میں قیمتی ڈیٹا کا نقصان بھی ہو سکتا ہے۔

اوور سیمپلنگ کی وجہ سے معلومات کے نقصان کے مسئلے کو حل کرنے کے لیے، ہم اقلیتی طبقے کا نمونہ بناتے ہیں۔ بہر حال، یہ ہمیں اوور فٹنگ کے مسائل سے دوچار کرنے کا سبب بنتا ہے۔

اضافی حکمت عملیوں میں شامل ہیں:

کلسٹر پر مبنی اوور سیمپلنگ- اس صورتحال میں اقلیتی اور اکثریتی طبقے کی مثالیں انفرادی طور پر K-مینز کلسٹرنگ تکنیک کے تابع ہیں۔ یہ ڈیٹا سیٹ کلسٹرز کو تلاش کرنے کے لیے کیا جاتا ہے۔ اس کے بعد، ہر کلسٹر کو اوور سیمپل کیا جاتا ہے تاکہ تمام کلاسز کا سائز ایک جیسا ہو اور کلاس کے اندر موجود تمام کلسٹرز کی مثالیں برابر ہوں۔
SMOTE: مصنوعی اقلیت سے زیادہ نمونے لینے کی تکنیک- اقلیتی طبقے سے ڈیٹا کا ایک ٹکڑا مثال کے طور پر استعمال کیا جاتا ہے، جس کے بعد اضافی مصنوعی مثالیں تیار کی جاتی ہیں جو اس سے موازنہ کی جاتی ہیں اور اصل ڈیٹاسیٹ میں شامل کی جاتی ہیں۔ یہ طریقہ عددی ڈیٹا پوائنٹس کے ساتھ اچھا کام کرتا ہے۔

40. آپ بوسٹنگ اور بیگنگ میں فرق کیسے کر سکتے ہیں؟

انسمبل تکنیکوں میں ایسے ورژن ہوتے ہیں جنہیں بیگنگ اور بوسٹنگ کہا جاتا ہے۔

بیگنگ-

اعلی تغیر کے ساتھ الگورتھم کے لیے، بیگنگ ایک تکنیک ہے جو تغیر کو کم کرنے کے لیے استعمال ہوتی ہے۔ درجہ بندی کرنے والوں کا ایسا ہی ایک خاندان جو تعصب کا شکار ہے فیصلہ ٹری فیملی ہے۔

ڈیٹا کی قسم جس پر فیصلہ کرنے والے درختوں کو تربیت دی جاتی ہے اس کا ان کی کارکردگی پر نمایاں اثر پڑتا ہے۔ اس کی وجہ سے، یہاں تک کہ بہت زیادہ فائن ٹیوننگ کے باوجود، نتائج کو عام کرنا بعض اوقات ان میں حاصل کرنا کہیں زیادہ مشکل ہوتا ہے۔

اگر فیصلہ کرنے والے درختوں کی تربیت کے اعداد و شمار کو تبدیل کیا جاتا ہے، تو نتائج کافی حد تک مختلف ہوتے ہیں۔

نتیجے کے طور پر، بیگنگ کا استعمال کیا جاتا ہے، جس میں فیصلہ سازی کے بہت سے درخت بنائے جاتے ہیں، جن میں سے ہر ایک کو اصل ڈیٹا کے نمونے کا استعمال کرتے ہوئے تربیت دی جاتی ہے، اور حتمی نتیجہ ان تمام مختلف ماڈلز کا اوسط ہوتا ہے۔

بڑھانا:

بوسٹنگ ایک n-کمزور درجہ بندی کے نظام کے ساتھ پیشین گوئیاں کرنے کی تکنیک ہے جس میں ہر کمزور درجہ بندی کرنے والا اپنے مضبوط درجہ بندی کرنے والوں کی کمیوں کو پورا کرتا ہے۔ ہم ایک ایسے درجہ بندی کا حوالہ دیتے ہیں جو "کمزور درجہ بندی" کے طور پر دیئے گئے ڈیٹا سیٹ پر بری کارکردگی کا مظاہرہ کرتا ہے۔

بوسٹنگ ظاہر ہے الگورتھم کے بجائے ایک عمل ہے۔ لاجسٹک ریگریشن اور کم فیصلہ کرنے والے درخت کمزور درجہ بندی کی عام مثالیں ہیں۔

Adaboost، Gradient Boosting، اور XGBoost دو سب سے مشہور بوسٹنگ الگورتھم ہیں، تاہم، اور بھی بہت سے ہیں۔

41. انڈکٹیو اور ڈیڈکٹیو لرننگ کے درمیان فرق کی وضاحت کریں۔

مشاہدہ شدہ مثالوں کے مجموعے سے مثال کے طور پر سیکھنے پر، ایک ماڈل عام نتیجے پر پہنچنے کے لیے آمادگی آمیز سیکھنے کا استعمال کرتا ہے۔ دوسری طرف، کٹوتی سیکھنے کے ساتھ، ماڈل اپنی تشکیل سے پہلے نتیجہ کو استعمال کرتا ہے۔

انڈکٹیو لرننگ مشاہدات سے نتائج اخذ کرنے کا عمل ہے۔

استنباطی سیکھنے کا عمل ہے جس کی بنیاد پر مشاہدات کی تخلیق ہوتی ہے۔

نتیجہ

مبارک ہو! یہ مشین لرننگ کے لیے 40 اور اس سے اوپر کے انٹرویو کے سوالات ہیں جن کے جوابات اب آپ جانتے ہیں۔ ڈیٹا سائنس اور مصنوعی ذہانت ٹکنالوجی کی ترقی کے ساتھ پیشوں کی مانگ جاری رہے گی۔

وہ امیدوار جو ان جدید ٹیکنالوجیز کے بارے میں اپنے علم کو اپ ڈیٹ کرتے ہیں اور اپنی مہارت کے سیٹ کو بہتر بناتے ہیں وہ مسابقتی تنخواہ کے ساتھ روزگار کے وسیع امکانات تلاش کر سکتے ہیں۔

اب آپ انٹرویوز کے جوابات دینے کے ساتھ آگے بڑھ سکتے ہیں کیونکہ آپ کو اس بات کی ٹھوس سمجھ ہے کہ مشین لرننگ انٹرویو کے کچھ وسیع پیمانے پر پوچھے گئے سوالات کا جواب کیسے دیا جائے۔

اپنے اہداف پر منحصر ہے، درج ذیل قدم اٹھائیں. Hashdork's پر جا کر انٹرویوز کے لیے تیاری کریں۔ انٹرویو سیریز.

سرفہرست 40+ مشین لرننگ انٹرویو کے سوالات