সুচিপত্র[লুকান][দেখান]
- 1. মেশিন লার্নিং, কৃত্রিম বুদ্ধিমত্তা এবং গভীর শিক্ষার মধ্যে পার্থক্য ব্যাখ্যা করুন।
- 2. মেশিন লার্নিং বিভিন্ন ধরনের বর্ণনা করুন.
- 3. পক্ষপাত বনাম ভ্যারিয়েন্স ট্রেড-অফ কি?
- 4. মেশিন লার্নিং অ্যালগরিদম সময়ের সাথে উল্লেখযোগ্যভাবে বিকশিত হয়েছে। প্রদত্ত ডেটা সেট ব্যবহার করার জন্য কীভাবে একজন সঠিক অ্যালগরিদম বেছে নেয়?
- 5. কোভ্যারিয়েন্স এবং পারস্পরিক সম্পর্ক কীভাবে আলাদা?
- 6. মেশিন লার্নিং-এ, ক্লাস্টারিং বলতে কী বোঝায়?
- 7. আপনার পছন্দের মেশিন লার্নিং অ্যালগরিদম কি?
- 8. মেশিন লার্নিং-এ লিনিয়ার রিগ্রেশন: এটা কি?
- 9. KNN এবং k-মানে ক্লাস্টারিংয়ের মধ্যে পার্থক্য বর্ণনা কর।
- 10. আপনার কাছে "নির্বাচন পক্ষপাত" বলতে কী বোঝায়?
- 11. বেইসের উপপাদ্য ঠিক কী?
- 12. একটি মেশিন লার্নিং মডেলে, 'ট্রেনিং সেট' এবং 'টেস্ট সেট' কী?
- 13. মেশিন লার্নিং একটি হাইপোথিসিস কি?
- 14. মেশিন লার্নিং ওভারফিটিং বলতে কী বোঝায় এবং কীভাবে এটি প্রতিরোধ করা যায়?
- 15. Naive Bayes ক্লাসিফায়ার ঠিক কি?
- 16. কস্ট ফাংশন এবং লস ফাংশন বলতে কী বোঝায়?
- 17. একটি বৈষম্যমূলক মডেল থেকে একটি উৎপাদক মডেলকে কী আলাদা করে?
- 18. টাইপ I এবং টাইপ II ত্রুটিগুলির মধ্যে পার্থক্যগুলি বর্ণনা করুন৷
- 19. মেশিন লার্নিং এ, এনসেম্বল লার্নিং টেকনিক কি?
- 20. প্যারামেট্রিক মডেল ঠিক কি? একটি উদাহরণ দিন।
- 21. সহযোগী ফিল্টারিং বর্ণনা করুন। পাশাপাশি বিষয়বস্তু ভিত্তিক ফিল্টারিং?
- 22. টাইম সিরিজ বলতে আপনি ঠিক কী বোঝেন?
- 23. গ্রেডিয়েন্ট বুস্টিং এবং র্যান্ডম ফরেস্ট অ্যালগরিদমের মধ্যে পার্থক্য বর্ণনা করুন।
- 24. কেন আপনি একটি বিভ্রান্তি ম্যাট্রিক্স প্রয়োজন? এটা কি?
- 25. একটি মূল উপাদান বিশ্লেষণ ঠিক কি?
- 26. কেন উপাদান ঘূর্ণন PCA (প্রধান উপাদান বিশ্লেষণ) জন্য এত গুরুত্বপূর্ণ?
- 27. কিভাবে নিয়মিতকরণ এবং স্বাভাবিককরণ একে অপরের থেকে পরিবর্তিত হয়?
- 28. কিভাবে স্বাভাবিকীকরণ এবং প্রমিতকরণ একে অপরের থেকে আলাদা?
- 29. "ভ্যারিয়েন্স ইনফ্লেশন ফ্যাক্টর" বলতে আসলে কী বোঝায়?
- 30. প্রশিক্ষণ সেটের আকারের উপর ভিত্তি করে, আপনি কীভাবে একটি শ্রেণীবিভাগ বাছাই করবেন?
- 31. মেশিন লার্নিং-এ কোন অ্যালগরিদমকে "অলস লার্নার" বলা হয় এবং কেন?
- 32. ROC বক্ররেখা এবং AUC কি?
- 33. হাইপারপ্যারামিটার কি? কি তাদের মডেল পরামিতি থেকে অনন্য করে তোলে?
- 34. F1 স্কোর, রিকল এবং প্রিসিশন বলতে কী বোঝায়?
- 35. ক্রস-ভ্যালিডেশন আসলে কি?
- 36. ধরা যাক আপনি আবিষ্কার করেছেন যে আপনার মডেলের একটি উল্লেখযোগ্য বৈচিত্র রয়েছে৷ কোন অ্যালগরিদম, আপনার মতে, এই পরিস্থিতি পরিচালনা করার জন্য সবচেয়ে উপযুক্ত?
- 37. কি ল্যাসো রিগ্রেশন থেকে রিজ রিগ্রেশনকে আলাদা করে?
- 38. কোনটি বেশি গুরুত্বপূর্ণ: মডেল পারফরম্যান্স বা মডেলের সঠিকতা? কোনটি এবং কেন আপনি এটির পক্ষে হবে?
- 39. আপনি কীভাবে অসমতার সাথে একটি ডেটাসেট পরিচালনা করবেন?
- 40. আপনি কিভাবে বুস্টিং এবং ব্যাগিংয়ের মধ্যে পার্থক্য করতে পারেন?
- 41. ইন্ডাকটিভ এবং ডিডাক্টিভ শেখার মধ্যে পার্থক্য ব্যাখ্যা কর।
- উপসংহার
ব্যবসাগুলি ব্যক্তিদের কাছে তথ্য এবং পরিষেবাগুলির অ্যাক্সেসযোগ্যতা বাড়ানোর জন্য কৃত্রিম বুদ্ধিমত্তা (AI) এবং মেশিন লার্নিংয়ের মতো অত্যাধুনিক প্রযুক্তি ব্যবহার করছে৷
এই প্রযুক্তিগুলি ব্যাঙ্কিং, ফিনান্স, খুচরা, উত্পাদন এবং স্বাস্থ্যসেবা সহ বিভিন্ন শিল্প দ্বারা গৃহীত হচ্ছে।
AI ব্যবহার করে সবচেয়ে বেশি চাওয়া-পাওয়া সাংগঠনিক ভূমিকাগুলির মধ্যে একটি হল ডেটা বিজ্ঞানী, কৃত্রিম বুদ্ধিমত্তা প্রকৌশলী, মেশিন লার্নিং ইঞ্জিনিয়ার এবং ডেটা বিশ্লেষকদের জন্য।
এই পোস্টটি আপনাকে বিভিন্ন মাধ্যমে নিয়ে যাবে মেশিন লার্নিং সাক্ষাত্কারের প্রশ্ন, মৌলিক থেকে জটিল পর্যন্ত, আপনার আদর্শ চাকরি খোঁজার সময় আপনাকে জিজ্ঞাসা করা যেতে পারে এমন যেকোনো প্রশ্নের জন্য প্রস্তুত হতে সাহায্য করার জন্য।
1. মেশিন লার্নিং, কৃত্রিম বুদ্ধিমত্তা এবং গভীর শিক্ষার মধ্যে পার্থক্য ব্যাখ্যা করুন।
কৃত্রিম বুদ্ধিমত্তা বিভিন্ন ধরনের মেশিন লার্নিং এবং ডিপ লার্নিং পন্থা নিযুক্ত করে যা কম্পিউটার সিস্টেমকে যুক্তি ও নিয়মের সাথে মানুষের মতো বুদ্ধিমত্তা ব্যবহার করে কাজ সম্পাদন করতে দেয়।
মেশিন লার্নিং বিভিন্ন পরিসংখ্যান এবং ডিপ লার্নিং পন্থা ব্যবহার করে যাতে মেশিনগুলিকে তাদের পূর্বের কর্মক্ষমতা থেকে শিখতে এবং মানুষের তত্ত্বাবধান ছাড়াই নিজেরাই কিছু কাজ করতে আরও পারদর্শী হতে পারে।
ডিপ লার্নিং হল অ্যালগরিদমগুলির একটি সংগ্রহ যা সফ্টওয়্যারটিকে নিজের থেকে শিখতে এবং ভয়েস এবং ছবি শনাক্তকরণের মতো বিভিন্ন বাণিজ্যিক কার্য সম্পাদন করতে দেয়।
সিস্টেম যে তাদের বহুস্তর প্রকাশ নিউরাল নেটওয়ার্ক শেখার জন্য প্রচুর পরিমাণে ডেটা গভীর শিক্ষা করতে সক্ষম।
2. মেশিন লার্নিং বিভিন্ন ধরনের বর্ণনা করুন.
মেশিন লার্নিং তিনটি ভিন্ন ধরনের বিস্তৃতভাবে বিদ্যমান:
- তত্ত্বাবধান করা শিক্ষা: তত্ত্বাবধানে মেশিন লার্নিং-এ লেবেলযুক্ত বা ঐতিহাসিক ডেটা ব্যবহার করে একটি মডেল ভবিষ্যদ্বাণী বা রায় তৈরি করে। যে ডেটা সেটগুলিকে ট্যাগ বা লেবেল করা হয়েছে তাদের অর্থ বাড়ানোর জন্য লেবেলযুক্ত ডেটা হিসাবে উল্লেখ করা হয়।
- তত্ত্বাবধানহীন শিক্ষা: তত্ত্বাবধানহীন শিক্ষার জন্য আমাদের কাছে লেবেলযুক্ত ডেটা নেই। ইনকামিং ডেটাতে, একটি মডেল নিদর্শন, অদ্ভুততা এবং পারস্পরিক সম্পর্ক খুঁজে পেতে পারে।
- শক্তিবৃদ্ধি শিক্ষা: মডেল করতে পারেন শক্তিবৃদ্ধি ব্যবহার করে শিখুন শেখা এবং পুরষ্কার এটি তার পূর্বের আচরণের জন্য পেয়েছে।
3. পক্ষপাত বনাম ভ্যারিয়েন্স ট্রেড-অফ কি?
ওভারফিটিং হল পক্ষপাতের ফল, যা একটি মডেল ডেটার সাথে মানানসই। পক্ষপাত আপনার ভুল বা খুব সহজ অনুমান দ্বারা সৃষ্ট হয় মেশিন লার্নিং অ্যালগরিদম.
ভ্যারিয়েন্স বলতে আপনার ML অ্যালগরিদমের জটিলতার কারণে সৃষ্ট ভুলগুলিকে বোঝায়, যা প্রশিক্ষণের ডেটা এবং ওভারফিটিংয়ে বড় মাত্রার ভিন্নতার প্রতি সংবেদনশীলতা তৈরি করে।
ভেরিয়েন্স হল ইনপুটগুলির উপর নির্ভর করে একটি মডেল কতটা পরিবর্তিত হয়।
অন্য কথায়, মৌলিক মডেলগুলি অত্যন্ত পক্ষপাতদুষ্ট অথচ স্থিতিশীল (কম বৈচিত্র্য)। ওভারফিটিং জটিল মডেলের একটি সমস্যা, যদিও তারা মডেলের বাস্তবতা (নিম্ন পক্ষপাত) ক্যাপচার করে।
উচ্চ বৈচিত্র্য এবং উচ্চ পক্ষপাত উভয়ই প্রতিরোধ করার জন্য, সর্বোত্তম ত্রুটি হ্রাসের জন্য পক্ষপাত ও ভিন্নতার মধ্যে একটি ট্রেড-অফ প্রয়োজন।
4. মেশিন লার্নিং অ্যালগরিদম সময়ের সাথে উল্লেখযোগ্যভাবে বিকশিত হয়েছে। প্রদত্ত ডেটা সেট ব্যবহার করার জন্য কীভাবে একজন সঠিক অ্যালগরিদম বেছে নেয়?
যে মেশিন লার্নিং কৌশলটি ব্যবহার করা উচিত তা শুধুমাত্র একটি নির্দিষ্ট ডেটাসেটের ডেটার উপর নির্ভর করে।
ডেটা লিনিয়ার হলে, লিনিয়ার রিগ্রেশন ব্যবহার করা হয়। যদি ডেটা অ-লিনিয়ারিটি নির্দেশ করে তবে ব্যাগিং পদ্ধতিটি আরও ভাল কাজ করবে। আমরা ডিসিশন ট্রি বা এসভিএম ব্যবহার করতে পারি যদি ডেটাকে বাণিজ্যিক উদ্দেশ্যে মূল্যায়ন বা ব্যাখ্যা করতে হয়।
যদি ডেটাসেটে ফটো, ভিডিও এবং অডিও থাকে তাহলে নিউরাল নেটওয়ার্কগুলি সঠিক উত্তর পেতে উপযোগী হতে পারে।
একটি নির্দিষ্ট পরিস্থিতিতে বা তথ্য সংগ্রহের জন্য অ্যালগরিদমের পছন্দ শুধুমাত্র একটি একক পরিমাপে করা যায় না।
সর্বোত্তম ফিট পদ্ধতি বিকাশের লক্ষ্যে, আমাদের অবশ্যই প্রথমে অনুসন্ধানমূলক ডেটা বিশ্লেষণ (EDA) ব্যবহার করে ডেটা পরীক্ষা করতে হবে এবং ডেটাসেট ব্যবহার করার লক্ষ্যটি বুঝতে হবে।
5. কোভ্যারিয়েন্স এবং পারস্পরিক সম্পর্ক কীভাবে আলাদা?
কোভেরিয়েন্স মূল্যায়ন করে কিভাবে দুটি ভেরিয়েবল একে অপরের সাথে সংযুক্ত এবং কিভাবে একটি অপরটির পরিবর্তনের প্রতিক্রিয়ায় পরিবর্তন হতে পারে।
ফলাফল ইতিবাচক হলে, এটি নির্দেশ করে যে ভেরিয়েবলগুলির মধ্যে একটি সরাসরি যোগসূত্র রয়েছে এবং যেটি বেস ভেরিয়েবলের বৃদ্ধি বা হ্রাসের সাথে বৃদ্ধি বা হ্রাস পাবে, অনুমান করে যে অন্যান্য সমস্ত অবস্থা স্থির থাকবে।
পারস্পরিক সম্পর্ক দুটি র্যান্ডম ভেরিয়েবলের মধ্যে সংযোগ পরিমাপ করে এবং শুধুমাত্র তিনটি স্বতন্ত্র মান রয়েছে: 1, 0 এবং -1।
6. মেশিন লার্নিং-এ, ক্লাস্টারিং বলতে কী বোঝায়?
তত্ত্বাবধানহীন শেখার পদ্ধতি যা ডেটা পয়েন্টকে একত্রে গোষ্ঠীবদ্ধ করে তাদের ক্লাস্টারিং বলা হয়। ডেটা পয়েন্টের সংগ্রহের সাথে, ক্লাস্টারিং কৌশল প্রয়োগ করা যেতে পারে।
আপনি এই কৌশলটি ব্যবহার করে সমস্ত ডেটা পয়েন্ট তাদের ফাংশন অনুসারে গ্রুপ করতে পারেন।
একই বিভাগে পড়ে থাকা ডেটা পয়েন্টগুলির বৈশিষ্ট্য এবং গুণাবলী একই রকম, যখন পৃথক গ্রুপিংয়ে পড়ে এমন ডেটা পয়েন্টগুলি আলাদা।
এই পদ্ধতিটি পরিসংখ্যানগত তথ্য বিশ্লেষণ করতে ব্যবহার করা যেতে পারে।
7. আপনার পছন্দের মেশিন লার্নিং অ্যালগরিদম কি?
এই প্রশ্নে আপনার পছন্দ এবং অনন্য প্রতিভা প্রদর্শন করার সুযোগ রয়েছে, সেইসাথে অসংখ্য মেশিন লার্নিং কৌশল সম্পর্কে আপনার ব্যাপক জ্ঞান।
এখানে চিন্তা করার জন্য কয়েকটি সাধারণ মেশিন লার্নিং অ্যালগরিদম রয়েছে:
- লিনিয়ার রিগ্রেশন
- পণ্য সরবরাহ সংশ্লেষণ
- নাইভ বয়েস
- সিদ্ধান্ত গাছ
- কে মানে
- এলোমেলো বন অ্যালগরিদম
- K- নিকটতম প্রতিবেশী (KNN)
8. মেশিন লার্নিং-এ লিনিয়ার রিগ্রেশন: এটা কি?
একটি তত্ত্বাবধানে মেশিন লার্নিং অ্যালগরিদম হল লিনিয়ার রিগ্রেশন।
নির্ভরশীল এবং স্বাধীন ভেরিয়েবলের মধ্যে রৈখিক সংযোগ নির্ধারণের জন্য এটি ভবিষ্যদ্বাণীমূলক বিশ্লেষণে নিযুক্ত করা হয়।
লিনিয়ার রিগ্রেশনের সমীকরণটি নিম্নরূপ:
Y = A + BX
কোথায়:
- ইনপুট বা স্বাধীন চলককে X বলা হয়।
- নির্ভরশীল বা আউটপুট ভেরিয়েবল হল Y।
- X এর সহগ হল b, এবং এর intercept হল a।
9. KNN এবং k-মানে ক্লাস্টারিংয়ের মধ্যে পার্থক্য বর্ণনা কর।
প্রাথমিক পার্থক্য হল KNN (একটি শ্রেণিবিন্যাস পদ্ধতি, তত্ত্বাবধানে শিক্ষা) লেবেলযুক্ত পয়েন্টের প্রয়োজন যেখানে k-মানে নয় (ক্লাস্টারিং অ্যালগরিদম, তত্ত্বাবধানহীন শিক্ষা)।
আপনি K- নিকটতম প্রতিবেশী ব্যবহার করে লেবেলযুক্ত ডেটাকে লেবেলবিহীন পয়েন্টে শ্রেণীবদ্ধ করতে পারেন। K- মানে ক্লাস্টারিং পয়েন্টের মধ্যে গড় দূরত্ব ব্যবহার করে কীভাবে লেবেলবিহীন পয়েন্টগুলিকে গোষ্ঠীভুক্ত করতে হয় তা শিখতে।
10. আপনার কাছে "নির্বাচন পক্ষপাত" বলতে কী বোঝায়?
একটি পরীক্ষার নমুনা পর্বে পক্ষপাতিত্ব পরিসংখ্যানগত ভুলতার কারণে।
একটি নমুনা গ্রুপ ভুলতার ফলে পরীক্ষায় অন্যান্য গোষ্ঠীর চেয়ে বেশি ঘন ঘন নির্বাচিত হয়।
যদি নির্বাচনের পক্ষপাত স্বীকার না করা হয় তবে এটি একটি ভুল উপসংহারে পরিণত হতে পারে।
11. বেইসের উপপাদ্য ঠিক কী?
যখন আমরা অন্যান্য সম্ভাব্যতা সম্পর্কে সচেতন থাকি, তখন আমরা বেইসের উপপাদ্য ব্যবহার করে একটি সম্ভাব্যতা নির্ধারণ করতে পারি। এটি অন্য কথায়, পূর্ববর্তী তথ্যের উপর ভিত্তি করে একটি ঘটনার পরবর্তী সম্ভাব্যতা প্রদান করে।
এই উপপাদ্য দ্বারা শর্তসাপেক্ষ সম্ভাব্যতা অনুমান করার জন্য একটি সঠিক পদ্ধতি প্রদান করা হয়।
যখন শ্রেণীবিভাগ ভবিষ্যদ্বাণীমূলক মডেলিং সমস্যা বিকাশ এবং একটি প্রশিক্ষণ একটি মডেল ফিট করা মেশিন লার্নিং ডেটাসেট, Bayes' উপপাদ্য প্রয়োগ করা হয় (অর্থাৎ Naive Bayes, Bayes Optimal Classifier)।
12. একটি মেশিন লার্নিং মডেলে, 'ট্রেনিং সেট' এবং 'টেস্ট সেট' কী?
প্রশিক্ষণ সেট:
- প্রশিক্ষণ সেটে এমন উদাহরণ রয়েছে যা বিশ্লেষণ এবং শেখার জন্য মডেলে পাঠানো হয়।
- এটি লেবেলযুক্ত ডেটা যা মডেলকে প্রশিক্ষণ দিতে ব্যবহার করা হবে।
- সাধারণত, মোট ডেটার 70% প্রশিক্ষণ ডেটাসেট হিসাবে ব্যবহৃত হয়।
টেস্ট সেট:
- পরীক্ষার সেটটি মডেলের হাইপোথিসিস প্রজন্মের নির্ভুলতা মূল্যায়ন করতে ব্যবহৃত হয়।
- আমরা লেবেলযুক্ত ডেটা ছাড়াই পরীক্ষা করি এবং তারপর ফলাফল নিশ্চিত করতে লেবেল ব্যবহার করি।
- অবশিষ্ট 30% একটি পরীক্ষার ডেটাসেট হিসাবে ব্যবহৃত হয়।
13. মেশিন লার্নিং একটি হাইপোথিসিস কি?
মেশিন লার্নিং একটি প্রদত্ত ফাংশনকে আরও ভালভাবে বোঝার জন্য বিদ্যমান ডেটাসেটগুলির ব্যবহার সক্ষম করে যা ইনপুটকে আউটপুটের সাথে লিঙ্ক করে। এটি ফাংশন আনুমানিক হিসাবে পরিচিত।
এই ক্ষেত্রে, সম্ভাব্য সর্বোত্তম উপায়ে প্রদত্ত পরিস্থিতির উপর ভিত্তি করে সমস্ত অনুমানযোগ্য পর্যবেক্ষণ স্থানান্তর করার জন্য অজানা লক্ষ্য ফাংশনের জন্য অনুমানকে নিযুক্ত করা আবশ্যক।
মেশিন লার্নিং-এ, একটি হাইপোথিসিস একটি মডেল যা লক্ষ্য ফাংশন অনুমান করতে এবং উপযুক্ত ইনপুট-টু-আউটপুট ম্যাপিংগুলি সম্পূর্ণ করতে সহায়তা করে।
অ্যালগরিদমগুলির নির্বাচন এবং নকশা সম্ভাব্য অনুমানের স্থানের সংজ্ঞার জন্য অনুমতি দেয় যা একটি মডেল দ্বারা প্রতিনিধিত্ব করা যেতে পারে।
একটি একক হাইপোথিসিসের জন্য, ছোট হাতের h (h) ব্যবহার করা হয়, কিন্তু ক্যাপিটাল h (H) ব্যবহার করা হয় পুরো হাইপোথিসিস স্পেসের জন্য যা অনুসন্ধান করা হচ্ছে। আমরা সংক্ষেপে এই স্বরলিপি পর্যালোচনা করব:
- একটি হাইপোথিসিস (h) হল একটি নির্দিষ্ট মডেল যা ইনপুট থেকে আউটপুটে ম্যাপিং করতে সাহায্য করে, যা পরবর্তীকালে মূল্যায়ন এবং ভবিষ্যদ্বাণীর জন্য ব্যবহার করা যেতে পারে।
- একটি হাইপোথিসিস সেট (H) হল অনুমানের একটি অনুসন্ধানযোগ্য স্থান যা আউটপুটগুলিতে ইনপুট ম্যাপ করতে ব্যবহার করা যেতে পারে। ইস্যু ফ্রেমিং, মডেল এবং মডেল কনফিগারেশন জেনেরিক সীমাবদ্ধতার কয়েকটি উদাহরণ।
14. মেশিন লার্নিং ওভারফিটিং বলতে কী বোঝায় এবং কীভাবে এটি প্রতিরোধ করা যায়?
যখন একটি মেশিন অপর্যাপ্ত ডেটাসেট থেকে শেখার চেষ্টা করে, তখন ওভারফিটিং ঘটে।
ফলস্বরূপ, ওভারফিটিং ডেটা ভলিউমের সাথে বিপরীতভাবে সম্পর্কিত। ক্রস-ভ্যালিডেশন পদ্ধতি ছোট ডেটাসেটের জন্য ওভারফিটিং এড়ানোর অনুমতি দেয়। এই পদ্ধতিতে একটি ডেটাসেটকে দুটি ভাগে ভাগ করা হয়।
পরীক্ষা এবং প্রশিক্ষণের জন্য ডেটাসেট এই দুটি অংশ নিয়ে গঠিত হবে। প্রশিক্ষণ ডেটাসেটটি একটি মডেল তৈরি করতে ব্যবহৃত হয়, যখন টেস্টিং ডেটাসেটটি বিভিন্ন ইনপুট ব্যবহার করে মডেলটির মূল্যায়ন করতে ব্যবহৃত হয়।
এইভাবে ওভারফিটিং প্রতিরোধ করা যায়।
15. Naive Bayes ক্লাসিফায়ার ঠিক কি?
বিভিন্ন শ্রেণীবিন্যাস পদ্ধতি Naive Bayes ক্লাসিফায়ার তৈরি করে। এই ক্লাসিফায়ার হিসাবে পরিচিত অ্যালগরিদমের একটি সেট সব একই মৌলিক ধারণার উপর কাজ করে।
নিষ্পাপ বায়েস শ্রেণীবিভাগের দ্বারা তৈরি অনুমান হল যে একটি বৈশিষ্ট্যের উপস্থিতি বা অনুপস্থিতি অন্য বৈশিষ্ট্যের উপস্থিতি বা অনুপস্থিতির উপর কোন প্রভাব ফেলে না।
অন্য কথায়, এটিকে আমরা "নিষ্পাপ" হিসাবে উল্লেখ করি কারণ এটি অনুমান করে যে প্রতিটি ডেটাসেট বৈশিষ্ট্য সমানভাবে তাৎপর্যপূর্ণ এবং স্বাধীন।
শ্রেণীবিভাগ নিষ্পাপ Bayes ক্লাসিফায়ার ব্যবহার করে সম্পন্ন করা হয়. এগুলি ব্যবহার করা সহজ এবং আরও জটিল ভবিষ্যদ্বাণীর চেয়ে ভাল ফলাফল তৈরি করে যখন স্বাধীনতার ভিত্তি সত্য হয়৷
টেক্সট বিশ্লেষণ, স্প্যাম ফিল্টারিং, এবং সুপারিশ সিস্টেম, তারা নিযুক্ত করা হয়.
16. কস্ট ফাংশন এবং লস ফাংশন বলতে কী বোঝায়?
"লস ফাংশন" শব্দগুচ্ছটি কম্পিউটিং ক্ষতির প্রক্রিয়াকে বোঝায় যখন শুধুমাত্র এক টুকরো ডেটা অ্যাকাউন্টে নেওয়া হয়।
বিপরীতভাবে, আমরা অসংখ্য ডেটার জন্য মোট ভুলের পরিমাণ নির্ধারণ করতে খরচ ফাংশন ব্যবহার করি। কোন উল্লেখযোগ্য পার্থক্য বিদ্যমান নেই.
অন্য কথায়, যেখানে খরচ ফাংশনগুলি পুরো প্রশিক্ষণ ডেটাসেটের জন্য পার্থক্যকে একত্রিত করে, লস ফাংশনগুলি একটি একক রেকর্ডের জন্য প্রকৃত এবং পূর্বাভাসিত মানের মধ্যে পার্থক্য ক্যাপচার করার জন্য ডিজাইন করা হয়েছে।
17. একটি বৈষম্যমূলক মডেল থেকে একটি উৎপাদক মডেলকে কী আলাদা করে?
একটি বৈষম্যমূলক মডেল বিভিন্ন ডেটা বিভাগের মধ্যে পার্থক্য শিখে। একটি জেনারেটিভ মডেল বিভিন্ন ডেটা টাইপের উপর তুলে ধরে।
শ্রেণিবিন্যাসের সমস্যায়, বৈষম্যমূলক মডেলগুলি প্রায়শই অন্যান্য মডেলকে ছাড়িয়ে যায়।
18. টাইপ I এবং টাইপ II ত্রুটিগুলির মধ্যে পার্থক্যগুলি বর্ণনা করুন৷
মিথ্যা ইতিবাচকগুলি টাইপ I ত্রুটিগুলির বিভাগের অধীনে পড়ে, যেখানে মিথ্যা নেতিবাচকগুলি টাইপ II ত্রুটিগুলির অধীনে যায় (আসলে যখন এটি ছিল তখন কিছুই ঘটেনি দাবি করা)৷
19. মেশিন লার্নিং এ, এনসেম্বল লার্নিং টেকনিক কি?
এনসেম্বল লার্নিং নামে একটি কৌশল আরও শক্তিশালী মডেল তৈরি করতে অনেক মেশিন লার্নিং মডেলকে মিশ্রিত করে।
একটি মডেল বিভিন্ন কারণে বিভিন্ন হতে পারে। বেশ কয়েকটি কারণ হল:
- বিভিন্ন জনসংখ্যা
- বিভিন্ন হাইপোথিসিস
- বিভিন্ন মডেলিং পদ্ধতি
মডেলের প্রশিক্ষণ এবং পরীক্ষার ডেটা ব্যবহার করার সময় আমরা একটি সমস্যার সম্মুখীন হব৷ পক্ষপাত, প্রকরণ এবং অপরিবর্তনীয় ত্রুটি এই ভুলের সম্ভাব্য প্রকার।
এখন, আমরা মডেলের পক্ষপাত ও বৈষম্যের মধ্যে এই ভারসাম্যকে একটি পক্ষপাত-ভ্যারিয়েন্স ট্রেড-অফ বলি, এবং এটি সর্বদা বিদ্যমান থাকা উচিত। এই ট্রেড-অফ ensemble লার্নিং ব্যবহারের মাধ্যমে সম্পন্ন করা হয়.
যদিও বিভিন্ন এনসেম্বল পন্থা উপলব্ধ রয়েছে, তবে অনেকগুলি মডেলকে একত্রিত করার জন্য দুটি সাধারণ কৌশল রয়েছে:
- ব্যাগিং নামক একটি স্থানীয় পদ্ধতি অতিরিক্ত প্রশিক্ষণ সেট তৈরি করতে প্রশিক্ষণ সেট ব্যবহার করে।
- বুস্টিং, একটি আরও পরিশীলিত কৌশল: অনেকটা ব্যাগিংয়ের মতো, বুস্টিং একটি প্রশিক্ষণ সেটের জন্য আদর্শ ওজন নির্ধারণের সূত্র খুঁজে পেতে ব্যবহৃত হয়।
20. প্যারামেট্রিক মডেল ঠিক কি? একটি উদাহরণ দিন।
প্যারামেট্রিক মডেলগুলিতে সীমিত পরিমাণ পরামিতি রয়েছে। ডেটা পূর্বাভাস করার জন্য, আপনাকে যা জানতে হবে তা হল মডেলের পরামিতিগুলি।
নিম্নলিখিতগুলি সাধারণ উদাহরণ: লজিস্টিক রিগ্রেশন, লিনিয়ার রিগ্রেশন এবং লিনিয়ার এসভিএম। নন-প্যারামেট্রিক মডেলগুলি নমনীয় কারণ এতে সীমাহীন সংখ্যক পরামিতি থাকতে পারে।
ডেটা পূর্বাভাসের জন্য মডেলের পরামিতি এবং পর্যবেক্ষণ করা ডেটার স্থিতি প্রয়োজন। এখানে কিছু সাধারণ উদাহরণ রয়েছে: বিষয় মডেল, সিদ্ধান্ত গাছ, এবং k- নিকটতম প্রতিবেশী।
21. সহযোগী ফিল্টারিং বর্ণনা করুন। পাশাপাশি বিষয়বস্তু ভিত্তিক ফিল্টারিং?
উপযোগী বিষয়বস্তু পরামর্শ তৈরি করার জন্য একটি চেষ্টা করা এবং সত্য পদ্ধতি হল সহযোগী ফিল্টারিং।
সহযোগিতামূলক ফিল্টারিং নামক সুপারিশ সিস্টেমের একটি ফর্ম শেয়ার করা আগ্রহের সাথে ব্যবহারকারীর পছন্দগুলির ভারসাম্য বজায় রেখে নতুন উপাদানের পূর্বাভাস দেয়।
ব্যবহারকারীর পছন্দগুলি হল একমাত্র জিনিস যা বিষয়বস্তু-ভিত্তিক সুপারিশকারী সিস্টেমগুলি বিবেচনা করে। ব্যবহারকারীর পূর্ববর্তী নির্বাচনের আলোকে, সম্পর্কিত উপাদান থেকে নতুন সুপারিশ প্রদান করা হয়।
22. টাইম সিরিজ বলতে আপনি ঠিক কী বোঝেন?
একটি টাইম সিরিজ হল আরোহী ক্রমে সংখ্যার একটি সংগ্রহ। একটি পূর্বনির্ধারিত সময়ের মধ্যে, এটি নির্বাচিত ডেটা পয়েন্টগুলির গতিবিধি নিরীক্ষণ করে এবং পর্যায়ক্রমে ডেটা পয়েন্টগুলি ক্যাপচার করে।
টাইম সিরিজের জন্য কোন সর্বনিম্ন বা সর্বোচ্চ সময় ইনপুট নেই।
টাইম সিরিজগুলি প্রায়শই বিশ্লেষকরা তাদের অনন্য প্রয়োজনীয়তা অনুসারে ডেটা বিশ্লেষণ করতে ব্যবহার করেন।
23. গ্রেডিয়েন্ট বুস্টিং এবং র্যান্ডম ফরেস্ট অ্যালগরিদমের মধ্যে পার্থক্য বর্ণনা করুন।
এলোমেলো বন:
- বিপুল সংখ্যক সিদ্ধান্ত গাছের শেষে একত্রিত করা হয় এবং এলোমেলো বন নামে পরিচিত।
- গ্রেডিয়েন্ট বুস্টিং প্রতিটি গাছকে অন্যদের থেকে স্বাধীনভাবে উৎপাদন করে, র্যান্ডম ফরেস্ট একেকটি গাছ একে একে তৈরি করে।
- মাল্টিক্লাস অবজেক্ট সনাক্তকরণ এলোমেলো বনের সাথে ভাল কাজ করে।
গ্রেডিয়েন্ট বুস্টিং:
- এলোমেলো বন প্রক্রিয়ার শেষে সিদ্ধান্ত গাছে যোগদান করার সময়, গ্রেডিয়েন্ট বুস্টিং মেশিনগুলি শুরু থেকেই তাদের একত্রিত করে।
- যদি পরামিতিগুলি যথাযথভাবে সামঞ্জস্য করা হয়, তবে গ্রেডিয়েন্ট বুস্টিং ফলাফলের পরিপ্রেক্ষিতে এলোমেলো বনকে ছাড়িয়ে যায়, তবে ডেটা সেটে প্রচুর আউটলায়ার, অসঙ্গতি বা শব্দ থাকলে এটি একটি স্মার্ট পছন্দ নয় কারণ এটি মডেলটিকে ওভারফিট হতে পারে।
- যখন ভারসাম্যহীন ডেটা থাকে, যেমন রিয়েল-টাইম রিস্ক অ্যাসেসমেন্ট থাকে, গ্রেডিয়েন্ট বুস্টিং ভাল কাজ করে।
24. কেন আপনি একটি বিভ্রান্তি ম্যাট্রিক্স প্রয়োজন? এটা কি?
বিভ্রান্তি ম্যাট্রিক্স নামে পরিচিত একটি টেবিল, কখনও কখনও ত্রুটি ম্যাট্রিক্স নামে পরিচিত, একটি শ্রেণীবিভাগ মডেল, বা শ্রেণীবিভাগকারী, পরীক্ষার ডেটার সেটে কতটা ভাল কাজ করে তা দেখানোর জন্য ব্যাপকভাবে ব্যবহৃত হয় যার জন্য প্রকৃত মানগুলি পরিচিত।
এটি আমাদেরকে একটি মডেল বা অ্যালগরিদম কীভাবে কাজ করে তা দেখতে সক্ষম করে। এটি আমাদের জন্য বিভিন্ন কোর্সের মধ্যে ভুল বোঝাবুঝি চিহ্নিত করা সহজ করে তোলে।
এটি একটি মডেল বা অ্যালগরিদম কতটা ভালভাবে সঞ্চালিত হয় তা মূল্যায়ন করার একটি উপায় হিসাবে কাজ করে।
একটি শ্রেণীবিভাগ মডেলের ভবিষ্যদ্বাণী একটি বিভ্রান্তি ম্যাট্রিক্সে সংকলিত হয়। প্রতিটি ক্লাস লেবেলের গণনা মান সঠিক এবং ভুল ভবিষ্যদ্বাণীর মোট সংখ্যা ভাঙ্গতে ব্যবহার করা হয়েছিল।
এটি ক্লাসিফায়ার দ্বারা সৃষ্ট ত্রুটিগুলির পাশাপাশি শ্রেণীবদ্ধকারীর দ্বারা সৃষ্ট বিভিন্ন ধরণের ত্রুটিগুলির বিবরণ প্রদান করে৷
25. একটি মূল উপাদান বিশ্লেষণ ঠিক কি?
একে অপরের সাথে সম্পর্কযুক্ত ভেরিয়েবলের সংখ্যা হ্রাস করার মাধ্যমে, লক্ষ্য হল ডেটা সংগ্রহের মাত্রা হ্রাস করা। কিন্তু যতটা সম্ভব বৈচিত্র্য রাখা গুরুত্বপূর্ণ।
ভেরিয়েবলগুলিকে প্রধান উপাদান বলা ভেরিয়েবলের সম্পূর্ণ নতুন সেটে পরিবর্তিত করা হয়।
এই পিসিগুলি অর্থোগোনাল কারণ তারা একটি কোভেরিয়েন্স ম্যাট্রিক্সের ইজেনভেক্টর।
26. কেন উপাদান ঘূর্ণন PCA (প্রধান উপাদান বিশ্লেষণ) জন্য এত গুরুত্বপূর্ণ?
পিসিএ-তে ঘূর্ণন অত্যন্ত গুরুত্বপূর্ণ কারণ এটি প্রতিটি উপাদান দ্বারা প্রাপ্ত বৈচিত্রগুলির মধ্যে বিচ্ছেদকে অনুকূল করে তোলে, উপাদান ব্যাখ্যাকে সহজ করে তোলে।
যদি উপাদানগুলি ঘোরানো না হয় তবে উপাদানের বৈচিত্র্য প্রকাশ করার জন্য আমাদের বর্ধিত উপাদানগুলির প্রয়োজন।
27. কিভাবে নিয়মিতকরণ এবং স্বাভাবিককরণ একে অপরের থেকে পরিবর্তিত হয়?
সাধারণকরণ:
স্বাভাবিককরণের সময় ডেটা পরিবর্তিত হয়। আপনার ডেটা স্বাভাবিক করা উচিত যদি এটির স্কেলগুলি ব্যাপকভাবে ভিন্ন হয়, বিশেষ করে নিম্ন থেকে উচ্চ পর্যন্ত। প্রতিটি কলাম সামঞ্জস্য করুন যাতে মৌলিক পরিসংখ্যান সব সামঞ্জস্যপূর্ণ হয়।
নির্ভুলতার কোন ক্ষতি নেই তা নিশ্চিত করতে, এটি কার্যকর হতে পারে। গোলমাল উপেক্ষা করার সময় সংকেত সনাক্ত করা মডেল প্রশিক্ষণের অন্যতম উদ্দেশ্য।
ত্রুটি কমাতে মডেলটিকে সম্পূর্ণ নিয়ন্ত্রণ দেওয়া হলে ওভারফিটিং হওয়ার সম্ভাবনা রয়েছে।
নিয়মিতকরণ:
নিয়মিতকরণে, ভবিষ্যদ্বাণী ফাংশন সংশোধন করা হয়। এটি নিয়মিতকরণের মাধ্যমে কিছু নিয়ন্ত্রণের সাপেক্ষে, যা জটিলগুলির তুলনায় সহজ ফিটিং ফাংশনগুলির পক্ষে।
28. কিভাবে স্বাভাবিকীকরণ এবং প্রমিতকরণ একে অপরের থেকে আলাদা?
বৈশিষ্ট্য স্কেলিং এর জন্য দুটি সর্বাধিক ব্যবহৃত কৌশল হল স্বাভাবিককরণ এবং মানককরণ।
সাধারণকরণ:
- একটি [0,1] পরিসর অনুসারে ডেটা রিস্কেল করাকে স্বাভাবিককরণ বলা হয়।
- যখন সমস্ত প্যারামিটারের একই ইতিবাচক স্কেল থাকতে হবে, তখন স্বাভাবিককরণ সহায়ক, কিন্তু ডেটা সেটের আউটলায়ারগুলি হারিয়ে যায়।
নিয়মিতকরণ:
- স্ট্যান্ডার্ডাইজেশন প্রক্রিয়ার অংশ হিসাবে 0 এর গড় এবং 1 এর আদর্শ বিচ্যুতিতে ডেটা পুনরায় স্কেল করা হয় (ইউনিট ভ্যারিয়েন্স)
29. "ভ্যারিয়েন্স ইনফ্লেশন ফ্যাক্টর" বলতে আসলে কী বোঝায়?
শুধুমাত্র একটি স্বাধীন চলকের সাথে মডেলের ভিন্নতার সাথে মডেলের প্রকরণের অনুপাতটি প্রকরণ মুদ্রাস্ফীতি ফ্যাক্টর (VIF) নামে পরিচিত।
VIF বিভিন্ন রিগ্রেশন ভেরিয়েবলের একটি সেটে উপস্থিত মাল্টিকোলিনিয়ারিটির পরিমাণ অনুমান করে।
মডেলের ভিন্নতা (VIF) মডেলের সাথে একটি স্বাধীন পরিবর্তনশীল পরিবর্তন
30. প্রশিক্ষণ সেটের আকারের উপর ভিত্তি করে, আপনি কীভাবে একটি শ্রেণীবিভাগ বাছাই করবেন?
একটি উচ্চ পক্ষপাতিত্ব, কম বৈচিত্র্য মডেল একটি সংক্ষিপ্ত প্রশিক্ষণ সেটের জন্য ভাল পারফর্ম করে কারণ ওভারফিটিং এর সম্ভাবনা কম। নিভ বেইস একটি উদাহরণ।
একটি বৃহৎ প্রশিক্ষণ সেটের জন্য আরও জটিল মিথস্ক্রিয়া প্রতিনিধিত্ব করার জন্য, কম পক্ষপাত এবং উচ্চ বৈচিত্র সহ একটি মডেল পছন্দনীয়। লজিস্টিক রিগ্রেশন একটি ভাল উদাহরণ।
31. মেশিন লার্নিং-এ কোন অ্যালগরিদমকে "অলস লার্নার" বলা হয় এবং কেন?
একজন অলস লার্নার, KNN হল একটি মেশিন লার্নিং অ্যালগরিদম। যেহেতু কে-এনএন গতিশীলভাবে দূরত্ব গণনা করে প্রতিবার এটি প্রশিক্ষণের ডেটা থেকে মেশিন-শিক্ষিত মান বা ভেরিয়েবল শেখার পরিবর্তে শ্রেণীবদ্ধ করতে চায়, এটি প্রশিক্ষণ ডেটাসেটকে মুখস্থ করে।
এটি কে-এনএনকে অলস শিক্ষার্থী করে তোলে।
32. ROC বক্ররেখা এবং AUC কি?
সমস্ত থ্রেশহোল্ডে একটি শ্রেণিবিন্যাস মডেলের কর্মক্ষমতা ROC বক্ররেখা দ্বারা গ্রাফিকভাবে উপস্থাপন করা হয়। এটির সত্য ইতিবাচক হার এবং মিথ্যা ইতিবাচক হারের মানদণ্ড রয়েছে।
সহজভাবে বলতে গেলে, ROC বক্ররেখার অধীনে থাকা এলাকাটি AUC (আরওসি বক্ররেখার অধীনে এলাকা) নামে পরিচিত। ROC বক্ররেখার দ্বি-মাত্রিক ক্ষেত্রফল (0,0) থেকে AUC পর্যন্ত পরিমাপ করা হয় (1,1)। বাইনারি শ্রেণীবিভাগের মডেলের মূল্যায়নের জন্য, এটি একটি কর্মক্ষমতা পরিসংখ্যান হিসাবে নিযুক্ত করা হয়।
33. হাইপারপ্যারামিটার কি? কি তাদের মডেল পরামিতি থেকে অনন্য করে তোলে?
মডেলের একটি অভ্যন্তরীণ পরিবর্তনশীল একটি মডেল প্যারামিটার হিসাবে পরিচিত। প্রশিক্ষণ ডেটা ব্যবহার করে, একটি প্যারামিটারের মান আনুমানিক।
মডেলের কাছে অজানা, একটি হাইপারপ্যারামিটার একটি পরিবর্তনশীল। ডেটা থেকে মান নির্ধারণ করা যায় না, এইভাবে তারা প্রায়শই মডেল পরামিতি গণনা করতে নিযুক্ত হয়।
34. F1 স্কোর, রিকল এবং প্রিসিশন বলতে কী বোঝায়?
বিভ্রান্তি পরিমাপ হল শ্রেণীবিভাগ মডেলের কার্যকারিতা পরিমাপ করার জন্য নিযুক্ত মেট্রিক। বিভ্রান্তি মেট্রিকটি আরও ভালভাবে ব্যাখ্যা করতে নিম্নলিখিত বাক্যাংশগুলি ব্যবহার করা যেতে পারে:
TP: সত্যিকারের ইতিবাচক - এইগুলি হল ইতিবাচক মান যা সঠিকভাবে প্রত্যাশিত ছিল। এটি প্রস্তাব করে যে প্রক্ষিপ্ত শ্রেণী এবং প্রকৃত শ্রেণীর মান উভয়ই ইতিবাচক।
TN: সত্যিকারের নেতিবাচক- এইগুলি হল প্রতিকূল মান যা সঠিকভাবে পূর্বাভাস করা হয়েছিল। এটি প্রস্তাব করে যে প্রকৃত শ্রেণীর মান এবং প্রত্যাশিত শ্রেণীর উভয়ই ঋণাত্মক।
এই মানগুলি-মিথ্যা ইতিবাচক এবং মিথ্যা নেতিবাচকগুলি-যখন আপনার প্রকৃত শ্রেণী প্রত্যাশিত শ্রেণী থেকে আলাদা হয়।
এখন,
প্রকৃত শ্রেণীতে করা সমস্ত পর্যবেক্ষণের সাথে সত্যিকারের ধনাত্মক হারের (TP) অনুপাতকে রিকল বলা হয়, যা সংবেদনশীলতা নামেও পরিচিত।
রিকল হল TP/(TP+FN)।
যথার্থতা হল ইতিবাচক ভবিষ্যদ্বাণীমূলক মানের একটি পরিমাপ, যা মডেলটি প্রকৃতপক্ষে কতগুলি সঠিক ইতিবাচকের সঠিক ভবিষ্যদ্বাণী করে তার সাথে ইতিবাচক সংখ্যার তুলনা করে।
নির্ভুলতা হল TP/(TP + FP)
বোঝার জন্য সবচেয়ে সহজ পারফরম্যান্স মেট্রিক হল নির্ভুলতা, যা সমস্ত পর্যবেক্ষণের সঠিকভাবে ভবিষ্যদ্বাণী করা পর্যবেক্ষণের অনুপাত।
নির্ভুলতা সমান (TP+TN)/(TP+FP+FN+TN)।
F1 স্কোর প্রদানের জন্য যথার্থতা এবং প্রত্যাহার ওজন করা হয় এবং গড় করা হয়। ফলস্বরূপ, এই স্কোর মিথ্যা ইতিবাচক এবং মিথ্যা নেতিবাচক উভয়ই বিবেচনা করে।
F1 প্রায়শই নির্ভুলতার চেয়ে বেশি মূল্যবান, বিশেষ করে যদি আপনার একটি অসম শ্রেণি বন্টন থাকে, এমনকি যদি স্বজ্ঞাতভাবে এটি নির্ভুলতার মতো বোঝা সহজ না হয়।
সর্বোত্তম নির্ভুলতা অর্জিত হয় যখন মিথ্যা ইতিবাচক এবং মিথ্যা নেতিবাচক মূল্য তুলনা করা হয়। যদি মিথ্যা ইতিবাচক এবং মিথ্যা নেতিবাচকের সাথে সম্পর্কিত খরচগুলি উল্লেখযোগ্যভাবে পৃথক হয় তবে যথার্থতা এবং স্মরণ উভয়ই অন্তর্ভুক্ত করা বাঞ্ছনীয়।
35. ক্রস-ভ্যালিডেশন আসলে কি?
মেশিন লার্নিং-এ ক্রস-ভ্যালিডেশন নামক একটি পরিসংখ্যানগত রিস্যাম্পলিং পদ্ধতি বিভিন্ন রাউন্ড জুড়ে একটি মেশিন লার্নিং অ্যালগরিদমকে প্রশিক্ষণ ও মূল্যায়ন করার জন্য বিভিন্ন ডেটাসেট উপসেট নিয়োগ করে।
মডেলটিকে প্রশিক্ষণের জন্য ব্যবহার করা হয়নি এমন ডেটার একটি নতুন ব্যাচ মডেলটি কতটা ভালভাবে ভবিষ্যদ্বাণী করে তা দেখতে ক্রস-ভ্যালিডেশন ব্যবহার করে পরীক্ষা করা হয়। ক্রস-ভ্যালিডেশনের মাধ্যমে ডেটা ওভারফিটিং প্রতিরোধ করা হয়।
কে-ফোল্ড সবচেয়ে বেশি ব্যবহৃত রিস্যাম্পলিং পদ্ধতি পুরো ডেটাসেটকে সমান আকারের K সেটে বিভক্ত করে। একে ক্রস-ভ্যালিডেশন বলা হয়।
36. ধরা যাক আপনি আবিষ্কার করেছেন যে আপনার মডেলের একটি উল্লেখযোগ্য বৈচিত্র রয়েছে৷ কোন অ্যালগরিদম, আপনার মতে, এই পরিস্থিতি পরিচালনা করার জন্য সবচেয়ে উপযুক্ত?
উচ্চ পরিবর্তনশীলতা পরিচালনা
বড় বৈচিত্রের সমস্যাগুলির জন্য আমাদের ব্যাগিং কৌশলটি ব্যবহার করা উচিত।
র্যান্ডম ডেটার বারবার নমুনা ব্যাগিং অ্যালগরিদম ডেটাকে উপগোষ্ঠীতে ভাগ করতে ব্যবহার করবে। একবার ডেটা ভাগ হয়ে গেলে, আমরা নিয়ম তৈরি করতে এলোমেলো ডেটা এবং একটি নির্দিষ্ট প্রশিক্ষণ পদ্ধতি ব্যবহার করতে পারি।
এর পরে, পোলিং মডেলের ভবিষ্যদ্বাণীগুলিকে একত্রিত করতে ব্যবহার করা যেতে পারে।
37. কি ল্যাসো রিগ্রেশন থেকে রিজ রিগ্রেশনকে আলাদা করে?
দুটি বহুল ব্যবহৃত নিয়মিতকরণ পদ্ধতি হল Lasso (একে L1ও বলা হয়) এবং Ridge (কখনও কখনও L2 বলা হয়) রিগ্রেশন। এগুলি ডেটার ওভারফিটিং প্রতিরোধ করতে ব্যবহৃত হয়।
সর্বোত্তম সমাধান আবিষ্কার করতে এবং জটিলতা কমানোর জন্য, এই কৌশলগুলি সহগকে শাস্তি দেওয়ার জন্য নিযুক্ত করা হয়। সহগগুলির পরম মানগুলির মোট শাস্তির মাধ্যমে, ল্যাসো রিগ্রেশন কাজ করে।
রিজ বা L2 রিগ্রেশনে পেনাল্টি ফাংশনটি সহগগুলির বর্গের যোগফল থেকে উদ্ভূত হয়।
38. কোনটি বেশি গুরুত্বপূর্ণ: মডেল পারফরম্যান্স বা মডেলের সঠিকতা? কোনটি এবং কেন আপনি এটির পক্ষে হবে?
এটি একটি প্রতারণামূলক প্রশ্ন, এইভাবে প্রথমে মডেল পারফরম্যান্স কী তা বোঝা উচিত। যদি কর্মক্ষমতা গতি হিসাবে সংজ্ঞায়িত করা হয়, তাহলে এটি প্রয়োগের ধরনের উপর নির্ভর করে; রিয়েল-টাইম পরিস্থিতি জড়িত যেকোনো অ্যাপ্লিকেশনের জন্য একটি গুরুত্বপূর্ণ উপাদান হিসেবে উচ্চ গতির প্রয়োজন হবে।
উদাহরণস্বরূপ, সেরা অনুসন্ধান ফলাফলগুলি কম মূল্যবান হয়ে উঠবে যদি ক্যোয়ারী ফলাফল আসতে খুব বেশি সময় নেয়।
যদি পারফরম্যান্সকে যুক্তি হিসাবে ব্যবহার করা হয় কেন নির্ভুলতা এবং প্রত্যাহারকে নির্ভুলতার উপরে অগ্রাধিকার দেওয়া উচিত, তবে ভারসাম্যহীন যে কোনও ডেটা সেটের ব্যবসায়িক ক্ষেত্রে প্রদর্শনের ক্ষেত্রে একটি F1 স্কোর সঠিকতার চেয়ে বেশি কার্যকর হবে।
39. আপনি কীভাবে অসমতার সাথে একটি ডেটাসেট পরিচালনা করবেন?
একটি ভারসাম্যহীন ডেটাসেট নমুনা কৌশল থেকে উপকৃত হতে পারে। নমুনা একটি আন্ডার বা oversampled ফ্যাশন হয় করা যেতে পারে.
স্যাম্পলিং এর অধীনে সংখ্যালঘু শ্রেণীর সাথে মেলে সংখ্যাগরিষ্ঠ শ্রেণীর আকার সঙ্কুচিত করতে দেয়, যা সঞ্চয়স্থান এবং রান-টাইম সম্পাদনের ক্ষেত্রে গতি বৃদ্ধিতে সহায়তা করে তবে মূল্যবান ডেটার ক্ষতিও হতে পারে।
ওভারস্যাম্পলিংয়ের কারণে তথ্য হারানোর সমস্যা সমাধানের জন্য, আমরা সংখ্যালঘু শ্রেণির নমুনা তৈরি করি; তা সত্ত্বেও, এর ফলে আমাদের অতিরিক্ত ফিটিং সমস্যায় পড়তে হয়।
অতিরিক্ত কৌশল অন্তর্ভুক্ত:
- ক্লাস্টার-ভিত্তিক ওভার স্যাম্পলিং- এই পরিস্থিতিতে সংখ্যালঘু এবং সংখ্যাগরিষ্ঠ শ্রেণীর উদাহরণগুলি পৃথকভাবে K- মানে ক্লাস্টারিং কৌশলের অধীন। এটি ডেটাসেট ক্লাস্টার খুঁজে বের করার জন্য করা হয়। তারপর, প্রতিটি ক্লাস্টার ওভারস্যাম্পল করা হয় যাতে সমস্ত ক্লাসের আকার একই থাকে এবং একটি ক্লাসের মধ্যে সমস্ত ক্লাস্টারে সমান সংখ্যক দৃষ্টান্ত থাকে।
- SMOTE: সিন্থেটিক মাইনরিটি ওভার-স্যাম্পলিং টেকনিক- সংখ্যালঘু শ্রেণীর ডেটার একটি স্লাইস উদাহরণ হিসাবে ব্যবহার করা হয়, তারপরে এটির সাথে তুলনীয় অতিরিক্ত কৃত্রিম উদাহরণ তৈরি করা হয় এবং মূল ডেটাসেটে যোগ করা হয়। এই পদ্ধতিটি সাংখ্যিক ডেটা পয়েন্টের সাথে ভাল কাজ করে।
40. আপনি কিভাবে বুস্টিং এবং ব্যাগিংয়ের মধ্যে পার্থক্য করতে পারেন?
এনসেম্বল টেকনিকের সংস্করণ রয়েছে যা ব্যাগিং এবং বুস্টিং নামে পরিচিত।
ব্যাগিং-
উচ্চ বৈচিত্র সহ অ্যালগরিদমের জন্য, ব্যাগিং একটি কৌশল যা বৈচিত্র্য কমাতে ব্যবহৃত হয়। শ্রেণিবিন্যাসকারীদের এমন একটি পরিবার যা পক্ষপাতের প্রবণতা হল সিদ্ধান্ত গাছের পরিবার।
সিদ্ধান্ত গাছগুলিকে যে ধরণের ডেটাতে প্রশিক্ষণ দেওয়া হয় তা তাদের কার্যকারিতার উপর উল্লেখযোগ্য প্রভাব ফেলে। এই কারণে, এমনকি খুব উচ্চ সূক্ষ্ম টিউনিং সহ, ফলাফলের সাধারণীকরণ কখনও কখনও তাদের মধ্যে প্রাপ্ত করা অনেক বেশি কঠিন।
যদি সিদ্ধান্ত গাছের প্রশিক্ষণের তথ্য পরিবর্তন করা হয়, ফলাফলগুলি উল্লেখযোগ্যভাবে পরিবর্তিত হয়।
ফলস্বরূপ, ব্যাগিং ব্যবহার করা হয়, যাতে অনেকগুলি সিদ্ধান্ত গাছ তৈরি করা হয়, যার প্রতিটিকে মূল ডেটার একটি নমুনা ব্যবহার করে প্রশিক্ষিত করা হয় এবং শেষ ফলাফল এই সমস্ত বিভিন্ন মডেলের গড়।
বুস্টিং:
বুস্টিং হল একটি এন-দুর্বল শ্রেণিবিন্যাসকারী সিস্টেমের সাথে ভবিষ্যদ্বাণী করার কৌশল যেখানে প্রতিটি দুর্বল শ্রেণিবিন্যাসকারী তার শক্তিশালী শ্রেণিবিন্যাসকারীদের ঘাটতি পূরণ করে। আমরা একটি শ্রেণীবদ্ধকারীকে উল্লেখ করি যেটি একটি প্রদত্ত ডেটা সেটে "দুর্বল শ্রেণিবদ্ধকারী" হিসাবে খারাপভাবে কাজ করে।
বুস্টিং স্পষ্টতই একটি অ্যালগরিদমের পরিবর্তে একটি প্রক্রিয়া। লজিস্টিক রিগ্রেশন এবং অগভীর সিদ্ধান্ত গাছ দুর্বল শ্রেণীবিভাগের সাধারণ উদাহরণ।
অ্যাডাবুস্ট, গ্রেডিয়েন্ট বুস্টিং এবং এক্সজিবিবুস্ট হল দুটি জনপ্রিয় বুস্টিং অ্যালগরিদম, তবে আরও অনেক কিছু রয়েছে।
41. ইন্ডাকটিভ এবং ডিডাক্টিভ শেখার মধ্যে পার্থক্য ব্যাখ্যা কর।
পর্যবেক্ষিত উদাহরণগুলির একটি সেট থেকে উদাহরণ দ্বারা শেখার সময়, একটি মডেল একটি সাধারণ উপসংহারে পৌঁছানোর জন্য প্রবর্তক শিক্ষা ব্যবহার করে। অন্যদিকে, ডিডাক্টিভ লার্নিং সহ, মডেলটি তার নিজস্ব গঠনের আগে ফলাফল ব্যবহার করে।
ইন্ডাকটিভ লার্নিং হল পর্যবেক্ষণ থেকে উপসংহার আঁকার প্রক্রিয়া।
অনুমানমূলক শিক্ষা হল অনুমানের উপর ভিত্তি করে পর্যবেক্ষণ তৈরি করার প্রক্রিয়া।
উপসংহার
অভিনন্দন! এগুলি হল মেশিন লার্নিংয়ের জন্য শীর্ষ 40 এবং তার উপরে ইন্টারভিউ প্রশ্ন যার উত্তর আপনি এখন জানেন৷ তথ্য বিজ্ঞান এবং কৃত্রিম বুদ্ধিমত্তা প্রযুক্তির অগ্রগতি হিসাবে পেশাগুলির চাহিদা অব্যাহত থাকবে।
যে প্রার্থীরা এই অত্যাধুনিক প্রযুক্তি সম্পর্কে তাদের জ্ঞান আপডেট করে এবং তাদের দক্ষতার সেট উন্নত করে তারা প্রতিযোগিতামূলক বেতন সহ বিভিন্ন ধরণের কর্মসংস্থানের সম্ভাবনা খুঁজে পেতে পারে।
আপনি এখন সাক্ষাত্কারের উত্তর দিয়ে এগিয়ে যেতে পারেন কারণ আপনার কাছে বহুলভাবে জিজ্ঞাসিত কিছু মেশিন লার্নিং ইন্টারভিউ প্রশ্নের উত্তর কীভাবে দেওয়া যায় সে সম্পর্কে আপনার দৃঢ় ধারণা রয়েছে।
আপনার লক্ষ্যের উপর নির্ভর করে, নিম্নলিখিত পদক্ষেপ নিন। Hashdork এর পরিদর্শন করে সাক্ষাত্কারের জন্য প্রস্তুত করুন ইন্টারভিউ সিরিজ.
নির্দেশিকা সমন্ধে মতামত দিন