যেকোন ধরনের কর্পোরেট কার্যকলাপের জন্য একটি প্রাথমিক মানদণ্ড হল তথ্যের কার্যকর ব্যবহার। কিছু সময়ে, তৈরি করা ডেটার পরিমাণ মৌলিক প্রক্রিয়াকরণের ক্ষমতাকে ছাড়িয়ে যায়।
সেখানেই মেশিন লার্নিং অ্যালগরিদম কার্যকর হয়। যাইহোক, এর কোনটি ঘটতে পারে তার আগে, তথ্য অধ্যয়ন এবং ব্যাখ্যা করা আবশ্যক। সংক্ষেপে বলা যায়, এটিই যার জন্য তত্ত্বাবধানহীন মেশিন লার্নিং ব্যবহার করা হয়।
এই প্রবন্ধে, আমরা এর অ্যালগরিদম, ব্যবহারের কেস এবং আরও অনেক কিছু সহ গভীরভাবে তত্ত্বাবধানহীন মেশিন লার্নিং পরীক্ষা করব।
আনসুপারভাইজড মেশিন লার্নিং কি?
তত্ত্বাবধান না করা মেশিন লার্নিং অ্যালগরিদমগুলি একটি ডেটাসেটের প্যাটার্নগুলি সনাক্ত করে যেগুলির কোনও পরিচিত বা লেবেলযুক্ত পরিণতি নেই। তত্ত্বাবধান মেশিন লার্নিং অ্যালগরিদম একটি লেবেল আউটপুট আছে.
এই পার্থক্যটি জানা আপনাকে বুঝতে সাহায্য করে যে কেন তত্ত্বাবধানহীন মেশিন লার্নিং পদ্ধতিগুলি রিগ্রেশন বা শ্রেণিবিন্যাসের সমস্যাগুলি সমাধান করতে ব্যবহার করা যাবে না, যেহেতু আপনি জানেন না আউটপুট ডেটার মান/উত্তর কী হতে পারে। আপনি যদি মান/উত্তর না জানেন তবে আপনি সাধারণত একটি অ্যালগরিদম প্রশিক্ষণ দিতে পারবেন না।
তাছাড়া, আনসুপারভাইসড লার্নিং ডেটার মৌলিক গঠন সনাক্ত করতে ব্যবহার করা যেতে পারে। এই অ্যালগরিদমগুলি মানুষের মিথস্ক্রিয়া করার প্রয়োজন ছাড়াই লুকানো নিদর্শন বা ডেটা গ্রুপিং সনাক্ত করে।
তথ্যের সাদৃশ্য এবং বৈসাদৃশ্য সনাক্ত করার ক্ষমতা এটিকে অনুসন্ধানমূলক ডেটা বিশ্লেষণ, ক্রস-সেলিং কৌশল, ভোক্তা বিভাজন এবং ছবি সনাক্তকরণের জন্য একটি দুর্দান্ত পছন্দ করে তোলে।
নিম্নলিখিত পরিস্থিতি বিবেচনা করুন: আপনি একটি মুদি দোকানে আছেন এবং একটি অচেনা ফল দেখতে পাচ্ছেন যা আপনি আগে কখনও দেখেননি৷ আপনি সহজেই অজানা ফলটিকে আশেপাশের অন্যান্য ফলের থেকে আলাদা করতে পারেন তার ফর্ম, আকার বা রঙের উপর আপনার পর্যবেক্ষণের ভিত্তিতে।
তত্ত্বাবধানহীন মেশিন লার্নিং অ্যালগরিদম
থলোথলো
ক্লাস্টারিং নিঃসন্দেহে সবচেয়ে ব্যাপকভাবে ব্যবহৃত অ-তত্ত্বাবধানহীন শিক্ষা পদ্ধতি। এই পদ্ধতির সাথে সম্পর্কিত ডেটা আইটেমগুলিকে এলোমেলোভাবে তৈরি করা ক্লাস্টারে রাখে।
নিজে থেকেই, একটি ML মডেল একটি অশ্রেণিবদ্ধ ডেটা স্ট্রাকচারে যেকোন প্যাটার্ন, মিল এবং/অথবা পার্থক্য আবিষ্কার করে। একটি মডেল ডেটাতে যেকোনো প্রাকৃতিক গ্রুপিং বা ক্লাস আবিষ্কার করতে সক্ষম হবে।
প্রকারভেদ
ক্লাস্টারিংয়ের বিভিন্ন রূপ রয়েছে যা ব্যবহার করা যেতে পারে। আসুন প্রথমে সবচেয়ে গুরুত্বপূর্ণগুলি দেখি।
- এক্সক্লুসিভ ক্লাস্টারিং, কখনও কখনও "হার্ড" ক্লাস্টারিং নামে পরিচিত, এক ধরনের গ্রুপিং যেখানে ডেটার একটি অংশ শুধুমাত্র একটি ক্লাস্টারের অন্তর্গত।
- ওভারল্যাপিং ক্লাস্টারিং, প্রায়ই "নরম" ক্লাস্টারিং নামে পরিচিত, ডেটা অবজেক্টগুলিকে বিভিন্ন ডিগ্রী থেকে একাধিক ক্লাস্টারের অন্তর্গত হতে দেয়। তদ্ব্যতীত, সম্ভাব্য ক্লাস্টারিং "নরম" ক্লাস্টারিং বা ঘনত্ব অনুমান সমস্যাগুলি মোকাবেলা করতে ব্যবহার করা যেতে পারে, সেইসাথে নির্দিষ্ট ক্লাস্টারগুলির সাথে সম্পর্কিত ডেটা পয়েন্টগুলির সম্ভাব্যতা বা সম্ভাবনা মূল্যায়ন করতে।
- গোষ্ঠীবদ্ধ ডেটা আইটেমগুলির একটি শ্রেণিবিন্যাস তৈরি করা হল শ্রেণিবদ্ধ ক্লাস্টারিংয়ের লক্ষ্য, নামটি নির্দেশ করে। ক্লাস্টার তৈরি করার জন্য শ্রেণিবিন্যাস অনুসারে ডেটা আইটেমগুলিকে বিনির্মাণ বা একত্রিত করা হয়।
ব্যবহারের ক্ষেত্রে:
- অসঙ্গতি সনাক্তকরণ:
ক্লাস্টারিং ব্যবহার করে ডেটাতে যেকোন ধরনের আউটলায়ার সনাক্ত করা যায়। পরিবহন এবং লজিস্টিক কোম্পানিগুলি, উদাহরণস্বরূপ, লজিস্টিক প্রতিবন্ধকতাগুলি আবিষ্কার করতে বা ক্ষতিগ্রস্ত যান্ত্রিক অংশগুলি (ভবিষ্যদ্বাণীমূলক রক্ষণাবেক্ষণ) প্রকাশ করতে অসঙ্গতি সনাক্তকরণ ব্যবহার করতে পারে।
আর্থিক প্রতিষ্ঠানগুলি প্রতারণামূলক লেনদেন সনাক্ত করতে এবং দ্রুত প্রতিক্রিয়া জানাতে প্রযুক্তি ব্যবহার করতে পারে, সম্ভাব্যভাবে প্রচুর অর্থ সাশ্রয় করতে পারে। আমাদের ভিডিও দেখে অস্বাভাবিকতা এবং জালিয়াতি ধরা সম্পর্কে আরও জানুন।
- গ্রাহক এবং বাজারের বিভাজন:
ক্লাস্টারিং অ্যালগরিদমগুলি একই ধরণের বৈশিষ্ট্যযুক্ত লোকেদের গোষ্ঠীবদ্ধ করতে এবং আরও কার্যকর বিপণন এবং লক্ষ্যযুক্ত উদ্যোগের জন্য ভোক্তা ব্যক্তিত্ব তৈরি করতে সহায়তা করতে পারে।
কে-মানে
K- মানে হল একটি ক্লাস্টারিং পদ্ধতি যা পার্টিশনিং বা সেগমেন্টেশন নামেও পরিচিত। এটি ডেটা পয়েন্টগুলিকে K নামে পরিচিত একটি পূর্বনির্ধারিত সংখ্যক ক্লাস্টারে ভাগ করে।
K- মানে পদ্ধতিতে, K হল ইনপুট যেহেতু আপনি কম্পিউটারকে বলেন যে আপনি আপনার ডেটাতে কতগুলি ক্লাস্টার সনাক্ত করতে চান। প্রতিটি ডেটা আইটেম পরবর্তীতে নিকটতম ক্লাস্টার কেন্দ্রে বরাদ্দ করা হয়, যা সেন্ট্রোয়েড (ছবিতে কালো বিন্দু) নামে পরিচিত।
পরেরটি ডেটা স্টোরেজ স্পেস হিসাবে কাজ করে। ক্লাস্টারগুলি ভালভাবে সংজ্ঞায়িত না হওয়া পর্যন্ত ক্লাস্টারিং কৌশলটি বহুবার করা যেতে পারে।
ফাজি কে- মানে
ফাজি কে-মিনস হল কে-মিনস টেকনিকের একটি এক্সটেনশন, যা ওভারল্যাপিং ক্লাস্টারিং করতে ব্যবহৃত হয়। কে-মিন্স টেকনিকের বিপরীতে, অস্পষ্ট কে-মান ইঙ্গিত দেয় যে ডেটা পয়েন্টগুলি অনেক ক্লাস্টারের অন্তর্গত হতে পারে যার প্রতিটির বিভিন্ন ডিগ্রির নৈকট্য রয়েছে।
ডেটা পয়েন্ট এবং ক্লাস্টারের সেন্ট্রোয়েডের মধ্যে দূরত্ব প্রক্সিমিটি গণনা করতে ব্যবহৃত হয়। ফলস্বরূপ, বিভিন্ন ক্লাস্টার ওভারল্যাপ করার সময় এমন ঘটনা ঘটতে পারে।
গাউসিয়ান মিশ্রণ মডেল
গাউসিয়ান মিক্সচার মডেল (GMMs) হল সম্ভাব্য ক্লাস্টারিং-এ ব্যবহৃত একটি পদ্ধতি। যেহেতু গড় এবং পার্থক্য অজানা, মডেলগুলি অনুমান করে যে একটি নির্দিষ্ট সংখ্যক গাউসিয়ান ডিস্ট্রিবিউশন রয়েছে, প্রতিটি একটি স্বতন্ত্র ক্লাস্টারের প্রতিনিধিত্ব করে।
একটি নির্দিষ্ট ডেটা পয়েন্ট কোন ক্লাস্টারের অন্তর্গত তা নির্ধারণ করতে, পদ্ধতিটি মূলত ব্যবহৃত হয়।
হায়ারার্কিক্যাল ক্লাস্টারিং
অনুক্রমিক ক্লাস্টারিং কৌশলটি একটি ভিন্ন ক্লাস্টারে নির্ধারিত প্রতিটি ডেটা পয়েন্ট দিয়ে শুরু হতে পারে। দুটি ক্লাস্টার যেগুলি একে অপরের সবচেয়ে কাছে থাকে তারপর একটি একক ক্লাস্টারে মিশে যায়। শুধুমাত্র একটি ক্লাস্টার শীর্ষে থাকা পর্যন্ত পুনরাবৃত্তিমূলক একত্রীকরণ চলতে থাকে।
এই পদ্ধতিটি বটম-আপ বা সমষ্টিগত হিসাবে পরিচিত। আপনি যদি একই ক্লাস্টারে বাঁধা সমস্ত ডেটা আইটেম দিয়ে শুরু করেন এবং তারপর প্রতিটি ডেটা আইটেমকে একটি পৃথক ক্লাস্টার হিসাবে বরাদ্দ না করা পর্যন্ত বিভাজন পরিচালনা করেন, পদ্ধতিটি টপ-ডাউন বা বিভাজনীয় শ্রেণিবদ্ধ ক্লাস্টারিং হিসাবে পরিচিত।
Apriori অ্যালগরিদম
বাজারের ঝুড়ি বিশ্লেষণ অ্যাপরিওরি অ্যালগরিদমকে জনপ্রিয় করেছে, যার ফলে মিউজিক প্ল্যাটফর্ম এবং অনলাইন স্টোরের জন্য বিভিন্ন সুপারিশ ইঞ্জিন তৈরি হয়েছে।
এগুলি লেনদেন সংক্রান্ত ডেটাসেটে ব্যবহার করা হয় ঘন ঘন আইটেমসেট বা আইটেমগুলির গ্রুপিং খুঁজে বের করার জন্য, একটি পণ্যের খরচের উপর ভিত্তি করে অন্যটি ব্যবহার করার সম্ভাবনার পূর্বাভাস দেওয়ার জন্য।
উদাহরণস্বরূপ, আমি যদি “কাউন্টিং স্টার”-এর সাথে Spotify-এ OneRepublic-এর রেডিও বাজানো শুরু করি, তাহলে এই চ্যানেলের অন্যান্য গানগুলির মধ্যে একটি অবশ্যই একটি Imagine Dragon গান হবে, যেমন “Bad Liar”।
এটি আমার আগের শোনার অভ্যাসের পাশাপাশি অন্যদের শোনার ধরণগুলির উপর ভিত্তি করে। Apriori পদ্ধতিগুলি একটি হ্যাশ ট্রি ব্যবহার করে আইটেমসেট গণনা করে, ডেটাসেটের প্রস্থ-প্রথম পথ অতিক্রম করে।
মাত্রা হ্রাস
ডাইমেনশ্যালিটি রিডাকশন হল এক ধরণের তত্ত্বাবধানহীন শিক্ষা যা ডেটাসেটে বৈশিষ্ট্যের সংখ্যা বা মাত্রা কমানোর জন্য কৌশলগুলির একটি সংগ্রহ ব্যবহার করে। আমাদের স্পষ্ট করার অনুমতি দিন.
এটি আপনার তৈরি করার সময় যতটা সম্ভব ডেটা অন্তর্ভুক্ত করার জন্য প্রলুব্ধ হতে পারে মেশিন লার্নিং জন্য ডেটাসেট. আমাদের ভুল করবেন না: এই কৌশলটি ভাল কাজ করে কারণ আরও ডেটা সাধারণত আরও সঠিক ফলাফল দেয়।
অনুমান করুন যে ডেটা এন-ডাইমেনশনাল স্পেসে সংরক্ষণ করা হয়েছে, প্রতিটি বৈশিষ্ট্য একটি ভিন্ন মাত্রা উপস্থাপন করে। প্রচুর ডাটা থাকলে শত শত মাত্রা থাকতে পারে।
এক্সেল স্প্রেডশীটগুলি বিবেচনা করুন, কলামগুলি বৈশিষ্ট্যগুলি উপস্থাপন করে এবং সারিগুলি ডেটা আইটেমগুলির প্রতিনিধিত্ব করে৷ যখন অনেক মাত্রা থাকে, তখন ML অ্যালগরিদম খারাপভাবে কাজ করতে পারে এবং ডেটা ভিজ্যুয়ালাইজেশন কঠিন হয়ে যেতে পারে।
তাই এটি বৈশিষ্ট্য বা মাত্রা সীমিত করা যৌক্তিক করে তোলে এবং শুধু প্রাসঙ্গিক তথ্য প্রদান করে। মাত্রিকতা হ্রাস শুধু তাই. এটি ডেটাসেটের অখণ্ডতার সাথে আপস না করে একটি পরিচালনাযোগ্য পরিমাণে ডেটা ইনপুটগুলির জন্য অনুমতি দেয়৷
প্রধান উপাদান বিশ্লেষণ (পিসিএ)
প্রধান উপাদান বিশ্লেষণ হল একটি মাত্রিকতা হ্রাস পদ্ধতি। এটি বিশাল ডেটাসেটের বৈশিষ্ট্যের সংখ্যা কমাতে ব্যবহার করা হয়, যার ফলে নির্ভুলতা ত্যাগ না করেই ডেটার সরলতা বৃদ্ধি পায়।
ডেটাসেট কম্প্রেশন বৈশিষ্ট্য নিষ্কাশন হিসাবে পরিচিত একটি পদ্ধতি দ্বারা সম্পন্ন করা হয়। এটি নির্দেশ করে যে মূল সেট থেকে উপাদানগুলি একটি নতুন, ছোট একটিতে মিশ্রিত হয়েছে। এই নতুন বৈশিষ্ট্যগুলি প্রাথমিক উপাদান হিসাবে পরিচিত।
অবশ্যই, এমন অতিরিক্ত অ্যালগরিদম রয়েছে যা আপনি আপনার তত্ত্বাবধানহীন শেখার অ্যাপ্লিকেশনগুলিতে ব্যবহার করতে পারেন। উপরে তালিকাভুক্ত শুধুমাত্র সবচেয়ে প্রচলিত, যে কারণে তারা আরো বিস্তারিত আলোচনা করা হয়.
তত্ত্বাবধানহীন শিক্ষার প্রয়োগ
- অবজেক্ট রিকগনিশনের মতো চাক্ষুষ উপলব্ধি কাজের জন্য তত্ত্বাবধানহীন শেখার পদ্ধতিগুলি ব্যবহার করা হয়।
- তত্ত্বাবধানহীন মেশিন লার্নিং মেডিক্যাল ইমেজিং সিস্টেমের সমালোচনামূলক দিক দেয়, যেমন ছবি সনাক্তকরণ, শ্রেণীবিভাগ এবং বিভাজন, যা রোগীদের দ্রুত এবং নির্ভরযোগ্যভাবে নির্ণয় করতে রেডিওলজি এবং প্যাথলজিতে ব্যবহার করা হয়।
- তত্ত্বাবধানহীন শিক্ষা ডেটা প্রবণতা সনাক্ত করতে সাহায্য করতে পারে যা ভোক্তা আচরণের অতীত ডেটা ব্যবহার করে আরও কার্যকর ক্রস-সেলিং কৌশল তৈরি করতে ব্যবহার করা যেতে পারে। চেকআউট প্রক্রিয়া চলাকালীন, এটি অনলাইন ব্যবসার দ্বারা গ্রাহকদের সঠিক অ্যাড-অনগুলির পরামর্শ দেওয়ার জন্য ব্যবহার করা হয়।
- তত্ত্বাবধানহীন শেখার পদ্ধতিগুলি বহিরাগতদের খুঁজে বের করার জন্য প্রচুর পরিমাণে ডেটা ব্যবহার করতে পারে। এই অস্বাভাবিকতাগুলি ত্রুটিপূর্ণ সরঞ্জাম, মানুষের ভুল বা নিরাপত্তা লঙ্ঘনের নোটিশ বাড়াতে পারে।
তত্ত্বাবধানহীন শিক্ষার সমস্যা
তত্ত্বাবধানহীন শিক্ষা বিভিন্ন উপায়ে আকর্ষণীয় হয়, এর মধ্যে গুরুত্বপূর্ণ অন্তর্দৃষ্টি খুঁজে পাওয়ার সম্ভাবনা থেকে ব্যয়বহুল ডেটা লেবেলিং এড়ানোর জন্য ডেটা অপারেশন যাইহোক, প্রশিক্ষণের জন্য এই কৌশলটি ব্যবহার করার বেশ কয়েকটি ত্রুটি রয়েছে মেশিন লার্নিং মডেল যে আপনি সচেতন হতে হবে. এখানে কিছু উদাহরণঃ.
- যেহেতু ইনপুট ডেটাতে লেবেলের অভাব রয়েছে যা রেসপন্স কী হিসেবে কাজ করে, তাই তত্ত্বাবধান না করা শেখার মডেলের ফলাফল কম সুনির্দিষ্ট হতে পারে।
- তত্ত্বাবধানহীন শিক্ষা প্রায়শই বিশাল ডেটাসেটের সাথে কাজ করে, যা গণনাগত জটিলতা বাড়াতে পারে।
- পদ্ধতির জন্য মানুষের দ্বারা আউটপুট নিশ্চিতকরণের প্রয়োজন হয়, হয় তদন্তের বিষয়ে অভ্যন্তরীণ বা বহিরাগত বিশেষজ্ঞ।
- অ্যালগরিদমগুলিকে অবশ্যই প্রশিক্ষণ পর্ব জুড়ে প্রতিটি সম্ভাব্য পরিস্থিতি পরীক্ষা এবং গণনা করতে হবে, যা কিছু সময় নেয়।
উপসংহার
কার্যকর তথ্য ব্যবহার একটি নির্দিষ্ট বাজারে একটি প্রতিযোগিতামূলক প্রান্ত প্রতিষ্ঠার মূল চাবিকাঠি।
আপনি আপনার টার্গেট দর্শকদের পছন্দগুলি পরীক্ষা করতে বা একটি নির্দিষ্ট সংক্রমণ একটি নির্দিষ্ট চিকিত্সার প্রতি কীভাবে সাড়া দেয় তা নির্ধারণ করতে অতত্ত্বাবধানহীন মেশিন লার্নিং অ্যালগরিদম ব্যবহার করে ডেটা ভাগ করতে পারেন।
বিভিন্ন ব্যবহারিক অ্যাপ্লিকেশন আছে, এবং তথ্য বিজ্ঞানী, প্রকৌশলী, এবং স্থপতিরা আপনাকে আপনার লক্ষ্য নির্ধারণে এবং আপনার কোম্পানির জন্য অনন্য ML সমাধান তৈরিতে সহায়তা করতে পারে।
নির্দেশিকা সমন্ধে মতামত দিন