রিইনফোর্সমেন্ট লার্নিং: এআই যা তার ভুল থেকে শেখে

সুচিপত্র[লুকান][দেখান]

শক্তিবৃদ্ধি শিক্ষা কি?
একটি সাধারণ উদাহরণ: 4×4 গ্রিড+-
- নীতি এবং পুরস্কার
- অন্বেষণ বনাম শোষণ
বাস্তবিক দরখাস্তগুলো+-
উপসংহার

আসুন কল্পনা করুন আপনি একটি রোবটকে কীভাবে হাঁটতে হয় তা শেখানোর চেষ্টা করছেন। স্টক মূল্যের পূর্বাভাস বা চিত্রগুলিকে কীভাবে শ্রেণিবদ্ধ করতে হয় তা কম্পিউটারকে শেখানোর বিপরীতে, আমাদের কাছে সত্যিই এমন একটি বড় ডেটাসেট নেই যা আমরা আমাদের রোবটকে প্রশিক্ষণের জন্য ব্যবহার করতে পারি।

যদিও এটি আপনার কাছে স্বাভাবিকভাবে আসতে পারে, হাঁটা আসলে একটি খুব জটিল ক্রিয়া। এক ধাপ হাঁটাতে সাধারণত কয়েক ডজন বিভিন্ন পেশী একসাথে কাজ করে। এক স্থান থেকে অন্য স্থানে হাঁটার জন্য ব্যবহৃত প্রচেষ্টা এবং কৌশলগুলি বিভিন্ন কারণের উপরও নির্ভর করে, যার মধ্যে আপনি কিছু বহন করছেন কিনা বা সেখানে একটি ঝোঁক বা অন্যান্য ধরণের বাধা রয়েছে কিনা।

এই ধরনের পরিস্থিতিতে, আমরা রিইনফোর্সমেন্ট লার্নিং বা RL নামে পরিচিত একটি পদ্ধতি ব্যবহার করতে পারি। RL-এর সাহায্যে, আপনি একটি নির্দিষ্ট লক্ষ্য নির্ধারণ করতে পারেন যা আপনি আপনার মডেলকে সমাধান করতে চান এবং ধীরে ধীরে মডেলটিকে নিজে থেকে শিখতে দিন যে কীভাবে এটি অর্জন করতে হয়।

এই প্রবন্ধে, আমরা রিইনফোর্সমেন্ট লার্নিংয়ের মূল বিষয়গুলি এবং বাস্তব জগতের বিভিন্ন সমস্যার জন্য আমরা কীভাবে RL ফ্রেমওয়ার্ক প্রয়োগ করতে পারি তা নিয়ে আলোচনা করব।

শক্তিবৃদ্ধি শিক্ষা কি?

শক্তিবৃদ্ধি শেখার একটি নির্দিষ্ট উপসেট বোঝায় মেশিন লার্নিং যেটি পছন্দসই আচরণকে পুরস্কৃত করে এবং অবাঞ্ছিত আচরণকে শাস্তি দিয়ে সমাধান খোঁজার উপর দৃষ্টি নিবদ্ধ করে।

শক্তিবৃদ্ধি শেখার কাঠামোর চিত্র

তত্ত্বাবধানে শিক্ষার বিপরীতে, শক্তিবৃদ্ধি শেখার পদ্ধতিতে সাধারণত প্রশিক্ষণ ডেটাসেট থাকে না যা একটি প্রদত্ত ইনপুটের জন্য সঠিক আউটপুট প্রদান করে। প্রশিক্ষণ ডেটার অনুপস্থিতিতে, অ্যালগরিদমকে অবশ্যই ট্রায়াল এবং ত্রুটির মাধ্যমে সমাধান খুঁজে বের করতে হবে। অ্যালগরিদম, যা আমরা সাধারণত একটি হিসাবে উল্লেখ করি প্রতিনিধি, এর সাথে মিথস্ক্রিয়া করে নিজেই সমাধান খুঁজে বের করতে হবে পরিবেশ.

গবেষকরা কি নির্দিষ্ট ফলাফলের সিদ্ধান্ত নেন পুরস্কার এবং অ্যালগরিদম কি করতে সক্ষম। প্রতি কর্ম অ্যালগরিদম কিছু প্রতিক্রিয়া পাবে যা অ্যালগরিদম কতটা ভাল করছে তা স্কোর করবে। প্রশিক্ষণ প্রক্রিয়া চলাকালীন, অ্যালগরিদম অবশেষে একটি নির্দিষ্ট সমস্যা সমাধানের জন্য সর্বোত্তম সমাধান খুঁজে পাবে।

একটি সাধারণ উদাহরণ: 4×4 গ্রিড

চলুন আমরা রিইনফোর্সমেন্ট লার্নিং দিয়ে সমাধান করতে পারি এমন একটি সমস্যার একটি সহজ উদাহরণ দেখি।

ধরুন আমাদের পরিবেশ হিসাবে আমাদের একটি 4×4 গ্রিড আছে। আমাদের এজেন্টকে কয়েকটি বাধা সহ স্কোয়ারগুলির একটিতে এলোমেলোভাবে স্থাপন করা হয়েছে। গ্রিডে তিনটি "পিট" বাধা থাকতে হবে যা এড়ানো উচিত এবং একটি একক "হীরা" পুরস্কার যা এজেন্টকে অবশ্যই খুঁজে বের করতে হবে। আমাদের পরিবেশের সম্পূর্ণ বর্ণনাকে পরিবেশ বলা হয় অবস্থা.

শক্তিবৃদ্ধি শিক্ষা এমন একটি এজেন্টের উপর নির্ভর করে যা একটি সিমুলেটেড পরিবেশের সাথে যোগাযোগ করে

আমাদের RL মডেলে, আমাদের এজেন্ট যেকোন সংলগ্ন স্কোয়ারে যেতে পারে যতক্ষণ না তাদের অবরুদ্ধ করতে কোনো বাধা না থাকে। একটি প্রদত্ত পরিবেশে সমস্ত বৈধ কর্মের সেট হিসাবে পরিচিত হয় কর্ম স্থান. আমাদের এজেন্টের লক্ষ্য হল পুরস্কারের সংক্ষিপ্ত পথ খুঁজে বের করা।

এজেন্টের একটি অ্যাকশন স্পেস বা প্রদত্ত অবস্থায় বৈধ ক্রিয়াগুলির সেট রয়েছে৷

আমাদের এজেন্ট হীরার পথ খুঁজে পেতে শক্তিবৃদ্ধি শেখার পদ্ধতি ব্যবহার করবে যার জন্য সর্বনিম্ন পদক্ষেপ প্রয়োজন। প্রতিটি সঠিক পদক্ষেপ রোবটকে একটি পুরস্কার দেবে এবং প্রতিটি ভুল পদক্ষেপ রোবটের পুরস্কার বিয়োগ করবে। এজেন্ট হীরাতে পৌঁছালে মডেলটি মোট পুরস্কার গণনা করে।

এখন যেহেতু আমরা এজেন্ট এবং পরিবেশকে সংজ্ঞায়িত করেছি, এজেন্ট তার বর্তমান অবস্থা এবং পরিবেশের ভিত্তিতে পরবর্তী পদক্ষেপটি নির্ধারণ করার জন্য ব্যবহার করার নিয়মগুলিও আমাদের অবশ্যই সংজ্ঞায়িত করতে হবে।

নীতি এবং পুরস্কার

একটি শক্তিবৃদ্ধি শেখার মডেলে, একটি নীতি একটি এজেন্ট দ্বারা তাদের লক্ষ্য অর্জনের জন্য ব্যবহৃত কৌশল বোঝায়। এজেন্টের নীতি হল এজেন্টের বর্তমান অবস্থা এবং তার পরিবেশ বিবেচনা করে এজেন্টের পরবর্তী কী করা উচিত তা নির্ধারণ করে।

কোন নীতিটি সর্বোত্তম তা দেখতে এজেন্টকে অবশ্যই সমস্ত সম্ভাব্য নীতিগুলি মূল্যায়ন করতে হবে৷

নীতি মূল্যায়ন

আমাদের সহজ উদাহরণে, একটি খালি জায়গায় অবতরণ -1 এর একটি মান প্রদান করবে। যখন এজেন্ট হীরার পুরষ্কার সহ একটি স্থানে অবতরণ করে, তখন তারা 10 এর একটি মান পাবে। এই মানগুলি ব্যবহার করে, আমরা একটি ব্যবহার করে বিভিন্ন নীতির তুলনা করতে পারি ইউটিলিটি ফাংশন U.

এখন উপরে দেখা দুটি নীতির উপযোগিতা তুলনা করা যাক:

U(A) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

ফলাফলগুলি দেখায় যে পলিসি A হল পুরষ্কার খোঁজার আরও ভাল পথ৷ এইভাবে, এজেন্ট পলিসি বি এর উপর পাথ A ব্যবহার করবে।

অন্বেষণ বনাম শোষণ

রিইনফোর্সমেন্ট শেখার ক্ষেত্রে অন্বেষণ বনাম শোষণ ট্রেড-অফ সমস্যা হল সিদ্ধান্ত প্রক্রিয়া চলাকালীন একজন এজেন্টের মুখোমুখি হওয়া একটি দ্বিধা।

এজেন্টদের কি নতুন পথ বা বিকল্পগুলি অন্বেষণে ফোকাস করা উচিত নাকি তারা ইতিমধ্যেই জানেন এমন বিকল্পগুলিকে কাজে লাগাতে হবে?

যদি এজেন্ট অন্বেষণ করতে পছন্দ করে, তাহলে এজেন্টের জন্য একটি ভাল বিকল্প খুঁজে পাওয়ার সম্ভাবনা রয়েছে, তবে এটি সময় এবং সম্পদের অপচয়ের ঝুঁকিও নিতে পারে। অন্যদিকে, যদি এজেন্ট ইতিমধ্যেই জানে এমন সমাধানটি কাজে লাগাতে বেছে নেয়, তবে এটি একটি ভাল বিকল্পটি মিস করতে পারে।

বাস্তবিক দরখাস্তগুলো

এখানে কিছু উপায় আছে এআই গবেষকরা বাস্তব-বিশ্বের সমস্যা সমাধানের জন্য শক্তিবৃদ্ধি শেখার মডেল প্রয়োগ করেছে:

স্ব-ড্রাইভিং গাড়িতে শক্তিবৃদ্ধি শিক্ষা

নিরাপদে এবং দক্ষতার সাথে গাড়ি চালানোর ক্ষমতা উন্নত করার জন্য স্ব-ড্রাইভিং গাড়িগুলিতে রিইনফোর্সমেন্ট লার্নিং প্রয়োগ করা হয়েছে। প্রযুক্তিটি স্বায়ত্তশাসিত গাড়িগুলিকে তাদের ভুল থেকে শিখতে এবং তাদের কর্মক্ষমতা অপ্টিমাইজ করার জন্য ক্রমাগত তাদের আচরণ সামঞ্জস্য করতে সক্ষম করে।

স্ব-ড্রাইভিং জন্য ব্যবহৃত শক্তিবৃদ্ধি শিক্ষা

যেমন লন্ডনভিত্তিক এআই কোম্পানি ওয়েভ স্বায়ত্তশাসিত ড্রাইভিংয়ের জন্য একটি গভীর শক্তিবৃদ্ধি শেখার মডেল সফলভাবে প্রয়োগ করেছে। তাদের পরীক্ষায়, তারা একটি পুরষ্কার ফাংশন ব্যবহার করেছে যা ইনপুট প্রদানকারী চালক ছাড়াই গাড়ি চালানোর সময়কে সর্বাধিক করে।

RL মডেলগুলি গাড়িগুলিকে পরিবেশের উপর ভিত্তি করে সিদ্ধান্ত নিতে সাহায্য করে, যেমন বাধা এড়ানো বা ট্র্যাফিকের সাথে মিশে যাওয়া। এই মডেলগুলিকে অবশ্যই একটি গাড়ির চারপাশের জটিল পরিবেশকে একটি প্রতিনিধিত্বমূলক রাষ্ট্রীয় স্থানে রূপান্তর করার উপায় খুঁজে বের করতে হবে যা মডেলটি বুঝতে পারে।

রোবোটিক্সে রিইনফোর্সমেন্ট লার্নিং

গবেষকরা এমন রোবট তৈরি করতে রিইনফোর্সমেন্ট লার্নিং ব্যবহার করছেন যা জটিল কাজ শিখতে পারে। এই RL মডেলগুলির মাধ্যমে, রোবটগুলি তাদের পরিবেশ পর্যবেক্ষণ করতে এবং তাদের পর্যবেক্ষণের ভিত্তিতে সিদ্ধান্ত নিতে সক্ষম হয়।

উদাহরণস্বরূপ, বাইপেডাল রোবটকে কীভাবে শিখতে হবে তা শেখার অনুমতি দেওয়ার জন্য রিইনফোর্সমেন্ট লার্নিং মডেল ব্যবহার করার বিষয়ে গবেষণা করা হয়েছে পদব্রজে ভ্রমণ তাদের নিজেদের.

একটি রোবটকে হাঁটতে শেখানো শক্তিবৃদ্ধি শিক্ষা

গবেষকরা RL কে রোবোটিক্সের ক্ষেত্রে একটি মূল পদ্ধতি বলে মনে করেন। রিইনফোর্সমেন্ট লার্নিং রোবটিক এজেন্টদের পরিশীলিত ক্রিয়া শেখার জন্য একটি কাঠামো দেয় যা অন্যথায় ইঞ্জিনিয়ার করা কঠিন হতে পারে।

গেমিং এ রিইনফোর্সমেন্ট লার্নিং

ভিডিও গেম খেলতে শেখার জন্য আরএল মডেলগুলিও ব্যবহার করা হয়েছে। এজেন্টদের তাদের ভুল থেকে শিখতে এবং ক্রমাগত গেমে তাদের কর্মক্ষমতা উন্নত করার জন্য সেট আপ করা যেতে পারে।

গবেষকরা ইতিমধ্যেই এজেন্ট তৈরি করেছেন যা দাবা, গো এবং জুজু খেলার মতো গেম খেলতে পারে। ২ 2013 তে, DeepMind ডিপ রিইনফোর্সমেন্ট লার্নিং ব্যবহার করে একটি মডেলকে স্ক্র্যাচ থেকে কীভাবে আটারি গেম খেলতে হয় তা শিখতে দেয়।

অনেক বোর্ড গেম এবং ভিডিও গেমের একটি সীমিত অ্যাকশন স্পেস এবং একটি সু-সংজ্ঞায়িত কংক্রিট লক্ষ্য থাকে। এই বৈশিষ্ট্যগুলি RL মডেলের সুবিধার জন্য কাজ করে। বিজয় অর্জনের জন্য সর্বোত্তম কৌশলগুলি শিখতে RL পদ্ধতিগুলি লক্ষ লক্ষ সিমুলেটেড গেমগুলিকে দ্রুত পুনরাবৃত্তি করতে পারে।

উপসংহার

এটি কীভাবে হাঁটতে হয় তা শেখা বা ভিডিও গেমগুলি কীভাবে খেলতে হয় তা শেখা হোক না কেন, RL মডেলগুলি জটিল সিদ্ধান্ত নেওয়ার প্রয়োজন এমন সমস্যাগুলি সমাধানের জন্য কার্যকর AI কাঠামো হিসাবে প্রমাণিত হয়েছে।

প্রযুক্তির বিকাশ অব্যাহত থাকায়, গবেষক এবং বিকাশকারী উভয়ই নতুন অ্যাপ্লিকেশনগুলি খুঁজে পেতে থাকবে যা মডেলের স্ব-শিক্ষার ক্ষমতার সুবিধা গ্রহণ করে।

শক্তিবৃদ্ধি শেখার সাহায্য করতে পারে বলে আপনি মনে করেন কোন ব্যবহারিক অ্যাপ্লিকেশন?

রিইনফোর্সমেন্ট লার্নিং: এআই যা তার ভুল থেকে শেখে

শক্তিবৃদ্ধি শিক্ষা কি?