আমরা সম্ভবত একটি নতুন জেনারেটিভ এআই বিপ্লবের শুরুতে রয়েছি।
জেনারেটিভ কৃত্রিম বুদ্ধিমত্তা বলতে অ্যালগরিদম এবং মডেলগুলিকে বোঝায় যা সামগ্রী তৈরি করতে সক্ষম। এই ধরনের মডেলগুলির আউটপুটে পাঠ্য, অডিও এবং চিত্রগুলি অন্তর্ভুক্ত থাকে যা প্রায়শই প্রকৃত মানব আউটপুট হিসাবে ভুল হতে পারে।
অ্যাপ্লিকেশন যেমন চ্যাটজিপিটি দেখিয়েছে যে জেনারেটিভ এআই নিছক নতুনত্ব নয়। AI এখন বিশদ নির্দেশাবলী অনুসরণ করতে সক্ষম এবং বিশ্ব কীভাবে কাজ করে তার গভীর উপলব্ধি রয়েছে বলে মনে হচ্ছে।
কিন্তু কিভাবে আমরা এই বিন্দু পেতে? এই নির্দেশিকায়, আমরা AI গবেষণার কিছু মূল অগ্রগতির মধ্য দিয়ে যাব যা এই নতুন এবং উত্তেজনাপূর্ণ জেনারেটিভ এআই বিপ্লবের পথ প্রশস্ত করেছে।
নিউরাল নেটওয়ার্কের উত্থান
আপনি গবেষণায় আধুনিক AI এর উত্স খুঁজে পেতে পারেন গভীর শিক্ষা এবং নিউরাল নেটওয়ার্ক 2012 মধ্যে.
সেই বছরে, টরন্টো বিশ্ববিদ্যালয়ের অ্যালেক্স ক্রিজেভস্কি এবং তার দল একটি উচ্চ-নির্ভুল অ্যালগরিদম অর্জন করতে সক্ষম হয়েছিল যা বস্তুকে শ্রেণিবদ্ধ করতে পারে।
সার্জারির অত্যাধুনিক নিউরাল নেটওয়ার্কএখন অ্যালেক্সনেট নামে পরিচিত, ইমেজনেট ভিজ্যুয়াল ডাটাবেসে অবজেক্টগুলিকে রানার-আপের তুলনায় অনেক কম ত্রুটির হার সহ শ্রেণীবদ্ধ করতে সক্ষম হয়েছিল।
নিউরাল নেটওয়ার্ক অ্যালগরিদম যা কিছু প্রশিক্ষণ ডেটার উপর ভিত্তি করে একটি নির্দিষ্ট আচরণ শেখার জন্য গাণিতিক ফাংশনের একটি নেটওয়ার্ক ব্যবহার করে। উদাহরণস্বরূপ, আপনি ক্যান্সারের মতো রোগ নির্ণয়ের জন্য মডেলটিকে প্রশিক্ষণ দেওয়ার জন্য একটি নিউরাল নেটওয়ার্ক মেডিকেল ডেটা খাওয়াতে পারেন।
আশা করা যায় যে নিউরাল নেটওয়ার্ক ধীরে ধীরে ডেটাতে নিদর্শন খুঁজে পায় এবং যখন নতুন ডেটা দেওয়া হয় তখন আরও নির্ভুল হয়ে ওঠে।
অ্যালেক্সনেট একটি যুগান্তকারী অ্যাপ্লিকেশন ছিল কনভোলশনাল নিউরাল নেটওয়ার্ক বা সিএনএন "কনভোলিউশনাল" কীওয়ার্ডটি কনভোলিউশনাল লেয়ারের সংযোজনকে বোঝায় যা একসাথে কাছাকাছি থাকা ডেটার উপর বেশি জোর দেয়।
যদিও 1980-এর দশকে CNNগুলি ইতিমধ্যেই একটি ধারণা ছিল, তারা শুধুমাত্র 2010-এর দশকের গোড়ার দিকে জনপ্রিয়তা অর্জন করতে শুরু করে যখন সর্বশেষ GPU প্রযুক্তি প্রযুক্তিটিকে নতুন উচ্চতায় ঠেলে দেয়।
এই ক্ষেত্রে সিএনএন-এর সাফল্য কম্পিউটার ভিশন নিউরাল নেটওয়ার্কগুলির গবেষণায় আরও আগ্রহের দিকে পরিচালিত করে।
গুগল এবং ফেসবুকের মতো টেক জায়ান্টরা তাদের নিজস্ব এআই ফ্রেমওয়ার্ক জনসাধারণের কাছে প্রকাশ করার সিদ্ধান্ত নিয়েছে। উচ্চ-স্তরের API যেমন Keras ডিপ নিউরাল নেটওয়ার্ক নিয়ে পরীক্ষা করার জন্য ব্যবহারকারীদের একটি ব্যবহারকারী-বান্ধব ইন্টারফেস দিয়েছে।
সিএনএন ইমেজ রিকগনিশন এবং ভিডিও বিশ্লেষণে দুর্দান্ত ছিল কিন্তু ভাষা-ভিত্তিক সমস্যা সমাধানের ক্ষেত্রে সমস্যায় পড়েছিল। প্রাকৃতিক ভাষা প্রক্রিয়াকরণে এই সীমাবদ্ধতা বিদ্যমান থাকতে পারে কারণ কীভাবে চিত্র এবং পাঠ্য আসলে মৌলিকভাবে ভিন্ন সমস্যা।
উদাহরণস্বরূপ, যদি আপনার কাছে এমন একটি মডেল থাকে যা শ্রেণীবদ্ধ করে যে একটি ছবিতে একটি ট্র্যাফিক লাইট আছে কিনা, প্রশ্নে থাকা ট্র্যাফিক লাইটটি চিত্রের যেকোনো জায়গায় উপস্থিত হতে পারে৷ যাইহোক, এই ধরণের উদারতা ভাষায় ভাল কাজ করে না। একই শব্দ ব্যবহার করা সত্ত্বেও "বব মাছ খেয়েছে" এবং "মাছ বব খেয়েছে" বাক্যটির সম্পূর্ণ ভিন্ন অর্থ রয়েছে।
এটা স্পষ্ট হয়ে গেছে যে গবেষকদের মানুষের ভাষা জড়িত সমস্যা সমাধানের জন্য একটি নতুন পদ্ধতির সন্ধান করতে হবে।
ট্রান্সফরমার সবকিছু পরিবর্তন করে
2017 এ, একটি গবেষণা পত্র "অ্যাটেনশন ইজ অল ইউ নিড" শিরোনাম একটি নতুন ধরনের নেটওয়ার্ক প্রস্তাব করেছে: ট্রান্সফরমার।
যখন সিএনএনগুলি একটি চিত্রের ছোট অংশগুলিকে বারবার ফিল্টার করে কাজ করে, ট্রান্সফরমারগুলি ডেটার প্রতিটি উপাদানকে অন্য প্রতিটি উপাদানের সাথে সংযুক্ত করে। গবেষকরা এই প্রক্রিয়াটিকে "আত্ম-মনোযোগ" বলে অভিহিত করেন।
বাক্য পার্স করার চেষ্টা করার সময়, CNN এবং ট্রান্সফরমারগুলি খুব আলাদাভাবে কাজ করে। যখন একটি CNN একে অপরের কাছাকাছি থাকা শব্দগুলির সাথে সংযোগ তৈরিতে ফোকাস করবে, একটি ট্রান্সফরমার একটি বাক্যে প্রতিটি শব্দের মধ্যে সংযোগ তৈরি করবে।
স্ব-মনোযোগ প্রক্রিয়া মানুষের ভাষা বোঝার একটি অবিচ্ছেদ্য অংশ। জুম আউট করে এবং পুরো বাক্যটি কীভাবে একত্রে ফিট করে তা দেখে, মেশিনগুলি বাক্যটির গঠন সম্পর্কে আরও পরিষ্কার বোঝার অধিকারী হতে পারে।
একবার প্রথম ট্রান্সফরমার মডেল প্রকাশ করা হলে, গবেষকরা শীঘ্রই ইন্টারনেটে পাওয়া অবিশ্বাস্য পরিমাণ পাঠ্য ডেটার সুবিধা নিতে নতুন স্থাপত্য ব্যবহার করেন।
GPT-3 এবং ইন্টারনেট
2020 সালে, OpenAI এর GPT-3 মডেল দেখিয়েছে ঠিক কতটা কার্যকর ট্রান্সফরমার হতে পারে। GPT-3 এমন টেক্সট আউটপুট করতে সক্ষম হয়েছিল যা মানুষের থেকে প্রায় আলাদা করা যায় না। জিপিটি-3কে এত শক্তিশালী করে তোলার একটি অংশ ছিল প্রশিক্ষণ ডেটার পরিমাণ। মডেলের বেশিরভাগ প্রাক-প্রশিক্ষণ ডেটাসেট কমন ক্রল নামে পরিচিত একটি ডেটাসেট থেকে আসে যা 400 বিলিয়ন টোকেনের সাথে আসে।
যদিও GPT-3 এর বাস্তবসম্মত মানব পাঠ্য তৈরি করার ক্ষমতা তার নিজস্বভাবে যুগান্তকারী ছিল, গবেষকরা আবিষ্কার করেছিলেন যে একই মডেল কীভাবে অন্যান্য কাজগুলি সমাধান করতে পারে।
উদাহরণস্বরূপ, একই GPT-3 মডেল যা আপনি একটি টুইট তৈরি করতে ব্যবহার করতে পারেন তা আপনাকে পাঠ্যের সংক্ষিপ্তসার, একটি অনুচ্ছেদ পুনরায় লিখতে এবং একটি গল্প শেষ করতে সহায়তা করতে পারে। ভাষার মডেল এত শক্তিশালী হয়ে উঠেছে যে তারা এখন মূলত সাধারণ-উদ্দেশ্যের সরঞ্জাম যা যেকোনো ধরনের কমান্ড অনুসরণ করে।
GPT-3 এর সাধারণ-উদ্দেশ্য প্রকৃতি এই ধরনের অ্যাপ্লিকেশনের জন্য অনুমতি দিয়েছে গিটহাব কপিলট, যা প্রোগ্রামারদের সরল ইংরেজি থেকে কাজের কোড তৈরি করতে দেয়।
ডিফিউশন মডেল: টেক্সট থেকে ইমেজ পর্যন্ত
ট্রান্সফরমার এবং এনএলপির সাথে যে অগ্রগতি হয়েছে তা অন্যান্য ক্ষেত্রেও জেনারেটিভ এআই-এর পথ প্রশস্ত করেছে।
কম্পিউটার ভিশনের ক্ষেত্রে, আমরা ইতিমধ্যেই কভার করেছি যে কীভাবে গভীর শিক্ষা মেশিনগুলিকে চিত্রগুলি বোঝার অনুমতি দেয়। যাইহোক, আমাদের এখনও AI এর জন্য কেবল তাদের শ্রেণীবদ্ধ করার পরিবর্তে নিজেরাই ছবি তৈরি করার জন্য একটি উপায় খুঁজে বের করতে হবে।
জেনারেটিভ ইমেজ মডেল যেমন DALL-E 2, স্টেবল ডিফিউশন এবং মিডজার্নি জনপ্রিয় হয়ে উঠেছে কারণ তারা কীভাবে টেক্সট ইনপুটকে ছবিতে রূপান্তর করতে সক্ষম হয়।
এই ইমেজ মডেলগুলি দুটি মূল দিকের উপর নির্ভর করে: একটি মডেল যা চিত্র এবং পাঠ্যের মধ্যে সম্পর্ক বোঝে এবং একটি মডেল যা প্রকৃতপক্ষে একটি উচ্চ-সংজ্ঞা চিত্র তৈরি করতে পারে যা ইনপুটের সাথে মেলে।
OpenAI এর ক্লিপ (কন্ট্রাস্টিভ ল্যাঙ্গুয়েজ–ইমেজ প্রাক-প্রশিক্ষণ) হল একটি ওপেন সোর্স মডেল যার লক্ষ্য প্রথম দিকটি সমাধান করা। একটি চিত্র দেওয়া হলে, CLIP মডেলটি সেই নির্দিষ্ট চিত্রের জন্য সবচেয়ে প্রাসঙ্গিক পাঠ্য বিবরণের পূর্বাভাস দিতে পারে।
CLIP মডেলটি কীভাবে গুরুত্বপূর্ণ চিত্র বৈশিষ্ট্যগুলি বের করতে হয় এবং একটি চিত্রের একটি সহজ উপস্থাপনা তৈরি করতে হয় তা শেখার মাধ্যমে কাজ করে৷
যখন ব্যবহারকারীরা DALL-E 2-এ একটি নমুনা পাঠ্য ইনপুট প্রদান করে, তখন ইনপুটটি CLIP মডেল ব্যবহার করে একটি "ইমেজ এম্বেডিং" এ রূপান্তরিত হয়। এখন লক্ষ্য হল একটি ছবি তৈরি করার উপায় খুঁজে বের করা যা জেনারেট করা ইমেজ এমবেডিংয়ের সাথে মেলে।
সর্বশেষ জেনারেটিভ ইমেজ AIs ব্যবহার করে a প্রসারিত মডেল আসলে একটি ইমেজ তৈরির কাজটি মোকাবেলা করতে। ডিফিউশন মডেলগুলি নিউরাল নেটওয়ার্কগুলির উপর নির্ভর করে যেগুলিকে কীভাবে চিত্রগুলি থেকে অতিরিক্ত শব্দ অপসারণ করা যায় তা জানার জন্য প্রাক-প্রশিক্ষিত ছিল।
প্রশিক্ষণের এই প্রক্রিয়া চলাকালীন, নিউরাল নেটওয়ার্ক অবশেষে শিখতে পারে কীভাবে একটি র্যান্ডম নয়েজ ইমেজ থেকে একটি উচ্চ-রেজোলিউশন চিত্র তৈরি করতে হয়। যেহেতু আমাদের কাছে ইতিমধ্যেই CLIP দ্বারা প্রদত্ত পাঠ্য এবং চিত্রগুলির একটি ম্যাপিং রয়েছে, আমরা তা করতে পারি একটি বিস্তার মডেল প্রশিক্ষণ CLIP ইমেজ এম্বেডিং-এ যেকোন ইমেজ তৈরি করার জন্য একটি প্রক্রিয়া তৈরি করুন।
জেনারেটিভ এআই বিপ্লব: এর পরে কী আসে?
আমরা এখন এমন এক বিন্দুতে রয়েছি যেখানে জেনারেটিভ AI তে প্রতি দুয়েক দিন পরপর উন্নতি ঘটছে। AI ব্যবহার করে বিভিন্ন ধরণের মিডিয়া তৈরি করা সহজ এবং সহজ হয়ে যাওয়ার সাথে সাথে, এটি আমাদের সমাজকে কীভাবে প্রভাবিত করতে পারে তা নিয়ে আমাদের চিন্তিত হওয়া উচিত?
যদিও বাষ্প ইঞ্জিনের আবিষ্কারের পর থেকে শ্রমিকদের প্রতিস্থাপনকারী মেশিনগুলির উদ্বেগ সর্বদা কথোপকথনে ছিল, মনে হচ্ছে এটি এবার একটু ভিন্ন।
জেনারেটিভ এআই একটি বহুমুখী হাতিয়ার হয়ে উঠছে যা AI টেকওভার থেকে নিরাপদ বলে বিবেচিত শিল্পগুলিকে ব্যাহত করতে পারে।
AI যদি কয়েকটি মৌলিক নির্দেশনা থেকে ত্রুটিহীন কোড লেখা শুরু করতে পারে তাহলে কি আমাদের প্রোগ্রামার লাগবে? লোকেরা কি সৃজনশীলদের নিয়োগ করবে যদি তারা কেবলমাত্র একটি জেনারেটিভ মডেল ব্যবহার করতে পারে যাতে তারা সস্তায় আউটপুট তৈরি করতে পারে?
জেনারেটিভ এআই বিপ্লবের ভবিষ্যত অনুমান করা কঠিন। কিন্তু এখন রূপক প্যান্ডোরার বাক্স খোলা হয়েছে, আমি আশা করি প্রযুক্তিটি আরও উত্তেজনাপূর্ণ উদ্ভাবনের অনুমতি দেবে যা বিশ্বে ইতিবাচক প্রভাব ফেলতে পারে।
নির্দেশিকা সমন্ধে মতামত দিন