সুচিপত্র[লুকান][দেখান]
নতুন এবং উন্নত AI এর ক্ষমতা, বোধগম্যতা এবং উচ্চ-রেজোলিউশনের ছবি তৈরি করার ক্ষমতা উন্নত হয়েছে। আপনি ইদানীং ইন্টারনেটের চারপাশে ভাসমান কিছু অদ্ভুত এবং মজাদার ছবি দেখতে পেয়েছেন।
একটি শিবা ইনু কুকুর একটি বেরেট এবং একটি কালো টার্টলনেক পরিহিত। এবং ডাচ চিত্রশিল্পী ভার্মিয়ারের "মুক্তার কানের দুল দিয়ে মেয়ে" এর আদলে একটি সমুদ্রের ওটার। এবং এক কাপ স্যুপ আছে যা দেখতে একটি পশমী দানবের মতো।
এই ইমেজ কোন মানব শিল্পী দ্বারা নির্মিত হয়নি.
পরিবর্তে, DALL-E 2, একটি নতুন এআই সিস্টেম যা পাঠ্য বিবরণকে ছবিতে রূপান্তর করতে পারে, সেগুলি তৈরি করেছে।
আপনি যা দেখতে চান তা কেবল লিখুন, এবং AI আপনার জন্য এটি তৈরি করবে - প্রাণবন্ত বিশদে, দুর্দান্ত মানের এবং, কিছু ক্ষেত্রে, প্রকৃত উদ্ভাবন। এই পোস্টে, আমরা OpenAI এর সর্বশেষ গবেষণা, DALL.E 2, সেইসাথে এটি কীভাবে কাজ করে এবং আরও অনেক কিছুর উপর গভীরভাবে নজর দেব। চল শুরু করি.
সুতরাং, ঠিক কি DALL.E 2?
DALL-E 2 হল একটি "জেনারেটিভ মডেল", এক ধরনের মেশিন লার্নিং অ্যালগরিদম যা ইনপুট ডেটাতে ভবিষ্যদ্বাণী বা শ্রেণীবিভাগের কাজগুলি সম্পাদন করার পরিবর্তে জটিল আউটপুট তৈরি করে।
আপনি একটি লিখিত বিবরণ সহ DALL-E 2 প্রদান করেন এবং এটি একটি ছবি তৈরি করে যা এটির সাথে মিলে যায়। ধারণা, গুণাবলী এবং শৈলী একত্রিত করে, OpenAI এর DALLE 2 একটি মৌলিক ভাষাগত বর্ণনা থেকে উদ্ভাবনী, বাস্তবসম্মত গ্রাফিক্স এবং শিল্প তৈরি করতে পারে।
সর্বশেষ সংস্করণ, DALLE 2, আরও বহুমুখী বলা হয়, উচ্চতর রেজোলিউশনে এবং সৃজনশীল শৈলীর বিস্তৃত বর্ণালীতে ক্যাপশন থেকে ছবি তুলতে সক্ষম। উদাহরণস্বরূপ, নীচের ছবিগুলি (DALL-E 2 ব্লগ পোস্ট থেকে) "ঘোড়ায় চড়ে একজন মহাকাশচারী" বর্ণনা দ্বারা তৈরি করা হয়েছে৷
একটি বর্ণনা শেষ হয়, "পেন্সিল স্কেচের মতো", যেখানে অন্যটি শেষ হয়, "একটি ফটোরিয়ালিস্টিক পদ্ধতিতে।"
এটি আশ্চর্যজনক নির্ভুলতার সাথে বিদ্যমান ফটোগ্রাফও পরিবর্তন করতে পারে। সুতরাং, আপনি মূল চিত্রের চেহারা বজায় রেখে রঙ, প্রতিফলন এবং ছায়া রাখার সময় উপাদানগুলি যোগ করতে বা মুছতে পারেন।
এটা কিভাবে কাজ করে?
DALL-E 2 CLIP এবং ডিফিউশন মডেল ব্যবহার করে, দুটি পরিশীলিত গভীর জ্ঞানার্জন সাম্প্রতিক বছরগুলিতে বিকশিত পদ্ধতি। যাইহোক, এটি অন্যান্য সমস্ত গভীরের মত একই ধারণার উপর ভিত্তি করে নিউরাল নেটওয়ার্ক: প্রতিনিধিত্ব শিক্ষা। CLIP একই সাথে দুইজনকে প্রশিক্ষণ দেয় নিউরাল নেটওয়ার্ক ছবি এবং ক্যাপশনে।
একটি নেটওয়ার্ক ছবির ভিজ্যুয়াল উপস্থাপনা শেখে, অন্যটি পাঠ্য উপস্থাপনা শেখে। প্রশিক্ষণের সময়, দুটি নেটওয়ার্ক তাদের পরামিতিগুলিকে সংশোধন করার চেষ্টা করে যাতে তুলনামূলক ছবি এবং বর্ণনা একই রকম এম্বেডিংয়ের ফলে হয়।
"ডিফিউশন", এক ধরনের জেনারেটিভ মডেল যা ধীরে ধীরে শব্দ করে এবং এর প্রশিক্ষণের নমুনাগুলিকে অস্বীকার করে ছবি তৈরি করতে শেখে, এটি DALL-E 2-এ ব্যবহৃত অন্য মেশিন লার্নিং পদ্ধতি। ডিফিউশন মডেলগুলি অটোএনকোডারের মতো যে তারা ইনপুট ডেটাকে একটিতে রূপান্তর করে। উপস্থাপনা এমবেডিং এবং তারপর মূল ডেটা পুনরায় তৈরি করতে এমবেডিং তথ্য ব্যবহার করুন।
OpenAI এর ব্যবহার ভাষার মডেল CLIP, যা ফটোগ্রাফের সাথে পাঠ্য বিবরণকে সংযুক্ত করতে পারে, এটি প্রথমে লিখিত প্রম্পটকে একটি মধ্যবর্তী আকারে অনুবাদ করে যা একটি ছবির সেই প্রম্পটের সাথে মিল থাকা উচিত এমন গুরুত্বপূর্ণ বৈশিষ্ট্যগুলিকে অন্তর্ভুক্ত করে (CLIP অনুযায়ী)।
দ্বিতীয়ত, DALL-E 2 একটি CLIP-সম্মতি তৈরি করে একটি ডিফিউশন মডেল ব্যবহার করে ছবি, যা একটি নিউরাল নেটওয়ার্ক।
এলোমেলো পিক্সেল সহ বিকৃত ফটোতে, ডিফিউশন মডেল শেখা হয়। তারা শেখে কিভাবে ফটোর আসল ফর্ম পুনরুদ্ধার করতে হয়। ডিফিউশন মডেলগুলি উচ্চ-মানের সিন্থেটিক ছবি তৈরি করতে পারে, বিশেষ করে যখন একটি নির্দেশক পদ্ধতির সাথে একত্রে ব্যবহার করা হয় যা বৈচিত্র্যের উপর নির্ভুলতাকে অগ্রাধিকার দেয়।
ফলস্বরূপ, প্রসারিত মডেল র্যান্ডম পিক্সেল নেয় এবং শব্দ প্রম্পটের সাথে মেলে এমন একটি নতুন ছবিতে রূপান্তর করতে CLIP ব্যবহার করে। ডিফিউশন ধারণার কারণে, DALL-E 2 DALL-E এর চেয়ে দ্রুত উচ্চ-রেজোলিউশনের ছবি তৈরি করতে পারে।
DALL.E 2 ব্যবহারের ক্ষেত্রে
গত বিশ বছরে, কম্পিউটার ভিশন প্রযুক্তি একটি সাধারণ ধারণা থেকে একটি বড় অগ্রগতির দিকে অগ্রসর হয়েছে। এই অগ্রগতি সত্ত্বেও, ছবি এবং বস্তুর স্বীকৃতি মডেলগুলি এখনও দৈনন্দিন জীবনে উল্লেখযোগ্য বাধাগুলির সম্মুখীন হয়। ডেটাসেটের অনুপস্থিতি ইমেজ স্বীকৃতি এবং কম্পিউটারের দৃষ্টিভঙ্গির সবচেয়ে উল্লেখযোগ্য ত্রুটিগুলির মধ্যে একটি। যেহেতু উভয় প্রান্তে ডেটার ঘাটতি রয়েছে, তাই 100 শতাংশ সঠিক ফলাফল দেওয়ার জন্য চিত্র সনাক্তকরণ মডেলগুলিকে প্রশিক্ষণ দেওয়া প্রায় কঠিন।
সৌভাগ্যবশত, OpenAI এর নতুন মেশিন লার্নিং মডেল প্রযুক্তির ব্যবধান পূরণ করতে পারে। DALLE 2 পাঠ্য বিবরণের উপর ভিত্তি করে আশ্চর্যজনক ছবি তৈরি করতে সক্ষম। এই জাল ছবি উৎপাদন তাদের প্রয়োজনীয়তার উপর ভিত্তি করে ইমেজ শনাক্তকরণ মডেলগুলিতে ডেটা সরবরাহ করতে পারে। তথ্যের অনুপস্থিতি বস্তু এবং ছবি সনাক্তকরণের জন্য একটি গুরুত্বপূর্ণ হোঁচট।
ডিজিটাল যুগে, ডেটাসেটগুলি সর্বব্যাপী, তবুও আমরা এখনও এআই মডেলকে খাওয়ানোর জন্য শর্টকাটগুলি খুঁজছি, যাতে এটি ভাল ফলাফল দিতে পারে। যাইহোক, ইমেজ রিকগনিশন মডেলকে প্রশিক্ষণ দেওয়া সহজ নয়। এটি সামান্য পার্থক্য সহ বিপুল সংখ্যক ডেটা সেটের প্রয়োজন, যা আমরা সহজভাবে পুনরুদ্ধার করতে সক্ষম হতাম না।
তাহলে, উত্তর কি: উত্তর হল DALLE 2। OpenAI ছবি জেনারেটর, পাঠ্য থেকে ছবি তৈরি করতে এবং বিদ্যমান ছবিগুলিকে পরিবর্তন করার ক্ষমতা সহ, ব্যবধান পূরণ করতে সাহায্য করতে পারে। এটি অতিরিক্ত প্রশিক্ষণ ডেটা তৈরিতে সহায়তা করবে এবং প্রয়োজনীয় মানব লেবেলিংয়ের পরিমাণও হ্রাস করবে। উল্লেখযোগ্য সুবিধা থাকা সত্ত্বেও, আপনার প্রতারণামূলক ছবি নির্মাণ এবং অন্তর্ভুক্তি বাদ দেওয়া ছবি সম্পর্কে সচেতন হওয়া উচিত। এটি ইমেজ সনাক্তকরণ পদ্ধতির দিকে নিয়ে যেতে পারে যা পক্ষপাতদুষ্ট ফলাফল তৈরি করে।
সীমাবদ্ধতা
DALL.E 2 এর ক্ষতিকারক প্রভাব থাকতে পারে যদি এটি ভুল হাতে পড়ে, OpenAI অনুসারে। আজকের গভীর নকলের বিশ্বে, মডেলটি সহজেই মিথ্যা তথ্য বা বর্ণবাদী চিত্র ছড়াতে ব্যবহার করা যেতে পারে, যে কারণে OpenAI শুধুমাত্র ডেভেলপারদের আমন্ত্রণের মাধ্যমে DALL.2 ব্যবহার করার অনুমতি দেয়। মডেলটিকে অবশ্যই তার পাওয়া সমস্ত পরামর্শের জন্য একটি কঠোর সামগ্রী সীমাবদ্ধতা মেনে চলতে হবে৷
DALL.E 2-এর সম্ভাব্যতা বাদ দেওয়ার জন্য যে কোনও প্রতিকূল বা হিংসাত্মক ছবি তৈরি করা, ডেটাসেটটি কোনও মারাত্মক অস্ত্র ছাড়াই তৈরি করা হয়েছিল। যদিও OpenAI জানিয়েছে যে এটি ভবিষ্যতে এটিকে একটি API তে রূপান্তর করার পরিকল্পনা করছে, DALL.E 2 এর ক্ষেত্রে, এটি সতর্কতার সাথে এগিয়ে যেতে ইচ্ছুক।
উপসংহার
DALL-E 2 হল আরেকটি আকর্ষণীয় OpenAI গবেষণা আবিষ্কার যা নতুন অ্যাপ্লিকেশনের দরজা খুলে দেয়।
একটি উদাহরণ হল কম্পিউটার ভিশনের অন্যতম প্রধান বাধা-ডেটা পূরণের জন্য বিশাল ডেটাসেট তৈরি করা। যদিও অনেক DALL-E-ভিত্তিক অ্যাপের অর্থনৈতিক ক্ষেত্রে OpenAI তার API ব্যবহারকারীদের জন্য যে মূল্য এবং নীতিগুলি প্রতিষ্ঠা করে তার দ্বারা নির্ধারিত হবে, তারা নিঃসন্দেহে ছবি উৎপাদনকে অগ্রসর করবে।
নির্দেশিকা সমন্ধে মতামত দিন