আপনি সম্ভবত জানেন যে একটি কম্পিউটার একটি ছবি বর্ণনা করতে পারে।
উদাহরণস্বরূপ, আপনার বাচ্চাদের সাথে খেলা কুকুরের একটি ছবি 'বাগানে কুকুর এবং শিশু' হিসাবে অনুবাদ করা যেতে পারে। কিন্তু আপনি কি জানেন যে এর বিপরীত পথটিও এখন সম্ভবপর? আপনি কিছু শব্দ টাইপ করুন, এবং মেশিন একটি নতুন ছবি তৈরি করে।
একটি Google অনুসন্ধানের বিপরীতে, যা বিদ্যমান ফটোগ্রাফগুলি অনুসন্ধান করে, এটি সবই তাজা৷ সাম্প্রতিক বছরগুলিতে, ওপেনএআই একটি নেতৃস্থানীয় সংস্থা, যা অত্যাশ্চর্য ফলাফলের প্রতিবেদন করছে।
তারা তাদের অ্যালগরিদমগুলিকে বিশাল পাঠ্য এবং ছবির ডেটাবেসে প্রশিক্ষণ দেয়। তারা তাদের গ্লাইড ইমেজ মডেলের উপর একটি কাগজ প্রকাশ করেছে, যেটি কয়েক মিলিয়ন ফটোতে প্রশিক্ষিত ছিল। ফটোরিয়ালিজমের পরিপ্রেক্ষিতে, এটি তাদের পূর্বের 'DALL-E' মডেলকে ছাড়িয়ে গেছে।
এই পোস্টে, আমরা OpenAI-এর GLIDE-কে দেখব, যা টেক্সট-গাইডেড ডিফিউশন মডেলের সাহায্যে ফটোরিয়ালিস্টিক ছবি তৈরি এবং পরিবর্তন করার লক্ষ্যে বেশ কয়েকটি আকর্ষণীয় উদ্যোগের মধ্যে একটি। চল শুরু করি.
এআই গ্লাইড খুলুন?
যদিও বেশিরভাগ চিত্রগুলিকে শব্দে বর্ণনা করা যেতে পারে, পাঠ্য ইনপুটগুলি থেকে চিত্রগুলি তৈরি করতে বিশেষ জ্ঞান এবং একটি উল্লেখযোগ্য পরিমাণ সময় প্রয়োজন।
একটি AI এজেন্টকে প্রাকৃতিক ভাষার প্রম্পট থেকে ফটোরিয়ালিস্টিক ছবি তৈরি করার অনুমতি দেওয়া মানুষকে অভূতপূর্ব স্বাচ্ছন্দ্যের সাথে সমৃদ্ধ এবং বৈচিত্র্যময় ভিজ্যুয়াল উপাদান তৈরি করতে দেয় না বরং তৈরি করা চিত্রগুলির সহজ পুনরাবৃত্তিমূলক পরিমার্জন এবং সূক্ষ্ম নিয়ন্ত্রণের জন্যও অনুমতি দেয়।
GLIDE নতুন বস্তু সন্নিবেশ করাতে, ছায়া ও প্রতিফলন তৈরি করতে, সঞ্চালনের জন্য প্রাকৃতিক ভাষার পাঠ্য প্রম্পট ব্যবহার করে বিদ্যমান ফটোগুলি সম্পাদনা করতে ব্যবহার করা যেতে পারে ছবি আঁকা, এবং তাই।
এটি মৌলিক লাইন অঙ্কনগুলিকে ফটোরিয়ালিস্টিক ফটোগ্রাফে পরিণত করতে পারে এবং জটিল পরিস্থিতিতে এর ব্যতিক্রমী শূন্য-নমুনা উত্পাদন এবং মেরামতের ক্ষমতা রয়েছে।
সাম্প্রতিক গবেষণায় প্রমাণিত হয়েছে যে সম্ভাবনা-ভিত্তিক ডিফিউশন মডেলগুলি উচ্চ-মানের সিন্থেটিক ছবিও তৈরি করতে পারে, বিশেষ করে যখন একটি নির্দেশক পদ্ধতির সাথে মিলিত হয় যা বৈচিত্র্য এবং বিশ্বস্ততার ভারসাম্য বজায় রাখে।
OpenAI প্রকাশিত একটি নির্দেশিত বিস্তার মডেল মে মাসে, যা ডিফিউশন মডেলগুলিকে শ্রেণিবদ্ধকারীর লেবেলে শর্তসাপেক্ষ হতে দেয়। টেক্সট-কন্ডিশনাল ইমেজ তৈরির সমস্যায় গাইডেড ডিফিউশন এনে GLIDE এই সাফল্যের উন্নতি করে।
একটি 3.5 বিলিয়ন প্যারামিটার গ্লাইড ডিফিউশন মডেলের প্রশিক্ষণের পর একটি পাঠ্য এনকোডার ব্যবহার করে প্রাকৃতিক ভাষার বর্ণনার শর্তে, গবেষকরা দুটি বিকল্প গাইডিং কৌশল পরীক্ষা করেছেন: CLIP নির্দেশিকা এবং শ্রেণীবিন্যাস-মুক্ত নির্দেশিকা।
CLIP পাঠ্য এবং ছবির যৌথ উপস্থাপনা শেখার জন্য একটি মাপযোগ্য কৌশল যা একটি চিত্র একটি ক্যাপশনের কতটা কাছাকাছি তার উপর ভিত্তি করে একটি স্কোর সরবরাহ করে।
দলটি ক্ল্যাসিফায়ারকে একটি CLIP মডেল দিয়ে প্রতিস্থাপন করে তাদের ডিফিউশন মডেলগুলিতে এই কৌশলটি ব্যবহার করেছে যা মডেলগুলিকে "গাইড" করে। এদিকে, ক্লাসিফায়ার-মুক্ত নির্দেশিকা হল ডিফিউশন মডেলগুলি পরিচালনা করার জন্য একটি কৌশল যা একটি পৃথক শ্রেণীবদ্ধকারীর প্রশিক্ষণের সাথে জড়িত নয়।
গ্লাইড আর্কিটেকচার
GLIDE আর্কিটেকচারে তিনটি উপাদান রয়েছে: একটি 64 × 64 ইমেজ তৈরি করতে প্রশিক্ষিত একটি অ্যাবলেটেড ডিফিউশন মডেল (ADM), একটি টেক্সট মডেল (ট্রান্সফরমার) যা একটি টেক্সট প্রম্পটের মাধ্যমে ইমেজ তৈরিকে প্রভাবিত করে এবং একটি আপস্যাম্পলিং মডেল যা আমাদের ছোট 64 × 64 কে রূপান্তরিত করে। আরো ব্যাখ্যাযোগ্য 256 x 256 পিক্সেলের ছবি।
প্রথম দুটি উপাদান ছবি তৈরির প্রক্রিয়া নিয়ন্ত্রণ করতে একসঙ্গে কাজ করে যাতে এটি যথাযথভাবে টেক্সট প্রম্পটকে প্রতিফলিত করে, যখন আমরা যে ছবিগুলি তৈরি করি তা সহজে বোঝার জন্য পরবর্তীটি প্রয়োজন। GLIDE প্রকল্পটি একটি দ্বারা অনুপ্রাণিত হয়েছিল 2021 সালে প্রকাশিত প্রতিবেদন যা দেখিয়েছে যে ADM কৌশলগুলি ছবির নমুনার মানের ক্ষেত্রে বর্তমানে জনপ্রিয়, অত্যাধুনিক জেনারেটিভ মডেলগুলিকে ছাড়িয়ে গেছে।
ADM-এর জন্য, GLIDE লেখকরা ধরিওয়াল এবং নিকোলের মতো একই ইমেজনেট 64 x 64 মডেল নিযুক্ত করেছিলেন, কিন্তু 512-এর পরিবর্তে 64টি চ্যানেলের সাথে। এর ফলে ইমেজনেট মডেলের প্রায় 2.3 বিলিয়ন প্যারামিটার রয়েছে।
GLIDE টিম, ধরিওয়াল এবং নিকোলের বিপরীতে, ছবি তৈরির প্রক্রিয়ার উপর সরাসরি নিয়ন্ত্রণ রাখতে চেয়েছিল, এইভাবে তারা একটি মনোযোগ-সক্ষম ট্রান্সফরমারের সাথে ভিজ্যুয়াল মডেলকে একত্রিত করেছিল। GLIDE আপনাকে টেক্সট ইনপুট প্রম্পট প্রক্রিয়াকরণের মাধ্যমে ছবি তৈরির প্রক্রিয়া আউটপুটের উপর কিছু নিয়ন্ত্রণ দেয়।
এটি ট্রান্সফরমার মডেলকে ফটো এবং ক্যাপশনের (DALL-E প্রকল্পে নিযুক্তের মতো) একটি উপযুক্তভাবে বড় ডেটাসেটে প্রশিক্ষণ দিয়ে সম্পন্ন করা হয়।
টেক্সটটি কন্ডিশন করার জন্য প্রাথমিকভাবে K টোকেনের একটি সিরিজে এনকোড করা হয়। এর পরে, টোকেনগুলি একটি ট্রান্সফরমার মডেলে লোড করা হয়। তারপর ট্রান্সফরমারের আউটপুট দুটি উপায়ে ব্যবহার করা যেতে পারে। ADM মডেলের জন্য, চূড়ান্ত টোকেন এম্বেডিং ক্লাস এম্বেডিংয়ের পরিবর্তে ব্যবহার করা হয়।
দ্বিতীয়ত, টোকেন এম্বেডিংয়ের চূড়ান্ত স্তর - বৈশিষ্ট্য ভেক্টরগুলির একটি সিরিজ - ADM মডেলের প্রতিটি মনোযোগ স্তরের মাত্রার জন্য স্বাধীনভাবে প্রজেক্ট করা হয় এবং প্রতিটি মনোযোগের প্রসঙ্গে সংযুক্ত করা হয়।
বাস্তবে, এটি ADM মডেলকে অনুরূপ টেক্সট টোকেনের নতুন সংমিশ্রণ থেকে একটি অনন্য এবং ফটোরিয়ালিস্টিক ফ্যাশনে একটি ছবি তৈরি করতে সক্ষম করে, ইনপুট শব্দ এবং তাদের সম্পর্কিত চিত্রগুলির শেখা বোঝার উপর ভিত্তি করে। এই টেক্সট-এনকোডিং ট্রান্সফরমারটিতে 1.2 বিলিয়ন প্যারামিটার রয়েছে এবং 24 এর প্রস্থের সাথে 2048টি অবশিষ্ট ব্লক নিয়োগ করে।
অবশেষে, আপস্যাম্পলার ডিফিউশন মডেলে প্রায় 1.5 বিলিয়ন প্যারামিটার রয়েছে এবং বেসিক মডেল থেকে পরিবর্তিত হয় যে এর টেক্সট এনকোডারটি ছোট, বেস মডেলের তুলনায় 1024 এবং 384 বেস চ্যানেলের প্রস্থ সহ। এই মডেল, নামটি নির্দেশ করে, মেশিন এবং মানুষের উভয়ের জন্য ব্যাখ্যাযোগ্যতা উন্নত করার জন্য নমুনার আপগ্রেডে সহায়তা করে।
ডিফিউশন মডেল
GLIDE ছবি তৈরি করে ADM এর নিজস্ব সংস্করণ ব্যবহার করে ("নির্দেশিত" এর জন্য ADM-G)। এডিএম-জি মডেলটি ডিফিউশন ইউ-নেট মডেলের একটি পরিবর্তন। একটি ডিফিউশন ইউ-নেট মডেল VAE, GAN এবং ট্রান্সফরমারের মতো সাধারণ চিত্র সংশ্লেষণ কৌশল থেকে নাটকীয়ভাবে আলাদা।
তারা ধীরে ধীরে ডেটাতে এলোমেলো শব্দ ইনজেক্ট করার জন্য প্রসারণ পদক্ষেপগুলির একটি মার্কভ চেইন তৈরি করে এবং তারপরে বিচ্ছুরণ প্রক্রিয়াটি বিপরীত করতে শিখে এবং শুধুমাত্র শব্দ থেকে প্রয়োজনীয় ডেটা নমুনাগুলি পুনর্নির্মাণ করে। এটি দুটি পর্যায়ে কাজ করে: ফরোয়ার্ড এবং রিভার্স ডিফিউশন।
নমুনার সত্যিকারের বিতরণ থেকে একটি ডেটা পয়েন্ট দেওয়া ফরোয়ার্ড ডিফিউশন পদ্ধতি, ধাপগুলির একটি পূর্বনির্ধারিত সিরিজের উপর নমুনায় একটি ক্ষুদ্র পরিমাণ শব্দ যোগ করে। ধাপগুলি আকার বৃদ্ধির সাথে সাথে অসীমতার দিকে এগিয়ে যায়, নমুনাটি সমস্ত স্বীকৃত বৈশিষ্ট্য হারায় এবং ক্রমটি একটি আইসোট্রপিক গাউসিয়ান বক্ররেখার মতো হতে শুরু করে।
পশ্চাদমুখী প্রসারণের সময় ফেজ, ডিফিউশন মডেল ছবিগুলিতে যোগ করা শব্দের প্রভাবকে বিপরীত করতে শেখে এবং মূল ইনপুট নমুনা বিতরণের অনুরূপ করার চেষ্টা করে উত্পাদিত চিত্রটিকে তার আসল আকারে ফিরিয়ে আনতে শেখে।
একটি সম্পূর্ণ মডেল একটি বাস্তব গাউসিয়ান শব্দ ইনপুট এবং একটি প্রম্পট দিয়ে এটি করতে পারে। এডিএম-জি পদ্ধতিটি পূর্ববর্তী পদ্ধতির থেকে পরিবর্তিত হয় যে একটি মডেল, হয় CLIP বা একটি কাস্টমাইজড ট্রান্সফরমার, ইনপুট করা টেক্সট প্রম্পট টোকেন ব্যবহার করে পশ্চাদগামী ডিফিউশন ফেজকে প্রভাবিত করে।
গ্লাইড ক্ষমতা
1. চিত্রের প্রজন্ম
গ্লাইডের সবচেয়ে জনপ্রিয় এবং বহুল ব্যবহৃত ব্যবহার সম্ভবত ইমেজ সংশ্লেষণ হবে। যদিও ছবিগুলি শালীন এবং GLIDE-তে প্রাণী/মানুষের আকার নিয়ে অসুবিধা রয়েছে, তবে এক-শট ছবি তৈরির সম্ভাবনা প্রায় অন্তহীন।
এটি প্রাণী, সেলিব্রিটি, ল্যান্ডস্কেপ, বিল্ডিং এবং আরও অনেক কিছুর ফটো তৈরি করতে পারে এবং এটি বিভিন্ন শিল্প শৈলীর পাশাপাশি ফটো-বাস্তবতার সাথে এটি করতে পারে। গবেষকদের লেখকরা দাবি করেছেন যে GLIDE বিভিন্ন ধরণের পাঠ্য ইনপুটকে একটি ভিজ্যুয়াল ফর্ম্যাটে ব্যাখ্যা করতে এবং অভিযোজিত করতে সক্ষম, যেমনটি নীচের নমুনাগুলিতে দেখা গেছে।
2. গ্লাইড ইনপেইন্টিং
GLIDE এর স্বয়ংক্রিয় ফটো ইনপেইন্টিং যুক্তিযুক্তভাবে সবচেয়ে আকর্ষণীয় ব্যবহার। GLIDE একটি বিদ্যমান ছবিকে ইনপুট হিসাবে নিতে পারে, যে স্থানগুলিকে পরিবর্তন করতে হবে সেগুলির জন্য টেক্সট প্রম্পটকে মাথায় রেখে এটি প্রক্রিয়া করতে পারে এবং তারপর সেই অংশগুলিতে সহজে সক্রিয় পরিবর্তন করতে পারে।
এটি অবশ্যই একটি সম্পাদনা মডেলের সাথে ব্যবহার করা উচিত, যেমন SDEdit, আরও ভাল ফলাফল তৈরি করতে। ভবিষ্যতে, এই ধরনের ক্ষমতার সুবিধা নেওয়া অ্যাপগুলি কোড-মুক্ত ছবি-পরিবর্তন পদ্ধতির বিকাশে গুরুত্বপূর্ণ হতে পারে।
উপসংহার
এখন যেহেতু আমরা প্রক্রিয়াটির মধ্য দিয়ে চলে এসেছি, আপনার উচিত GLIDE কীভাবে কাজ করে তার মৌলিক বিষয়গুলি, সেইসাথে ছবি তৈরি এবং ইন-ইমেজ পরিবর্তনে এর ক্ষমতার প্রশস্ততা।
নির্দেশিকা সমন্ধে মতামত দিন