গত কয়েক বছরে টেক্সট-টু-ইমেজ এআই মডেলগুলি কতটা শক্তিশালী হয়ে উঠেছে সে সম্পর্কে আপনি হয়তো শুনেছেন। কিন্তু আপনি কি জানেন যে একই প্রযুক্তি 2D থেকে 3D তে লাফ দিতে সাহায্য করতে পারে?
আজকের ডিজিটাল ল্যান্ডস্কেপে এআই-জেনারেটেড 3D মডেলের ব্যাপক ব্যবহার রয়েছে। ভিডিও গেমস এবং ফিল্ম দক্ষ 3D শিল্পীদের এবং মডেলিং সফ্টওয়্যার যেমন ব্লেন্ডারের উপর নির্ভর করে 3D সম্পদ তৈরি করতে কম্পিউটার-উত্পাদিত দৃশ্যগুলি তৈরি করতে।
যাইহোক, এটা কি সম্ভব যে শিল্পটি কম পরিশ্রমে 3D সম্পদ তৈরি করতে মেশিন লার্নিং ব্যবহার করতে পারে, যেমন আজ 2D শিল্পীরা DALL-E এবং DALL-E-এর মতো প্রযুক্তি গ্রহণ করতে শুরু করেছে। মিডজার্নি?
এই নিবন্ধটি একটি অভিনব অ্যালগরিদম অন্বেষণ করবে যা বিদ্যমান ব্যবহার করে একটি কার্যকর টেক্সট-টু-3ডি মডেল তৈরি করার চেষ্টা করে প্রসারিত মডেল.
ড্রিমফিউশন?
একটি ডিফিউশন মডেল তৈরি করার সাথে একটি প্রধান সমস্যা যা সরাসরি 3D সম্পদ তৈরি করে তা হল যে সেখানে প্রচুর 3D ডেটা উপলব্ধ নেই। ইন্টারনেটে পাওয়া চিত্রগুলির বিশাল ডেটাসেটের কারণে 2D ডিফিউশন মডেলগুলি এত শক্তিশালী হয়ে উঠেছে। 3D সম্পদের সাথে একই কথা বলা যাবে না।
কিছু 3D উৎপাদক কৌশল এই 2D ডেটার প্রাচুর্যের সুবিধা নিয়ে ডেটার অভাবকে ঘিরে কাজ করে।
ড্রিমফিউশন একটি উৎপাদক মডেল যা প্রদত্ত পাঠ্য বিবরণের উপর ভিত্তি করে 3D মডেল তৈরি করতে পারে। ড্রিমফিউশন মডেল টেক্সট প্রম্পট থেকে বাস্তবসম্মত ত্রি-মাত্রিক মডেল তৈরি করতে একটি প্রাক-প্রশিক্ষিত টেক্সট-টু-ইমেজ ডিফিউশন মডেল ব্যবহার করে।
কোনো 3D প্রশিক্ষণের ডেটা না থাকা সত্ত্বেও, এই পদ্ধতিটি উচ্চ-বিশ্বস্ততার চেহারা এবং গভীরতার সাথে সুসঙ্গত 3D সম্পদ তৈরি করেছে।
এটা কিভাবে কাজ করে?
DreamFusion অ্যালগরিদম দুটি প্রধান মডেল নিয়ে গঠিত: একটি 2D ডিফিউশন মডেল এবং একটি স্নায়বিক নেটওয়ার্ক যা 2D ছবিকে একটি সমন্বিত 3D দৃশ্যে রূপান্তর করতে পারে।
গুগলের ইমেজেন টেক্সট-টু-ইমেজ মডেল
অ্যালগরিদমের প্রথম অংশ হল ডিফিউশন মডেল। এই মডেল টেক্সট ইমেজ রূপান্তর জন্য দায়ী.
ছবি একটি প্রসারিত মডেল যা একটি নির্দিষ্ট বস্তুর চিত্র বৈচিত্রের একটি বড় নমুনা তৈরি করতে পারে। এই ক্ষেত্রে, আমাদের ছবির বৈচিত্রগুলি প্রদত্ত বস্তুর সমস্ত সম্ভাব্য কোণগুলিকে কভার করা উচিত। উদাহরণস্বরূপ, যদি আমরা একটি ঘোড়ার একটি 3D মডেল তৈরি করতে চাই, তাহলে আমরা সমস্ত সম্ভাব্য কোণ থেকে ঘোড়াটির 2D চিত্র চাই। লক্ষ্য হল আমাদের অ্যালগরিদমের পরবর্তী মডেলের জন্য যতটা সম্ভব তথ্য (রঙ, প্রতিফলন, ঘনত্ব) প্রদান করতে Imagen ব্যবহার করা।
NeRF দিয়ে 3D মডেল তৈরি করা
এর পরে, ড্রিমফিউশন একটি নামে পরিচিত একটি মডেল ব্যবহার করে নিউরাল রেডিয়েন্স ফিল্ড বা NeRF আসলে জেনারেট করা ইমেজ সেট থেকে 3D মডেল তৈরি করতে। NeRFs 3D চিত্রের একটি ডেটাসেট দেওয়া জটিল 2D দৃশ্য তৈরি করতে সক্ষম।
আসুন একটি NERF কিভাবে কাজ করে তা বোঝার চেষ্টা করুন।
মডেলটির লক্ষ্য 2D চিত্রগুলির প্রদত্ত ডেটাসেট থেকে অপ্টিমাইজ করা একটি অবিচ্ছিন্ন ভলিউম্যাট্রিক দৃশ্য ফাংশন তৈরি করা।
যদি মডেল একটি ফাংশন তৈরি করে, তাহলে ইনপুট এবং আউটপুট কি?
দৃশ্য ফাংশন ইনপুট হিসাবে একটি 3D অবস্থান এবং একটি 2D দেখার দিক নেয়। ফাংশন তারপর একটি রঙ (RGB আকারে) এবং একটি নির্দিষ্ট ভলিউম ঘনত্ব আউটপুট.
একটি নির্দিষ্ট দৃষ্টিকোণ থেকে একটি 2D চিত্র তৈরি করতে, মডেলটি 3D পয়েন্টের একটি সেট তৈরি করবে এবং রঙ এবং ভলিউম ঘনত্বের মানগুলির একটি সেট ফিরিয়ে দিতে দৃশ্য ফাংশনের মাধ্যমে সেই পয়েন্টগুলি চালাবে। ভলিউম রেন্ডারিং কৌশলগুলি তখন সেই মানগুলিকে একটি 2D চিত্র আউটপুটে রূপান্তর করবে।
NeRF এবং 2D ডিফিউশন মডেল একসাথে ব্যবহার করা
এখন যেহেতু আমরা জানি কিভাবে একটি NeRF কাজ করে, আসুন দেখি কিভাবে এই মডেলটি আমাদের তৈরি করা ছবি থেকে সঠিক 3D মডেল তৈরি করতে পারে।
প্রতিটি প্রদত্ত টেক্সট প্রম্পটের জন্য, ড্রিমফিউশন স্ক্র্যাচ থেকে একটি এলোমেলোভাবে শুরু করা NeRF প্রশিক্ষণ দেয়। প্রতিটি পুনরাবৃত্তি গোলাকার স্থানাঙ্কের একটি সেটে একটি এলোমেলো ক্যামেরা অবস্থান বেছে নেয়। একটি কাচের গোলায় আবদ্ধ মডেলটির কথা ভাবুন। প্রতিবার যখন আমরা আমাদের 3D মডেলের একটি নতুন চিত্র তৈরি করি, তখন আমরা আমাদের আউটপুটের সুবিধার পয়েন্ট হিসাবে আমাদের গোলকের একটি র্যান্ডম পয়েন্ট বেছে নেব। ড্রিমফিউশন একটি এলোমেলো আলোর অবস্থানও বেছে নেবে l রেন্ডারিংয়ের জন্য ব্যবহার করতে।
একবার আমাদের একটি ক্যামেরা এবং আলোর অবস্থান পাওয়া গেলে, একটি NeRF মডেল রেন্ডার করা হবে। ড্রিমফিউশন এলোমেলোভাবে একটি রঙিন রেন্ডার, একটি টেক্সচারহীন রেন্ডার এবং কোনো ছায়া ছাড়াই অ্যালবেডোর একটি রেন্ডারিংয়ের মধ্যে বেছে নেবে।
আমরা আগেই উল্লেখ করেছি যে আমরা চাই আমাদের টেক্সট-টু-ইমেজ মডেল (ইমেজেন) একটি প্রতিনিধি নমুনা তৈরি করার জন্য পর্যাপ্ত ছবি তৈরি করুক।
ড্রিমফিউশন কিভাবে এটি সম্পন্ন করে?
ড্রিমফিউশন কেবলমাত্র উদ্দিষ্ট কোণগুলি অর্জন করতে ইনপুট প্রম্পটকে সামান্য পরিবর্তন করে। উদাহরণস্বরূপ, আমরা আমাদের প্রম্পটে "ওভারহেড ভিউ" যুক্ত করে উচ্চ উচ্চতা কোণগুলি অর্জন করতে পারি। আমরা "ফ্রন্ট ভিউ", "সাইড ভিউ" এবং "ব্যাক ভিউ" এর মতো বাক্যাংশ যুক্ত করে অন্যান্য কোণ তৈরি করতে পারি।
র্যান্ডম ক্যামেরা অবস্থান থেকে দৃশ্যগুলি বারবার রেন্ডার করা হয়। এই রেন্ডারিং তারপর একটি স্কোর পাতন ক্ষতি ফাংশন মাধ্যমে পাস. একটি সহজ গ্রেডিয়েন্ট ডিসেন্ট পদ্ধতি ধীরে ধীরে উন্নতি করবে 3D মডেল যতক্ষণ না এটি পাঠ্য দ্বারা বর্ণিত দৃশ্যের সাথে মেলে।
একবার আমরা NeRF ব্যবহার করে 3D মডেল রেন্ডার করেছি, আমরা ব্যবহার করতে পারি মার্চিং কিউব অ্যালগরিদম আমাদের মডেলের একটি 3D জাল আউটপুট করতে। এই জালটি তখন জনপ্রিয় 3D রেন্ডারার বা মডেলিং সফ্টওয়্যারে আমদানি করা যেতে পারে।
সীমাবদ্ধতা
যদিও DreamFusion এর আউটপুট যথেষ্ট চিত্তাকর্ষক কারণ এটি একটি অভিনব উপায়ে বিদ্যমান টেক্সট-টু-ইমেজ ডিফিউশন মডেল ব্যবহার করে, গবেষকরা কয়েকটি সীমাবদ্ধতা উল্লেখ করেছেন।
SDS ক্ষতি ফাংশন oversaturated এবং অতিরিক্ত মসৃণ ফলাফল উত্পাদন পরিলক্ষিত হয়েছে. আউটপুটগুলিতে পাওয়া অপ্রাকৃতিক রঙ এবং সুনির্দিষ্ট বিবরণের অভাব আপনি এটি পর্যবেক্ষণ করতে পারেন।
ড্রিমফিউশন অ্যালগরিদমটি ইমেজেন মডেলের আউটপুটের রেজোলিউশন দ্বারা সীমাবদ্ধ, যা 64 x 64 পিক্সেল। এটি সংশ্লেষিত মডেলগুলির সূক্ষ্ম বিবরণের অভাবের দিকে পরিচালিত করে।
অবশেষে, গবেষকরা উল্লেখ করেছেন যে 3D ডেটা থেকে 2D মডেল সংশ্লেষণ করার ক্ষেত্রে একটি অন্তর্নিহিত চ্যালেঞ্জ রয়েছে। অনেকগুলি সম্ভাব্য 3D মডেল রয়েছে যা আমরা 2D ছবির একটি সেট থেকে তৈরি করতে পারি, যা অপ্টিমাইজেশনকে বেশ কঠিন এবং এমনকি অস্পষ্ট করে তোলে।
উপসংহার
ড্রিমফিউশনের 3D রেন্ডারিংগুলি খুব ভাল কাজ করে কারণ টেক্সট-টু-ইমেজ ডিফিউশন মডেলের যেকোনো বস্তু বা দৃশ্য তৈরি করার ক্ষমতা। এটা চিত্তাকর্ষক যে কিভাবে একটি নিউরাল নেটওয়ার্ক কোন 3D প্রশিক্ষণ ডেটা ছাড়াই 3D স্পেসে একটি দৃশ্য বুঝতে পারে। আমি পড়ার সুপারিশ পুরো কাগজ DreamFusion অ্যালগরিদমের প্রযুক্তিগত বিবরণ সম্পর্কে আরও জানতে।
আশা করি, এই প্রযুক্তিটি শেষ পর্যন্ত ফটো-বাস্তববাদী 3D মডেল তৈরি করতে উন্নতি করবে। সম্পূর্ণ ভিডিও গেম বা সিমুলেশনগুলি কল্পনা করুন যা এআই-উত্পন্ন পরিবেশ ব্যবহার করে। এটি ভিডিও গেম ডেভেলপারদের নিমজ্জনশীল 3D বিশ্ব তৈরি করতে প্রবেশের বাধা কমিয়ে দিতে পারে!
ভবিষ্যতে পাঠ্য থেকে 3D মডেলগুলি কী ভূমিকা পালন করবে বলে আপনি মনে করেন?
নির্দেশিকা সমন্ধে মতামত দিন