آپ نے سنا ہو گا کہ پچھلے کچھ سالوں میں ٹیکسٹ ٹو امیج AI ماڈلز کتنے طاقتور ہو گئے ہیں۔ لیکن کیا آپ جانتے ہیں کہ یہی ٹیکنالوجی 2D سے 3D تک چھلانگ لگانے میں مدد کر سکتی ہے؟
آج کے ڈیجیٹل منظر نامے میں AI سے تیار کردہ 3D ماڈلز کا وسیع استعمال ہے۔ ویڈیو گیمز اور فلم کمپیوٹر سے تیار کردہ مناظر کو آباد کرنے کے لیے 3D اثاثے بنانے کے لیے ہنر مند 3D فنکاروں اور ماڈلنگ سافٹ ویئر جیسے Blender پر انحصار کرتی ہے۔
تاہم، کیا یہ ممکن ہے کہ صنعت مشین لرننگ کو کم محنت کے ساتھ 3D اثاثے بنانے کے لیے استعمال کر سکے، جیسا کہ آج 2D فنکار ٹیکنالوجی کو اپنانا شروع کر رہے ہیں جیسے DALL-E اور درمیانی سفر?
یہ مضمون ایک نیا الگورتھم دریافت کرے گا جو موجودہ کا استعمال کرتے ہوئے ایک موثر ٹیکسٹ ٹو 3D ماڈل بنانے کی کوشش کرتا ہے۔ بازی ماڈلز.
کیا ہے ڈریم فیوژن?
ایک پھیلاؤ ماڈل بنانے کے ساتھ ایک اہم مسئلہ جو براہ راست 3D اثاثے تیار کرتا ہے وہ یہ ہے کہ وہاں بہت زیادہ 3D ڈیٹا دستیاب نہیں ہے۔ انٹرنیٹ پر پائی جانے والی تصاویر کے وسیع ڈیٹا سیٹ کی وجہ سے 2D ڈفیوژن ماڈلز اتنے طاقتور ہو گئے ہیں۔ 3D اثاثوں کے ساتھ بھی ایسا نہیں کہا جا سکتا۔
کچھ 3D پیدا کرنے والی تکنیکیں 2D ڈیٹا کی اس کثرت سے فائدہ اٹھا کر ڈیٹا کی اس کمی کو پورا کرتی ہیں۔
ڈریم فیوژن ایک تخلیقی ماڈل ہے جو فراہم کردہ متن کی تفصیل کی بنیاد پر 3D ماڈل بنا سکتا ہے۔ ڈریم فیوژن ماڈل ٹیکسٹ پرامپٹس سے حقیقت پسندانہ تین جہتی ماڈل تیار کرنے کے لیے پہلے سے تربیت یافتہ ٹیکسٹ ٹو امیج ڈفیوژن ماڈل کا استعمال کرتا ہے۔
کوئی 3D ٹریننگ ڈیٹا نہ ہونے کے باوجود، اس نقطہ نظر نے اعلی مخلص ظاہری شکل اور گہرائی کے ساتھ مربوط 3D اثاثے تیار کیے ہیں۔
یہ کیسے کام کرتا ہے؟
DreamFusion الگورتھم دو اہم ماڈلز پر مشتمل ہے: ایک 2D ڈفیوژن ماڈل اور ایک عصبی نیٹ ورک جو 2D تصاویر کو ایک مربوط 3D منظر میں تبدیل کر سکتا ہے۔
گوگل کا امیجین ٹیکسٹ ٹو امیج ماڈل
الگورتھم کا پہلا حصہ بازی ماڈل ہے۔ یہ ماڈل متن کو تصاویر میں تبدیل کرنے کا ذمہ دار ہے۔
تصویر ایک پھیلاؤ ماڈل ہے جو کسی خاص چیز کی تصویری تغیرات کا ایک بڑا نمونہ تیار کر سکتا ہے۔ اس صورت میں، ہماری تصویری تغیرات کو فراہم کردہ آبجیکٹ کے تمام ممکنہ زاویوں کا احاطہ کرنا چاہیے۔ مثال کے طور پر، اگر ہم گھوڑے کا 3D ماڈل بنانا چاہتے ہیں، تو ہم تمام ممکنہ زاویوں سے گھوڑے کی 2D تصاویر چاہیں گے۔ مقصد ہمارے الگورتھم میں اگلے ماڈل کے لیے زیادہ سے زیادہ معلومات (رنگ، عکاسی، کثافت) فراہم کرنے کے لیے Imagen کا استعمال کرنا ہے۔
NeRF کے ساتھ 3D ماڈل بنانا
اگلا، ڈریم فیوژن ایک ماڈل استعمال کرتا ہے جسے a کہا جاتا ہے۔ نیورل ریڈیئنس فیلڈ یا NeRF اصل میں تیار کردہ امیج سیٹ سے 3D ماڈل بنانے کے لیے۔ NeRFs 3D امیجز کے ڈیٹاسیٹ کے پیش نظر پیچیدہ 2D مناظر بنانے کے قابل ہیں۔
آئیے یہ سمجھنے کی کوشش کریں کہ این آر ایف کیسے کام کرتا ہے۔
ماڈل کا مقصد 2D امیجز کے فراہم کردہ ڈیٹا سیٹ سے آپٹمائزڈ ایک مسلسل والیومیٹرک سین فنکشن بنانا ہے۔
اگر ماڈل ایک فنکشن بناتا ہے، تو ان پٹ اور آؤٹ پٹ کیا ہیں؟
سین فنکشن ایک 3D مقام اور 2D دیکھنے کی سمت میں بطور ان پٹ لیتا ہے۔ فنکشن پھر ایک رنگ (آر جی بی کی شکل میں) اور ایک مخصوص حجم کی کثافت دیتا ہے۔
ایک مخصوص نقطہ نظر سے 2D امیج بنانے کے لیے، ماڈل 3D پوائنٹس کا ایک سیٹ تیار کرے گا اور رنگ اور حجم کی کثافت کی قدروں کا ایک سیٹ واپس کرنے کے لیے سین فنکشن کے ذریعے ان پوائنٹس کو چلائے گا۔ والیوم رینڈرنگ کی تکنیک پھر ان اقدار کو 2D امیج آؤٹ پٹ میں تبدیل کر دے گی۔
NeRF اور 2D ڈفیوژن ماڈلز کو ایک ساتھ استعمال کرنا
اب جب کہ ہم جانتے ہیں کہ NeRF کیسے کام کرتا ہے، آئیے دیکھتے ہیں کہ یہ ماڈل ہماری تخلیق کردہ تصاویر سے کس طرح درست 3D ماڈل بنا سکتا ہے۔
ہر فراہم کردہ ٹیکسٹ پرامپٹ کے لیے، DreamFusion شروع سے تصادفی طور پر شروع کیے گئے NeRF کو تربیت دیتا ہے۔ ہر تکرار کروی نقاط کے سیٹ میں ایک بے ترتیب کیمرے کی پوزیشن کا انتخاب کرتی ہے۔ شیشے کے دائرے میں بند ماڈل کے بارے میں سوچئے۔ ہر بار جب ہم اپنے 3D ماڈل کی ایک نئی تصویر تیار کرتے ہیں، تو ہم اپنے دائرے میں ایک بے ترتیب نقطہ کو اپنے آؤٹ پٹ کے مقام کے طور پر منتخب کریں گے۔ DreamFusion بھی ایک بے ترتیب روشنی کی پوزیشن کا انتخاب کرے گا۔ l رینڈرنگ کے لیے استعمال کرنا۔
ایک بار جب ہمارے پاس کیمرہ اور لائٹ پوزیشن ہو جائے تو، ایک NeRF ماڈل پیش کیا جائے گا۔ DreamFusion بغیر کسی شیڈنگ کے رنگین رینڈر، بغیر بناوٹ کے رینڈر، اور البیڈو کی رینڈرنگ کے درمیان بھی تصادفی طور پر انتخاب کرے گا۔
ہم نے پہلے ذکر کیا ہے کہ ہم چاہتے ہیں کہ ہمارا ٹیکسٹ ٹو امیج ماڈل (Imagen) نمائندہ نمونہ بنانے کے لیے کافی تصاویر تیار کرے۔
ڈریم فیوژن اسے کیسے پورا کرتا ہے؟
ڈریم فیوژن مطلوبہ زاویوں کو حاصل کرنے کے لیے ان پٹ پرامپٹ میں قدرے ترمیم کرتا ہے۔ مثال کے طور پر، ہم اپنے پرامپٹ میں "اوور ہیڈ ویو" کو شامل کر کے اونچی بلندی کے زاویے حاصل کر سکتے ہیں۔ ہم "فرنٹ ویو"، "سائیڈ ویو" اور "بیک ویو" جیسے جملے شامل کر کے دوسرے زاویے پیدا کر سکتے ہیں۔
بے ترتیب کیمرے کی پوزیشنوں سے مناظر کو بار بار پیش کیا جاتا ہے۔ یہ رینڈرنگ اس کے بعد سکور ڈسٹلیشن نقصان کے فنکشن سے گزرتے ہیں۔ ایک سادہ تدریجی نزول کا نقطہ نظر آہستہ آہستہ بہتر کرے گا۔ 3D ماڈل جب تک کہ یہ متن کے بیان کردہ منظر سے میل نہ کھا لے۔
ایک بار جب ہم نے 3D ماڈل کو NeRF کا استعمال کرتے ہوئے پیش کیا ہے، ہم استعمال کر سکتے ہیں۔ مارچنگ کیوبز الگورتھم ہمارے ماڈل کا 3D میش آؤٹ پٹ کرنے کے لیے۔ اس میش کو پھر مقبول 3D رینڈررز یا ماڈلنگ سافٹ ویئر میں درآمد کیا جا سکتا ہے۔
حدود
اگرچہ ڈریم فیوژن کا آؤٹ پٹ کافی متاثر کن ہے کیونکہ یہ موجودہ ٹیکسٹ ٹو امیج ڈفیوژن ماڈلز کو نئے انداز میں استعمال کرتا ہے، محققین نے کچھ حدود کو نوٹ کیا ہے۔
SDS نقصان کا فنکشن حد سے زیادہ سیر شدہ اور زیادہ ہموار نتائج پیدا کرنے کے لیے دیکھا گیا ہے۔ آپ اس کا مشاہدہ غیر فطری رنگ کاری اور آؤٹ پٹس میں پائی جانے والی قطعی تفصیل کی کمی میں کر سکتے ہیں۔
DreamFusion الگورتھم امیجن ماڈل آؤٹ پٹ کی ریزولوشن سے بھی محدود ہے، جو کہ 64 x 64 پکسلز ہے۔ اس سے ترکیب شدہ ماڈلز میں باریک تفصیلات کی کمی ہوتی ہے۔
آخر میں، محققین نے نوٹ کیا ہے کہ 3D ڈیٹا سے 2D ماڈلز کی ترکیب سازی میں ایک موروثی چیلنج ہے۔ بہت سے ممکنہ 3D ماڈلز ہیں جو ہم 2D امیجز کے سیٹ سے تیار کر سکتے ہیں، جو آپٹمائزیشن کو کافی مشکل اور مبہم بنا دیتا ہے۔
نتیجہ
ڈریم فیوژن کی 3D رینڈرنگ کسی بھی چیز یا منظر کو تخلیق کرنے کے لیے ٹیکسٹ ٹو امیج ڈفیوژن ماڈلز کی صلاحیت کی وجہ سے بہت اچھی طرح سے کام کرتی ہے۔ یہ متاثر کن ہے کہ نیورل نیٹ ورک 3D اسپیس میں کسی 3D ٹریننگ ڈیٹا کے بغیر کسی منظر کو کیسے سمجھ سکتا ہے۔ میں پڑھنے کی سفارش کرتا ہوں۔ پورے کاغذ DreamFusion الگورتھم کی تکنیکی تفصیلات کے بارے میں مزید جاننے کے لیے۔
امید ہے کہ، یہ ٹیکنالوجی بالآخر تصویری حقیقت پسندانہ 3D ماڈل بنانے میں بہتری لائے گی۔ پورے ویڈیو گیمز یا سمیلیشنز کا تصور کریں جو AI سے تیار کردہ ماحول استعمال کرتے ہیں۔ یہ عمیق 3D دنیا بنانے کے لیے ویڈیو گیم ڈویلپرز کے داخلے کی رکاوٹ کو کم کر سکتا ہے!
آپ کے خیال میں ٹیکسٹ ٹو تھری ڈی ماڈل مستقبل میں کیا کردار ادا کریں گے؟
جواب دیجئے