توهان شايد ٻڌو هوندو ته ڪيئن طاقتور ٽيڪسٽ کان تصويري AI ماڊل گذريل ڪجهه سالن ۾ بڻجي ويا آهن. پر ڇا توهان ڄاڻو ٿا ته ساڳي ٽيڪنالاجي 2D کان 3D تائين ٽپڻ ۾ مدد ڪري سگهي ٿي؟
AI ٺاهيل 3D ماڊلز اڄ جي ڊجيٽل منظرنامي ۾ وسيع استعمال جي صورت ۾ آهن. ويڊيو گيم ۽ فلم ماهر 3D فنڪارن ۽ ماڊلنگ سافٽ ويئر تي ڀاڙين ٿيون جيئن ته Blender 3D اثاثا ٺاهڻ لاءِ ڪمپيوٽر جي ٺاهيل منظرن کي آباد ڪرڻ لاءِ.
تنهن هوندي، ڇا اهو ممڪن آهي ته صنعت گهٽ ڪوشش سان 3D اثاثو ٺاهڻ لاءِ مشين لرننگ استعمال ڪري سگهي ٿي، جيئن اڄڪلهه 2D فنڪار ٽيڪنالاجي کي اپنائڻ شروع ڪري رهيا آهن جهڙوڪ DALL-E ۽ وچ وارو سفر?
هي آرٽيڪل هڪ نئين الگورتھم کي ڳوليندو جيڪو موجوده استعمال ڪندي هڪ مؤثر ٽيڪسٽ-to-3D ماڊل ٺاهڻ جي ڪوشش ڪندو. diffusion ماڊلز.
ڇا آھي خواب ڏسڻ?
ھڪڙو وڏو مسئلو ھڪڙو ڊفيوژن ماڊل ٺاھڻ سان جيڪو 3D اثاثو ٺاھي ٿو سڌو سنئون اھو آھي ته اتي موجود 3D ڊيٽا جي تمام گھڻي تعداد موجود نه آھي. انٽرنيٽ تي مليل تصويرن جي وسيع ڊيٽا سيٽ جي ڪري 2D ڊفيوژن ماڊل تمام طاقتور ٿي چڪا آهن. ساڳيو ئي 3D اثاثن سان نٿو چئي سگهجي.
ڪجھ 3D پيدا ڪندڙ ٽيڪنڪ ڪم ڪري ٿي ڊيٽا جي هن کوٽ جي چوڌاري 2D ڊيٽا جي هن ڪثرت جو فائدو وٺي.
DreamFusion ھڪڙو generative ماڊل آھي جيڪو 3D ماڊل ٺاھي سگھي ٿو ھڪڙي مهيا ڪيل ٽيڪسٽ تفصيل جي بنياد تي. DreamFusion ماڊل اڳ-تربيت ٿيل ٽيڪسٽ-ٽو-تصوير ڊفيوشن ماڊل استعمال ڪري ٿو ٽيڪسٽ پرامٽس مان حقيقي ٽي-dimensional ماڊل ٺاهڻ لاءِ.
3D ٽريننگ ڊيٽا نه هجڻ جي باوجود، هن طريقي سان ٺهڪندڙ 3D اثاثا ٺاهيا آهن جن ۾ اعليٰ قسم جي ظهور ۽ کوٽائي آهي.
اهو ڪيئن ڪم آهي؟
DreamFusion الگورٿم ٻن مکيه ماڊلز تي مشتمل آهي: هڪ 2D ڊفيوشن ماڊل ۽ هڪ نظرياتي نيٽورڪ جيڪو 2D تصويرن کي هڪ گڏيل 3D منظر ۾ تبديل ڪري سگھي ٿو.
گوگل جي تصويري ٽيڪسٽ کان تصويري ماڊل
الورورٿم جو پهريون حصو ڊفيوشن ماڊل آهي. هي ماڊل متن کي تصويرن ۾ تبديل ڪرڻ جو ذميوار آهي.
Imagen هڪ diffusion ماڊل آهي جيڪو هڪ خاص شئي جي تصوير جي مختلف قسمن جو هڪ وڏو نمونو پيدا ڪري سگهي ٿو. انهي حالت ۾، اسان جي تصوير جي مختلف قسمن کي مهيا ڪيل اعتراض جي سڀني ممڪن زاوين کي ڍڪڻ گهرجي. مثال طور، جيڪڏهن اسان گهوڙي جو 3D ماڊل ٺاهڻ چاهيون ٿا، ته اسان چاهيون ٿا ته گهوڙي جون 2D تصويرون سڀني ممڪن ڪنارن کان. مقصد اسان جي الگورتھم ۾ ايندڙ ماڊل لاءِ ممڪن حد کان وڌيڪ معلومات مهيا ڪرڻ لاءِ Imagen استعمال ڪرڻ آهي (رنگ، عڪس، کثافت).
NeRF سان 3D ماڊل ٺاهڻ
اڳيون، Dreamfusion هڪ ماڊل استعمال ڪري ٿو جنهن جي نالي سان مشهور آهي نيورل ريڊيئنس فيلڊ يا NeRF اصل ۾ ٺاهيل تصويري سيٽ مان 3D ماڊل ٺاهي. NeRFs 3D تصويرن جي ڊيٽا سيٽ کي ڏنل پيچيده 2D منظر ٺاهڻ جي قابل آهن.
اچو ته سمجهڻ جي ڪوشش ڪريون ته هڪ اين آر ايف ڪيئن ڪم ڪري ٿو.
ماڊل جو مقصد 2D تصويرن جي مهيا ڪيل ڊيٽا سيٽ مان بهتر ڪيل هڪ لڳاتار وولومٽرڪ منظر فنڪشن ٺاهڻ آهي.
جيڪڏهن ماڊل هڪ فنڪشن ٺاهي، ان پٽ ۽ آئوٽ ڇا آهن؟
منظر فنڪشن هڪ 3D هنڌ ۽ 2D ڏسڻ جي هدايت ۾ ان پٽ طور وٺندو آهي. فنڪشن پوء هڪ رنگ (RGB جي صورت ۾) ۽ هڪ مخصوص حجم کثافت ڪڍي ٿو.
هڪ مخصوص نقطي نظر کان هڪ 2D تصوير ٺاهڻ لاءِ، ماڊل 3D پوائنٽس جو هڪ سيٽ ٺاهيندو ۽ انهن پوائنٽن کي منظر جي فنڪشن ذريعي هلائيندو ته جيئن رنگ ۽ حجم جي کثافت جي هڪ سيٽ کي واپس آڻي سگهجي. حجم رينڊنگ ٽيڪنڪ وري انهن قدرن کي 2D تصويري پيداوار ۾ تبديل ڪندي.
NeRF ۽ 2D ڊفيوشن ماڊل گڏجي استعمال ڪندي
هاڻي ته اسان ڄاڻون ٿا ته هڪ NeRF ڪيئن ڪم ڪري ٿو، اچو ته ڏسو ته هي ماڊل اسان جي ٺاهيل تصويرن مان صحيح 3D ماڊل ڪيئن ٺاهي سگهي ٿو.
هر مهيا ڪيل ٽيڪسٽ پرامپٽ لاءِ، DreamFusion ٽرين ڪري ٿو بي ترتيب انداز ۾ شروع ڪيل NeRF شروع کان. هر ورهاڱي هڪ بي ترتيب ڪئميرا پوزيشن کي گولي همراهن جي سيٽ ۾ چونڊيندو آهي. ھڪڙي شيشي جي دائري ۾ ڍڪيل ماڊل جو سوچيو. هر دفعي اسان پنهنجي 3D ماڊل جي هڪ نئين تصوير ٺاهيندا آهيون، اسان پنهنجي دائري ۾ هڪ بي ترتيب واري نقطي کي چونڊينداسين جيئن اسان جي پيداوار جي وينٽيج پوائنٽ. DreamFusion به هڪ بي ترتيب روشني پوزيشن چونڊيندو l ترتيب ڏيڻ لاء استعمال ڪرڻ لاء.
هڪ دفعو اسان وٽ هڪ ڪئميرا ۽ روشني پوزيشن آهي، هڪ اين آر ايف ماڊل پيش ڪيو ويندو. DreamFusion به بي ترتيب طور چونڊيندو هڪ رنگين رينڊر، بنا بناوٽ جي رينڊر، ۽ البيڊو جي رينڊرنگ جي بغير ڪنهن شيڊنگ جي.
اسان اڳ ۾ ذڪر ڪري چڪا آهيون ته اسان چاهيون ٿا ته اسان جي ٽيڪسٽ کان تصويري ماڊل (تصوير) هڪ نمائندي نموني ٺاهڻ لاءِ ڪافي تصويرون پيدا ڪري.
Dreamfusion اهو ڪيئن پورو ڪري ٿو؟
Dreamfusion صرف ان پٽ پرامپٽ کي ٿورڙو تبديل ڪري ٿو ارادو ٿيل زاوين کي حاصل ڪرڻ لاءِ. مثال طور، اسان حاصل ڪري سگھون ٿا بلند بلندي جا زاويا اسان جي پرامٽ تي ”اوور هيڊ ڏيک“ شامل ڪندي. اسان جملن کي شامل ڪندي ٻيا زاويا پيدا ڪري سگھون ٿا جهڙوڪ "اڳيون ڏيک"، "سائيڊ ڏيک"، ۽ "پوئتي ڏيک".
منظر بار بار بي ترتيب ڪئميرا پوزيشن مان پيش ڪيا ويا آهن. اهي رينڊرنگ وري هڪ سکور ڊسٽليشن نقصان جي فنڪشن ذريعي گذري ٿو. هڪ سادي تدريسي نزول جو طريقو آهستي آهستي بهتر ٿيندو ٿري ڊي ماڊل جيستائين اهو متن جي بيان ڪيل منظر سان ملندو.
هڪ دفعو اسان اين آر ايف استعمال ڪندي 3D ماڊل پيش ڪيو آهي، اسان استعمال ڪري سگهون ٿا مارچنگ ڪيوبز الگورتھم اسان جي ماڊل جي 3D ميش کي ڪڍڻ لاء. هي ميش وري مشهور 3D رينڊرز يا ماڊلنگ سافٽ ويئر ۾ درآمد ڪري سگھجي ٿو.
حدون
جڏهن ته DreamFusion جي پيداوار ڪافي متاثر ڪندڙ آهي ڇاڪاڻ ته اهو موجوده متن کان تصويري ڊفيوشن ماڊل کي نئين طريقي سان استعمال ڪري ٿو، محققن ڪجهه حدن کي نوٽ ڪيو آهي.
ايس ڊي ايس جي نقصان جي فنڪشن کي ڏٺو ويو آهي oversaturated ۽ وڌيڪ-smoothed نتيجا پيدا ڪرڻ. توھان ھن کي غير فطري رنگ ۾ ڏسي سگھو ٿا ۽ آئوٽ پُٽ ۾ مليل صحيح تفصيل جي کوٽ.
DreamFusion الورورٿم پڻ محدود آهي تصويري ماڊل آئوٽ جي ريزوليوشن، جيڪا 64 x 64 پکسلز آهي. هي ٺهيل ماڊلز ڏانهن وٺي ٿو جن ۾ وڌيڪ تفصيلن جي کوٽ آهي.
آخر ۾، محقق نوٽ ڪيو آهي ته 3D ڊيٽا مان 2D ماڊل کي گڏ ڪرڻ ۾ هڪ موروثي چئلينج آهي. اتي ڪيترائي ممڪن 3D ماڊل آھن جيڪي اسان 2D تصويرن جي ھڪڙي سيٽ مان ٺاھي سگھون ٿا، جيڪي اصلاح کي ڪافي ڏکيو ۽ اڃا به مبہم بڻائي ٿو.
ٿڪل
DreamFusion جي 3D رينڊرنگ تمام سٺي ڪم ڪري ٿي ڇاڪاڻ ته متن کان تصوير جي پکيڙ واري ماڊل جي صلاحيت ڪنهن به شئي يا منظر کي ٺاهڻ لاءِ. اهو متاثر ڪندڙ آهي ته هڪ نيورل نيٽ ورڪ ڪنهن به 3D ٽريننگ ڊيٽا کان سواءِ 3D اسپيس ۾ ڪنهن منظر کي ڪيئن سمجهي سگهي ٿو. مان پڙهڻ جي صلاح ڏيان ٿو سڄو ڪاغذ DreamFusion algorithm جي ٽيڪنيڪل تفصيلن بابت وڌيڪ سکڻ لاءِ.
اميد آهي ته، هي ٽيڪنالاجي بهتر ٿي ويندي ته آخرڪار فوٽو-حقيقي 3D ماڊل ٺاهي. تصور ڪريو سموريون وڊيو گيمز يا تخليقون جيڪي استعمال ڪن ٿيون AI ٺاهيل ماحول. اهو وڊيو گيم ڊولپرز لاءِ داخلا جي رڪاوٽ کي گهٽائي سگھي ٿو immersive 3D دنيا ٺاهڻ لاءِ!
توهان ڇا ٿا سوچيو ته ٽيڪسٽ کان 3D ماڊل مستقبل ۾ ادا ڪندا؟
جواب ڇڏي وڃو