تاسو شاید اوریدلي وي چې په تیرو څو کلونو کې د متن څخه تر عکس AI ماډلونه څومره پیاوړي شوي. مګر ایا تاسو پوهیږئ چې ورته ټیکنالوژي کولی شي د 2D څخه 3D ته د لیپ کولو کې مرسته وکړي؟
د AI لخوا تولید شوي 3D ماډلونه د نن ورځې ډیجیټل منظره کې د پراخه کارونې قضیه لري. ويډيو ګېم او فلم په ماهر 3D هنرمندانو او ماډلینګ سافټویر باندې تکیه کوي لکه Blender ترڅو د کمپیوټر لخوا رامینځته شوي صحنې ډکولو لپاره 3D شتمنۍ رامینځته کړي.
په هرصورت، ایا دا ممکنه ده چې صنعت د لږې هڅې سره د 3D شتمنیو رامینځته کولو لپاره د ماشین زده کړې څخه کار واخلي، لکه څنګه چې نن ورځ 2D هنرمندان د ټیکنالوژۍ غوره کول پیل کوي لکه DALL-E او منځنی سفر?
دا مقاله به یو نوی الګوریتم وپلټي چې د موجوده کارولو په کارولو سره د متن څخه تر 3D پورې مؤثره ماډل رامینځته کولو هڅه کوي د خپریدو ماډلونه.
څه دي Dreamfusion?
د خپریدو ماډل رامینځته کولو سره یوه لویه مسله چې مستقیم 3D شتمنۍ رامینځته کوي دا دی چې په ساده ډول د 3D ډیری ډیټا شتون نلري. د 2D ډیفیوژن ماډلونه په انټرنیټ کې موندل شوي عکسونو پراخه ډیټاسیټ له امله خورا پیاوړي شوي. ورته د 3D شتمنیو سره نشي ویل کیدی.
ځینې د 3D تولیدي تخنیکونه د 2D ډیټا د دې کثرت څخه په ګټې اخیستنې سره د ډیټا نشتوالي شاوخوا کار کوي.
DreamFusion یو تولیدي ماډل دی چې کولی شي د چمتو شوي متن توضیحاتو پراساس 3D ماډلونه رامینځته کړي. د DreamFusion ماډل د مخکینۍ روزل شوي متن څخه عکس ته د خپریدو ماډل کاروي ترڅو د متن اشارو څخه حقیقتي درې اړخیز ماډلونه رامینځته کړي.
سره له دې چې د 3D روزنې ډیټا شتون نلري، دې طریقې د لوړ وفاداري بڼه او ژورتیا سره همغږي 3D شتمنۍ رامینځته کړې.
دا څنګه کار کوی؟
د DreamFusion الګوریتم دوه اصلي ماډلونه لري: د 2D ډیفیوژن ماډل او الف نوریال شبکه چې کولی شي 2D عکسونه په یو همغږي 3D صحنه کې بدل کړي.
د ګوګل انځوریز متن څخه تر انځور ماډل
د الګوریتم لومړۍ برخه د خپریدو ماډل دی. دا ماډل په انځورونو کې د متن بدلولو مسولیت لري.
انځور د خپریدو ماډل دی چې کولی شي د یو ځانګړي څیز د عکس تغیراتو لوی نمونه رامینځته کړي. په دې حالت کې، زموږ د عکس توپیرونه باید د چمتو شوي اعتراض ټولې ممکنه زاویې پوښښ کړي. د مثال په توګه، که موږ غوښتل د آس د 3D ماډل تولید کړو، موږ به د ټولو ممکنه زاویو څخه د آس 2D انځورونه غواړو. هدف دا دی چې زموږ په الګوریتم کې د راتلونکي ماډل لپاره د امکان تر حده ډیر معلومات (رنګونه ، انعکاس ، کثافت) چمتو کولو لپاره امیجین وکاروئ.
د NeRF سره د 3D ماډلونه رامینځته کول
بیا، Dreamfusion یو ماډل کاروي چې د الف په نوم پیژندل کیږي د عصبي وړانګو ساحه یا NeRF په حقیقت کې د تولید شوي عکس سیټ څخه د 3D ماډل رامینځته کولو لپاره. NeRFs د دې وړتیا لري چې پیچلي 3D صحنې رامینځته کړي چې د 2D عکسونو ډیټاسیټ ورکوي.
راځئ هڅه وکړو چې پوه شو چې NRF څنګه کار کوي.
د ماډل هدف د 2D عکسونو چمتو شوي ډیټاسیټ څخه مطلوب دوامداره حجمیتریک صحنې فعالیت رامینځته کول دي.
که ماډل یو فنکشن رامینځته کړي، نو داخل او محصول څه دي؟
د صحنې فعالیت په 3D موقعیت کې او د 2D لید لید د ان پټ په توګه اخلي. فنکشن بیا یو رنګ (د RGB په بڼه) او یو ځانګړی حجم کثافت تولیدوي.
د ځانګړي لید څخه د 2D عکس رامینځته کولو لپاره ، ماډل به د 3D پوائنټونو سیټ رامینځته کړي او دا نقطې به د صحنې فنکشن له لارې پرمخ وړي ترڅو د رنګ او حجم کثافت ارزښتونو سیټ بیرته راولي. د حجم وړاندې کولو تخنیکونه به بیا دا ارزښتونه د 2D عکس محصول ته واړوي.
د NeRF او 2D ډیفیوژن ماډلونو سره یوځای کارول
اوس چې موږ پوهیږو چې NeRF څنګه کار کوي، راځئ وګورو چې دا ماډل څنګه کولی شي زموږ د تولید شوي عکسونو څخه دقیق 3D ماډلونه تولید کړي.
د هر چمتو شوي متن پرامپټ لپاره ، DreamFusion له سکریچ څخه په تصادفي ډول پیل شوی NeRF روزي. هر تکرار د کروی همغږي په سیټ کې د تصادفي کیمرې موقعیت غوره کوي. د شیشې په ساحه کې پوښل شوي ماډل په اړه فکر وکړئ. هرکله چې موږ د خپل 3D ماډل نوی عکس رامینځته کوو ، موږ به زموږ په ساحه کې یو تصادفي نقطه زموږ د محصول د ځای ځای په توګه غوره کړو. DreamFusion به د تصادفي رڼا موقعیت هم غوره کړي l د وړاندې کولو لپاره کارول.
یوځل چې موږ د کیمرې او رڼا موقعیت ولرو، د NeRF ماډل به وړاندې شي. DreamFusion به په تصادفي ډول د رنګ شوي رینډر ، بې ساختماني رینډر ، او پرته له کوم سیوري څخه د البیدو رینډر کولو ترمینځ غوره کړي.
موږ مخکې یادونه وکړه چې موږ غواړو زموږ د متن څخه عکس ماډل (انځور) د نمایندګۍ نمونې رامینځته کولو لپاره کافي عکسونه تولید کړي.
Dreamfusion دا څنګه ترسره کوي؟
ډریمفیوژن په ساده ډول د مطلوب زاویو ترلاسه کولو لپاره د ان پټ پرامپټ لږ څه بدلوي. د مثال په توګه، موږ کولی شو زموږ پرامپټ ته د "پورته لید لید" ضمیمه کولو سره د لوړ لوړوالي زاویې ترلاسه کړو. موږ کولی شو د جملو په ضمیمه کولو سره نورې زاویې رامینځته کړو لکه "مخکې لید" ، "د اړخ لید" ، او "شاته لید".
صحنې په مکرر ډول د تصادفي کیمرې موقعیتونو څخه وړاندې کیږي. دا رینډرینګ بیا د سکور د ضایع کولو فنکشن څخه تیریږي. یو ساده تدریجي نزول به ورو ورو وده وکړي د 3D ماډل تر هغه چې دا د متن لخوا بیان شوي صحنې سره سمون نه خوري.
یوځل چې موږ د 3D ماډل د NeRF په کارولو سره وړاندې کړو، موږ کولی شو وکاروو مارچینګ کیوبز الګوریتم زموږ د ماډل 3D میش تولیدولو لپاره. دا میش بیا په مشهور 3D رینډررز یا ماډلینګ سافټویر کې وارد کیدی شي.
محدودیتونه
پداسې حال کې چې د DreamFusion محصول خورا اغیزناک دی ځکه چې دا په نوي ډول د متن څخه تر عکس خپریدو ماډلونه کاروي ، څیړونکو یو څو محدودیتونه یادونه کړې.
د SDS د ضایع کولو فعالیت لیدل شوی ترڅو ډیر سیر شوي او ډیر نرم پایلې تولید کړي. تاسو کولی شئ دا په غیر طبیعي رنګ کولو او په محصولاتو کې موندل شوي دقیق توضیحاتو نشتوالي کې وګورئ.
د DreamFusion الګوریتم د امیجین ماډل محصول ریزولوشن لخوا هم محدود دی ، کوم چې 64 x 64 پکسلز دی. دا د دې لامل کیږي چې ترکیب شوي ماډلونه ښه توضیحات نلري.
په نهایت کې ، څیړونکو یادونه کړې چې د 3D ډیټا څخه د 2D ماډلونو ترکیب کولو کې اصلي ننګونه شتون لري. ډیری احتمالي 3D ماډلونه شتون لري چې موږ کولی شو د 2D عکسونو سیټ څخه تولید کړو ، کوم چې اصلاح کول خورا ستونزمن او حتی مبهم کوي.
پایله
د DreamFusion 3D رینډرینګ دومره ښه کار کوي ځکه چې د متن څخه تر عکس خپریدو ماډلونو وړتیا د کوم څیز یا صحنې رامینځته کولو لپاره. دا اغیزمنه ده چې څنګه یو عصبي شبکه کولی شي په 3D ځای کې د 3D روزنې ډیټا پرته یوه صحنه درک کړي. زه د لوستلو وړاندیز کوم ټول کاغذ د DreamFusion الګوریتم تخنیکي توضیحاتو په اړه نور معلومات ترلاسه کولو لپاره.
په امید سره، دا ټیکنالوژي به په پای کې د عکس - حقیقت لرونکي 3D ماډلونو رامینځته کولو لپاره وده وکړي. د بشپړ ویډیو لوبو یا سمولونو تصور وکړئ چې د AI تولید شوي چاپیریال کاروي. دا کولی شي د ویډیو لوبې پراختیا کونکو لپاره د ننوتلو خنډ کم کړي ترڅو عمیق 3D نړۍ رامینځته کړي!
تاسو څه فکر کوئ د متن څخه تر 3D ماډلونه به په راتلونکي کې ولوبوي؟
یو ځواب ورکړئ ووځي