Forsi smajt dwar kemm il-mudelli tal-AI minn test għal immaġini saru b'saħħithom fl-aħħar ftit snin. Imma kont taf li l-istess teknoloġija tista 'tgħin biex tagħmel il-qabża minn 2D għal 3D?
Mudelli 3D iġġenerati mill-AI għandhom każ ta’ użu wiesa’ fil-pajsaġġ diġitali tal-lum. Logħob Video u l-film jiddependu fuq artisti 3D tas-sengħa u softwer tal-immudellar bħal Blender biex joħolqu assi 3D biex jimla xeni ġġenerati mill-kompjuter.
Madankollu, huwa possibbli li l-industrija tista' tuża t-tagħlim tal-magni biex toħloq assi 3D b'inqas sforz, simili għal kif l-artisti 2D illum qed jibdew jadottaw teknoloġija bħal DALL-E u Nofs il-vjaġġ?
Dan l-artikolu se jesplora algoritmu ġdid li jipprova joħloq mudell effettiv minn test għal 3D bl-użu eżistenti mudelli tad-diffużjoni.
X'inhu Dreamfusion?
Kwistjoni ewlenija bil-ħolqien ta 'mudell ta' diffużjoni li jiġġenera assi 3D direttament hija li sempliċement m'hemmx ħafna dejta 3D disponibbli. Mudelli ta 'diffużjoni 2D saru tant qawwija minħabba s-sett ta' dejta vast ta 'immaġini misjuba fuq l-internet. L-istess ma jistax jingħad bl-assi 3D.
Xi tekniki ġenerattivi 3D jaħdmu madwar dan in-nuqqas ta 'dejta billi jieħdu vantaġġ minn din l-abbundanza ta' dejta 2D.
DreamFusion huwa mudell ġenerattiv li jista 'joħloq mudelli 3D ibbażati fuq deskrizzjoni ta' test ipprovduta. Il-mudell DreamFusion juża mudell ta 'diffużjoni minn test għal immaġini mħarreġ minn qabel biex jiġġenera mudelli tridimensjonali realistiċi minn prompts tat-test.
Minkejja li m'għandu l-ebda data ta 'taħriġ 3D, dan l-approċċ iġġenera assi 3D koerenti b'dehra u fond ta' fedeltà għolja.
Kif taħdem?
L-algoritmu DreamFusion jikkonsisti f'żewġ mudelli ewlenin: mudell ta 'diffużjoni 2D u a newrali netwerk li jistgħu jikkonvertu immaġini 2D f'xena 3D koeżiva.
Mudell ta' Google Text-to-Image
L-ewwel parti tal-algoritmu hija l-mudell tad-diffużjoni. Dan il-mudell huwa responsabbli għall-konverżjoni tat-test għal immaġini.
Image huwa mudell ta 'diffużjoni li jista' jiġġenera kampjun kbir ta 'varjazzjonijiet ta' immaġni ta 'oġġett partikolari. F'dan il-każ, il-varjazzjonijiet tal-immaġni tagħna għandhom ikopru l-angoli kollha possibbli tal-oġġett ipprovdut. Pereżempju, jekk ridna niġġeneraw mudell 3D ta 'żiemel, inkunu rridu immaġini 2D taż-żiemel mill-angoli kollha possibbli. L-għan huwa li tuża Imagen biex tipprovdi kemm jista' jkun informazzjoni (kuluri, riflessjonijiet, densità) għall-mudell li jmiss fl-algoritmu tagħna.
Noħolqu Mudelli 3D b'NeRF
Sussegwentement, Dreamfusion juża mudell magħruf bħala a Qasam ta' Radjanza Newrali jew NeRF biex fil-fatt toħloq il-mudell 3D mis-sett tal-immaġni ġenerat. NeRFs huma kapaċi joħolqu xeni 3D kumplessi minħabba dataset ta 'immaġini 2D.
Ejja nippruvaw nifhmu kif jaħdem NeRF.
Il-mudell għandu l-għan li joħloq funzjoni ta 'xena volumetrika kontinwa ottimizzata mis-sett tad-dejta pprovdut ta' immaġini 2D.
Jekk il-mudell joħloq funzjoni, x'inhuma l-input u l-output?
Il-funzjoni tax-xena tieħu post 3D u direzzjoni tal-vista 2D bħala input. Il-funzjoni mbagħad toħroġ kulur (fil-forma ta 'RGB) u densità ta' volum speċifiku.
Biex tiġġenera immaġni 2D minn perspettiva speċifika, il-mudell se jiġġenera sett ta 'punti 3D u jmexxi dawk il-punti permezz tal-funzjoni tax-xena biex jirritorna sett ta' valuri ta 'densità ta' kulur u volum. It-tekniki tal-għoti tal-volum imbagħad se jikkonvertu dawk il-valuri fi output ta 'immaġni 2D.
Bl-użu ta' Mudelli ta' Diffużjoni NeRF u 2D Flimkien
Issa li nafu kif jaħdem NeRF, ejja naraw kif dan il-mudell jista 'jiġġenera mudelli 3D preċiżi mill-immaġini ġġenerati tagħna.
Għal kull test ipprovdut fil-pront, DreamFusion tħarreġ NeRF inizjalizzat b'mod każwali mill-bidu. Kull iterazzjoni tagħżel pożizzjoni każwali tal-kamera f'sett ta' koordinati sferiċi. Aħseb fil-mudell magħluq fi sfera tal-ħġieġ. Kull darba li niġġeneraw immaġni ġdida tal-mudell 3D tagħna, aħna ser nagħżlu punt każwali fl-isfera tagħna bħala l-punt ta 'vantaġġ tal-output tagħna. DreamFusion se tagħżel ukoll pożizzjoni tad-dawl bl-addoċċ l għall-użu għall-għoti.
Ladarba jkollna kamera u pożizzjoni tad-dawl, se jingħata mudell NeRF. DreamFusion se jagħżel ukoll b'mod każwali bejn render ikkulurit, render mingħajr tessut, u rendering tal-albedo mingħajr ebda dell.
Semmejna qabel li rridu li l-mudell tagħna minn test għal immaġni (Imagen) jipproduċi biżżejjed immaġini biex joħloq kampjun rappreżentattiv.
Dreamfusion kif twettaq dan?
Dreamfusion sempliċement timmodifika l-input fil-pront ftit biex tikseb l-angoli maħsuba. Pereżempju, nistgħu niksbu angoli ta 'elevazzjoni għolja billi ndaħħlu "dehra minn fuq" mal-pront tagħna. Nistgħu niġġeneraw angoli oħra billi ndaħħlu frażijiet bħal "dehra ta' quddiem", "dehra tal-ġenb", u "dehra ta' wara".
Ix-xeni jingħataw ripetutament minn pożizzjonijiet każwali tal-kamera. Dawn ir-rendimenti mbagħad jgħaddu minn funzjoni ta 'telf ta' distillazzjoni ta 'punteġġ. Approċċ sempliċi inżul gradjent se jtejjeb bil-mod il- Il-mudell 3D sakemm taqbel max-xena deskritta mit-test.
Ladarba nkunu tajna l-mudell 3D bl-użu ta 'NeRF, nistgħu nużaw il- Algoritmu tal-Marching Cubes biex toħroġ malji 3D tal-mudell tagħna. Din il-malja tista 'mbagħad tiġi importata f'renderers 3D popolari jew softwer tal-immudellar.
Limitazzjonijiet
Filwaqt li l-output ta 'DreamFusion huwa impressjonanti biżżejjed peress li juża mudelli eżistenti ta' diffużjoni minn test għal immaġni b'mod ġdid, ir-riċerkaturi nnutaw ftit limitazzjonijiet.
Il-funzjoni ta 'telf ta' SDS ġiet osservata li tipproduċi riżultati saturati żżejjed u żżejjed lixxa. Tista 'tosserva dan fil-kulur mhux naturali u n-nuqqas ta' dettall preċiż misjuba fl-outputs.
L-algoritmu DreamFusion huwa wkoll limitat mir-riżoluzzjoni tal-output tal-mudell Imagen, li huwa 64 x 64 pixels. Dan iwassal biex il-mudelli sintetizzati nieqsa minn dettalji ifjen.
Fl-aħħar nett, ir-riċerkaturi nnutaw li hemm sfida inerenti fis-sintetizzazzjoni ta 'mudelli 3D minn data 2D. Hemm ħafna mudelli 3D possibbli li nistgħu niġġeneraw minn sett ta 'immaġini 2D, li jagħmel l-ottimizzazzjoni pjuttost diffiċli u saħansitra ambigwa.
konklużjoni
Ir-rendizzjonijiet 3D ta 'DreamFusion jaħdmu tant tajjeb minħabba l-abbiltà ta' mudelli ta 'diffużjoni minn test għal immaġni li joħolqu kwalunkwe oġġett jew xena. Huwa impressjonanti kif netwerk newrali jista 'jifhem xena fl-ispazju 3D mingħajr ebda data ta' taħriġ 3D. Nirrakkomanda li taqra l- karta kollha biex titgħallem aktar dwar id-dettalji tekniċi tal-algoritmu DreamFusion.
Nisperaw, din it-teknoloġija se titjieb biex eventwalment toħloq mudelli 3D fotorealistiċi. Immaġina logħob tal-kompjuter jew simulazzjonijiet sħaħ li jużaw ambjenti ġġenerati mill-AI. Jista' jbaxxi l-barriera tad-dħul għall-iżviluppaturi tal-logħob tal-kompjuter biex joħolqu dinjiet 3D immersivi!
X'rwol taħseb li se jkollhom mudelli text-to-3D fil-futur?
Ħalli Irrispondi