Ju mund të keni dëgjuar se sa të fuqishëm janë bërë modelet e AI nga tekst në imazh gjatë dy viteve të fundit. Por a e dini se e njëjta teknologji mund të ndihmojë në kapërcimin nga 2D në 3D?
Modelet 3D të gjeneruara nga AI kanë një përdorim të gjerë në peizazhin dixhital të sotëm. Video lojërat dhe filmi mbështetet në artistë të aftë 3D dhe softuer modelues si Blender për të krijuar asete 3D për të populluar skenat e krijuara nga kompjuteri.
Megjithatë, a është e mundur që industria të mund të përdorë mësimin e makinerive për të krijuar asete 3D me më pak përpjekje, ngjashëm me atë se si artistët 2D sot kanë filluar të adoptojnë teknologji të tilla si DALL-E dhe Mesi i udhëtimit?
Ky artikull do të eksplorojë një algoritëm të ri që përpiqet të krijojë një model efektiv tekst-në-3D duke përdorur ekzistuesin modelet e difuzionit.
Çfarë është Dreamfusion?
Një çështje kryesore me krijimin e një modeli difuzioni që gjeneron drejtpërdrejt asete 3D është se thjesht nuk ka shumë të dhëna 3D në dispozicion. Modelet e difuzionit 2D janë bërë kaq të fuqishme për shkak të grupit të gjerë të të dhënave të imazheve që gjenden në internet. Nuk mund të thuhet e njëjta gjë me asetet 3D.
Disa teknika gjeneruese 3D punojnë rreth kësaj mungese të të dhënave duke përfituar nga ky bollëk i të dhënave 2D.
DreamFusion është një model gjenerues që mund të krijojë modele 3D bazuar në një përshkrim teksti të dhënë. Modeli DreamFusion përdor një model të trajnuar paraprakisht të difuzionit tekst-në-imazh për të gjeneruar modele realiste tre-dimensionale nga kërkesat e tekstit.
Pavarësisht se nuk ka të dhëna trajnimi 3D, kjo qasje ka krijuar asete koherente 3D me pamje dhe thellësi me besnikëri të lartë.
Si funksionon kjo gjë?
Algoritmi DreamFusion përbëhet nga dy modele kryesore: një model difuzioni 2D dhe një Rrjeti nervoz që mund të konvertojë imazhet 2D në një skenë kohezive 3D.
Modeli i tekstit në imazh i imazhit të Google
Pjesa e parë e algoritmit është modeli i difuzionit. Ky model është përgjegjës për konvertimin e tekstit në imazh.
Imazh është një model difuzioni që mund të gjenerojë një mostër të madhe të variacioneve të imazhit të një objekti të caktuar. Në këtë rast, variacionet tona të imazhit duhet të mbulojnë të gjitha këndet e mundshme të objektit të ofruar. Për shembull, nëse do të donim të krijonim një model 3D të një kali, do të dëshironim imazhe 2D të kalit nga të gjitha këndet e mundshme. Qëllimi është të përdorim Imagen për të ofruar sa më shumë informacion (ngjyra, reflektime, dendësi) për modelin e ardhshëm në algoritmin tonë.
Krijimi i modeleve 3D me NeRF
Më pas, Dreamfusion përdor një model të njohur si a Fusha e rrezatimit nervor ose NeRF për të krijuar në fakt modelin 3D nga grupi i imazheve të krijuara. NeRF-të janë në gjendje të krijojnë skena komplekse 3D duke pasur parasysh një grup të dhënash me imazhe 2D.
Le të përpiqemi të kuptojmë se si funksionon një NeRF.
Modeli synon të krijojë një funksion të vazhdueshëm vëllimor të skenës, të optimizuar nga grupi i të dhënave të ofruara të imazheve 2D.
Nëse modeli krijon një funksion, cilat janë hyrjet dhe daljet?
Funksioni i skenës merr në një vendndodhje 3D dhe një drejtim shikimi 2D si hyrje. Funksioni më pas nxjerr një ngjyrë (në formën e RGB) dhe një densitet specifik vëllimi.
Për të gjeneruar një imazh 2D nga një këndvështrim specifik, modeli do të gjenerojë një grup pikash 3D dhe do t'i kalojë ato pika përmes funksionit të skenës për të kthyer një grup vlerash të densitetit të ngjyrës dhe vëllimit. Teknikat e paraqitjes së vëllimit më pas do t'i konvertojnë ato vlera në një dalje imazhi 2D.
Përdorimi i modeleve të difuzionit NeRF dhe 2D së bashku
Tani që e dimë se si funksionon një NeRF, le të shohim se si ky model mund të gjenerojë modele të sakta 3D nga imazhet tona të krijuara.
Për çdo kërkesë teksti të dhënë, DreamFusion trajnon një NeRF të inicializuar rastësisht nga e para. Çdo përsëritje zgjedh një pozicion të rastësishëm të kamerës në një grup koordinatash sferike. Mendoni për modelin e mbështjellë në një sferë xhami. Sa herë që krijojmë një imazh të ri të modelit tonë 3D, ne do të zgjedhim një pikë të rastësishme në sferën tonë si pikën e favorshme të prodhimit tonë. DreamFusion do të zgjedhë gjithashtu një pozicion të rastësishëm të dritës l për t'u përdorur për renderim.
Pasi të kemi një pozicion të kamerës dhe dritës, do të jepet një model NeRF. DreamFusion gjithashtu do të zgjedhë rastësisht midis një renderi me ngjyra, një renderi pa teksturë dhe një interpretimi të albedos pa asnjë hije.
Ne kemi përmendur më herët se ne duam që modeli ynë tekst-në-imazh (Imagen) të prodhojë imazhe të mjaftueshme për të krijuar një mostër përfaqësuese.
Si e arrin Dreamfusion këtë?
Dreamfusion thjesht modifikon pak kërkesën e hyrjes për të arritur këndet e synuara. Për shembull, ne mund të arrijmë kënde të larta të lartësisë duke shtuar "pamje nga lart" në kërkesën tonë. Ne mund të gjenerojmë kënde të tjera duke shtuar fraza të tilla si "pamja e përparme", "pamja anësore" dhe "pamja e pasme".
Skenat paraqiten në mënyrë të përsëritur nga pozicione të rastësishme të kamerës. Këto paraqitje kalojnë më pas përmes një funksioni të humbjes së distilimit të pikëve. Një qasje e thjeshtë e zbritjes me gradient do të përmirësojë ngadalë Modeli 3D derisa të përputhet me skenën e përshkruar nga teksti.
Pasi të kemi dhënë modelin 3D duke përdorur NeRF, ne mund të përdorim Algoritmi i Kubeve të Marshimit për të nxjerrë një rrjetë 3D të modelit tonë. Kjo rrjetë më pas mund të importohet në renderues të njohur 3D ose në programet e modelimit.
Kufizimet
Ndërsa rezultati i DreamFusion është mjaft mbresëlënës pasi përdor modelet ekzistuese të difuzionit tekst-në-imazh në një mënyrë të re, studiuesit kanë vërejtur disa kufizime.
Funksioni i humbjes së SDS-së është vërejtur se prodhon rezultate të tepërta dhe të zbutura. Ju mund ta vëzhgoni këtë në ngjyrosjen e panatyrshme dhe mungesën e detajeve të sakta që gjenden në dalje.
Algoritmi DreamFusion është gjithashtu i kufizuar nga rezolucioni i daljes së modelit Imagen, i cili është 64 x 64 piksele. Kjo bën që modeleve të sintetizuara të mungojnë detaje më të imta.
Së fundmi, studiuesit kanë vërejtur se ekziston një sfidë e natyrshme në sintetizimin e modeleve 3D nga të dhënat 2D. Ka shumë modele të mundshme 3D që mund të gjenerojmë nga një grup imazhesh 2D, gjë që e bën optimizimin mjaft të vështirë dhe madje të paqartë.
Përfundim
Renderimet 3D të DreamFusion funksionojnë aq mirë për shkak të aftësisë së modeleve të përhapjes tekst-në-imazh për të krijuar çdo objekt ose skenë. Është mbresëlënëse se si një rrjet nervor mund të kuptojë një skenë në hapësirën 3D pa asnjë të dhënë trajnimi 3D. Unë rekomandoj të lexoni letër e tërë për të mësuar më shumë rreth detajeve teknike të algoritmit DreamFusion.
Shpresojmë se kjo teknologji do të përmirësohet për të krijuar përfundimisht modele 3D foto-realiste. Imagjinoni të tëra videolojëra ose simulime që përdorin mjedise të krijuara nga AI. Mund të ulë pengesën e hyrjes për zhvilluesit e lojërave video për të krijuar botë zhytëse 3D!
Çfarë roli mendoni se do të luajnë në të ardhmen modelet tekst-në-3D?
Lini një Përgjigju