Dir hutt vläicht héieren iwwer wéi mächteg Text-zu-Bild AI Modeller an de leschte Joren ginn. Awer wousst Dir datt déiselwecht Technologie hëllefe kéint de Sprong vun 2D op 3D maachen?
AI-generéiert 3D Modeller hunn e breet Benotzungsfall an der digitaler Landschaft vun haut. Video Spiller a Film vertrauen op qualifizéiert 3D Kënschtler a Modellersoftware wéi Blender fir 3D Verméigen ze kreéieren fir Computer-generéiert Szenen ze populéieren.
Wéi och ëmmer, ass et méiglech datt d'Industrie Maschinnléiere benotze kéint fir 3D Verméigen mat manner Effort ze kreéieren, ähnlech wéi 2D Kënschtler haut ufänken Technologie ze adoptéieren wéi DALL-E an midjourney?
Dësen Artikel wäert e Roman Algorithmus entdecken, dee probéiert en effektiven Text-zu-3D Modell mat existéierenden ze kreéieren Diffusioun Modeller.
Wat ass Dreamfusion?
E grousse Problem mat der Schafung vun engem Diffusiounsmodell deen direkt 3D Verméigen generéiert ass datt et einfach net vill 3D Daten verfügbar ass. 2D Diffusiounsmodeller si sou mächteg ginn wéinst dem grousse Dataset vu Biller déi um Internet fonnt goufen. Datselwecht kann net mat 3D Verméigen gesot ginn.
E puer 3D generativ Technike schaffen ëm dëse Manktem un Daten andeems se vun dësem Heefegkeet vun 2D Daten profitéieren.
DreamFusion ass e generativen Modell deen 3D Modeller ka kreéieren op Basis vun enger geliwwerter Textbeschreiwung. Den DreamFusion Modell benotzt e pre-trainéierten Text-zu-Bild-Diffusiounsmodell fir realistesch dreidimensional Modeller aus Textprompts ze generéieren.
Trotz keng 3D Trainingsdaten huet dës Approche kohärent 3D Verméigen mat High-Fidelity Erscheinung an Déift generéiert.
Wéi Huet Et Aarbecht?
Den DreamFusion Algorithmus besteet aus zwee Haaptmodeller: en 2D Diffusiounsmodell an e neural Netz déi 2D Biller an eng kohäsiv 3D Szen konvertéieren.
Google's Imagen Text-to-Image Model
Den éischten Deel vum Algorithmus ass den Diffusiounsmodell. Dëse Modell ass verantwortlech fir Text a Biller ze konvertéieren.
Imagen ass en Diffusiounsmodell deen eng grouss Probe vu Bildvariatioune vun engem bestëmmten Objet generéiere kann. An dësem Fall sollten eis Bildvariatioune all méiglech Wénkel vum geliwwertem Objet ofdecken. Zum Beispill, wa mir en 3D Modell vun engem Päerd wollten generéieren, wëlle mir 2D Biller vum Päerd aus all méigleche Winkelen. D'Zil ass Imagen ze benotzen fir sou vill Informatioun wéi méiglech (Faarwen, Reflexiounen, Dicht) fir den nächste Modell an eisem Algorithmus ze liwweren.
Schafen 3D Modeller mat NeRF
Als nächst benotzt Dreamfusion e Modell bekannt als a Neural Stralungsfeld oder NeRF fir tatsächlech den 3D Modell aus dem generéierte Bildset ze kreéieren. NeRFs si fäeg komplex 3D Szenen ze kreéieren mat engem Dataset vun 2D Biller.
Loosst eis probéieren ze verstoen wéi en NeRF funktionnéiert.
De Modell zielt fir eng kontinuéierlech volumetresch Szenfunktioun ze kreéieren déi aus dem geliwwertem Dataset vun 2D Biller optiméiert ass.
Wann de Modell eng Funktioun erstellt, wat sinn d'Input an d'Ausgab?
D'Szenfunktioun hëlt eng 3D Location an eng 2D Gesiichtsrichtung als Input. D'Funktioun gëtt dann eng Faarf aus (a Form vu RGB) an eng spezifesch Volumendicht.
Fir en 2D Bild aus engem spezifesche Standpunkt ze generéieren, generéiert de Modell eng Rei vun 3D Punkten an laaft dës Punkten duerch d'Szenfunktioun fir e Set vu Faarf- a Volumendichte Wäerter zréckzekommen. Volume Rendering Techniken konvertéieren dann dës Wäerter an en 2D Bildoutput.
Benotzt NeRF an 2D Diffusiounsmodeller zesummen
Elo wou mir wësse wéi en NeRF funktionnéiert, loosst eis kucken wéi dëse Modell korrekt 3D Modeller aus eise generéierte Biller generéiere kann.
Fir all geliwwert Textprompt trainéiert DreamFusion eng zoufälleg initialiséiert NeRF vun Null. All Iteratioun wielt eng zoufälleg Kamerapositioun an enger Rei vu kugelfërmeg Koordinaten. Denkt un de Modell, deen an enger Glaskugel agepaakt ass. All Kéier wann mir en neit Bild vun eisem 3D Modell generéieren, wäerte mir en zoufälleg Punkt an eiser Sphär als Aussichtspunkt vun eisem Output wielen. DreamFusion wäert och eng zoufälleg Liichtjoer Positioun wielen l fir Rendering ze benotzen.
Wann mir eng Kamera a Liicht Positioun hunn, gëtt e NeRF Modell rendered. DreamFusion wäert och zoufälleg wielen tëscht engem faarwege Rendering, engem Texturlosen Rendering, an engem Rendering vum Albedo ouni Schied.
Mir hu virdru gesot datt mir wëllen datt eisen Text-zu-Bild Modell (Imagen) genuch Biller produzéieren fir eng representativ Probe ze kreéieren.
Wéi mécht Dreamfusion dëst?
Dreamfusion ännert einfach d'Input Prompt liicht fir déi virgesinn Wénkel z'erreechen. Zum Beispill kënne mir héich Héichtwinkelen erreechen andeems mir "Overhead View" un eis Prompt addéieren. Mir kënnen aner Wénkel generéieren andeems mir Sätze wéi "virun Vue", "Säit Vue" an "zréck Vue" bäifügen.
Szene ginn ëmmer erëm vun zoufälleger Kamerapositioune rendered. Dës renderings dann duerch eng Partitur distillation Verloscht Funktioun. Eng einfach Gradient Ofstamung Approche wäert lues verbesseren der 3D Modell bis et mat der Zeen vum Text beschriwwe gëtt.
Wann mir den 3D Modell mat NeRF gemaach hunn, kënne mir d' Marching Cubes Algorithmus fir en 3D Mesh vun eisem Modell auszeginn. Dëse Mesh kann dann a populär 3D Renderer oder Modelléierungssoftware importéiert ginn.
Beschränkungen
Wärend dem DreamFusion säin Output beandrockend genuch ass well se existent Text-zu-Bild Diffusiounsmodeller op eng nei Manéier benotzt, hunn d'Fuerscher e puer Aschränkungen bemierkt.
D'SDS Verloscht Funktioun gouf observéiert fir iwwersaturéiert an iwwerglat Resultater ze produzéieren. Dir kënnt dat beobachten an der onnatierlecher Faarf an dem Mangel u präzisen Detailer, déi an den Ausgänge fonnt ginn.
Den DreamFusion Algorithmus ass och limitéiert duerch d'Resolutioun vum Imagen Modellausgang, deen 64 x 64 Pixel ass. Dëst féiert zu de synthetiséierte Modeller déi méi fein Detailer feelen.
Schlussendlech hunn d'Fuerscher bemierkt datt et eng inherent Erausfuerderung ass fir 3D Modeller aus 2D Daten ze synthetiséieren. Et gi vill méiglech 3D Modeller, déi mir aus enger Rei vun 2D Biller generéiere kënnen, wat d'Optimisatioun zimmlech schwéier a souguer zweedeiteg mécht.
Konklusioun
DreamFusion's 3D Rendering funktionnéieren sou gutt wéinst der Fäegkeet vun Text-zu-Bild Diffusiounsmodeller fir all Objet oder Szen ze kreéieren. Et ass beandrockend wéi en neuralt Netzwierk eng Szen am 3D Raum kann verstoen ouni 3D Trainingsdaten. Ech recommandéieren liesen der ganze Pabeier fir méi iwwer d'technesch Detailer vum DreamFusion Algorithmus ze léieren.
Hoffentlech wäert dës Technologie sech verbesseren fir eventuell fotorealistesch 3D Modeller ze kreéieren. Stellt Iech ganz Videospiller oder Simulatioune vir, déi AI-generéiert Ëmfeld benotzen. Et kéint d'Barriär vun der Entrée fir Videospillentwéckler erofsetzen fir immersiv 3D Welten ze kreéieren!
Wéi eng Roll mengt Dir, Text-zu-3D Modeller wäerten an Zukunft spillen?
Hannerlooss eng Äntwert