Dibe ku we bihîstibe ka modelên AI-ya nivîs-bi-wêne di van çend salên borî de çiqas bi hêz bûne. Lê we dizanibû ku heman teknolojî dikare bibe alîkar ku ji 2D berbi 3D vegere?
Modelên 3D-ya ku ji hêla AI-ê ve hatî hilberandin di perestgeha dîjîtal a îroyîn de xwedî dozek karanîna berfireh in. games Video û fîlim xwe dispêre hunermendên jêhatî yên 3D û nermalava modelkirinê yên wekî Blender da ku malikên 3D biafirîne da ku dîmenên ku ji hêla komputerê ve hatî çêkirin bicivîne.
Lêbelê, gelo mimkun e ku pîşesazî bikaribe fêrbûna makîneyê bikar bîne da ku bi hewildanek kêm malikên 3D biafirîne, mîna ku hunermendên 2D îro dest bi pejirandina teknolojiyên wekî DALL-E û midjourney?
Ev gotar dê algorîtmayek nû vekole ku hewl dide ku bi karanîna heyî modelek nivîs-to-3D-ê bi bandor biafirîne modelên belavbûnê.
Çi ye Dreamfusion?
Pirsgirêkek girîng a afirandina modelek belavbûnê ya ku rasterast malzemeyên 3D diafirîne ev e ku bi tenê gelek daneyên 3D-ê peyda nabin. Modelên belavkirina 2D ji ber daneyên berfireh ên wêneyên ku li ser înternetê têne dîtin ewqas bi hêz bûne. Heman tişt bi hebûnên 3D re nayê gotin.
Hin teknîkên hilberîner ên 3D bi sûdwergirtina ji vê pirbûna daneya 2D li dora vê kêmbûna daneyê dixebitin.
DreamFusion modelek çêker e ku dikare modelên 3D li ser bingeha ravekek nivîsê ya peydakirî biafirîne. Modela DreamFusion modelek belavkirina nivîs-bi-wêne ya pêş-perwerdekirî bikar tîne da ku modelên sê-alî yên realîst ji pêşniyarên nivîsê biafirîne.
Tevî ku tu daneyên perwerdehiya 3D tune, ev nêzîkatî hebûnên 3D-ya hevgirtî yên bi xuyang û kûrahiya pêbaweriya bilind hilberandiye.
Çawa dixebite?
Algorîtmaya DreamFusion ji du modelên sereke pêk tê: modela belavkirina 2D û torê neural ku dikare wêneyên 2D veguherîne dîmenek 3D ya hevgirtî.
Modela Nivîsar-bi-Wêne ya Wêne ya Google
Beşa yekem a algorîtmê modela belavbûnê ye. Ev model ji bo veguhertina nivîsê bo wêneyan berpirsiyar e.
Imagen modelek belavbûnê ye ku dikare nimûneyek mezin a guhertoyên wêneya tiştek taybetî çêbike. Di vê rewşê de, guhertoyên wêneya me divê hemî qonaxên gengaz ên tiştê peydakirî veşêrin. Mînakî, heke me bixwesta ku modelek 3D ya hespê çêbikin, em ê wêneyên 2D yên hespê ji hemî aliyên gengaz bixwazin. Armanc ev e ku em Imagen bikar bînin da ku ji bo modela paşîn a di algorîtmaya me de bi qasî ku gengaz agahdarî peyda bike (reng, refleks, dendikê).
Afirandina Modelên 3D bi NeRF
Piştre, Dreamfusion modelek ku wekî a tê zanîn bikar tîne Qada Ragihana Neuralî an jî NeRF ku bi rastî modela 3D ji berhevoka wêneya hatî çêkirin biafirîne. NeRF dikarin dîmenên tevlihev ên 3D biafirînin ku danehevek ji wêneyên 2D têne dayîn.
Ka em hewl bidin ku fêm bikin ka NeRF çawa dixebite.
Armanca vê modelê ew e ku fonksiyonek dîmenê ya domdar a domdar a ku ji databasa peydakirî ya wêneyên 2D hatî xweşbînkirî biafirîne.
Ger model fonksiyonek biafirîne, ketin û derketin çi ne?
Fonksiyona dîmenê li cîhek 3D û rêgezek dîtina 2D wekî têketinê digire. Dûv re fonksiyon rengek (di forma RGB de) û dendika dengek taybetî derdixe.
Ji bo afirandina wêneyek 2D ji nêrînek taybetî, model dê komek xalên 3D biafirîne û wan xalan di nav fonksiyona dîmenê de bimeşîne da ku komek reng û nirxên dendika qelbê vegerîne. Dûv re teknîkên danasîna volmê dê wan nirxan veguhezîne hilberek wêneyek 2D.
Bi hev re Modelên Difuzyonê yên NeRF û 2D bikar bînin
Naha ku em dizanin NeRF çawa dixebite, em bibînin ka ev model çawa dikare modelên 3D yên rastîn ji wêneyên me yên çêkirî çêbike.
Ji bo her bilezek nivîsê ya peydakirî, DreamFusion NeRF-ya ku bi rasthatinî hatî destpêkirin ji nû ve perwerde dike. Her dubarekirin di komek koordînatên spherîkî de cîhek kamerayek rasthatî hildibijêre. Li modela ku di qalikek cam de hatî dorpêç kirin bifikirin. Her gava ku em wêneyek nû ya modela xweya 3D diafirînin, em ê di qada xwe de nuqteyek rasthatî wekî xala hilberana xwe hilbijêrin. DreamFusion dê di heman demê de pozîsyonek ronahiyê ya rasthatî hilbijêrin l ji bo renderkirinê bikar bînin.
Dema ku me cîhek kamera û ronahiyê hebe, dê modelek NeRF were pêşkêş kirin. DreamFusion di heman demê de dê bi rasthatinî di navbera rengdêrek rengîn, renderek bê tevnvîs, û vesazkirina albedoyê bêyî şidandinê de hilbijêre.
Me berê behs kir ku em dixwazin modela meya nivîs-bi-image (Imagen) têra wêneyan çêbike da ku nimûneyek temsîlî biafirîne.
Dreamfusion çawa vê yekê pêk tîne?
Dreamfusion bi tenê bileziya têketinê hinekî diguhezîne da ku bigihîje qonaxên armanckirî. Mînakî, em dikarin bi pêvekirina "nîşana jorîn" li ser bileziya xwe bigihîjin goşeyên bilindbûnê. Em dikarin bi pêvekirina hevokan ên wekî "dîtina pêş", "dîtina alî", û "dîtina paşîn" hêlên din biafirînin.
Dîmen gelek caran ji pozîsyonên kameraya rasthatî têne pêşkêş kirin. Dûv re van vegotinan di fonksiyonek windakirina distilasyonê de derbas dibin. Nêzîkatiyek dakêşana gradientê ya hêsan dê hêdî hêdî çêtir bike Modelê 3D heta ku ew dîmena ku ji hêla nivîsê ve hatî diyar kirin li hev bike.
Dema ku me modela 3D bi karanîna NeRF renderand, em dikarin wê bikar bînin Algorîtmaya Kubên Meşê ji bo derxistina tevnek 3D ya modela me. Dûv re ev tevn dikare di nav rendererên 3D-ya populer an nermalava modelkirinê de were şandin.
tengasîyên
Dema ku derketina DreamFusion têra xwe bandorker e ji ber ku ew modelên belavbûna nivîs-bi-wêne heyî bi rengek nû bikar tîne, lêkolîneran çend sînoran destnîşan kirine.
Fonksiyona windabûna SDS-ê hate dîtin ku encamên pir têrbûyî û zêde-hêmkirî çêdike. Hûn dikarin vê yekê di rengdêra nexwezayî û nebûna hûrguliyên rastîn ên ku di encam de têne dîtin de temaşe bikin.
Algorîtmaya DreamFusion di heman demê de ji hêla çareseriya hilberîna modela Imagen ve, ku 64 x 64 pixel e, sînorkirî ye. Ev dibe sedem ku modelên sentezkirî hûrguliyên hûrgulî nebin.
Di dawiyê de, lêkolîneran destnîşan kirin ku di sentezkirina modelên 3D ji daneyên 2D de dijwariyek xwerû heye. Gelek modelên 3D yên gengaz hene ku em dikarin ji komek wêneyên 2D biafirînin, ku xweşbîniyê pir dijwar û tewra nezelal dike.
Xelasî
Ji ber şiyana modelên belavbûna nivîs-ber-image ku ji bo afirandina her tişt an dîmenek çêdikin, vegotinên 3D yên DreamFusion pir baş dixebitin. Balkêş e ku çawa torgilokek neuralî dikare dîmenek di cîhê 3D de bêyî daneyên perwerdehiya 3D fam bike. Ez xwendinê pêşniyar dikim tevahiya kaxez ji bo bêtir fêrbûna hûrguliyên teknîkî yên algorîtmaya DreamFusion.
Hêvîdarim, ev teknolojî dê baştir bibe da ku di dawiyê de modelên 3D-ya wêne-realîst biafirîne. Tevahiya lîstikên vîdyoyê an simulasyonên ku hawîrdorên çêkirî yên AI-ê bikar tînin bifikirin. Ew dikare astengiya têketinê ji bo pêşdebirên lîstika vîdyoyê kêm bike da ku cîhanên 3D-ya berbiçav biafirînin!
Ma hûn difikirin ku modelên text-to-3D dê di pêşerojê de çi rola bilîzin?
Leave a Reply