Ou gendwa tande pale de ki jan pwisan modèl AI tèks-a-imaj yo te vin tounen nan de ane ki sot pase yo. Men, èske w te konnen ke menm teknoloji a te kapab ede fè kwasans lan soti nan 2D nan 3D?
Modèl 3D AI-pwodwi gen yon ka itilize laj nan peyizaj dijital jodi a. Jwèt Videyo ak fim konte sou atis 3D kalifye ak lojisyèl modèl tankou Blender pou kreye byen 3D pou peple sèn òdinatè.
Sepandan, èske li posib ke endistri a ta ka itilize aprantisaj machin pou kreye byen 3D ak mwens efò, menm jan ak fason atis 2D jodi a ap kòmanse adopte teknoloji tankou DALL-E ak Midwaye?
Atik sa a pral eksplore yon algorithm roman ki eseye kreye yon modèl efikas tèks-a-3D lè l sèvi avèk ki egziste deja modèl difizyon.
Ki sa ki Dreamfusion?
Yon gwo pwoblèm ak kreye yon modèl difizyon ki jenere byen 3D dirèkteman se ke pa gen tou senpleman yon anpil nan done 3D ki disponib. Modèl difizyon 2D yo te vin tèlman pwisan paske nan seri done a vas nan imaj yo te jwenn sou entènèt la. Menm bagay la tou pa ka di ak byen 3D.
Gen kèk teknik jeneratif 3D k ap travay sou mank done sa a lè yo pran avantaj de abondans done 2D sa a.
DreamFusion se yon modèl jeneratif ki ka kreye modèl 3D ki baze sou yon deskripsyon tèks yo bay. Modèl DreamFusion la sèvi ak yon modèl difizyon tèks-a-imaj ki deja antrene pou jenere modèl reyalis ki genyen twa dimansyon nan envit tèks.
Malgre pa gen okenn done fòmasyon 3D, apwòch sa a te pwodwi byen 3D aderan ak aparans segondè-fidelite ak pwofondè.
Kouman Li Fonksyone?
Algorithm DreamFusion la konsiste de de modèl prensipal: yon modèl difizyon 2D ak yon nè rezo ki ka konvèti imaj 2D nan yon sèn 3D limenm.
Modèl Tèks-a-Imaj Google la
Premye pati algorithm la se modèl difizyon an. Modèl sa a responsab pou konvèti tèks an imaj.
Imaj se yon modèl difizyon ki ka jenere yon gwo echantiyon varyasyon imaj yon objè patikilye. Nan ka sa a, varyasyon imaj nou yo ta dwe kouvri tout ang posib objè yo bay la. Pou egzanp, si nou te vle jenere yon modèl 3D nan yon chwal, nou ta vle imaj 2D nan chwal la nan tout ang posib. Objektif la se sèvi ak Imagen pou bay plis enfòmasyon posib (koulè, refleksyon, dansite) pou pwochen modèl la nan algorithm nou an.
Kreye modèl 3D ak NeRF
Apre sa, Dreamfusion sèvi ak yon modèl ke yo rekonèt kòm yon Neural Radiance Field oswa NeRF aktyèlman kreye modèl 3D a soti nan seri imaj pwodwi a. NeRF yo kapab kreye sèn 3D konplèks bay yon seri done imaj 2D.
Ann eseye konprann ki jan yon NeRF fonksyone.
Modèl la gen pou objaktif pou kreye yon fonksyon sèn volumetrik kontinyèl optimize nan seri done yo bay nan imaj 2D.
Si modèl la kreye yon fonksyon, ki sa ki opinyon ak pwodiksyon an?
Fonksyon sèn nan pran nan yon kote 3D ak yon direksyon gade 2D kòm opinyon. Lè sa a, fonksyon an pwodui yon koulè (nan fòm RGB) ak yon dansite volim espesifik.
Pou jenere yon imaj 2D soti nan yon pwen de vi espesifik, modèl la pral jenere yon seri pwen 3D epi kouri pwen sa yo atravè fonksyon sèn nan retounen yon seri koulè ak valè dansite volim. Teknik rann volim pral konvèti valè sa yo nan yon pwodiksyon imaj 2D.
Sèvi ak NeRF ak modèl difizyon 2D ansanm
Kounye a ke nou konnen ki jan yon NeRF fonksyone, ann wè ki jan modèl sa a ka jenere modèl 3D egzat apati imaj nou yo pwodwi.
Pou chak èd memwa tèks yo bay, DreamFusion antrene yon NeRF inisyalize owaza apati de grafouyen. Chak iterasyon chwazi yon pozisyon kamera o aza nan yon seri kowòdone esferik. Reflechi sou modèl la anvlòp nan yon esfè an vè. Chak fwa nou jenere yon nouvo imaj nan modèl 3D nou an, nou pral chwazi yon pwen o aza nan esfè nou an kòm pwen an avantaj nan pwodiksyon nou an. DreamFusion pral chwazi tou yon pozisyon limyè o aza l pou itilize pou rann.
Yon fwa nou gen yon kamera ak pozisyon limyè, yon modèl NeRF pral rann. DreamFusion pral chwazi tou owaza ant yon rann koulè, yon rann teksti, ak yon rann nan albedo a san okenn lonbraj.
Nou te mansyone byen bonè ke nou vle modèl tèks-a-imaj nou an (Imagen) pwodwi ase imaj yo kreye yon echantiyon reprezantan.
Ki jan Dreamfusion fè sa?
Dreamfusion tou senpleman modifye èd memwa opinyon an yon ti kras pou reyalize ang yo gen entansyon. Pou egzanp, nou ka reyalize ang elevasyon segondè lè nou ajoute "view anlè" nan èd memwa nou an. Nou ka jenere lòt ang lè nou ajoute fraz tankou "devan view", "side view", ak "back view".
Sèn yo repete rann nan pozisyon kamera o aza. Sa yo rann Lè sa a, pase nan yon fonksyon pèt distilasyon nòt. Yon senp apwòch desandan gradyan pral dousman amelyore la 3D modèl jiskaske li matche ak sèn ki dekri nan tèks la.
Yon fwa nou te rann modèl 3D a lè l sèvi avèk NeRF, nou ka itilize Marching Cubes algorithm bay yon may 3D nan modèl nou an. Lè sa a, may sa a ka enpòte nan rann 3D popilè oswa lojisyèl modèl.
Limit
Pandan ke pwodiksyon DreamFusion a se enpresyonan ase paske li itilize modèl difizyon tèks-a-imaj ki deja egziste nan yon fason roman, chèchè yo te note kèk limit.
Yo te obsève fonksyon pèt SDS la pou pwodui rezilta twòp ak twòp lis. Ou ka obsève sa a nan koloran an natirèl ak mank de detay egzak yo te jwenn nan rezilta yo.
Algorithm DreamFusion la limite tou pa rezolisyon pwodiksyon modèl Imagen a, ki se 64 x 64 piksèl. Sa a mennen nan modèl yo sentèz manke detay pi rafine.
Anfen, chèchè yo te note ke gen yon defi nannan nan sentèz modèl 3D soti nan done 2D. Gen anpil modèl 3D posib ke nou ka jenere soti nan yon seri imaj 2D, ki fè optimize byen difisil e menm Limit.
konklizyon
Rann 3D DreamFusion yo travay tèlman byen akòz kapasite modèl difizyon tèks-a-imaj pou kreye nenpòt objè oswa sèn. Li enpresyonan ki jan yon rezo neral ka konprann yon sèn nan espas 3D san okenn done fòmasyon 3D. Mwen rekòmande pou li tout papye pou aprann plis sou detay teknik algorithm DreamFusion la.
Èspere ke, teknoloji sa a pral amelyore evantyèlman kreye foto-reyalis modèl 3D. Imajine tout jwèt videyo oswa simulation ki itilize anviwònman AI-pwodwi. Li ta ka bese baryè a nan antre pou devlopè jwèt videyo yo kreye mond 3D Immersion!
Ki wòl ou panse modèl tèks-a-3D pral jwe nan tan kap vini an?
Kite yon Reply