Efallai eich bod wedi clywed am ba mor bwerus y mae modelau AI testun-i-ddelwedd wedi dod yn ystod yr ychydig flynyddoedd diwethaf. Ond a oeddech chi'n gwybod y gallai'r un dechnoleg helpu i wneud y naid o 2D i 3D?
Mae gan fodelau 3D a gynhyrchir gan AI achos defnydd eang yn nhirwedd ddigidol heddiw. Gemau fideo ac mae ffilm yn dibynnu ar artistiaid 3D medrus a meddalwedd modelu fel Blender i greu asedau 3D i boblogi golygfeydd a gynhyrchir gan gyfrifiadur.
Fodd bynnag, a yw'n bosibl y gallai'r diwydiant ddefnyddio dysgu peirianyddol i greu asedau 3D gyda llai o ymdrech, yn debyg i sut mae artistiaid 2D heddiw yn dechrau mabwysiadu technoleg fel DALL-E a Canol siwrnai?
Bydd yr erthygl hon yn archwilio algorithm newydd sy'n ceisio creu model testun-i-3D effeithiol gan ddefnyddio'r presennol modelau trylediad.
Beth yw Dreamfusion?
Un mater mawr gyda chreu model trylediad sy'n cynhyrchu asedau 3D yn uniongyrchol yw nad oes llawer o ddata 3D ar gael. Mae modelau trylediad 2D wedi dod mor bwerus oherwydd y set ddata enfawr o ddelweddau a geir ar y rhyngrwyd. Ni ellir dweud yr un peth gydag asedau 3D.
Mae rhai technegau cynhyrchu 3D yn gweithio o amgylch y diffyg data hwn trwy fanteisio ar y cyfoeth hwn o ddata 2D.
DreamFusion yn fodel cynhyrchiol a all greu modelau 3D yn seiliedig ar ddisgrifiad testun a ddarperir. Mae'r model DreamFusion yn defnyddio model tryledu testun-i-ddelwedd sydd wedi'i hyfforddi ymlaen llaw i gynhyrchu modelau tri dimensiwn realistig o awgrymiadau testun.
Er nad oes gennym ddata hyfforddi 3D, mae'r dull hwn wedi cynhyrchu asedau 3D cydlynol gyda golwg a dyfnder uchel.
Sut Mae'n Gweithio?
Mae algorithm DreamFusion yn cynnwys dau brif fodel: model trylediad 2D ac a rhwydwaith nefol sy'n gallu trosi delweddau 2D yn olygfa 3D cydlynol.
Model Testun-i-Ddelwedd Imagen Google
Rhan gyntaf yr algorithm yw'r model trylediad. Mae'r model hwn yn gyfrifol am drosi testun yn ddelweddau.
Image yn fodel trylediad sy'n gallu cynhyrchu sampl mawr o amrywiadau delwedd o wrthrych penodol. Yn yr achos hwn, dylai ein hamrywiadau delwedd gwmpasu holl onglau posibl y gwrthrych a ddarperir. Er enghraifft, pe baem am gynhyrchu model 3D o geffyl, byddem eisiau delweddau 2D o'r ceffyl o bob ongl bosibl. Y nod yw defnyddio Imagen i ddarparu cymaint o wybodaeth â phosibl (lliwiau, adlewyrchiadau, dwysedd) ar gyfer y model nesaf yn ein algorithm.
Creu Modelau 3D gyda NeRF
Nesaf, mae Dreamfusion yn defnyddio model o'r enw a Maes Ymbelydredd Niwral neu NeRF i greu'r model 3D o'r set ddelwedd a gynhyrchir. Mae NeRFs yn gallu creu golygfeydd 3D cymhleth o gael set ddata o ddelweddau 2D.
Gadewch i ni geisio deall sut mae NeRF yn gweithio.
Nod y model yw creu swyddogaeth golygfa gyfeintiol barhaus wedi'i optimeiddio o'r set ddata a ddarperir o ddelweddau 2D.
Os yw'r model yn creu ffwythiant, beth yw'r mewnbwn a'r allbwn?
Mae swyddogaeth yr olygfa yn cynnwys lleoliad 3D a chyfeiriad gwylio 2D fel mewnbwn. Yna mae'r swyddogaeth yn allbynnu lliw (ar ffurf RGB) a dwysedd cyfaint penodol.
I gynhyrchu delwedd 2D o safbwynt penodol, bydd y model yn cynhyrchu set o bwyntiau 3D ac yn rhedeg y pwyntiau hynny trwy swyddogaeth yr olygfa i ddychwelyd set o werthoedd lliw a dwysedd cyfaint. Bydd technegau rendro cyfaint wedyn yn trosi'r gwerthoedd hynny yn allbwn delwedd 2D.
Defnyddio NeRF a Modelau Tryledu 2D Gyda'n Gilydd
Nawr ein bod ni'n gwybod sut mae NeRF yn gweithio, gadewch i ni weld sut y gall y model hwn gynhyrchu modelau 3D cywir o'n delweddau a gynhyrchir.
Ar gyfer pob neges destun a ddarperir, mae DreamFusion yn hyfforddi NeRF a ddechreuwyd ar hap o'r dechrau. Mae pob iteriad yn dewis safle camera ar hap mewn set o gyfesurynnau sfferig. Meddyliwch am y model sydd wedi'i amgylchynu mewn sffêr gwydr. Bob tro y byddwn yn cynhyrchu delwedd newydd o'n model 3D, byddwn yn dewis pwynt ar hap yn ein maes fel man gwylio ein hallbwn. Bydd DreamFusion hefyd yn dewis safle golau ar hap l i'w ddefnyddio ar gyfer rendro.
Unwaith y bydd gennym leoliad camera a golau, bydd model NeRF yn cael ei rendro. Bydd DreamFusion hefyd yn dewis ar hap rhwng rendrad lliw, rendrad heb wead, a rendrad o'r albedo heb unrhyw gysgod.
Rydym wedi sôn yn gynharach ein bod am i'n model testun-i-ddelwedd (Imagen) gynhyrchu digon o ddelweddau i greu sampl cynrychioliadol.
Sut mae Dreamfusion yn cyflawni hyn?
Yn syml, mae Dreamfusion yn addasu'r ysgogiad mewnbwn ychydig i gyrraedd yr onglau a fwriadwyd. Er enghraifft, gallwn gyflawni onglau drychiad uchel trwy atodi “golygfa uwchben” i'n sbardun. Gallwn gynhyrchu onglau eraill trwy atodi ymadroddion fel “golwg blaen”, “golwg ochr”, a “golwg cefn”.
Mae golygfeydd yn cael eu rendro dro ar ôl tro o safleoedd camera ar hap. Yna mae'r rendradiadau hyn yn mynd trwy swyddogaeth colli distylliad sgôr. Bydd dull disgyniad graddiant syml yn gwella'n araf y Model 3D nes ei fod yn cyfateb i'r olygfa a ddisgrifir gan y testun.
Unwaith y byddwn wedi rendro'r model 3D gan ddefnyddio NeRF, gallwn ddefnyddio'r Gorymdeithio Ciwbiau algorithm i allbynnu rhwyll 3D o'n model. Yna gellir mewnforio'r rhwyll hon i rendrwyr neu feddalwedd modelu 3D poblogaidd.
Cyfyngiadau
Er bod allbwn DreamFusion yn ddigon trawiadol gan ei fod yn defnyddio modelau tryledu testun-i-ddelwedd presennol mewn ffordd newydd, mae'r ymchwilwyr wedi nodi rhai cyfyngiadau.
Gwelwyd bod swyddogaeth colli SDS yn cynhyrchu canlyniadau gor-dirlawn a gor-llyfn. Gallwch arsylwi hyn yn y lliwio annaturiol a'r diffyg manylder manwl gywir a geir yn yr allbynnau.
Mae algorithm DreamFusion hefyd wedi'i gyfyngu gan gydraniad allbwn model Imagen, sef 64 x 64 picsel. Mae hyn yn arwain at ddiffyg manylion manylach yn y modelau wedi'u syntheseiddio.
Yn olaf, mae'r ymchwilwyr wedi nodi bod her gynhenid wrth syntheseiddio modelau 3D o ddata 2D. Mae yna lawer o fodelau 3D posibl y gallwn eu cynhyrchu o set o ddelweddau 2D, sy'n gwneud optimeiddio yn eithaf anodd a hyd yn oed yn amwys.
Casgliad
Mae rendradiadau 3D DreamFusion yn gweithio mor dda oherwydd gallu modelau tryledu testun-i-ddelwedd i greu unrhyw wrthrych neu olygfa. Mae'n drawiadol sut y gall rhwydwaith niwral ddeall golygfa mewn gofod 3D heb unrhyw ddata hyfforddi 3D. Rwy'n argymell darllen y papur cyfan i ddysgu mwy am fanylion technegol yr algorithm DreamFusion.
Gobeithio y bydd y dechnoleg hon yn gwella i greu modelau 3D ffotograff-realistig yn y pen draw. Dychmygwch gemau fideo cyfan neu efelychiadau sy'n defnyddio amgylcheddau a gynhyrchir gan AI. Gallai ostwng y rhwystr mynediad i ddatblygwyr gemau fideo i greu bydoedd 3D trochi!
Pa rôl ydych chi'n meddwl y bydd modelau testun-i-3D yn ei chwarae yn y dyfodol?
Gadael ymateb