Iespējams, esat dzirdējuši par to, cik spēcīgi teksta pārveides AI modeļi ir kļuvuši pēdējo pāris gadu laikā. Bet vai zinājāt, ka tā pati tehnoloģija var palīdzēt pāriet no 2D uz 3D?
MI radītie 3D modeļi ir plaši izmantojami mūsdienu digitālajā vidē. Video spēles un filmas paļaujas uz kvalificētiem 3D māksliniekiem un modelēšanas programmatūru, piemēram, Blender, lai izveidotu 3D līdzekļus, lai aizpildītu datorizētas ainas.
Tomēr vai ir iespējams, ka nozare varētu izmantot mašīnmācīšanos, lai ar mazāku piepūli izveidotu 3D līdzekļus, līdzīgi kā mūsdienās 2D mākslinieki sāk izmantot tādas tehnoloģijas kā DALL-E un Pusceļš?
Šajā rakstā tiks apskatīts jauns algoritms, kas mēģina izveidot efektīvu teksta pārveides 3D modeli, izmantojot esošo difūzijas modeļi.
Kas ir Dreamfusion?
Viena no galvenajām problēmām, veidojot difūzijas modeli, kas tieši ģenerē 3D līdzekļus, ir tas, ka vienkārši nav pieejams daudz 3D datu. 2D difūzijas modeļi ir kļuvuši tik spēcīgi, jo internetā atrodama plašā attēlu datu kopa. To pašu nevar teikt par 3D līdzekļiem.
Dažas 3D ģenerēšanas metodes novērš šo datu trūkumu, izmantojot šo 2D datu pārpilnību.
DreamFusion ir ģeneratīvs modelis, kas var izveidot 3D modeļus, pamatojoties uz sniegto teksta aprakstu. DreamFusion modelī tiek izmantots iepriekš apmācīts teksta-attēla difūzijas modelis, lai no teksta uzvednēm ģenerētu reālistiskus trīsdimensiju modeļus.
Neskatoties uz to, ka nav 3D apmācības datu, šī pieeja ir radījusi saskaņotus 3D līdzekļus ar augstas precizitātes izskatu un dziļumu.
Kā tas darbojas?
DreamFusion algoritms sastāv no diviem galvenajiem modeļiem: 2D difūzijas modeļa un a neironu tīklu kas var pārvērst 2D attēlus vienotā 3D ainā.
Google attēla teksta-attēlu modelis
Algoritma pirmā daļa ir difūzijas modelis. Šis modelis ir atbildīgs par teksta pārveidošanu attēlos.
Attēls ir difūzijas modelis, kas var ģenerēt lielu konkrēta objekta attēla variāciju paraugu. Šajā gadījumā mūsu attēla variācijām ir jāaptver visi iespējamie piedāvātā objekta leņķi. Piemēram, ja mēs vēlamies ģenerēt zirga 3D modeli, mēs vēlamies zirga 2D attēlus no visiem iespējamiem leņķiem. Mērķis ir izmantot Imagen, lai sniegtu pēc iespējas vairāk informācijas (krāsas, atspulgi, blīvums) nākamajam mūsu algoritma modelim.
3D modeļu izveide ar NeRF
Tālāk Dreamfusion izmanto modeli, kas pazīstams kā a Neironu starojuma lauks vai NeRF, lai faktiski izveidotu 3D modeli no ģenerētās attēlu kopas. NeRF spēj izveidot sarežģītas 3D ainas, izmantojot 2D attēlu datu kopu.
Mēģināsim saprast, kā darbojas NeRF.
Modeļa mērķis ir izveidot nepārtrauktu tilpuma ainas funkciju, kas optimizēta no sniegtās 2D attēlu datu kopas.
Ja modelis izveido funkciju, kāda ir ievade un izvade?
Sižeta funkcija izmanto 3D atrašanās vietu un 2D skatīšanās virzienu kā ievadi. Pēc tam funkcija izvada krāsu (RGB formā) un noteiktu skaļuma blīvumu.
Lai ģenerētu 2D attēlu no noteikta skata punkta, modelis ģenerēs 3D punktu kopu un palaidīs šos punktus caur ainas funkciju, lai atgrieztu krāsu un skaļuma blīvuma vērtību kopu. Pēc tam apjoma renderēšanas metodes pārveidos šīs vērtības 2D attēla izvadē.
NeRF un 2D difūzijas modeļu izmantošana kopā
Tagad, kad mēs zinām, kā darbojas NeRF, redzēsim, kā šis modelis var ģenerēt precīzus 3D modeļus no mūsu ģenerētajiem attēliem.
Katrai sniegtajai teksta uzvednei DreamFusion apmāca nejauši inicializētu NeRF no jauna. Katra iterācija izvēlas nejaušu kameras pozīciju sfērisku koordinātu komplektā. Padomājiet par modeli, kas ir ievietots stikla sfērā. Katru reizi, kad mēs ģenerējam jaunu sava 3D modeļa attēlu, mēs izvēlēsimies nejaušu punktu savā sfērā kā izvades skatu punktu. DreamFusion arī izvēlēsies nejaušu gaismas pozīciju l izmantot renderēšanai.
Kad mums būs kamera un gaismas pozīcija, tiks renderēts NeRF modelis. DreamFusion arī nejauši izvēlēsies starp krāsainu renderēšanu, beztekstūras renderēšanu un albedo atveidojumu bez ēnojuma.
Mēs jau iepriekš minējām, ka vēlamies, lai mūsu teksta pārveides modelis (Imagen) radītu pietiekami daudz attēlu, lai izveidotu reprezentatīvu paraugu.
Kā Dreamfusion to panāk?
Dreamfusion vienkārši nedaudz maina ievades uzvedni, lai sasniegtu paredzētos leņķus. Piemēram, mēs varam sasniegt augstus pacēluma leņķus, pievienojot uzvednei “skats no augšas”. Mēs varam ģenerēt citus leņķus, pievienojot tādas frāzes kā “skats no priekšas”, “skats no sāniem” un “skats no aizmugures”.
Ainas tiek atkārtoti renderētas no nejaušām kameras pozīcijām. Šie apmetumi pēc tam iziet cauri destilācijas zuduma funkcijai. Vienkārša gradienta nolaišanās pieeja lēnām uzlabos 3D modelis līdz tas atbilst tekstā aprakstītajai ainai.
Kad esam atveidojuši 3D modeli, izmantojot NeRF, mēs varam izmantot Maršēšanas kubi algoritms lai izvadītu mūsu modeļa 3D tīklu. Pēc tam šo tīklu var importēt populāros 3D renderētājos vai modelēšanas programmatūrā.
Ierobežojumi
Lai gan DreamFusion iznākums ir pietiekami iespaidīgs, jo tas izmanto esošos teksta-attēlu difūzijas modeļus jaunā veidā, pētnieki ir atzīmējuši dažus ierobežojumus.
Ir novērots, ka SDS zuduma funkcija rada pārsātinātus un pārāk izlīdzinātus rezultātus. To var novērot nedabiskajā krāsojumā un precīzu detaļu trūkuma dēļ, kas atrodami izvados.
DreamFusion algoritmu ierobežo arī Imagen modeļa izvades izšķirtspēja, kas ir 64 x 64 pikseļi. Tas noved pie tā, ka sintezētajiem modeļiem trūkst sīkāku detaļu.
Visbeidzot, pētnieki ir atzīmējuši, ka pastāv raksturīgs izaicinājums sintezēt 3D modeļus no 2D datiem. Ir daudzi iespējamie 3D modeļi, kurus varam ģenerēt no 2D attēlu kopas, kas optimizāciju padara diezgan sarežģītu un pat neskaidru.
Secinājumi
DreamFusion 3D atveidojumi darbojas tik labi, jo teksta-attēlu difūzijas modeļi spēj izveidot jebkuru objektu vai ainu. Tas ir iespaidīgi, kā neironu tīkls var saprast ainu 3D telpā bez 3D apmācības datiem. Iesaku izlasīt viss papīrs lai uzzinātu vairāk par DreamFusion algoritma tehniskajām detaļām.
Cerams, ka šī tehnoloģija uzlabosies, lai galu galā izveidotu fotoreālistiskus 3D modeļus. Iedomājieties veselas videospēles vai simulācijas, kurās tiek izmantota AI radīta vide. Tas varētu pazemināt videospēļu izstrādātāju ienākšanas barjeru, lai radītu ieskaujošas 3D pasaules!
Kādu lomu, jūsuprāt, teksta-3D modeļi spēlēs nākotnē?
Atstāj atbildi