DreamFusion – Տեքստից 3D մոդելների գեներացում

Բառը[Թաքցնել][Ցուցադրում]

Ի՞նչ է Dreamfusion-ը:
Ինչպես է դա աշխատում?+-
Սահմանափակումները
Եզրափակում

Դուք հավանաբար լսել եք այն մասին, թե որքան հզոր են դարձել տեքստից պատկեր AI մոդելները վերջին մի քանի տարիների ընթացքում: Բայց դուք գիտեի՞ք, որ նույն տեխնոլոգիան կարող է օգնել 2D-ից 3D թռիչք կատարել:

AI-ի կողմից ստեղծված 3D մոդելները լայն կիրառություն ունեն այսօրվա թվային լանդշաֆտում: Կոմպյուտերային Խաղեր և ֆիլմը հիմնվում է հմուտ 3D նկարիչների և մոդելավորման ծրագրերի վրա, ինչպիսին է Blender-ը, որպեսզի ստեղծեն 3D ակտիվներ՝ համակարգչային ստեղծած տեսարանները համալրելու համար:

Այնուամենայնիվ, հնարավո՞ր է, որ արդյունաբերությունը կարող է օգտագործել մեքենայական ուսուցումը 3D ակտիվներ ստեղծելու համար ավելի քիչ ջանք գործադրելու համար, ինչպես այսօր 2D նկարիչները սկսում են կիրառել այնպիսի տեխնոլոգիաներ, ինչպիսիք են DALL-E-ը և Միջին ճանապարհորդություն?

Այս հոդվածը կուսումնասիրի նոր ալգորիթմ, որը փորձում է ստեղծել տեքստի 3D արդյունավետ մոդել՝ օգտագործելով գոյություն ունեցողը դիֆուզիոն մոդելներ.

Ինչ է Dreamfusion?

Դիֆուզիոն մոդելի ստեղծման հիմնական խնդիրն է, որն ուղղակիորեն գեներացնում է 3D ակտիվներ, այն է, որ պարզապես 3D-ի շատ տվյալներ չկան: 2D դիֆուզիոն մոդելներն այնքան հզոր են դարձել՝ շնորհիվ համացանցում հայտնաբերված պատկերների հսկայական տվյալների: Նույնը չի կարելի ասել 3D ակտիվների հետ:

Որոշ 3D գեներատիվ մեթոդներ աշխատում են տվյալների այս պակասի շուրջ՝ օգտվելով 2D տվյալների այս առատությունից:

Dreamfusion-ը ստեղծում է համահունչ 3D մոդելներ տրամադրված տեքստի նկարագրությունից

DreamFusion գեներատիվ մոդել է, որը կարող է ստեղծել 3D մոդելներ՝ հիմնվելով տրամադրված տեքստի նկարագրության վրա: DreamFusion մոդելը օգտագործում է նախապես պատրաստված տեքստ-պատկեր դիֆուզիոն մոդել՝ տեքստային հուշումներից իրատեսական եռաչափ մոդելներ ստեղծելու համար:

Չնայած 3D ուսուցման տվյալներ չունենալուն, այս մոտեցումը ստեղծել է համահունչ 3D ակտիվներ՝ բարձր հավատարմության տեսքով և խորությամբ:

Ինչպես է դա աշխատում?

DreamFusion ալգորիթմը բաղկացած է երկու հիմնական մոդելներից՝ 2D դիֆուզիոն մոդելից և նյարդային ցանց որը կարող է փոխակերպել 2D պատկերները միասնական 3D տեսարանի:

Google-ի Imagen Տեքստ-պատկեր մոդելը

Ալգորիթմի առաջին մասը դիֆուզիոն մոդելն է։ Այս մոդելը պատասխանատու է տեքստը պատկերի վերածելու համար:

Պատկեր դիֆուզիոն մոդել է, որը կարող է առաջացնել որոշակի օբյեկտի պատկերի տատանումների մեծ նմուշ: Այս դեպքում մեր պատկերի տատանումները պետք է ընդգրկեն տրամադրված օբյեկտի բոլոր հնարավոր անկյունները: Օրինակ, եթե մենք ցանկանանք ստեղծել ձիու 3D մոդել, մենք կցանկանայինք ձիու 2D պատկերներ բոլոր հնարավոր անկյուններից: Նպատակն է օգտագործել Imagen-ը, որպեսզի հնարավորինս շատ տեղեկատվություն տրամադրի (գույներ, արտացոլումներ, խտություն) մեր ալգորիթմի հաջորդ մոդելի համար:

Dreamfusion-ն օգտագործում է Google-ի Imagen-ը՝ տեքստից պատկերներ ստեղծելու համար

3D մոդելների ստեղծում NeRF-ով

Հաջորդը Dreamfusion-ն օգտագործում է մոդել, որը հայտնի է որպես a Նյարդային ճառագայթման դաշտ կամ NeRF՝ ստեղծված պատկերների հավաքածուից իրականում ստեղծելու 3D մոդելը: NeRF-ները ի վիճակի են ստեղծել բարդ 3D տեսարաններ՝ տրված 2D պատկերների տվյալների շտեմարանով:

Փորձենք հասկանալ, թե ինչպես է աշխատում NeRF-ը:

Մոդելը նպատակ ունի ստեղծել շարունակական ծավալային տեսարանի գործառույթ՝ օպտիմիզացված 2D պատկերների տրամադրված տվյալների բազայից:

Եթե մոդելը ստեղծում է ֆունկցիա, որո՞նք են մուտքագրումը և ելքը:

Տեսարանի ֆունկցիան ընդունում է 3D դիրք և 2D դիտման ուղղություն որպես մուտքագրում: Ֆունկցիան այնուհետև թողարկում է գույն (RGB-ի տեսքով) և որոշակի ծավալի խտություն:

Հատուկ տեսանկյունից 2D պատկեր ստեղծելու համար մոդելը կստեղծի 3D կետերի մի շարք և կանցկացնի այդ կետերը տեսարանային ֆունկցիայի միջոցով՝ վերադարձնելու գույնի և ծավալի խտության արժեքների մի շարք: Ծավալի մատուցման տեխնիկան այնուհետև այդ արժեքները կվերածի 2D պատկերի ելքի:

Dreamfusion-ը օգտագործում է NeRF մոդելը` ստեղծելու գործառույթ, որը ստեղծում է տեսարանի նոր տեսարաններ

Օգտագործելով NeRF և 2D դիֆուզիոն մոդելները միասին

Այժմ, երբ մենք գիտենք, թե ինչպես է աշխատում NeRF-ը, եկեք տեսնենք, թե ինչպես է այս մոդելը կարող ստեղծել ճշգրիտ 3D մոդելներ մեր ստեղծած պատկերներից:

Յուրաքանչյուր տրամադրված տեքստային հուշման համար DreamFusion-ը զրոյից վարժեցնում է պատահականորեն սկզբնավորվող NeRF-ը: Յուրաքանչյուր կրկնություն ընտրում է տեսախցիկի պատահական դիրքը գնդաձև կոորդինատների մի շարքում: Մտածեք մոդելի մասին, որը պատված է ապակե գնդում: Ամեն անգամ, երբ մենք ստեղծում ենք մեր 3D մոդելի նոր պատկեր, մենք կընտրենք պատահական կետ մեր ոլորտում որպես մեր արդյունքի դիտակետ: DreamFusion-ը նաև կընտրի լույսի պատահական դիրք l օգտագործել մատուցման համար։

Երբ մենք ունենանք տեսախցիկի և լույսի դիրքը, NeRF մոդելը կարտացոլվի: DreamFusion-ը նաև պատահականորեն ընտրություն կկատարի գունավոր ռենդերի, առանց հյուսվածքի և ալբեդոյի առանց ստվերավորման:

Dreamfusion-ը պատկերներ է դուրս բերում տարբեր անկյուններից

Մենք ավելի վաղ նշել ենք, որ մենք ցանկանում ենք, որ մեր տեքստից պատկեր մոդելը (Imagen) արտադրի բավականաչափ պատկերներ՝ ներկայացուցչական նմուշ ստեղծելու համար:

Ինչպե՞ս է Dreamfusion-ը դա անում:

Dreamfusion-ը պարզապես մի փոքր փոփոխում է մուտքագրման հուշումը նախատեսված անկյուններին հասնելու համար: Օրինակ, մենք կարող ենք հասնել բարձր բարձրության անկյունների՝ ավելացնելով «վերևի տեսքը» մեր հուշումին: Մենք կարող ենք ձևավորել այլ անկյուններ՝ ավելացնելով արտահայտություններ, ինչպիսիք են «առջևի տեսք», «կողային տեսք» և «հետևի տեսք»:

Տեսարանները բազմիցս ցուցադրվում են տեսախցիկի պատահական դիրքերից: Այս արտապատկերումները այնուհետև անցնում են միավորի թորման կորստի ֆունկցիայի միջոցով: Պարզ գրադիենտ իջնելու մոտեցումը կամաց-կամաց կբարելավի 3D մոդելը մինչև այն չհամընկնի տեքստով նկարագրված տեսարանի հետ:

Երբ մենք ցուցադրենք 3D մոդելը, օգտագործելով NeRF, մենք կարող ենք օգտագործել Marching Cubes ալգորիթմ մեր մոդելի 3D ցանցը դուրս բերելու համար: Այնուհետև այս ցանցը կարող է ներմուծվել հանրաճանաչ 3D ռենդերների կամ մոդելավորման ծրագրերի մեջ:

Սահմանափակումները

Թեև DreamFusion-ի արդյունքը բավական տպավորիչ է, քանի որ այն օգտագործում է տեքստից պատկեր տարածման գոյություն ունեցող մոդելները նորովի, հետազոտողները նշել են մի քանի սահմանափակումներ:

Դիտարկվել է, որ SDS կորստի ֆունկցիան տալիս է գերհագեցած և չափից ավելի հարթ արդյունքներ: Դուք կարող եք դա դիտարկել ելքերում հայտնաբերված անբնական գունավորման և ճշգրիտ մանրամասների բացակայության մեջ:

DreamFusion ալգորիթմը սահմանափակված է նաև Imagen մոդելի թողարկման լուծաչափով, որը 64 x 64 պիքսել է: Սա հանգեցնում է նրան, որ սինթեզված մոդելները զուրկ են մանր մանրամասներից:

Ի վերջո, հետազոտողները նշել են, որ 3D տվյալներից 2D մոդելների սինթեզման մեջ առկա է ներհատուկ մարտահրավեր: Կան բազմաթիվ հնարավոր 3D մոդելներ, որոնք մենք կարող ենք ստեղծել 2D պատկերների հավաքածուից, ինչը բավականին դժվար և նույնիսկ երկիմաստ է դարձնում օպտիմալացումը:

Եզրափակում

DreamFusion-ի 3D արտապատկերումն այնքան լավ է աշխատում, քանի որ տեքստ-պատկեր դիֆուզիոն մոդելները կարող են ստեղծել ցանկացած առարկա կամ տեսարան: Տպավորիչ է, թե ինչպես է նեյրոնային ցանցը կարողանում հասկանալ տեսարանը 3D տարածության մեջ՝ առանց որևէ եռաչափ ուսուցման տվյալների: Խորհուրդ եմ տալիս կարդալ ամբողջ թուղթ DreamFusion ալգորիթմի տեխնիկական մանրամասների մասին ավելին իմանալու համար:

Հուսանք, որ այս տեխնոլոգիան կբարելավվի, որպեսզի ի վերջո ստեղծի ֆոտոռեալիստական 3D մոդելներ: Պատկերացրեք ամբողջ տեսախաղերը կամ սիմուլյացիաները, որոնք օգտագործում են AI-ի կողմից ստեղծված միջավայրեր: Այն կարող է նվազեցնել վիդեո խաղերի մշակողների մուտքի արգելքը՝ ստեղծելու ընկղմվող 3D աշխարհներ:

Ի՞նչ եք կարծում, ապագայում ի՞նչ դեր կխաղան տեքստային 3D մոդելները:

DreamFusion – Տեքստից 3D մոդելների ստեղծում

DreamFusion – Տեքստից 3D մոդելների ստեղծում

Ինչ է Dreamfusion?

Ինչպես է դա աշխատում?

Google-ի Imagen Տեքստ-պատկեր մոդելը

3D մոդելների ստեղծում NeRF-ով

Օգտագործելով NeRF և 2D դիֆուզիոն մոդելները միասին

Սահմանափակումները

Եզրափակում

Մեր Մասին Deion Menor

Լրացուցիչ հոդվածներ HashDork-ում.

Ինչպես նվազեցնել հալյուցինացիաները ձեր AI-ում

Կոլոսյան vs Հեյգեն

Այս ապագա տեխնոլոգիական տեղեկագիրը չի ծծում

DreamFusion – Տեքստից 3D մոդելների ստեղծում

Ինչ է Dreamfusion?

Ինչպես է դա աշխատում?

Google-ի Imagen Տեքստ-պատկեր մոդելը

3D մոդելների ստեղծում NeRF-ով

Օգտագործելով NeRF և 2D դիֆուզիոն մոդելները միասին

Սահմանափակումները

Եզրափակում

Մեր Մասին Deion Menor

Լրացուցիչ հոդվածներ HashDork-ում.

Ինչպես նվազեցնել հալյուցինացիաները ձեր AI-ում

10 լավագույն AI գործիքներ սոցիալական մեդիայի համար

Կոլոսյան vs Հեյգեն

10 լավագույն AI անիմացիոն վիդեո ստեղծող գործիքներ

Reader փոխազդեցությունների

Թողնել գրառում Ավելացնել կարծիք Չեղարկել պատասխանել

Այս ապագա տեխնոլոգիական տեղեկագիրը չի ծծում

Թողնել գրառում