Դուք հավանաբար լսել եք այն մասին, թե որքան հզոր են դարձել տեքստից պատկեր AI մոդելները վերջին մի քանի տարիների ընթացքում: Բայց դուք գիտեի՞ք, որ նույն տեխնոլոգիան կարող է օգնել 2D-ից 3D թռիչք կատարել:
AI-ի կողմից ստեղծված 3D մոդելները լայն կիրառություն ունեն այսօրվա թվային լանդշաֆտում: Կոմպյուտերային Խաղեր և ֆիլմը հիմնվում է հմուտ 3D նկարիչների և մոդելավորման ծրագրերի վրա, ինչպիսին է Blender-ը, որպեսզի ստեղծեն 3D ակտիվներ՝ համակարգչային ստեղծած տեսարանները համալրելու համար:
Այնուամենայնիվ, հնարավո՞ր է, որ արդյունաբերությունը կարող է օգտագործել մեքենայական ուսուցումը 3D ակտիվներ ստեղծելու համար ավելի քիչ ջանք գործադրելու համար, ինչպես այսօր 2D նկարիչները սկսում են կիրառել այնպիսի տեխնոլոգիաներ, ինչպիսիք են DALL-E-ը և Միջին ճանապարհորդություն?
Այս հոդվածը կուսումնասիրի նոր ալգորիթմ, որը փորձում է ստեղծել տեքստի 3D արդյունավետ մոդել՝ օգտագործելով գոյություն ունեցողը դիֆուզիոն մոդելներ.
Ինչ է Dreamfusion?
Դիֆուզիոն մոդելի ստեղծման հիմնական խնդիրն է, որն ուղղակիորեն գեներացնում է 3D ակտիվներ, այն է, որ պարզապես 3D-ի շատ տվյալներ չկան: 2D դիֆուզիոն մոդելներն այնքան հզոր են դարձել՝ շնորհիվ համացանցում հայտնաբերված պատկերների հսկայական տվյալների: Նույնը չի կարելի ասել 3D ակտիվների հետ:
Որոշ 3D գեներատիվ մեթոդներ աշխատում են տվյալների այս պակասի շուրջ՝ օգտվելով 2D տվյալների այս առատությունից:
DreamFusion գեներատիվ մոդել է, որը կարող է ստեղծել 3D մոդելներ՝ հիմնվելով տրամադրված տեքստի նկարագրության վրա: DreamFusion մոդելը օգտագործում է նախապես պատրաստված տեքստ-պատկեր դիֆուզիոն մոդել՝ տեքստային հուշումներից իրատեսական եռաչափ մոդելներ ստեղծելու համար:
Չնայած 3D ուսուցման տվյալներ չունենալուն, այս մոտեցումը ստեղծել է համահունչ 3D ակտիվներ՝ բարձր հավատարմության տեսքով և խորությամբ:
Ինչպես է դա աշխատում?
DreamFusion ալգորիթմը բաղկացած է երկու հիմնական մոդելներից՝ 2D դիֆուզիոն մոդելից և նյարդային ցանց որը կարող է փոխակերպել 2D պատկերները միասնական 3D տեսարանի:
Google-ի Imagen Տեքստ-պատկեր մոդելը
Ալգորիթմի առաջին մասը դիֆուզիոն մոդելն է։ Այս մոդելը պատասխանատու է տեքստը պատկերի վերածելու համար:
Պատկեր դիֆուզիոն մոդել է, որը կարող է առաջացնել որոշակի օբյեկտի պատկերի տատանումների մեծ նմուշ: Այս դեպքում մեր պատկերի տատանումները պետք է ընդգրկեն տրամադրված օբյեկտի բոլոր հնարավոր անկյունները: Օրինակ, եթե մենք ցանկանանք ստեղծել ձիու 3D մոդել, մենք կցանկանայինք ձիու 2D պատկերներ բոլոր հնարավոր անկյուններից: Նպատակն է օգտագործել Imagen-ը, որպեսզի հնարավորինս շատ տեղեկատվություն տրամադրի (գույներ, արտացոլումներ, խտություն) մեր ալգորիթմի հաջորդ մոդելի համար:
3D մոդելների ստեղծում NeRF-ով
Հաջորդը Dreamfusion-ն օգտագործում է մոդել, որը հայտնի է որպես a Նյարդային ճառագայթման դաշտ կամ NeRF՝ ստեղծված պատկերների հավաքածուից իրականում ստեղծելու 3D մոդելը: NeRF-ները ի վիճակի են ստեղծել բարդ 3D տեսարաններ՝ տրված 2D պատկերների տվյալների շտեմարանով:
Փորձենք հասկանալ, թե ինչպես է աշխատում NeRF-ը:
Մոդելը նպատակ ունի ստեղծել շարունակական ծավալային տեսարանի գործառույթ՝ օպտիմիզացված 2D պատկերների տրամադրված տվյալների բազայից:
Եթե մոդելը ստեղծում է ֆունկցիա, որո՞նք են մուտքագրումը և ելքը:
Տեսարանի ֆունկցիան ընդունում է 3D դիրք և 2D դիտման ուղղություն որպես մուտքագրում: Ֆունկցիան այնուհետև թողարկում է գույն (RGB-ի տեսքով) և որոշակի ծավալի խտություն:
Հատուկ տեսանկյունից 2D պատկեր ստեղծելու համար մոդելը կստեղծի 3D կետերի մի շարք և կանցկացնի այդ կետերը տեսարանային ֆունկցիայի միջոցով՝ վերադարձնելու գույնի և ծավալի խտության արժեքների մի շարք: Ծավալի մատուցման տեխնիկան այնուհետև այդ արժեքները կվերածի 2D պատկերի ելքի:
Օգտագործելով NeRF և 2D դիֆուզիոն մոդելները միասին
Այժմ, երբ մենք գիտենք, թե ինչպես է աշխատում NeRF-ը, եկեք տեսնենք, թե ինչպես է այս մոդելը կարող ստեղծել ճշգրիտ 3D մոդելներ մեր ստեղծած պատկերներից:
Յուրաքանչյուր տրամադրված տեքստային հուշման համար DreamFusion-ը զրոյից վարժեցնում է պատահականորեն սկզբնավորվող NeRF-ը: Յուրաքանչյուր կրկնություն ընտրում է տեսախցիկի պատահական դիրքը գնդաձև կոորդինատների մի շարքում: Մտածեք մոդելի մասին, որը պատված է ապակե գնդում: Ամեն անգամ, երբ մենք ստեղծում ենք մեր 3D մոդելի նոր պատկեր, մենք կընտրենք պատահական կետ մեր ոլորտում որպես մեր արդյունքի դիտակետ: DreamFusion-ը նաև կընտրի լույսի պատահական դիրք l օգտագործել մատուցման համար։
Երբ մենք ունենանք տեսախցիկի և լույսի դիրքը, NeRF մոդելը կարտացոլվի: DreamFusion-ը նաև պատահականորեն ընտրություն կկատարի գունավոր ռենդերի, առանց հյուսվածքի և ալբեդոյի առանց ստվերավորման:
Մենք ավելի վաղ նշել ենք, որ մենք ցանկանում ենք, որ մեր տեքստից պատկեր մոդելը (Imagen) արտադրի բավականաչափ պատկերներ՝ ներկայացուցչական նմուշ ստեղծելու համար:
Ինչպե՞ս է Dreamfusion-ը դա անում:
Dreamfusion-ը պարզապես մի փոքր փոփոխում է մուտքագրման հուշումը նախատեսված անկյուններին հասնելու համար: Օրինակ, մենք կարող ենք հասնել բարձր բարձրության անկյունների՝ ավելացնելով «վերևի տեսքը» մեր հուշումին: Մենք կարող ենք ձևավորել այլ անկյուններ՝ ավելացնելով արտահայտություններ, ինչպիսիք են «առջևի տեսք», «կողային տեսք» և «հետևի տեսք»:
Տեսարանները բազմիցս ցուցադրվում են տեսախցիկի պատահական դիրքերից: Այս արտապատկերումները այնուհետև անցնում են միավորի թորման կորստի ֆունկցիայի միջոցով: Պարզ գրադիենտ իջնելու մոտեցումը կամաց-կամաց կբարելավի 3D մոդելը մինչև այն չհամընկնի տեքստով նկարագրված տեսարանի հետ:
Երբ մենք ցուցադրենք 3D մոդելը, օգտագործելով NeRF, մենք կարող ենք օգտագործել Marching Cubes ալգորիթմ մեր մոդելի 3D ցանցը դուրս բերելու համար: Այնուհետև այս ցանցը կարող է ներմուծվել հանրաճանաչ 3D ռենդերների կամ մոդելավորման ծրագրերի մեջ:
Սահմանափակումները
Թեև DreamFusion-ի արդյունքը բավական տպավորիչ է, քանի որ այն օգտագործում է տեքստից պատկեր տարածման գոյություն ունեցող մոդելները նորովի, հետազոտողները նշել են մի քանի սահմանափակումներ:
Դիտարկվել է, որ SDS կորստի ֆունկցիան տալիս է գերհագեցած և չափից ավելի հարթ արդյունքներ: Դուք կարող եք դա դիտարկել ելքերում հայտնաբերված անբնական գունավորման և ճշգրիտ մանրամասների բացակայության մեջ:
DreamFusion ալգորիթմը սահմանափակված է նաև Imagen մոդելի թողարկման լուծաչափով, որը 64 x 64 պիքսել է: Սա հանգեցնում է նրան, որ սինթեզված մոդելները զուրկ են մանր մանրամասներից:
Ի վերջո, հետազոտողները նշել են, որ 3D տվյալներից 2D մոդելների սինթեզման մեջ առկա է ներհատուկ մարտահրավեր: Կան բազմաթիվ հնարավոր 3D մոդելներ, որոնք մենք կարող ենք ստեղծել 2D պատկերների հավաքածուից, ինչը բավականին դժվար և նույնիսկ երկիմաստ է դարձնում օպտիմալացումը:
Եզրափակում
DreamFusion-ի 3D արտապատկերումն այնքան լավ է աշխատում, քանի որ տեքստ-պատկեր դիֆուզիոն մոդելները կարող են ստեղծել ցանկացած առարկա կամ տեսարան: Տպավորիչ է, թե ինչպես է նեյրոնային ցանցը կարողանում հասկանալ տեսարանը 3D տարածության մեջ՝ առանց որևէ եռաչափ ուսուցման տվյալների: Խորհուրդ եմ տալիս կարդալ ամբողջ թուղթ DreamFusion ալգորիթմի տեխնիկական մանրամասների մասին ավելին իմանալու համար:
Հուսանք, որ այս տեխնոլոգիան կբարելավվի, որպեսզի ի վերջո ստեղծի ֆոտոռեալիստական 3D մոդելներ: Պատկերացրեք ամբողջ տեսախաղերը կամ սիմուլյացիաները, որոնք օգտագործում են AI-ի կողմից ստեղծված միջավայրեր: Այն կարող է նվազեցնել վիդեո խաղերի մշակողների մուտքի արգելքը՝ ստեղծելու ընկղմվող 3D աշխարհներ:
Ի՞նչ եք կարծում, ապագայում ի՞նչ դեր կխաղան տեքստային 3D մոդելները:
Թողնել գրառում