შეიძლება გსმენიათ იმის შესახებ, თუ რამდენად ძლიერი გახდა ტექსტიდან გამოსახულების ხელოვნური ინტელექტის მოდელები ბოლო რამდენიმე წლის განმავლობაში. მაგრამ იცოდით, რომ იგივე ტექნოლოგია დაგეხმარებათ 2D-დან 3D-ზე გადახტომაში?
ხელოვნური ინტელექტის გენერირებული 3D მოდელები ფართო გამოყენების შემთხვევაა დღევანდელ ციფრულ ლანდშაფტში. ვიდეო თამაშები და ფილმი ეყრდნობა კვალიფიციურ 3D შემსრულებლებს და მოდელირების პროგრამულ უზრუნველყოფას, როგორიცაა Blender, რათა შექმნან 3D აქტივები კომპიუტერის მიერ გენერირებული სცენების დასასახლებლად.
თუმცა, შესაძლებელია თუ არა, რომ ინდუსტრიამ გამოიყენოს მანქანური სწავლება 3D აქტივების შესაქმნელად ნაკლები ძალისხმევით, ისევე, როგორც დღეს 2D მხატვრები იწყებენ ისეთი ტექნოლოგიების გამოყენებას, როგორიცაა DALL-E და შუა მოგზაურობა?
ეს სტატია შეისწავლის ახალ ალგორითმს, რომელიც ცდილობს შექმნას ეფექტური ტექსტის 3D მოდელის გამოყენებით არსებული დიფუზიის მოდელები.
რა არის Dreamfusion?
დიფუზიური მოდელის შექმნის ერთ-ერთი მთავარი პრობლემა, რომელიც უშუალოდ გამოიმუშავებს 3D აქტივებს, არის ის, რომ უბრალოდ არ არის ბევრი 3D მონაცემები ხელმისაწვდომი. 2D დიფუზიის მოდელები იმდენად ძლიერი გახდა ინტერნეტში ნაპოვნი სურათების უზარმაზარი მონაცემთა ნაკრების გამო. იგივე არ შეიძლება ითქვას 3D აქტივებზე.
ზოგიერთი 3D გენერაციული ტექნიკა მუშაობს მონაცემთა ამ ნაკლებობის ირგვლივ 2D მონაცემების სიმრავლის გამოყენებით.
DreamFusion არის გენერაციული მოდელი, რომელსაც შეუძლია შექმნას 3D მოდელები მოცემული ტექსტის აღწერილობის საფუძველზე. DreamFusion მოდელი იყენებს წინასწარ გაწვრთნილ ტექსტიდან გამოსახულების დიფუზიის მოდელს ტექსტური მოთხოვნიდან რეალისტური სამგანზომილებიანი მოდელების შესაქმნელად.
მიუხედავად იმისა, რომ არ გვაქვს 3D ტრენინგის მონაცემები, ამ მიდგომამ შექმნა თანმიმდევრული 3D აქტივები მაღალი სიზუსტითა და სიღრმით.
როგორ მუშაობს?
DreamFusion ალგორითმი შედგება ორი ძირითადი მოდელისგან: 2D დიფუზიის მოდელი და ნერვული ქსელის რომელსაც შეუძლია 2D გამოსახულების გადაქცევა შეკრულ 3D სცენად.
Google-ის Imagen Text-to-Image მოდელი
ალგორითმის პირველი ნაწილი არის დიფუზიის მოდელი. ეს მოდელი პასუხისმგებელია ტექსტის სურათებად გადაქცევაზე.
გამოსახულება არის დიფუზიური მოდელი, რომელსაც შეუძლია შექმნას კონკრეტული ობიექტის გამოსახულების ვარიაციების დიდი ნიმუში. ამ შემთხვევაში, ჩვენი გამოსახულების ვარიაციები უნდა მოიცავდეს მოწოდებული ობიექტის ყველა შესაძლო კუთხეს. მაგალითად, თუ გვინდოდა ცხენის 3D მოდელის გენერირება, გვსურს ცხენის 2D გამოსახულება ყველა შესაძლო კუთხიდან. მიზანია გამოვიყენოთ Imagen, რათა მივაწოდოთ რაც შეიძლება მეტი ინფორმაცია (ფერები, ასახვა, სიმკვრივე) ჩვენი ალგორითმის შემდეგი მოდელისთვის.
3D მოდელების შექმნა NeRF-ით
შემდეგი, Dreamfusion იყენებს მოდელს, რომელიც ცნობილია როგორც a ნერვული გამოსხივების ველი ან NeRF რეალურად შექმნას 3D მოდელი გენერირებული გამოსახულების ნაკრებიდან. NeRF-ებს შეუძლიათ შექმნან რთული 3D სცენები 2D სურათების მონაცემთა ნაკრების გათვალისწინებით.
შევეცადოთ გავიგოთ როგორ მუშაობს NeRF.
მოდელის მიზანია შექმნას უწყვეტი მოცულობითი სცენის ფუნქცია, რომელიც ოპტიმიზებულია 2D სურათების მოწოდებული მონაცემთა ნაკრებიდან.
თუ მოდელი ქმნის ფუნქციას, რა არის შემავალი და გამომავალი?
სცენის ფუნქცია იღებს 3D მდებარეობას და 2D ნახვის მიმართულებას, როგორც შეყვანის სახით. შემდეგ ფუნქცია გამოსცემს ფერს (RGB-ის სახით) და მოცულობის სპეციფიკურ სიმკვრივეს.
კონკრეტული კუთხით 2D გამოსახულების გენერირებისთვის, მოდელი გამოიმუშავებს 3D წერტილების ერთობლიობას და გაუშვებს ამ წერტილებს სცენის ფუნქციის მეშვეობით, რათა დააბრუნოს ფერის და მოცულობის სიმკვრივის მნიშვნელობების ნაკრები. მოცულობის რენდერის ტექნიკა შემდეგ ამ მნიშვნელობებს გარდაქმნის 2D გამოსახულებად.
NeRF და 2D დიფუზიის მოდელების ერთად გამოყენება
ახლა, როდესაც ჩვენ ვიცით, როგორ მუშაობს NeRF, ვნახოთ, როგორ შეუძლია ამ მოდელს ზუსტი 3D მოდელების შექმნა ჩვენი გენერირებული სურათებიდან.
თითოეული მოწოდებული ტექსტური მოთხოვნისთვის DreamFusion ავარჯიშებს შემთხვევით ინიციალიზებულ NeRF-ს ნულიდან. თითოეული გამეორება ირჩევს კამერის შემთხვევით პოზიციას სფერული კოორდინატების ერთობლიობაში. იფიქრეთ შუშის სფეროში ჩასმული მოდელი. ყოველ ჯერზე, როდესაც ჩვენ ვაწარმოებთ ჩვენი 3D მოდელის ახალ სურათს, ჩვენ ვირჩევთ შემთხვევით წერტილს ჩვენს სფეროში, როგორც ჩვენი გამომავალი წერტილის უპირატესობებს. DreamFusion ასევე აირჩევს შემთხვევით განათების პოზიციას l გამოსაყენებლად გამოსაყენებლად.
მას შემდეგ რაც გვექნება კამერა და განათების პოზიცია, NeRF მოდელი იქნება გამოსახული. DreamFusion ასევე შემთხვევითი არჩევანის გაკეთებას შეარჩევს ფერად რენდერს, ტექსტურის გარეშე რენდერსა და ალბედოს რენდერს ყოველგვარი დაჩრდილვის გარეშე.
ჩვენ უკვე აღვნიშნეთ, რომ ჩვენ გვინდა, რომ ჩვენმა ტექსტიდან გამოსახულება მოდელმა (Imagen) შექმნას საკმარისი გამოსახულება წარმომადგენლობითი ნიმუშის შესაქმნელად.
როგორ ახერხებს Dreamfusion ამას?
Dreamfusion უბრალოდ ცვლის შეყვანის მოთხოვნას დანიშნულ კუთხეების მისაღწევად. მაგალითად, ჩვენ შეგვიძლია მივაღწიოთ მაღალი სიმაღლის კუთხეებს ჩვენს მოთხოვნას „ზედა ხედის“ მიმატებით. ჩვენ შეგვიძლია სხვა კუთხეების გამომუშავება ფრაზების მიმატებით, როგორიცაა „წინა ხედი“, „გვერდითი ხედი“ და „უკანა ხედი“.
სცენები არაერთხელ არის გადაღებული კამერის შემთხვევითი პოზიციებიდან. ეს გამოსახულებები შემდეგ გადის ქულის დისტილაციის დაკარგვის ფუნქციას. მარტივი გრადიენტული დაღმართის მიდგომა ნელ-ნელა გააუმჯობესებს 3D მოდელი სანამ არ დაემთხვევა ტექსტით აღწერილ სცენას.
მას შემდეგ, რაც 3D მოდელს NeRF-ის გამოყენებით გამოვიყვანთ, შეგვიძლია გამოვიყენოთ მარშის კუბების ალგორითმი რომ გამოვიტანოთ ჩვენი მოდელის 3D ბადე. ამ ბადის იმპორტი შესაძლებელია პოპულარულ 3D რენდერერში ან მოდელირების პროგრამულ უზრუნველყოფაში.
შეზღუდვები
მიუხედავად იმისა, რომ DreamFusion-ის შედეგი საკმარისად შთამბეჭდავია, რადგან ის იყენებს ტექსტიდან გამოსახულების დიფუზიის არსებულ მოდელებს ახალი გზით, მკვლევარებმა აღნიშნეს რამდენიმე შეზღუდვა.
SDS-ის დაკარგვის ფუნქცია დაფიქსირდა, რომ წარმოქმნის ზედმეტად გაჯერებულ და ზედმეტად გლუვ შედეგებს. თქვენ შეგიძლიათ შეამჩნიოთ ეს არაბუნებრივი შეფერილობისა და ზუსტი დეტალების ნაკლებობაში, რომლებიც აღმოჩენილია გამოსავლებში.
DreamFusion ალგორითმი ასევე შეზღუდულია Imagen მოდელის გამომავალი გარჩევადობით, რომელიც არის 64 x 64 პიქსელი. ეს იწვევს სინთეზირებულ მოდელებს მოკლე დეტალების ნაკლებობას.
და ბოლოს, მკვლევარებმა აღნიშნეს, რომ არსებობს თანდაყოლილი გამოწვევა 3D მონაცემებიდან 2D მოდელების სინთეზში. არსებობს მრავალი შესაძლო 3D მოდელი, რომელიც ჩვენ შეგვიძლია გამოვიმუშაოთ 2D სურათების ნაკრებიდან, რაც ოპტიმიზაციას საკმაოდ რთულ და ორაზროვანსაც კი ხდის.
დასკვნა
DreamFusion-ის 3D რენდერირება კარგად მუშაობს ტექსტიდან გამოსახულების დიფუზიის მოდელების შესაძლებლობის გამო, შექმნან ნებისმიერი ობიექტი ან სცენა. შთამბეჭდავია, როგორ შეუძლია ნერვულ ქსელს გაიგოს სცენა 3D სივრცეში ყოველგვარი 3D სასწავლო მონაცემების გარეშე. გირჩევთ წაიკითხოთ მთელი ქაღალდი რომ გაიგოთ მეტი DreamFusion ალგორითმის ტექნიკური დეტალების შესახებ.
იმედია, ეს ტექნოლოგია გაუმჯობესდება, რათა საბოლოოდ შექმნას ფოტო-რეალისტური 3D მოდელები. წარმოიდგინეთ მთელი ვიდეო თამაშები ან სიმულაციები, რომლებიც იყენებენ ხელოვნური ინტელექტის გამომუშავებულ გარემოს. მას შეუძლია შეამციროს ვიდეო თამაშების შემქმნელებისთვის შესვლის ბარიერი, რათა შექმნან ჩაძირული 3D სამყაროები!
როგორ ფიქრობთ, რა როლს შეასრულებენ სამგანზომილებიანი ტექსტის მოდელები მომავალში?
დატოვე პასუხი