სარჩევი[დამალვა][ჩვენება]
ტექსტიდან გამოსახულების დიდმა მოდელებმა მნიშვნელოვანი წინსვლა მოახდინეს ხელოვნური ინტელექტის განვითარებაში, მაღალი ხარისხის და დივერსიფიცირებული სურათის სინთეზის წარმოებით მოცემული ტექსტური მოთხოვნიდან.
ამ მოდელებს არ შეუძლიათ საგნების უნიკალური წარმოდგენების სინთეზირება სხვადასხვა გარემოში ან საგნების გარეგნობის გამეორება მოცემულ საცნობარო კომპლექტში.
ახლად გამოშვებული ტექნოლოგიები, როგორიცაა OpenAI's DALL.E2 ან StabilityAI's სტაბილური დიფუზია და Midjourney უკვე იჭერენ ინტერნეტს. ახლა დროა შედეგების მორგება. მაინც როგორ?
Google DreamBooth AI მოვიდა.
DreamBooth-ს აქვს სურათის თემის ამოცნობა, მისი ორიგინალური კონტექსტიდან დეკონსტრუქცია და შემდეგ ზუსტად სინთეზირება ახალ სასურველ კონტექსტში. გარდა ამისა, მისი გამოყენება შესაძლებელია AI სურათის ამჟამინდელ გენერატორებთან.
ამ სტატიაში ჩვენ ღრმად გადავხედავთ DreamBooth-ს, მის გამოყენებას, ინსტრუქციას, შეზღუდვებს და ბევრ სხვას.
რა არის Dreambooth?
ოცნების ჯიხური, სრულიად ახალი ტექსტიდან გამოსახულების დიფუზიის მოდელი, წარმოადგინა Google-მა. წერილობითი მოთხოვნა შეიძლება გამოყენებულ იქნას როგორც სახელმძღვანელო Google DreamBooth AI-ის მიერ მომხმარებლის მიერ შერჩეული საგნის ფოტოების ფართო სპექტრის გენერირებისთვის სხვადასხვა პარამეტრებში.
ბოსტონის უნივერსიტეტისა და Google-ის კვლევითმა ჯგუფმა შეიმუშავა DreamBooth, უახლესი ტექნიკა ტექსტის გამოსახულების მოდელების შეცვლისთვის, რომლებმაც გაიარეს ფართო წინასწარი მომზადება.
საერთო კონცეფცია საკმაოდ მარტივია: მათ სურთ გაზარდონ ენის ხედვის ლექსიკონი ისე, რომ უჩვეულო ჟეტონების ID ასოცირდება მორგებულ თემებთან, რომელთა განსაზღვრაც მომხმარებლებს შეუძლიათ.
მოდელის მთავარი მიზანია მომხმარებლების დაკავშირება ტექსტიდან სურათზე დიფუზიის მოდელი მათთვის საჭირო რესურსების მიცემით მათ მიერ შერჩეული საგნის მაგალითების ფოტორეალისტური წარმოდგენის შესაქმნელად.
შედეგად, ეს ტექნიკა კარგად მუშაობს სხვადასხვა სიტუაციებში გამოწვევების შეჯამებისთვის.
Google-ის DreamBooth განსხვავდება ტექსტის გამოსახულების წინა ინსტრუმენტებისგან, როგორიცაა DALL-E2, სტაბილური დიფუზიადა შუა მოგზაურობა, იმით, რომ ის მომხმარებლებს უფრო მეტ კონტროლს აძლევს თემის სურათზე, სანამ მათ დიფუზიის მოდელის მანიპულირებას მისცემენ ტექსტზე დაფუძნებული შეყვანის გამოყენებით.
მისი მახასიათებლებია;
- DreamBooth AI-მ შესაძლოა გააუმჯობესოს ტექსტი-სურათის მოდელი 3-5 სურათით.
- ორიგინალური ფოტორეალისტური ფოტოების შექმნა შესაძლებელია DreamBooth AI-ით.
- გარდა ამისა, DreamBooth AI-ს შეუძლია შექმნას თემის ფოტოები მრავალი კუთხით.
განაცხადის
ხელოვნების რენდციები
ეს ამოცანა კონკრეტულად განსხვავდება სტილის გადაცემისგან, რომელიც ინარჩუნებს წყაროს სცენის სემანტიკას, ხოლო ორიგინალურ სცენაში სხვა სურათის სტილს აერთიანებს.
კრეატიული მიდგომიდან გამომდინარე, AI-ს შეუძლია განახორციელოს მნიშვნელოვანი სცენის ცვლილებები იდენტიფიკაციისა და თემის ინსტანციის სპეციფიკის შენარჩუნებით.
ქონების მოდიფიკაცია
საგნის მაგალითის მახასიათებლები შეიძლება შეიცვალოს DreamBooth AI-ით.
აქსესორიზაცია
ძლიერი კომპოზიცია თაობის მოდელამდე არის ის, რაც DreamBooth AI-ს უნარს ალამაზებს ობიექტების ასე საინტერესოს.
რეკონტექსტუალიზაცია
DreamBooth AI-ს შეუძლია შექმნას გამორჩეული სურათები გარკვეული საგნისთვის, გაწვრთნილ მოდელს წინადადების მინიჭებით, რომელიც მოიცავს უნიკალურ იდენტიფიკატორს და კლასის სახელს.
მას შეუძლია შექმნას სუბიექტი უნიკალურ, ადრე გაუგონარ პოზებში, არტიკულაციაში და სცენის სტრუქტურაში, ვიდრე გარემოს შეცვლა. რეალისტური ასახვები და ჩრდილები, ასევე ურთიერთქმედება სუბიექტსა და მიმდებარე ობიექტებს შორის.
Dreambooth-ის გაკვეთილი
ამ გაკვეთილში ჩვენ მივყვებით Google Collab ნოუთბუქი, და მე გაგივლით, რაც გაგაგებინებთ და დამოუკიდებლად გამოიყენებთ მას.
GPU-ს დაყენება და ბიბლიოთეკების დაყენება
იმის გარკვევა, თუ რა ტიპის GPU და VRAM არის ხელმისაწვდომი, პირველი ნაბიჯია. ასევე აუცილებელია რამდენიმე მოთხოვნებისა და დამოკიდებულების დაყენება. უბრალოდ დააჭირეთ დაკვრის ღილაკს, შემდეგ დაელოდეთ მის დასრულებას.
შექმენით ანგარიში Huggingface-ზე და შექმენით ჟეტონი
შემდეგი ნაბიჯი არის Huggingface ანგარიშზე რეგისტრაცია. როდესაც დაასრულებთ, დააწკაპუნეთ პარამეტრებზე ზედა მარჯვენა კუთხეში. თქვენ ჩამოხვალთ შემდეგ გვერდზე.
შექმენით ჟეტონი და სახელი აქედან მოთხოვნის შესაბამისად. ჟეტონი უნდა იყოს კოპირებული და ჩასმული Google collab-ში ქვემოთ მოცემულ უჯრედში.
დააინსტალირეთ xformers
ამ ეტაპზე, თქვენ შეგიძლიათ უბრალოდ დააჭიროთ დაკვრის ღილაკს, რათა დააინსტალიროთ xformers გაშვების დროზე დაწკაპუნებით.
Drive-თან დაკავშირება
ახლა თქვენ უბრალოდ უნდა გაუშვათ ეს უჯრედი google დისკთან დასაკავშირებლად.
შეიყვანეთ მოთხოვნა
შემდეგ უჯრედში თქვენ უბრალოდ უნდა შეიყვანოთ მოთხოვნა.
სურათების ატვირთვა
ამ ეტაპზე, თქვენ უბრალოდ უნდა ატვირთოთ სურათები, რომელთა მომზადებაც გინდოდათ.
მატარებელი AI მოდელი
ეს არის ყველაზე მნიშვნელოვანი ეტაპი, რადგან თქვენ გამოიყენებთ DreamBooth-ს ახალი AI მოდელის მოსამზადებლად, რომელიც დაფუძნებულია თქვენს ყველა წარდგენილ საცნობარო ფოტოზე. თქვენ უნდა შემოიფარგლოთ თქვენი ყურადღება შეყვანის ორ ველზე. "—instance prompt" არის პირველი პარამეტრი. აქ უნდა მიუთითოთ ძალიან განსხვავებული სახელი.
არგუმენტი „–კონცეფციის სია“ არის მეორე კრიტიკული შეყვანის ველი. მას უნდა დაერქვას სახელი, რათა შეესაბამებოდეს "მოთხოვნის შეცვლას" განყოფილებაში გამოყენებულს.
შექმენით AI სურათები
ამ ეტაპზე შეიქმნება AI სურათები, სადაც შეგიძლიათ შეიყვანოთ ტექსტური ინსტრუქციები.
Dreambooth შეზღუდვები
- ბრძანების სტრიქონი ხდება ბარიერი, რომ განმეორდეს თემაში დეტალების მაღალი ხარისხით. DreamBooth-ს შეუძლია შეცვალოს საგნის კონტექსტი, მაგრამ თუ მოდელს სურს თავად შეცვალოს სუბიექტი, არის პრობლემები ჩარჩოსთან დაკავშირებით.
- კიდევ ერთი საკითხია გამომავალი სურათის გადაჭარბება შეყვანის სურათზე. თუ არ არის მოწოდებული საკმარისი სურათები, თემა შეიძლება არ განიხილებოდეს ან შეიძლება შერეული იყოს წარმოდგენილი სურათების კონტექსტთან. როდესაც იკითხება უცნაური თაობის კონტექსტი, იგივე ხდება.
დასკვნა
ერთი ტექსტის შეყვანიდან გამოსავლების შესაქმნელად, ტექსტიდან გამოსახულების მოდელების უმეტესობას სჭირდება მილიონობით პარამეტრი და ბიბლიოთეკა.
DreamBooth ამარტივებს კონტენტის შეძენას და გამოყენებას მომხმარებლებისთვის მხოლოდ სამიდან ხუთ თემატურ ფოტოზე ტექსტური ფონის შეყვანის მოთხოვნით.
დატოვე პასუხი