თქვენ ალბათ იცით, რომ კომპიუტერს შეუძლია სურათის აღწერა.
მაგალითად, ძაღლის სურათი, რომელიც თამაშობს თქვენს შვილებთან ერთად, შეიძლება ითარგმნოს როგორც „ძაღლი და ბავშვები ბაღში“. მაგრამ იცოდით, რომ საპირისპირო გზაც ახლა შესაძლებელია? თქვენ აკრიფეთ რამდენიმე სიტყვა და მანქანა წარმოქმნის ახალ სურათს.
Google-ის ძიებისგან განსხვავებით, რომელიც ეძებს არსებულ ფოტოებს, ეს ყველაფერი ახალია. ბოლო წლების განმავლობაში, OpenAI იყო ერთ-ერთი წამყვანი ორგანიზაცია, რომელიც აფიქსირებს განსაცვიფრებელ შედეგებს.
ისინი ავარჯიშებენ თავიანთ ალგორითმებს ტექსტისა და სურათების მასიურ მონაცემთა ბაზებზე. მათ გამოაქვეყნეს ნაშრომი GLIDE გამოსახულების მოდელზე, რომელიც ასობით მილიონ ფოტოზე იყო გაწვრთნილი. ფოტორეალიზმის თვალსაზრისით, ის აღემატება მათ წინა „DALL-E“ მოდელს.
ამ პოსტში ჩვენ გადავხედავთ OpenAI-ს GLIDE-ს, ერთ-ერთ რამდენიმე მომხიბვლელ ინიციატივას, რომელიც მიზნად ისახავს ფოტორეალისტური სურათების შექმნას და შეცვლას ტექსტით მართვადი დიფუზიის მოდელებით. Მოდით დავიწყოთ.
რა არის გახსენით AI Glide?
მიუხედავად იმისა, რომ სურათების უმეტესობა შეიძლება სიტყვებით იყოს აღწერილი, ტექსტის შეყვანიდან სურათების შექმნა საჭიროებს სპეციალიზებულ ცოდნას და მნიშვნელოვან დროს.
ხელოვნური ინტელექტის აგენტს ფოტორეალისტური სურათების ბუნებრივ ენაზე მოთხოვნის მიცემა არა მხოლოდ საშუალებას აძლევს ადამიანებს შექმნან მდიდარი და მრავალფეროვანი ვიზუალური მასალა უპრეცედენტო სიმარტივით, არამედ საშუალებას აძლევს შექმნას სურათების უფრო მარტივი განმეორებითი დახვეწა და წვრილმარცვლოვანი კონტროლი.
GLIDE შეიძლება გამოყენებულ იქნას არსებული ფოტოების რედაქტირებისთვის ბუნებრივი ენის ტექსტური მოთხოვნის გამოყენებით ახალი ობიექტების ჩასმა, ჩრდილების და ასახვის შესაქმნელად, შესასრულებლად გამოსახულების შეღებვა, და ასე შემდეგ.
მას ასევე შეუძლია ძირითადი ხაზის ნახატები გადააქციოს ფოტორეალისტურ ფოტოებად და აქვს ნულოვანი ნიმუშის წარმოებისა და შეკეთების განსაკუთრებული შესაძლებლობები რთული სიტუაციებისთვის.
ბოლო კვლევებმა აჩვენა, რომ ალბათობაზე დაფუძნებულ დიფუზიურ მოდელებს ასევე შეუძლიათ მაღალი ხარისხის სინთეზური სურათების შექმნა, განსაკუთრებით მაშინ, როდესაც შერწყმულია სახელმძღვანელო მიდგომასთან, რომელიც აბალანსებს მრავალფეროვნებასა და ერთგულებას.
OpenAI-მ გამოაქვეყნა ა მართვადი დიფუზიის მოდელი მაისში, რაც საშუალებას აძლევს დიფუზიურ მოდელებს განაპირობოს კლასიფიკატორის ეტიკეტები. GLIDE აუმჯობესებს ამ წარმატებას ტექსტის პირობითი გამოსახულების შექმნის პრობლემაზე მართვადი დიფუზიის შემოტანით.
3.5 მილიარდი პარამეტრის GLIDE დიფუზიის მოდელის ტრენინგის შემდეგ, ტექსტური შიფრატორის გამოყენებით, ბუნებრივი ენის აღწერილობისთვის, მკვლევარებმა გამოსცადეს ორი ალტერნატიული სახელმძღვანელო სტრატეგია: CLIP ხელმძღვანელობა და ხელმძღვანელობა კლასიფიკატორისგან თავისუფალი.
CLIP არის მასშტაბირებადი ტექნიკა ტექსტისა და სურათების ერთობლივი წარმოდგენის შესასწავლად, რომელიც აწვდის ქულას იმის მიხედვით, თუ რამდენად ახლოს არის სურათი წარწერასთან.
გუნდმა გამოიყენა ეს სტრატეგია თავის დიფუზიურ მოდელებში კლასიფიკატორის ჩანაცვლებით CLIP მოდელით, რომელიც „მიმართავს“ მოდელებს. იმავდროულად, კლასიფიკატორისგან თავისუფალი სახელმძღვანელო არის დიფუზიური მოდელების მიმართვის სტრატეგია, რომელიც არ გულისხმობს ცალკე კლასიფიკატორის მომზადებას.
GLIDE არქიტექტურა
GLIDE არქიტექტურა შედგება სამი კომპონენტისგან: Ablated Diffusion Model (ADM) გაწვრთნილი 64 × 64 გამოსახულების გენერირებისთვის, ტექსტის მოდელი (ტრანსფორმატორი), რომელიც გავლენას ახდენს გამოსახულების გენერირებაზე ტექსტური მოთხოვნის საშუალებით და ამაღლებული ნიმუში, რომელიც გარდაქმნის ჩვენს პატარა 64 × 64-ს. სურათები უფრო ინტერპრეტაციად 256 x 256 პიქსელზე.
პირველი ორი კომპონენტი მუშაობს ერთად, რათა გააკონტროლოს სურათის გენერირების პროცესი ისე, რომ იგი სათანადოდ ასახავდეს ტექსტის მოთხოვნას, ხოლო ეს უკანასკნელი საჭიროა იმისათვის, რომ ჩვენ მიერ შექმნილი სურათები უფრო ადვილად აღსაქმელი იყოს. GLIDE პროექტი შთაგონებული იყო ა 2021 წელს გამოქვეყნებული ანგარიში ამან აჩვენა, რომ ADM ტექნიკა აჯობებს ამჟამად პოპულარულ, თანამედროვე გენერაციულ მოდელებს სურათის ნიმუშის ხარისხის თვალსაზრისით.
ADM-ისთვის GLIDE-ის ავტორებმა გამოიყენეს იგივე ImageNet 64 x 64 მოდელი, როგორც დჰარივალი და ნიკოლი, მაგრამ 512 არხით 64-ის ნაცვლად. ამის შედეგად ImageNet მოდელს აქვს დაახლოებით 2.3 მილიარდი პარამეტრი.
GLIDE-ს გუნდს, დჰარივალისა და ნიკოლისგან განსხვავებით, სურდა უფრო მეტი პირდაპირი კონტროლი ჰქონოდა სურათის გენერირების პროცესზე, რითაც მათ გააერთიანეს ვიზუალური მოდელი ყურადღების გააქტიურების ტრანსფორმატორთან. GLIDE გაძლევთ გარკვეულ კონტროლს სურათის გენერირების პროცესის გამომუშავებაზე ტექსტის შეყვანის მოთხოვნების დამუშავებით.
ეს მიიღწევა ტრანსფორმატორის მოდელის სწავლებით ფოტოებისა და წარწერების შესაფერისად დიდ მონაცემთა ბაზაზე (მსგავსია DALL-E პროექტში გამოყენებული).
ტექსტი თავდაპირველად დაშიფრულია K ჟეტონების სერიაში, რათა განპირობებული იყოს იგი. ამის შემდეგ, ნიშნები იტვირთება ტრანსფორმატორის მოდელში. ტრანსფორმატორის გამომავალი შეიძლება გამოყენებულ იქნას ორი გზით. ADM მოდელისთვის, კლასში ჩაშენების ნაცვლად გამოყენებულია საბოლოო ნიშნის ჩანერგვა.
მეორე, ჟეტონების ჩაშენების საბოლოო ფენა - მახასიათებლების ვექტორების სერია - დამოუკიდებლად არის დაპროექტებული ADM მოდელის თითოეული ყურადღების ფენის ზომებზე და უკავშირდება თითოეულ ყურადღების კონტექსტს.
სინამდვილეში, ეს საშუალებას აძლევს ADM მოდელს შექმნას სურათი მსგავსი ტექსტური ნიშნების ახალი კომბინაციებიდან უნიკალური და ფოტორეალისტური ფორმით, შეყვანილი სიტყვებისა და მათთან დაკავშირებული სურათების ნასწავლი გაგების საფუძველზე. ეს ტექსტური დაშიფვრის ტრანსფორმატორი შეიცავს 1.2 მილიარდ პარამეტრს და იყენებს 24 ნარჩენ ბლოკს 2048 სიგანით.
დაბოლოს, upsampler-ის დიფუზიის მოდელი მოიცავს დაახლოებით 1.5 მილიარდ პარამეტრს და განსხვავდება ძირითადი მოდელისგან იმით, რომ მისი ტექსტის ენკოდერი უფრო პატარაა, 1024 და 384 საბაზისო არხის სიგანე, საბაზისო მოდელთან შედარებით. ეს მოდელი, როგორც სახელი მიუთითებს, ეხმარება ნიმუშის განახლებას, რათა გააუმჯობესოს ინტერპრეტაცია როგორც მანქანებისთვის, ასევე ადამიანებისთვის.
დიფუზიის მოდელი
GLIDE აგენერირებს სურათებს ADM-ის საკუთარი ვერსიის გამოყენებით (ADM-G "მართვით"). ADM-G მოდელი არის დიფუზიური U-net მოდელის მოდიფიკაცია. დიფუზიური U-net მოდელი მკვეთრად განსხვავდება გამოსახულების სინთეზის უფრო გავრცელებული ტექნიკისგან, როგორიცაა VAE, GAN და ტრანსფორმატორები.
ისინი ქმნიან მარკოვის დიფუზიის საფეხურების ჯაჭვს, რათა თანდათანობით შეიყვანონ შემთხვევითი ხმაური მონაცემებში, შემდეგ კი სწავლობენ დიფუზიის პროცესის შებრუნებას და მონაცემთა საჭირო ნიმუშების აღდგენას მხოლოდ ხმაურისგან. იგი მუშაობს ორ ეტაპად: წინ და საპირისპირო დიფუზია.
წინა დიფუზიის მეთოდი, მოცემული მონაცემთა წერტილის ნიმუშის ჭეშმარიტი განაწილებიდან, ამატებს ხმაურის მცირე რაოდენობას ნიმუშს წინასწარ დაყენებული ნაბიჯების სერიის განმავლობაში. როდესაც ნაბიჯები იზრდება ზომაში და უახლოვდება უსასრულობას, ნიმუში კარგავს ყველა ცნობად მახასიათებელს და თანმიმდევრობა იწყებს იზოტროპული გაუსის მრუდის მსგავსებას.
უკანდახევის დიფუზიის დროს ფაზა, დიფუზიის მოდელი სწავლობს სურათებზე დამატებული ხმაურის ზემოქმედების შებრუნებას და წარმოქმნილ სურათს თავდაპირველ ფორმაში მიყვანას ცდილობს ორიგინალური შეყვანის ნიმუშის განაწილებას დაემსგავსოს.
დასრულებულ მოდელს შეუძლია ამის გაკეთება რეალური გაუსის ხმაურის შეყვანით და მოწოდებით. ADM-G მეთოდი განსხვავდება წინადან იმით, რომ მოდელი, ან CLIP ან მორგებული ტრანსფორმატორი, გავლენას ახდენს უკანა დიფუზიის ფაზაზე, ტექსტის მოთხოვნის ნიშნების გამოყენებით, რომლებიც შეყვანილია.
სრიალის შესაძლებლობები
1. გამოსახულების გენერაცია
GLIDE-ის ყველაზე პოპულარული და ფართოდ გამოყენებული გამოყენება ალბათ იქნება გამოსახულების სინთეზი. მიუხედავად იმისა, რომ სურათები მოკრძალებულია და GLIDE-ს უჭირს ცხოველების/ადამიანების ფორმები, ერთი კადრით გამოსახულების წარმოების პოტენციალი თითქმის გაუთავებელია.
მას შეუძლია შექმნას ცხოველების, ცნობილი ადამიანების, პეიზაჟების, შენობების და მრავალი სხვა ფოტოები, ასევე შეუძლია გააკეთოს ეს სხვადასხვა ხელოვნების სტილში, ასევე ფოტო-რეალისტურად. მკვლევართა ავტორები ამტკიცებენ, რომ GLIDE-ს შეუძლია ტექსტური შეყვანის ფართო სპექტრის ინტერპრეტაცია და ადაპტაცია ვიზუალურ ფორმატში, როგორც ეს ქვემოთ მოცემულია.
2. სრიალის შეღებვა
GLIDE-ის ფოტოების ავტომატური შეღებვა, სავარაუდოდ, ყველაზე მომხიბლავი გამოყენებაა. GLIDE-ს შეუძლია შეყვანის სახით გადაიღოს არსებული სურათი, დაამუშავოს იგი ტექსტის მოთხოვნის გათვალისწინებით იმ მდებარეობებისთვის, რომლებიც უნდა შეიცვალოს და შემდეგ მარტივად განახორციელოს აქტიური ცვლილებები ამ ნაწილებში.
ის უნდა იქნას გამოყენებული რედაქტირების მოდელთან ერთად, როგორიცაა SDEdit, კიდევ უკეთესი შედეგების მისაღებად. მომავალში, აპები, რომლებიც სარგებლობენ მსგავსი შესაძლებლობებით, შესაძლოა გადამწყვეტი იყოს კოდის გარეშე სურათის შეცვლის მიდგომების შემუშავებაში.
დასკვნა
ახლა, როდესაც ჩვენ გავიარეთ ეს პროცესი, თქვენ უნდა გაითავისოთ GLIDE-ის მუშაობის პრინციპები, ისევე როგორც მისი შესაძლებლობების ფართო სპექტრი სურათების შექმნასა და სურათში მოდიფიკაციაში.
დატოვე პასუხი