ბოლო წლებში ღრმა სწავლის მოდელები უფრო ეფექტური გახდა ადამიანის ენის გაგებაში.
იფიქრეთ პროექტებზე, როგორიცაა GPT-3, რომელსაც ახლა შეუძლია შექმნას მთელი სტატიები და ვებსაიტები. GitHub-მა ცოტა ხნის წინ წარმოადგინა GitHub კოპილოტი, სერვისი, რომელიც უზრუნველყოფს კოდის მთელ ფრაგმენტებს, უბრალოდ საჭირო კოდის ტიპის აღწერით.
OpenAI-ის, Facebook-ისა და Google-ის მკვლევარები მუშაობდნენ ღრმა სწავლის გამოყენების გზებზე სხვა ამოცანის შესასრულებლად: სურათების წარწერა. დიდი მონაცემთა ნაკრების გამოყენებით მილიონობით ჩანაწერით, მათ მიიღეს რამდენიმე გასაკვირი შედეგი.
ბოლო დროს ეს მკვლევარები ცდილობდნენ საპირისპირო დავალების შესრულებას: სურათების შექმნას წარწერიდან. ახლა შესაძლებელია თუ არა აღწერიდან სრულიად ახალი სურათის შექმნა?
ეს გზამკვლევი შეისწავლის ტექსტის გამოსახულების ყველაზე მოწინავე ორ მოდელს: OpenAI-ს DALL-E 2 და Google-ის Imagen AI-ს. თითოეულმა ამ პროექტმა შემოიტანა ინოვაციური მეთოდები, რომლებმაც შეიძლება შეცვალონ საზოგადოება, როგორც ჩვენ ვიცით.
მაგრამ პირველ რიგში, მოდით გავიგოთ, რას ვგულისხმობთ ტექსტიდან გამოსახულების გენერირებაში.
რა არის ტექსტი სურათზე გენერაცია?
ტექსტი-სურათის მოდელები საშუალებას აძლევს კომპიუტერებს შექმნან ახალი და უნიკალური სურათები მოთხოვნის საფუძველზე. ადამიანებს ახლა შეუძლიათ მიაწოდონ იმ სურათის ტექსტური აღწერა, რომლის შექმნაც სურთ, ხოლო მოდელი შეეცდება შექმნას ვიზუალი, რომელიც მაქსიმალურად ემთხვევა ამ აღწერას.
მანქანური სწავლების მოდელებმა გამოიყენეს დიდი მონაცემთა ნაკრები, რომელიც შეიცავს გამოსახულების წარწერის წყვილებს, შემდგომი მუშაობის გასაუმჯობესებლად.
ყველაზე მეტად ტექსტი სურათზე მოდელები იყენებენ ტრანსფორმატორის ენის მოდელს მოთხოვნის ინტერპრეტაცია. ამ ტიპის მოდელი არის ა ნერვული ქსელის რომელიც ცდილობს შეისწავლოს ბუნებრივი ენის კონტექსტი და სემანტიკური მნიშვნელობა.
შემდეგი, გენერაციული მოდელები, როგორიცაა დიფუზიის მოდელები და გენერაციული საპირისპირო ქსელები გამოიყენება გამოსახულების სინთეზისთვის.
რა არის DALLE 2?
DALL-E2 არის OpenAI-ს კომპიუტერული მოდელი, რომელიც გამოვიდა 2022 წლის აპრილში. მოდელის ტრენინგი ჩატარდა მილიონობით ეტიკეტირებული სურათის მონაცემთა ბაზაზე, რათა დააკავშიროს სიტყვები და ფრაზები სურათებთან.
მომხმარებლებს შეუძლიათ აკრიფონ მარტივი ფრაზა, როგორიცაა „კატა ჭამს ლაზანიას“ და DALL-E 2 გამოიმუშავებს საკუთარ ინტერპრეტაციას იმის შესახებ, რის აღწერასაც ცდილობს ეს ფრაზა.
გარდა სურათების ნულიდან შექმნისა, DALL-E 2-ს შეუძლია არსებული სურათების რედაქტირებაც. ქვემოთ მოყვანილ მაგალითში DALL-E-მ შეძლო ოთახის შეცვლილი სურათის გენერირება დამატებითი დივანით.
DALL-E 2 არის მხოლოდ ერთი მრავალი მსგავსი პროექტი, რომელიც OpenAI-მ გამოუშვა ბოლო რამდენიმე წლის განმავლობაში. OpenAI-ს GPT-3 გახდა ახალი ამბების ღირსი, როდესაც ჩანდა სხვადასხვა სტილის ტექსტის გენერირება.
ამჟამად, DALL-E 2 ჯერ კიდევ ბეტა ტესტირებაშია. დაინტერესებულ მომხმარებლებს შეუძლიათ დარეგისტრირდნენ მათზე ელოდება სიაში და დაელოდეთ წვდომას.
როგორ მუშაობს იგი?
მიუხედავად იმისა, რომ DALL-E 2-ის შედეგები შთამბეჭდავია, შეიძლება გაინტერესებთ როგორ მუშაობს ეს ყველაფერი.
DALL-E 2 არის OpenAI-ის GPT-3 პროექტის მულტიმოდალური განხორციელების მაგალითი.
პირველ რიგში, მომხმარებლის ტექსტური მოთხოვნა მოთავსებულია ტექსტის ენკოდერში, რომელიც ასახავს მოთხოვნას წარმომადგენლობით სივრცეში. DALL-E 2 იყენებს სხვა OpenAI მოდელს, სახელწოდებით CLIP (Contrastive Language-Image Pre-Training) ბუნებრივი ენიდან სემანტიკური ინფორმაციის მისაღებად.
შემდეგი, მოდელი ცნობილი როგორც ადრე ასახავს ტექსტის დაშიფვრას სურათის დაშიფვრაში. სურათის ეს კოდირება უნდა ასახავდეს ტექსტის კოდირების საფეხურზე ნაპოვნი სემანტიკურ ინფორმაციას.
რეალური სურათის შესაქმნელად, DALL-E 2 იყენებს გამოსახულების დეკოდერს ვიზუალის გენერირებისთვის სემანტიკური ინფორმაციის და გამოსახულების კოდირების დეტალების გამოყენებით. OpenAI იყენებს შეცვლილ ვერსიას ᲡᲠᲘᲐᲚᲘ მოდელი გამოსახულების გენერირებისთვის. GLIDE ეყრდნობა ა დიფუზიის მოდელი სურათების შესაქმნელად.
DALL-E 2 მოდელში GLIDE-ის დამატებამ უფრო ფოტორეალისტური გამომავალი საშუალება მისცა. ვინაიდან GLIDE მოდელი არის სტოქასტური ან შემთხვევით განსაზღვრული, DALL-E 2 მოდელს შეუძლია მარტივად შექმნას ვარიაციები მოდელის განმეორებით გაშვებით.
შეზღუდვები
მიუხედავად DALL-E 2 მოდელის შთამბეჭდავი შედეგებისა, მას მაინც აქვს გარკვეული შეზღუდვები.
მართლწერის ტექსტი
მოთხოვნა, რომელიც ცდილობს DALL-E 2 ტექსტის გენერირებას, ცხადყოფს, რომ მას უჭირს სიტყვების მართლწერა. ექსპერტები ვარაუდობენ, რომ ეს შეიძლება იყოს იმის გამო, რომ ორთოგრაფიული ინფორმაცია არ არის ნაწილი სასწავლო მონაცემთა ნაკრები.
კომპოზიციური მსჯელობა
მკვლევარები აკვირდებიან, რომ DALL-E 2-ს ჯერ კიდევ აქვს გარკვეული სირთულე კომპოზიციური მსჯელობით. მარტივად რომ ვთქვათ, მოდელს შეუძლია გაიგოს გამოსახულების ცალკეული ასპექტები, მაგრამ მაინც უჭირს ამ ასპექტებს შორის ურთიერთობის გარკვევა.
მაგალითად, თუ მოწოდებული იქნება „წითელი კუბი ლურჯი კუბის თავზე“, DALL-E ზუსტად წარმოქმნის ლურჯ კუბს და წითელ კუბს, მაგრამ ვერ ახერხებს მათ სწორად განთავსებას. ასევე დაფიქსირდა, რომ მოდელს აქვს სირთულეები მოთხოვნებთან დაკავშირებით, რომლებიც საჭიროებენ ობიექტების სპეციფიკურ რაოდენობას.
მიკერძოება მონაცემთა ნაკრებში
თუ მოთხოვნა არ შეიცავს სხვა დეტალებს, დაფიქსირდა DALL-E, რომელიც ასახავს თეთრკანიან ან დასავლურ ადამიანებს და გარემოს. ეს წარმომადგენლობითი მიკერძოება ხდება მონაცემთა ნაკრებში დასავლურ-ცენტრული სურათების სიმრავლის გამო.
ასევე დაფიქსირდა, რომ მოდელი მიჰყვება გენდერულ სტერეოტიპებს. მაგალითად, ბრძანებაში „ფრენის დამსწრის“ აკრეფა ძირითადად წარმოქმნის ბორტგამცილებელ ქალთა სურათებს.
რა არის Google Imagen AI?
Google-ის გამოსახულება AI არის მოდელი, რომელიც მიზნად ისახავს შეყვანილი ტექსტიდან ფოტორეალისტური სურათების შექმნას. DALL-E-ის მსგავსად, მოდელი ასევე იყენებს ტრანსფორმატორის ენის მოდელებს ტექსტის გასაგებად და ეყრდნობა დიფუზიური მოდელების გამოყენებას მაღალი ხარისხის სურათების შესაქმნელად.
Imagen-თან ერთად, Google-მა ასევე გამოუშვა ბენჩმარკი ტექსტიდან გამოსახულების მოდელებისთვის, სახელწოდებით DrawBench. DrawBench-ის გამოყენებით, მათ შეძლეს დაკვირვება, რომ ადამიანების შემფასებლები უპირატესობას ანიჭებდნენ Imagen-ის გამომუშავებას სხვა მოდელებთან შედარებით, მათ შორის DALL-E 2-ზე.
როგორ მუშაობს იგი?
DALL-E-ის მსგავსად, Imagen ჯერ მომხმარებლის მოთხოვნას აკონვერტებს ტექსტად, რომელიც ჩაშენებულია გაყინული ტექსტის ენკოდერის საშუალებით.
Imagen იყენებს დიფუზიის მოდელს, რომელიც სწავლობს ხმაურის ნიმუშის სურათებად გადაქცევას. ამ სურათების საწყისი გამომავალი არის დაბალი გარჩევადობა და მოგვიანებით გადაეცემა სხვა მოდელს, რომელიც ცნობილია როგორც სუპერ გარჩევადობის დიფუზიური მოდელი საბოლოო გამოსახულების გარჩევადობის გაზრდის მიზნით. პირველი დიფუზიური მოდელი გამოსცემს 64 × 64 პიქსელის სურათს და მოგვიანებით აფეთქდება მაღალი რეზოლუციის 1024 × 1024 სურათზე.
Imagen-ის გუნდის კვლევის საფუძველზე, მხოლოდ ტექსტის მონაცემებზე გაწვრთნილი დიდი გაყინული ენების მოდელები კვლავ ძალზე ეფექტური ტექსტური შიფრებია ტექსტიდან გამოსახულების გენერირებისთვის.
კვლევაში ასევე მოცემულია დინამიური ზღურბლის კონცეფცია. ეს მეთოდი საშუალებას აძლევს სურათებს უფრო ფოტორეალისტურად გამოიყურებოდეს გამოსახულების გენერირებისას სახელმძღვანელო წონის გაზრდით.
DALLE 2-ის შესრულება იმიჯენის წინააღმდეგ
Google-ის ინდიკატორის წინასწარი შედეგები აჩვენებს, რომ ადამიანური რესპონდენტები უპირატესობას ანიჭებენ Imagen-ის მიერ გამომუშავებულ სურათებს DALL-E 2-ის და ტექსტის გამოსახულების სხვა მოდელებზე, როგორიცაა ლატენტური დიფუზია და VQGAN+CLIP.
Imagen-ის გუნდიდან გამოტანილმა შედეგებმა ასევე აჩვენა, რომ მათი მოდელი უკეთესად მუშაობს ტექსტის მართლწერაში, რაც DALL-E 2 მოდელის ცნობილი სისუსტეა.
თუმცა, იმის გამო, რომ Google-ს ჯერ არ გამოუქვეყნებია მოდელი საზოგადოებისთვის, ჯერ კიდევ გასარკვევია, რამდენად ზუსტია Google-ის ბენჩმარკები.
დასკვნა
ფოტორეალისტური ტექსტიდან გამოსახულების მოდელების ზრდა საკამათოა, რადგან ეს მოდელები მომწიფებულია არაეთიკური გამოყენებისთვის.
ტექნოლოგიამ შეიძლება გამოიწვიოს გამოკვეთილი შინაარსის შექმნა ან დეზინფორმაციის იარაღად. როგორც Google-ის, ასევე OpenAI-ის მკვლევარებმა ეს იციან, რის გამოც ეს ტექნოლოგიები ჯერ კიდევ ყველასთვის მიუწვდომელია.
ტექსტიდან გამოსახულების მოდელებს ასევე აქვთ მნიშვნელოვანი ეკონომიკური შედეგები. დაზარალდება თუ არა ისეთი პროფესიები, როგორიცაა მოდელები, ფოტოგრაფები და მხატვრები, თუ მოდელები, როგორიცაა DALL-E, გახდება მთავარი?
ამ მომენტისთვის, ამ მოდელებს ჯერ კიდევ აქვთ შეზღუდვები. ხელოვნური ინტელექტის მიერ გენერირებული ნებისმიერი სურათის დაკვირვება გამოავლენს მის ნაკლოვანებებს. როგორც OpenAI, ასევე Google-იც კონკურენციას უწევენ ყველაზე ეფექტურ მოდელებს, შესაძლოა დროის საკითხი იყოს ჭეშმარიტად სრულყოფილი შედეგის გენერირება: სურათი, რომელიც არ განსხვავდება რეალურისაგან.
როგორ ფიქრობთ, რა მოხდება, როდესაც ტექნოლოგია ასე შორს წავა?
დატოვე პასუხი