სარჩევი[დამალვა][ჩვენება]
ახალ და გაუმჯობესებულ AI-ს აქვს გაუმჯობესებული შესაძლებლობები, გაგება და მაღალი გარჩევადობის სურათების წარმოების შესაძლებლობა. შესაძლოა, ამ ბოლო დროს ინტერნეტში მოძრავი უცნაური და სახალისო სურათები შეგხვედრიათ.
შიბა ინუს ძაღლი გამოწყობილია ბერეტში და შავ კუსფერში. და ზღვის წავი ჰოლანდიელი მხატვრის ვერმეერის "გოგონა მარგალიტის საყურით". და არის ჭიქა წვნიანი, რომელიც მატყლის ურჩხულს ჰგავს.
ეს სურათები არ არის შექმნილი ადამიანის ხელოვანის მიერ.
ამის ნაცვლად, ისინი შექმნა DALL-E 2-მა, ხელოვნური ინტელექტის ახალმა სისტემამ, რომელსაც შეუძლია ტექსტური აღწერილობების სურათებად გადაქცევა.
უბრალოდ ჩაწერეთ რისი ნახვაც გსურთ და AI შეგიქმნით მას - ნათელი დეტალებით, შესანიშნავი ხარისხით და, ზოგიერთ შემთხვევაში, ნამდვილი გამომგონებლობით. ამ პოსტში ჩვენ ღრმად გადავხედავთ OpenAI-ის უახლეს კვლევას, DALL.E 2, ასევე როგორ მუშაობს ის და ბევრად უფრო. Დავიწყოთ.
რა არის ზუსტად DALL.E 2?
DALL-E 2 არის „გენერაციული მოდელი“, მანქანათმცოდნეობის ალგორითმის ტიპი, რომელიც წარმოქმნის რთულ გამომავალს, ვიდრე პროგნოზირების ან კლასიფიკაციის ამოცანების შესრულებას შეყვანის მონაცემებზე.
თქვენ აწვდით DALL-E 2-ს წერილობით აღწერილობით და ის ქმნის მის შესაბამის სურათს. ცნებების, თვისებების და სტილის შერწყმით, OpenAI-ს DALLE 2-ს შეუძლია შექმნას ინოვაციური, რეალისტური გრაფიკა და ხელოვნება ძირითადი ლინგვისტური აღწერილობიდან.
უახლესი ვერსია, DALLE 2, როგორც ამბობენ, უფრო მრავალმხრივია და შეუძლია სურათების გადაღება წარწერებიდან უფრო მაღალი გარჩევადობით და კრეატიული სტილის უფრო ფართო სპექტრით. მაგალითად, ქვემოთ მოყვანილი სურათები (DALL-E 2 ბლოგის პოსტიდან) შექმნილია აღწერით „ცხენზე ამხედრებული ასტრონავტი“.
ერთი აღწერილობა ასკვნის „ფანქრის ესკიზის მსგავსად“, ხოლო მეორე ასკვნის „ფოტორეალისტურად“.
მას ასევე შეუძლია შეცვალოს არსებული ფოტოები გასაოცარი სიზუსტით. ამრიგად, თქვენ შეგიძლიათ დაამატოთ ან წაშალოთ ელემენტები ფერების, ასახვისა და ჩრდილების შენარჩუნებისას, ეს ყველაფერი ორიგინალური გამოსახულების იერსახის შენარჩუნებით.
როგორ მუშაობს?
DALL-E 2 იყენებს CLIP და დიფუზიის მოდელებს, ორ დახვეწილ ღრმა სწავლება ბოლო წლებში განვითარებული მიდგომები. თუმცა, ის ეფუძნება იმავე ცნებას, როგორც ყველა სხვა ღრმა ნეირონული ქსელები: წარმომადგენლობითი სწავლა. CLIP ერთდროულად ავარჯიშებს ორს ნეირონული ქსელები სურათებზე და წარწერებზე.
ერთი ქსელი სწავლობს ვიზუალურ წარმოდგენებს სურათზე, ხოლო მეორე სწავლობს ტექსტის წარმოდგენებს. ტრენინგის დროს, ორი ქსელი ცდილობს შეცვალოს მათი პარამეტრები ისე, რომ შესადარებელი სურათები და აღწერილობები გამოიწვიოს მსგავსი ჩაშენება.
"დიფუზია", გენერაციული მოდელის ტიპი, რომელიც სწავლობს სურათების გადაღებას მისი სასწავლო ნიმუშების თანდათანობით ხმაურისა და ხმაურის ამოღების გზით, არის მანქანური სწავლების სხვა მიდგომა, რომელიც გამოიყენება DALL-E 2-ში. დიფუზიის მოდელები ჰგავს ავტოენკოდერებს, რადგან ისინი გარდაქმნიან შეყვანის მონაცემებს ჩაშენებული წარმოდგენა და შემდეგ გამოიყენეთ ჩაშენებული ინფორმაცია ორიგინალური მონაცემების ხელახლა შესაქმნელად.
OpenAI-ის გამოყენება ენის მოდელი CLIP, რომელსაც შეუძლია ტექსტური აღწერილობების დაკავშირება ფოტოებთან, ის ჯერ თარგმნის წერილობით მოთხოვნას შუალედურ ფორმაში, რომელიც აერთიანებს იმ მნიშვნელოვან თვისებებს, რაც სურათს უნდა ჰქონდეს ამ მოთხოვნასთან შესატყვისად (CLIP-ის მიხედვით).
მეორე, DALL-E 2 ქმნის CLIP-ის შესაბამისობას გამოსახულება დიფუზიური მოდელის გამოყენებით, რომელიც არის ნერვული ქსელი.
შემთხვევითი პიქსელებით დამახინჯებულ ფოტოებზე ისწავლება დიფუზიური მოდელები. ისინი სწავლობენ ფოტოების ორიგინალური ფორმის აღდგენას. დიფუზიურ მოდელებს შეუძლიათ შექმნან მაღალი ხარისხის სინთეზური სურათები, განსაკუთრებით მაშინ, როდესაც გამოიყენება სახელმძღვანელო მიდგომასთან ერთად, რომელიც უპირატესობას ანიჭებს სიზუსტეს მრავალფეროვნებაზე.
შედეგად, დიფუზიის მოდელი იღებს შემთხვევით პიქსელებს და იყენებს CLIP-ს, რათა გადაიყვანოს ისინი ახალ სურათად, რომელიც ემთხვევა სიტყვის მოთხოვნას. დიფუზიის კონცეფციის გამო, DALL-E 2-ს შეუძლია უფრო სწრაფად შექმნას უფრო მაღალი გარჩევადობის სურათები, ვიდრე DALL-E.
DALL.E 2 გამოყენების შემთხვევაში
ბოლო ოცი წლის განმავლობაში, კომპიუტერული ხედვა ტექნოლოგია გადაიზარდა მარტივი ცნებიდან მთავარ მიღწევამდე. მიუხედავად ამ მიღწევებისა, სურათებისა და ობიექტების ამოცნობის მოდელები მაინც აწყდებიან მნიშვნელოვან დაბრკოლებებს ყოველდღიურ ცხოვრებაში. მონაცემთა ნაკრების არარსებობა გამოსახულების ამოცნობისა და კომპიუტერული ხედვის ერთ-ერთი ყველაზე მნიშვნელოვანი ნაკლია. იმის გამო, რომ ორივე ბოლოზე მონაცემთა ნაკლებობაა, გამოსახულების ამოცნობის მოდელების სწავლება 100 პროცენტით ზუსტი შედეგის მისაღებად თითქმის რთულია.
საბედნიეროდ, OpenAI-ის მანქანური სწავლების ახალ მოდელს შეუძლია გადალახოს უფსკრული ტექნოლოგიაში. DALLE 2-ს შეუძლია შექმნას საოცარი სურათები ტექსტის აღწერილობების საფუძველზე. ამ ყალბი სურათის წარმოებას შეუძლია მონაცემების მიწოდება გამოსახულების ამოცნობის მოდელებზე მათი მოთხოვნების მიხედვით. მონაცემთა არარსებობა მნიშვნელოვანი დაბრკოლებაა ობიექტისა და სურათის იდენტიფიკაციისთვის.
ციფრულ ეპოქაში მონაცემთა ნაკრები ყველგან არის გავრცელებული, მაგრამ ჩვენ ჯერ კიდევ ვეძებთ მალსახმობებს ხელოვნური ინტელექტის მოდელის გამოსაყენებლად, რათა მას კარგი შედეგები მოჰყვეს. თუმცა, გამოსახულების ამოცნობის მოდელის მომზადება მარტივი არ არის. ეს მოითხოვს მონაცემთა ნაკრების დიდ რაოდენობას მცირე განსხვავებებით, რომელთა მოპოვება შეიძლება უბრალოდ ვერ შეგვეძლო.
მაშ, რა არის პასუხი: პასუხი არის DALLE 2. OpenAI სურათების გენერატორი, თავისი შესაძლებლობებით შექმნას სურათები ტექსტებიდან და შეცვალოს არსებული, შეუძლია დაგვეხმაროს უფსკრულის გადალახვაში. ეს ხელს შეუწყობს დამატებითი ტრენინგის მონაცემების გენერირებას და ასევე შეამცირებს ადამიანის მარკირების საჭირო რაოდენობას. მნიშვნელოვანი სარგებლის მიუხედავად, თქვენ უნდა იცოდეთ თაღლითური სურათების და სურათების შესახებ, რომლებიც გამორიცხავს ჩართვას. ამან შეიძლება გამოიწვიოს გამოსახულების აღმოჩენის მეთოდები, რომლებიც მიკერძოებულ შედეგებს გამოიღებს.
შეზღუდვები
OpenAI-ის თანახმად, DALL.E 2-ს შეიძლება ჰქონდეს მავნე გავლენა, თუ ის არასწორ ხელში მოხვდება. ღრმა ყალბების დღევანდელ სამყაროში, მოდელი ადვილად შეიძლება გამოყენებულ იქნას ყალბი ინფორმაციის ან რასისტული გამოსახულების გასავრცელებლად, რის გამოც OpenAI დეველოპერებს უფლებას აძლევს გამოიყენონ DALL.2 მხოლოდ მოწვევით. მოდელმა უნდა შეასრულოს მკაცრი შინაარსის შეზღუდვა ყველა შემოთავაზებისთვის, რომელიც მას იღებს.
DALL.E 2-ის მიერ რაიმე მტრული ან ძალადობრივი სურათების შექმნის პოტენციალის გამორიცხვის მიზნით, მონაცემთა ნაკრები შეიქმნა ყოველგვარი სასიკვდილო იარაღის გარეშე. მიუხედავად იმისა, რომ OpenAI-მ განაცხადა, რომ გეგმავს მის API-ად გარდაქმნას მომავალში, DALL.E 2-ის შემთხვევაში, მზად არის სიფრთხილით გააგრძელოს.
დასკვნა
DALL-E 2 არის კიდევ ერთი საინტერესო OpenAI კვლევის აღმოჩენა, რომელიც ხსნის კარს ახალ აპლიკაციებს.
ერთ-ერთი მაგალითია მონაცემთა მასიური ნაკრების შექმნა კომპიუტერული ხედვის ერთ-ერთი მთავარი შეფერხების – მონაცემების დასაკმაყოფილებლად. მიუხედავად იმისა, რომ ბევრი DALL-E-ზე დაფუძნებული აპლიკაციის ეკონომიკური ვითარება განისაზღვრება ფასითა და პოლიტიკით, რომელსაც OpenAI აწესებს თავისი API მომხმარებლებისთვის, ისინი უდავოდ ხელს შეუწყობს სურათების წარმოებას.
დატოვე პასუხი