ზოგადად, ღრმა გენერაციული მოდელები, როგორიცაა GAN, VAE და ავტორეგრესიული მოდელები, აგვარებენ გამოსახულების სინთეზის პრობლემებს.
მათ მიერ შექმნილ მონაცემთა მაღალი ხარისხის გათვალისწინებით, გენერაციულ დაპირისპირებულ ქსელებს (GAN) ბოლო წლებში დიდი ყურადღება მიექცა.
დიფუზიის მოდელები კიდევ ერთი მომხიბლავი კვლევის სფეროა, რომელიც დამკვიდრდა. გამოსახულების, ვიდეოს და ხმის გენერირების სფერომ ორივეს ფართო გამოყენება ჰპოვა.
დიფუზიური მოდელები GAN-ების წინააღმდეგ: რომელი იძლევა უკეთეს შედეგს? ბუნებრივია, ამან გამოიწვია მიმდინარე დისკუსია.
გამოთვლით არქიტექტურაში, რომელიც ცნობილია როგორც GAN, ორი ნეირონული ქსელები იბრძვიან ერთმანეთის წინააღმდეგ, რათა წარმოიქმნას მონაცემთა ახლად სინთეზირებული შემთხვევები, რომლებსაც შეუძლიათ გადასცეს ნამდვილი მონაცემები.
დიფუზიური მოდელები სულ უფრო პოპულარული ხდება, რადგან ისინი უზრუნველყოფენ ვარჯიშის სტაბილურობას და მაღალ შედეგებს მუსიკისა და გრაფიკის წარმოებისთვის.
ეს სტატია დეტალურად განიხილავს დიფუზიის მოდელს და GAN-ებს, აგრეთვე იმის შესახებ, თუ როგორ განსხვავდებიან ისინი ერთმანეთისგან და რამდენიმე სხვა რამ.
მაშ, რა არის გენერაციული საპირისპირო ქსელები?
მონაცემთა ახალი, ხელოვნური შემთხვევების შესაქმნელად, რომლებიც შეიძლება შეცდომით ჩაითვალოს ნამდვილ მონაცემად, გენერაციული საპირისპირო ქსელები (GANs) იყენებენ ორ ნერვულ ქსელს და აყენებენ მათ ერთმანეთის წინააღმდეგ (ამგვარად, სახელწოდებაში "მოწინააღმდეგე").
ისინი ფართოდ გამოიყენება მეტყველების, ვიდეოების და სურათების შესაქმნელად.
GAN-ის მიზანია შექმნას ადრე აღმოჩენილი მონაცემები კონკრეტული მონაცემთა ნაკრებიდან. ნიმუშებიდან ფაქტობრივი, ამოუცნობი ძირითადი მონაცემების განაწილების მოდელის დასკვნის მცდელობა ამას აკეთებს.
გარდა ამისა, ეს ქსელები არის იმპლიციტური მოდელები, რომლებიც ცდილობენ ისწავლონ კონკრეტული სტატისტიკური განაწილება.
მეთოდი, რომელიც GAN-მა გამოიყენა ამ მიზნის მისაღწევად, ახალი იყო. სინამდვილეში, ისინი აწარმოებენ მონაცემებს ორმოთამაშიანი თამაშის თამაშით, იმპლიციტური მოდელის შესაქმნელად.
შემდეგი აღწერს სტრუქტურას:
- დისკრიმინატორი, რომელიც იძენს ავთენტურ და ყალბ მონაცემებს შორის დიფერენცირების უნარს
- გენერატორს, რომელიც ირჩევს მონაცემთა შექმნის ახალ გზებს, შეუძლია მოატყუოს დისკრიმინატორი.
დისკრიმინატორი წარმოადგენს ნერვულ ქსელს. ამიტომ, გენერატორმა უნდა შექმნას სურათი მაღალი ხარისხით მის მოსატყუებლად.
ის ფაქტი, რომ ეს გენერატორები არ არიან გაწვრთნილი რაიმე გამომავალი განაწილების გამოყენებით, არის მნიშვნელოვანი განსხვავება ავტოინკოდერის მოდელებსა და სხვა მოდელებს შორის.
მოდელის დაკარგვის ფუნქციის დაშლის ორი გზა არსებობს:
- რაოდენობრივი განსაზღვრის შესაძლებლობა, თუ დისკრიმინატორი ზუსტად ითვალისწინებს რეალურ მონაცემებს
- გენერირებული მონაცემები ზუსტად არის პროგნოზირებული ნაწილის მიერ.
საუკეთესო შესაძლებელ დისკრიმინატორზე, ეს დანაკარგის ფუნქცია მინიმუმამდეა დაყვანილი:
მაშასადამე, ზოგადი მოდელები შეიძლება მივიჩნიოთ, როგორც მანძილის მინიმიზაციის მოდელები და, თუ დისკრიმინატორი იდეალურია, როგორც განსხვავება მინიმიზაციას ნამდვილ და წარმოებულ განაწილებას შორის.
სინამდვილეში, სხვადასხვა განსხვავება შეიძლება იყოს გამოყენებული და გამოიწვიოს GAN ტრენინგის სხვადასხვა მეთოდი.
სწავლის დინამიკა, რომელიც მოიცავს კომპრომისს გენერატორსა და დისკრიმინატორს შორის, რთული შესასრულებელია, მიუხედავად იმისა, რომ მარტივია GAN-ების დაკარგვის ფუნქციის რეგულირება.
ასევე არ არსებობს გარანტია იმისა, რომ სწავლა შეჯერდება. შედეგად, GAN მოდელის სწავლება რთულია, რადგან ტიპიურია ისეთი პრობლემების წინაშე, როგორიცაა გრადიენტების გაქრობა და რეჟიმის კოლაფსი (როდესაც არ არის მრავალფეროვნება გენერირებულ ნიმუშებში).
ახლა დიფუზიური მოდელების დროა
GAN-ების სასწავლო კონვერგენციის პრობლემა მოგვარებულია დიფუზიური მოდელების შემუშავებით.
ეს მოდელები ვარაუდობენ, რომ დიფუზიის პროცესი ექვივალენტურია ინფორმაციის დაკარგვასთან, რომელიც გამოწვეულია ხმაურის პროგრესული ჩარევით (გაუსის ხმაური ემატება დიფუზიის პროცესის ყოველ ეტაპზე).
ასეთი მოდელის მიზანია იმის დადგენა, თუ როგორ მოქმედებს ხმაური ნიმუშში არსებულ ინფორმაციაზე, ან სხვაგვარად რომ ვთქვათ, რამდენი ინფორმაცია იკარგება დიფუზიის გამო.
თუ მოდელს შეუძლია ამის გარკვევა, მას უნდა შეეძლოს ორიგინალური ნიმუშის აღება და ინფორმაციის დაკარგვის გაუქმება.
ეს მიიღწევა დენოიზირების დიფუზიის მოდელის მეშვეობით. წინა დიფუზიის პროცესი და საპირისპირო დიფუზიის პროცესი შეადგენს ორ საფეხურს.
წინა დიფუზიის პროცესი მოიცავს გაუსის ხმაურის თანდათანობით დამატებას (ანუ დიფუზიის პროცესი) სანამ მონაცემები მთლიანად არ დაბინძურდება ხმაურით.
შემდგომში ნერვული ქსელი ივარჯიშება საპირისპირო დიფუზიის მეთოდის გამოყენებით, რათა შეისწავლოს პირობითი განაწილების ალბათობა ხმაურის შებრუნებისთვის.
აქ შეგიძლიათ გაიგოთ მეტი დიფუზიის მოდელი.
დიფუზიური მოდელი Vs GANs
დიფუზიური მოდელის მსგავსად, GAN-ები აწარმოებენ სურათებს ხმაურისგან.
მოდელი შედგება გენერატორის ნერვული ქსელისგან, რომელიც იწყება ზოგიერთი ინფორმაციული კონდიცირების ცვლადის ხმაურით, როგორიცაა კლასის ლეიბლი ან ტექსტის კოდირება.
ამის შემდეგ შედეგი უნდა იყოს ისეთი, რაც რეალისტურ სურათს წააგავს.
ფოტორეალისტური და მაღალი სიზუსტის სურათების თაობების შესაქმნელად, ჩვენ ვიყენებთ GAN-ებს. კიდევ უფრო რეალისტური ვიზუალი, ვიდრე GAN-ები, წარმოებულია დიფუზიური მოდელების გამოყენებით.
გარკვეულწილად, დიფუზიური მოდელები უფრო ზუსტია ფაქტების აღწერისას.
მიუხედავად იმისა, რომ GAN იღებს როგორც შემავალ შემთხვევით ხმაურს ან კლასის კონდიცირების ცვლადს და გამოსცემს რეალისტურ ნიმუშს, დიფუზიის მოდელები ხშირად უფრო ნელია, განმეორებადი და საჭიროებს ბევრად მეტ მითითებებს.
შეცდომის დიდი ადგილი არ არის, როდესაც დენოიზირება განმეორებით გამოიყენება, ხმაურისგან თავდაპირველ სურათზე დაბრუნების მიზნით.
თითოეული საგუშაგო გადის შექმნის მთელი ეტაპის განმავლობაში და ყოველი ნაბიჯით, სურათმა შეიძლება მეტი და მეტი ინფორმაცია მოიპოვოს.
დასკვნა
დასასრულს, რამდენიმე მნიშვნელოვანი კვლევის გამო, რომელიც მხოლოდ 2020-იან და 2021 წლებში გამოქვეყნდა, დიფუზიურ მოდელებს ახლა შეუძლიათ გადააჭარბონ GAN-ებს სურათების სინთეზის თვალსაზრისით.
წელს OpenAI ამოქმედდა DALL-E2, გამოსახულების წარმოების მოდელი, რომელიც საშუალებას აძლევს პრაქტიკოსებს გამოიყენონ დიფუზიური მოდელები.
მიუხედავად იმისა, რომ GAN არის უახლესი, მათი შეზღუდვები რთულს ხდის მათ მასშტაბირებას და ახალ კონტექსტში გამოყენებას.
ალბათობაზე დაფუძნებული მოდელების გამოყენებით GAN-ის მსგავსი ნიმუშის ხარისხის მისაღწევად, მასში ბევრი სამუშაოა ჩადებული.
დატოვე პასუხი