დიფუზიურმა მოდელებმა ქარიშხალმა მოიცვა მსოფლიო გათავისუფლებით დალ-ე 2, Google-ის Imagen, სტაბილური დიფუზიადა შუა მოგზაურობა, ინოვაციების გამოწვევა და მანქანური სწავლის საზღვრების გაფართოება.
ამ მოდელებს შეუძლიათ შექმნან თითქმის შეუზღუდავი რაოდენობის გამოსახულება სიტყვების მითითებიდან, მათ შორის ფოტორეალისტური, ჯადოსნური, ფუტურისტული და, რა თქმა უნდა, მიმზიდველი სურათები.
ეს შესაძლებლობები ხელახლა წარმოიდგენს, თუ რას ნიშნავს ადამიანისთვის სილიკონთან ურთიერთობა, რაც გვაძლევს შესაძლებლობას შევქმნათ პრაქტიკულად ნებისმიერი სურათი, რაც შეგვიძლია წარმოვიდგინოთ.
როდესაც ეს მოდელები განვითარდება ან მომდევნო გენერაციული პარადიგმა იპყრობს, ადამიანებს შეეძლებათ შექმნან სურათები, ფილმები და სხვა იმერსიული გამოცდილება მხოლოდ აზროვნებით.
ამ პოსტში განვიხილავთ დიფუზიის მოდელი, სტაბილური დიფუზია, როგორ მუშაობს ის და დიფუზიური მოდელის შეღებვის გაკვეთილი, სხვა საკითხებთან ერთად.
რა არის დიფუზიის მოდელი?
მანქანათმცოდნეობის მოდელებს, რომლებსაც შეუძლიათ ახალი მონაცემების შექმნა სასწავლო მონაცემებიდან, მოიხსენიება როგორც გენერაციული მოდელები. სხვა გენერაციულ მოდელებს მიეკუთვნება ნაკადზე დაფუძნებული მოდელები, ვარიაციული ავტოკოდერები და გენერაციული საპირისპირო ქსელები (GANs).
თითოეულ მათგანს შეუძლია შექმნას შესანიშნავი ხარისხის სურათები. დიფუზიური მოდელები სწავლობენ მონაცემთა აღდგენას ამ ხმაურის დამატების პროცესის შებრუნებით, მას შემდეგ, რაც დააზიანებენ სასწავლო მონაცემებს ხმაურის დამატებით. სხვაგვარად რომ ვთქვათ, დიფუზიურ მოდელებს შეუძლიათ შექმნან თანმიმდევრული სურათები ხმაურისგან.
დიფუზიური მოდელები სწავლობენ სურათებში ხმაურის შემოღებით, რომლის მოხსნასაც მოდელი მოგვიანებით დაეუფლა. რეალისტური ვიზუალის შესაქმნელად, მოდელი იყენებს ამ დენოიზირების ტექნიკას შემთხვევით თესლებს.
სურათის წარმოების პროცესის განპირობებით, ამ მოდელების გამოყენება შესაძლებელია ტექსტიდან გამოსახულების სახელმძღვანელოსთან ერთად, რათა შექმნან სურათების თითქმის შეუზღუდავი რაოდენობა მხოლოდ ტექსტიდან. თესლი შეიძლება იყოს მიმართული CLIP-ის მსგავსი ჩაშენებებით, რათა მისცეს ტექსტის გამოსახულების ძლიერი შესაძლებლობები.
დიფუზიურ მოდელებს შეუძლიათ შეასრულონ სხვადასხვა ამოცანები, მათ შორის გამოსახულების შექმნა, გამოსახულების დენოიზირება, შეღებვა, გარე შეღებვა და ბიტის დიფუზია.
ახლა რა არის სტაბილური დიფუზია?
სტაბილური დიფუზია არის მანქანათმცოდნეობის მოდელი ტექსტზე დაფუძნებული სურათების შესაქმნელად, რომელიც მოწოდებულია სტაბილურობა.AI. მას შეუძლია ტექსტიდან სურათების გენერირება.
სტაბილური დიფუზიის კომპონენტები
სტაბილური დიფუზია არის სისტემა, რომელიც შედგება რამდენიმე კომპონენტისა და კონცეფციისგან. ეს არ არის ერთი მოდელი. როდესაც თავსახურის უკან ვამოწმებთ, პირველი, რასაც ვხედავთ არის ის, რომ არსებობს ტექსტის გაგების კომპონენტი, რომელიც ტექსტურ ინფორმაციას გარდაქმნის ციფრულ წარმოდგენად, რომელიც ასახავს ტექსტის ცნებებს.
ამ ტექსტის შიფრატორს შეგვიძლია ვუწოდოთ ტრანსფორმერი ენის მოდელი (ტექნიკურად: CLIP მოდელის ტექსტური შიფრატორი). ის იღებს შეყვანილ ტექსტს და ქმნის მთელი რიცხვების სიას (ვექტორს) ტექსტში თითოეული სიტყვისთვის/ჟეტონისთვის. ეს მონაცემები შემდეგ მიეწოდება გამოსახულების გენერატორს, რომელიც შედგება რამდენიმე კომპონენტისგან.
გამოსახულების გენერატორში ორი ნაბიჯია:
1. გამოსახულების ინფორმაციის შემქმნელი
სტაბილური დიფუზიის მთავარი კომპონენტი ეს ელემენტია. სწორედ აქ ხდება შესრულების გაუმჯობესების უმეტესი ნაწილი წინა ვერსიებთან შედარებით.
ეს კომპონენტი გადის რამდენიმე ეტაპს, რათა უზრუნველყოს სურათის მონაცემები. სურათის ინფორმაციის შემქმნელი მოქმედებს მხოლოდ გამოსახულების ინფორმაციის სივრცეში (ან ფარულ სივრცეში).
ეს უფრო სწრაფია ვიდრე ადრე დიფუზიური მოდელები, რომლებიც მუშაობდნენ პიქსელების სივრცეში ამ მახასიათებლის გამო. ტექნიკურად რომ ვთქვათ, ეს კომპონენტი შედგება დაგეგმვის ალგორითმისგან და UNet-ისგან ნერვული ქსელის.
პროცესს, რომელიც მიმდინარეობს ამ კომპონენტში, მოიხსენიება როგორც "დიფუზია". მაღალი ხარისხის სურათი საბოლოოდ წარმოიქმნება ინფორმაციის ეტაპობრივად დამუშავების შედეგად (შემდეგი კომპონენტის, გამოსახულების დეკოდერის მიერ).
2. გამოსახულების დეკოდერი
ინფორმაციის მწარმოებლისგან მიღებული მონაცემების გამოყენებით გამოსახულების დეკოდერი ქმნის სურათს. ის მხოლოდ ერთხელ ახორციელებს დასრულებული პიქსელის სურათის შესაქმნელად ოპერაციის დასასრულს.
სტაბილური დიფუზიის შეფერხების გაკვეთილი
სტაბილური დიფუზიური სურათის შეღებვა არის გამოსახულების დაკარგული ან დაზიანებული უბნების შევსების ტექნიკა. სურათის შეღებვის მიზანია იმ ფაქტის დამალვა, რომ გამოსახულება აღდგენილია.
ეს ტექნიკა ხშირად გამოიყენება გამოსახულების არასასურველი ნივთების აღმოსაფხვრელად ან ისტორიული ფოტოების დაზიანებული უბნების აღსადგენად. სტაბილური დიფუზიური შეღებვა არის შეღებვის შედარებით უახლესი გზა, რომელიც იძლევა პერსპექტიულ ეფექტებს.
ქვემოთ მოცემული ინსტრუქციების მიყოლებით დაიწყებთ შეღებვის შესწავლას და არსებული ფოტოების შეცვლას, თუ გსურთ სცადოთ შეღებვა სტაბილური დიფუზიით:
- გადადით Huggingface-ზე სტაბილური დიფუზიის შეფერხება
- ატვირთეთ თქვენი საკუთარი სურათი
- წაშალეთ თქვენი სურათის ის ნაწილი, რომელიც უნდა შეიცვალოს.
- შეიყვანეთ თქვენი მოთხოვნა აქ (რისი დამატება გსურთ იმის ნაცვლად, რასაც წაშლით)
- აირჩიეთ "გაშვება"
ზემოთ ვიდეოში ავტვირთავთ სურათს სამი ლიმონით და ვცვლით ვაშლებს. მე პირადად გირჩევთ სცადოთ ის თქვენი ფოტოებით და მოთხოვნით.
დასკვნა
ზოგადად, სტაბილური დიფუზიური შეღებვა არის შესანიშნავი მეთოდი ყალბი სურათების ან ვიდეოების შესაქმნელად, რომლებიც, როგორც ჩანს, ძალიან რეალურია. როგორც ჩვენ მივდივართ ახალი ტექნოლოგიური წინსვლისკენ, უფრო და უფრო რთული გახდება ავთენტურისა და თაღლითობის გარჩევა, როგორც ტექნოლოგია პროგრესირებს.
სვაჰირი
პირველი ტაიმი სრულიად არ არის დაკავშირებული მეორე ტაიმთან. ძალიან მაგარი იქნებოდა, თუ ავტორი ახსნიდა, როგორ მუშაობს inpaint იმ მოდელის ფარგლებში, რომელიც მან ადრე ახსნა, შეძლებდა გაგება. Მაგრამ არა! ეს საჭიროებდა რეალურ გაგებას, ვიდრე შემთხვევითი ტექსტის შეგროვებას და დამუშავებას.