Вы, хутчэй за ўсё, ведаеце, што кампутар можа апісаць карцінку.
Напрыклад, фатаграфію сабакі, якая гуляе з вашымі дзецьмі, можна перавесці як «сабака і дзеці ў садзе». Але ці ведаеце вы, што цяпер магчымы і адваротны шлях? Вы набіраеце некалькі слоў, і машына стварае новую карцінку.
У адрозненне ад пошуку Google, які шукае існуючыя фатаграфіі, гэта ўсё свежае. У апошнія гады OpenAI была адной з вядучых арганізацый, паведамляючы пра ашаламляльныя вынікі.
Яны навучаюць свае алгарытмы на масіўных тэкставых і малюнкавых базах дадзеных. Яны апублікавалі артыкул аб сваёй мадэлі выявы GLIDE, якая была навучана на сотнях мільёнаў фатаграфій. З пункту гледжання фотарэалізму, ён пераўзыходзіць іх папярэднюю мадэль "DALL-E".
У гэтай публікацыі мы разгледзім OpenAI GLIDE, адну з некалькіх захапляльных ініцыятыў, накіраваных на стварэнне і змяненне фотарэалістычных малюнкаў з тэкставымі мадэлямі дыфузіі. Давайце пачнем.
Што такое Адкрыйце AI Glide?
У той час як большасць малюнкаў можна апісаць словамі, стварэнне малюнкаў з тэкставых уводаў патрабуе спецыяльных ведаў і значнай колькасці часу.
Дазвол агенту штучнага інтэлекту ствараць фотарэалістычныя выявы з падказак натуральнай мовы не толькі дазваляе людзям ствараць багаты і разнастайны візуальны матэрыял з беспрэцэдэнтнай лёгкасцю, але і дазваляе больш простае ітэрацыйнае ўдакладненне і дэталёвае кіраванне створанымі выявамі.
GLIDE можна выкарыстоўваць для рэдагавання існуючых фатаграфій, выкарыстоўваючы тэкставыя падказкі на натуральнай мове для ўстаўкі новых аб'ектаў, стварэння ценяў і адлюстраванняў, выканання вобраз у жывапісе, і гэтак далей.
Ён таксама можа ператвараць асноўныя лінейныя чарцяжы ў фотарэалістычныя фатаграфіі, а таксама мае выключныя магчымасці вытворчасці і рамонту без выбаркі ў складаных сітуацыях.
Нядаўнія даследаванні паказалі, што мадэлі дыфузіі, заснаваныя на імавернасці, таксама могуць ствараць высакаякасныя сінтэтычныя выявы, асабліва ў спалучэнні з кіруючым падыходам, які збалансуе разнастайнасць і дакладнасць.
OpenAI апублікаваў a мадэль кіраванай дыфузіі у траўні, што дазваляе мадэлям дыфузіі быць умоўнымі пазнакамі класіфікатара. GLIDE паляпшае гэты поспех, уносячы кіраваную дыфузію ў праблему стварэння ўмоўнага тэксту.
Пасля навучання мадэлі дыфузіі GLIDE з 3.5 мільярдамі параметраў з выкарыстаннем тэкставага кадавальніка для апісання натуральнай мовы даследчыкі пратэставалі дзве альтэрнатыўныя стратэгіі навядзення: навядзенне CLIP і навядзенне без класіфікатара.
CLIP - гэта маштабуемая тэхніка для вывучэння сумесных прадстаўленняў тэксту і малюнкаў, якая дае ацэнку ў залежнасці ад таго, наколькі блізка выява да подпісу.
Каманда выкарыстала гэтую стратэгію ў сваіх дыфузійных мадэлях, замяніўшы класіфікатар мадэллю CLIP, якая «кіруе» мадэлямі. Між тым, кіраўніцтва без класіфікатараў - гэта стратэгія для кіравання мадэлямі дыфузіі, якія не прадугледжваюць падрыхтоўкі асобнага класіфікатара.
Архітэктура GLIDE
Архітэктура GLIDE складаецца з трох кампанентаў: абляцыйнай дыфузійнай мадэлі (ADM), падрыхтаванай для генерацыі выявы 64 × 64, тэкставай мадэлі (трансфарматара), якая ўплывае на генерацыю выявы з дапамогай тэкставай падказкі, і мадэлі павышэння дыскрэтызацыі, якая пераўтворыць нашы маленькія 64 × 64. выявы ў больш зручныя для інтэрпрэтацыі 256 x 256 пікселяў.
Першыя два кампаненты працуюць разам, каб кантраляваць працэс генерацыі выявы, каб яна належным чынам адлюстроўвала тэкставую падказку, у той час як апошняя патрабуецца, каб зрабіць выявы, якія мы ствараем, больш лёгкімі для разумення. Праект GLIDE быў натхнёны а справаздача, апублікаваная ў 2021 годзе якія паказалі, што метады ADM пераўзышлі папулярныя ў цяперашні час сучасныя генератыўныя мадэлі з пункту гледжання якасці выбаркі выявы.
Для ADM аўтары GLIDE выкарысталі тую ж мадэль ImageNet 64 x 64, што і Dhariwal і Nichol, але з 512 каналамі замест 64. У выніку мадэль ImageNet мае прыкладна 2.3 мільярда параметраў.
Каманда GLIDE, у адрозненне ад Дарывала і Нікала, хацела мець большы непасрэдны кантроль над працэсам генерацыі выявы, таму яны аб'ядналі візуальную мадэль з трансфарматарам увагі. GLIDE дае вам некаторы кантроль над выхадам працэсу генерацыі выявы шляхам апрацоўкі тэкставых запытаў.
Гэта дасягаецца шляхам навучання мадэлі трансфарматара на адпаведна вялікім наборы даных фатаграфій і подпісаў (падобна таму, што выкарыстоўваецца ў праекце DALL-E).
Тэкст першапачаткова кадзіруецца ў серыі K токенаў, каб зрабіць яго кандыцыянаваным. Пасля гэтага жэтоны загружаюцца ў мадэль-трансформер. Затым выхад трансфарматара можна выкарыстоўваць двума спосабамі. Для мадэлі ADM замест убудавання класа выкарыстоўваецца канчатковае ўбудаванне маркера.
Па-другое, канчатковы ўзровень убудавання токенаў - серыя вектараў прыкмет - праецыруецца незалежна на памеры для кожнага ўзроўню ўвагі ў мадэлі ADM і аб'ядноўваецца ў кожны кантэкст ўвагі.
У рэчаіснасці гэта дазваляе мадэлі ADM ствараць малюнак з новых камбінацый падобных тэкставых токенаў унікальным і фотарэалістычным спосабам, заснаваным на навучаным разуменні ўваходных слоў і звязаных з імі малюнкаў. Гэты трансфарматар кадавання тэксту змяшчае 1.2 мільярда параметраў і выкарыстоўвае 24 рэшткавыя блокі шырынёй 2048.
Нарэшце, дыфузійная мадэль павышаючай дыскретызацыі ўключае ў сябе каля 1.5 мільярда параметраў і адрозніваецца ад базавай мадэлі тым, што яе тэкставы кадавальнік меншы, з шырынёй 1024 і 384 базавых каналаў у параўнанні з базавай мадэллю. Гэтая мадэль, як вынікае з назвы, дапамагае ў мадэрнізацыі ўзору, каб палепшыць інтэрпрэтацыю як для машын, так і для людзей.
Дыфузійная мадэль
GLIDE стварае выявы, выкарыстоўваючы ўласную версію ADM (ADM-G для «кіраванага»). Мадэль ADM-G з'яўляецца мадыфікацыяй дыфузійнай мадэлі U-net. Дыфузійная мадэль U-net рэзка адрозніваецца ад больш распаўсюджаных метадаў сінтэзу выявы, такіх як VAE, GAN і трансфарматары.
Яны будуюць маркаўскую ланцужок этапаў дыфузіі, каб паступова ўводзіць у дадзеныя выпадковы шум, а потым вучацца зварочваць працэс дыфузіі і аднаўляць неабходныя выбаркі даных толькі з шуму. Ён дзейнічае ў два этапы: прамая і зваротная дыфузія.
Метад прамой дыфузіі, улічваючы кропку дадзеных з сапраўднага размеркавання выбаркі, дадае невялікую колькасць шуму да выбаркі на працягу зададзенай серыі крокаў. Калі крокі павялічваюцца ў памеры і набліжаюцца да бясконцасці, выбарка губляе ўсе пазнавальныя характарыстыкі, і паслядоўнасць пачынае нагадваць ізатропную крывую Гаўса.
Падчас зваротнай дыфузіі фаза, дыфузійная мадэль вучыцца змяняць уплыў дададзенага шуму на выявы і вярнуць атрыманы малюнак у першапачатковую форму, спрабуючы нагадваць зыходнае размеркаванне ўваходных выбарак.
Завершаная мадэль можа зрабіць гэта з рэальным уваходным шумам Гаўса і падказкай. Метад ADM-G адрозніваецца ад папярэдняга тым, што мадэль, альбо CLIP, альбо наладжаны трансфарматар, уплывае на фазу зваротнай дыфузіі, выкарыстоўваючы ўведзеныя тэкставыя падказкі.
Магчымасці слізгацення
1. Генерацыя іміджу
Найбольш папулярным і шырока выкарыстоўваным выкарыстаннем GLIDE, верагодна, будзе сінтэз малюнкаў. Нягледзячы на тое, што здымкі сціплыя, і GLIDE мае цяжкасці з формамі жывёл/чалавека, патэнцыял стварэння аднаразовых малюнкаў амаль бязмежны.
Ён можа ствараць фатаграфіі жывёл, знакамітасцяў, пейзажаў, будынкаў і многае іншае, і ён можа рабіць гэта ў розных мастацкіх стылях, а таксама фотарэалістычна. Аўтары даследчыкаў сцвярджаюць, што GLIDE здольны інтэрпрэтаваць і адаптаваць шырокі спектр тэкставых уводаў у візуальны фармат, як відаць на ўзорах ніжэй.
2. Слізгаценне ў жывапісе
Аўтаматычнае маляванне фатаграфій GLIDE, магчыма, з'яўляецца самым захапляльным выкарыстаннем. GLIDE можа прыняць існуючы малюнак у якасці ўваходных дадзеных, апрацаваць яго з улікам тэкставых падказак для месцаў, якія трэба змяніць, а затым з лёгкасцю ўнесці актыўныя змены ў гэтыя часткі.
Яго неабходна выкарыстоўваць разам з мадэллю рэдагавання, такой як SDEdit, каб атрымаць яшчэ лепшыя вынікі. У будучыні прыкладанні, якія выкарыстоўваюць перавагі такіх магчымасцей, могуць мець вырашальнае значэнне ў распрацоўцы падыходаў да змены выявы без кода.
заключэнне
Цяпер, калі мы прайшлі праз гэты працэс, вы павінны зразумець асновы таго, як працуе GLIDE, а таксама шырыню яго магчымасцей у стварэнні малюнкаў і мадыфікацыі малюнкаў.
Пакінуць каментар