Open AI Glide (Diffusion) - генерацыя малюнкаў з дапамогай простага ўводу тэксту

Змест[Схаваць][Паказаць]

Што такое Open AI Glide?
Архітэктура GLIDE
Дыфузійная мадэль
Магчымасці слізгацення+-
- 1. Генерацыя іміджу
- 2. Слізгаценне ў жывапісе
заключэнне

Вы, хутчэй за ўсё, ведаеце, што кампутар можа апісаць карцінку.

Напрыклад, фатаграфію сабакі, якая гуляе з вашымі дзецьмі, можна перавесці як «сабака і дзеці ў садзе». Але ці ведаеце вы, што цяпер магчымы і адваротны шлях? Вы набіраеце некалькі слоў, і машына стварае новую карцінку.

У адрозненне ад пошуку Google, які шукае існуючыя фатаграфіі, гэта ўсё свежае. У апошнія гады OpenAI была адной з вядучых арганізацый, паведамляючы пра ашаламляльныя вынікі.

Яны навучаюць свае алгарытмы на масіўных тэкставых і малюнкавых базах дадзеных. Яны апублікавалі артыкул аб сваёй мадэлі выявы GLIDE, якая была навучана на сотнях мільёнаў фатаграфій. З пункту гледжання фотарэалізму, ён пераўзыходзіць іх папярэднюю мадэль "DALL-E".

У гэтай публікацыі мы разгледзім OpenAI GLIDE, адну з некалькіх захапляльных ініцыятыў, накіраваных на стварэнне і змяненне фотарэалістычных малюнкаў з тэкставымі мадэлямі дыфузіі. Давайце пачнем.

Што такое Адкрыйце AI Glide?

У той час як большасць малюнкаў можна апісаць словамі, стварэнне малюнкаў з тэкставых уводаў патрабуе спецыяльных ведаў і значнай колькасці часу.

Дазвол агенту штучнага інтэлекту ствараць фотарэалістычныя выявы з падказак натуральнай мовы не толькі дазваляе людзям ствараць багаты і разнастайны візуальны матэрыял з беспрэцэдэнтнай лёгкасцю, але і дазваляе больш простае ітэрацыйнае ўдакладненне і дэталёвае кіраванне створанымі выявамі.

GLIDE можна выкарыстоўваць для рэдагавання існуючых фатаграфій, выкарыстоўваючы тэкставыя падказкі на натуральнай мове для ўстаўкі новых аб'ектаў, стварэння ценяў і адлюстраванняў, выканання вобраз у жывапісе, і гэтак далей.

Ён таксама можа ператвараць асноўныя лінейныя чарцяжы ў фотарэалістычныя фатаграфіі, а таксама мае выключныя магчымасці вытворчасці і рамонту без выбаркі ў складаных сітуацыях.

Нядаўнія даследаванні паказалі, што мадэлі дыфузіі, заснаваныя на імавернасці, таксама могуць ствараць высакаякасныя сінтэтычныя выявы, асабліва ў спалучэнні з кіруючым падыходам, які збалансуе разнастайнасць і дакладнасць.

Адкрыйце AI Glide

OpenAI апублікаваў a мадэль кіраванай дыфузіі у траўні, што дазваляе мадэлям дыфузіі быць умоўнымі пазнакамі класіфікатара. GLIDE паляпшае гэты поспех, уносячы кіраваную дыфузію ў праблему стварэння ўмоўнага тэксту.

Пасля навучання мадэлі дыфузіі GLIDE з 3.5 мільярдамі параметраў з выкарыстаннем тэкставага кадавальніка для апісання натуральнай мовы даследчыкі пратэставалі дзве альтэрнатыўныя стратэгіі навядзення: навядзенне CLIP і навядзенне без класіфікатара.

CLIP - гэта маштабуемая тэхніка для вывучэння сумесных прадстаўленняў тэксту і малюнкаў, якая дае ацэнку ў залежнасці ад таго, наколькі блізка выява да подпісу.

Каманда выкарыстала гэтую стратэгію ў сваіх дыфузійных мадэлях, замяніўшы класіфікатар мадэллю CLIP, якая «кіруе» мадэлямі. Між тым, кіраўніцтва без класіфікатараў - гэта стратэгія для кіравання мадэлямі дыфузіі, якія не прадугледжваюць падрыхтоўкі асобнага класіфікатара.

Архітэктура GLIDE

Архітэктура GLIDE складаецца з трох кампанентаў: абляцыйнай дыфузійнай мадэлі (ADM), падрыхтаванай для генерацыі выявы 64 × 64, тэкставай мадэлі (трансфарматара), якая ўплывае на генерацыю выявы з дапамогай тэкставай падказкі, і мадэлі павышэння дыскрэтызацыі, якая пераўтворыць нашы маленькія 64 × 64. выявы ў больш зручныя для інтэрпрэтацыі 256 x 256 пікселяў.

Першыя два кампаненты працуюць разам, каб кантраляваць працэс генерацыі выявы, каб яна належным чынам адлюстроўвала тэкставую падказку, у той час як апошняя патрабуецца, каб зрабіць выявы, якія мы ствараем, больш лёгкімі для разумення. Праект GLIDE быў натхнёны а справаздача, апублікаваная ў 2021 годзе якія паказалі, што метады ADM пераўзышлі папулярныя ў цяперашні час сучасныя генератыўныя мадэлі з пункту гледжання якасці выбаркі выявы.

Для ADM аўтары GLIDE выкарысталі тую ж мадэль ImageNet 64 x 64, што і Dhariwal і Nichol, але з 512 каналамі замест 64. У выніку мадэль ImageNet мае прыкладна 2.3 мільярда параметраў.

Каманда GLIDE, у адрозненне ад Дарывала і Нікала, хацела мець большы непасрэдны кантроль над працэсам генерацыі выявы, таму яны аб'ядналі візуальную мадэль з трансфарматарам увагі. GLIDE дае вам некаторы кантроль над выхадам працэсу генерацыі выявы шляхам апрацоўкі тэкставых запытаў.

Параўнанне слізгацення з іншымі мадэлямі

Гэта дасягаецца шляхам навучання мадэлі трансфарматара на адпаведна вялікім наборы даных фатаграфій і подпісаў (падобна таму, што выкарыстоўваецца ў праекце DALL-E).

Тэкст першапачаткова кадзіруецца ў серыі K токенаў, каб зрабіць яго кандыцыянаваным. Пасля гэтага жэтоны загружаюцца ў мадэль-трансформер. Затым выхад трансфарматара можна выкарыстоўваць двума спосабамі. Для мадэлі ADM замест убудавання класа выкарыстоўваецца канчатковае ўбудаванне маркера.

Па-другое, канчатковы ўзровень убудавання токенаў - серыя вектараў прыкмет - праецыруецца незалежна на памеры для кожнага ўзроўню ўвагі ў мадэлі ADM і аб'ядноўваецца ў кожны кантэкст ўвагі.

У рэчаіснасці гэта дазваляе мадэлі ADM ствараць малюнак з новых камбінацый падобных тэкставых токенаў унікальным і фотарэалістычным спосабам, заснаваным на навучаным разуменні ўваходных слоў і звязаных з імі малюнкаў. Гэты трансфарматар кадавання тэксту змяшчае 1.2 мільярда параметраў і выкарыстоўвае 24 рэшткавыя блокі шырынёй 2048.

Нарэшце, дыфузійная мадэль павышаючай дыскретызацыі ўключае ў сябе каля 1.5 мільярда параметраў і адрозніваецца ад базавай мадэлі тым, што яе тэкставы кадавальнік меншы, з шырынёй 1024 і 384 базавых каналаў у параўнанні з базавай мадэллю. Гэтая мадэль, як вынікае з назвы, дапамагае ў мадэрнізацыі ўзору, каб палепшыць інтэрпрэтацыю як для машын, так і для людзей.

Маленькія малюнкі з фільтрамі слізгацення

Дыфузійная мадэль

GLIDE стварае выявы, выкарыстоўваючы ўласную версію ADM (ADM-G для «кіраванага»). Мадэль ADM-G з'яўляецца мадыфікацыяй дыфузійнай мадэлі U-net. Дыфузійная мадэль U-net рэзка адрозніваецца ад больш распаўсюджаных метадаў сінтэзу выявы, такіх як VAE, GAN і трансфарматары.

Дыфузійная мадэль

Яны будуюць маркаўскую ланцужок этапаў дыфузіі, каб паступова ўводзіць у дадзеныя выпадковы шум, а потым вучацца зварочваць працэс дыфузіі і аднаўляць неабходныя выбаркі даных толькі з шуму. Ён дзейнічае ў два этапы: прамая і зваротная дыфузія.

Метад прамой дыфузіі, улічваючы кропку дадзеных з сапраўднага размеркавання выбаркі, дадае невялікую колькасць шуму да выбаркі на працягу зададзенай серыі крокаў. Калі крокі павялічваюцца ў памеры і набліжаюцца да бясконцасці, выбарка губляе ўсе пазнавальныя характарыстыкі, і паслядоўнасць пачынае нагадваць ізатропную крывую Гаўса.

Выява без шумоў і слізгацення

Падчас зваротнай дыфузіі фаза, дыфузійная мадэль вучыцца змяняць уплыў дададзенага шуму на выявы і вярнуць атрыманы малюнак у першапачатковую форму, спрабуючы нагадваць зыходнае размеркаванне ўваходных выбарак.

Завершаная мадэль можа зрабіць гэта з рэальным уваходным шумам Гаўса і падказкай. Метад ADM-G адрозніваецца ад папярэдняга тым, што мадэль, альбо CLIP, альбо наладжаны трансфарматар, уплывае на фазу зваротнай дыфузіі, выкарыстоўваючы ўведзеныя тэкставыя падказкі.

Магчымасці слізгацення

1. Генерацыя іміджу

Найбольш папулярным і шырока выкарыстоўваным выкарыстаннем GLIDE, верагодна, будзе сінтэз малюнкаў. Нягледзячы на тое, што здымкі сціплыя, і GLIDE мае цяжкасці з формамі жывёл/чалавека, патэнцыял стварэння аднаразовых малюнкаў амаль бязмежны.

Стварэнне выявы з дапамогай GLIDE

Ён можа ствараць фатаграфіі жывёл, знакамітасцяў, пейзажаў, будынкаў і многае іншае, і ён можа рабіць гэта ў розных мастацкіх стылях, а таксама фотарэалістычна. Аўтары даследчыкаў сцвярджаюць, што GLIDE здольны інтэрпрэтаваць і адаптаваць шырокі спектр тэкставых уводаў у візуальны фармат, як відаць на ўзорах ніжэй.

2. Слізгаценне ў жывапісе

Аўтаматычнае маляванне фатаграфій GLIDE, магчыма, з'яўляецца самым захапляльным выкарыстаннем. GLIDE можа прыняць існуючы малюнак у якасці ўваходных дадзеных, апрацаваць яго з улікам тэкставых падказак для месцаў, якія трэба змяніць, а затым з лёгкасцю ўнесці актыўныя змены ў гэтыя часткі.

Яго неабходна выкарыстоўваць разам з мадэллю рэдагавання, такой як SDEdit, каб атрымаць яшчэ лепшыя вынікі. У будучыні прыкладанні, якія выкарыстоўваюць перавагі такіх магчымасцей, могуць мець вырашальнае значэнне ў распрацоўцы падыходаў да змены выявы без кода.

заключэнне

Цяпер, калі мы прайшлі праз гэты працэс, вы павінны зразумець асновы таго, як працуе GLIDE, а таксама шырыню яго магчымасцей у стварэнні малюнкаў і мадыфікацыі малюнкаў.

Open AI Glide (Diffusion) - генерацыя малюнкаў толькі з дапамогай уводу тэксту

Што такое Адкрыйце AI Glide?

Архітэктура GLIDE

Дыфузійная мадэль

Магчымасці слізгацення

1. Генерацыя іміджу

2. Слізгаценне ў жывапісе

заключэнне

аб Сойка

Іншыя артыкулы на HashDork:

Як паменшыць галюцынацыі ў вашым AI

Каласян супраць Хейгена

Гэты інфармацыйны бюлетэнь будучых тэхналогій не адстой

Open AI Glide (Diffusion) - генерацыя малюнкаў толькі з дапамогай уводу тэксту

Што такое Адкрыйце AI Glide?

Архітэктура GLIDE

Дыфузійная мадэль

Магчымасці слізгацення

1. Генерацыя іміджу

2. Слізгаценне ў жывапісе

заключэнне

аб Сойка

Іншыя артыкулы на HashDork:

Як паменшыць галюцынацыі ў вашым AI

10 лепшых інструментаў AI для сацыяльных сетак

Каласян супраць Хейгена

10 лепшых інструментаў для стварэння анімаваных відэа са штучным інтэлектам

чытач узаемадзеянняў

Пакінуць каментар адмяніць адказ

Гэты інфармацыйны бюлетэнь будучых тэхналогій не адстой