Дыфузійныя мадэлі ахапілі ўвесь свет з выпускам Dall-E 2, Imagen ад Google, Стабільная дыфузія, і Прамежак падарожжа, выклікаючы інавацыі і пашыраючы межы машыннага навучання.
Гэтыя мадэлі могуць ствараць практычна неабмежаваную колькасць малюнкаў са слоўных падказак, у тым ліку фотарэалістычных, магічных, футурыстычных і, вядома, мілых малюнкаў.
Гэтыя магчымасці пераасэнсоўваюць тое, што для чалавека значыць ўзаемадзейнічаць з крэмніем, даючы нам магчымасць ствараць практычна любую карціну, якую мы можам сабе ўявіць.
Па меры развіцця гэтых мадэляў або наступнай генератыўнай парадыгмы людзі змогуць ствараць выявы, фільмы і іншыя захапляльныя ўражанні толькі з дапамогай думкі.
У гэтым пасце мы абмяркуем дыфузійная мадэль, стабільная дыфузія, як гэта працуе, і мадэль дыфузіі ў падручніку па маляванні, сярод іншага.
Што такое мадэль Diffusion?
Мадэлі машыннага навучання, якія могуць ствараць новыя даныя з даных навучання, называюцца генератыўнымі мадэлямі. Іншыя генератыўныя мадэлі ўключаюць мадэлі на аснове патоку, варыяцыйныя аўтакадавальнікі і генератыўныя спаборніцкія сеткі (GAN).
Кожны можа ствараць фатаграфіі выдатнай якасці. Дыфузійныя мадэлі вучацца аднаўляць даныя, адмяняючы гэты працэс дадання шуму пасля пашкоджання навучальных даных шляхам дадання шуму. Іншымі словамі, дыфузійныя мадэлі здольныя ствараць кагерэнтныя карціны з шуму.
Дыфузійныя мадэлі навучаюцца шляхам увядзення шуму ў выявы, які мадэль пазней асвойвае выдаленне. Каб стварыць рэалістычныя візуальныя эфекты, мадэль затым прымяняе гэтую тэхніку выдалення шумоў да выпадковых пачатковых кодаў.
Дзякуючы кандыцыянаванню працэсу вытворчасці малюнкаў, гэтыя мадэлі могуць выкарыстоўвацца ў спалучэнні з кіраўніцтвам па пераўтварэнні тэксту ў малюнак для стварэння амаль бязмежнай колькасці малюнкаў толькі з тэксту. Насенне можа быць накіравана з дапамогай ўваходных дадзеных з такіх убудаванняў, як CLIP, каб даць моцныя магчымасці пераўтварэння тэксту ў малюнак.
Дыфузійныя мадэлі могуць выконваць розныя задачы, у тым ліку стварэнне выявы, выдаленне шуму выявы, зафарбоўванне, зафарбоўванне і рассейванне бітаў.
Цяпер, што такое стабільная дыфузія?
Stable Diffusion - гэта мадэль машыннага навучання для стварэння тэкставых малюнкаў Стабільнасць.AI. Ён здольны ствараць выявы з тэксту.
Кампаненты ўстойлівай дыфузіі
Стабільная дыфузія гэта сістэма, якая складаецца з некалькіх кампанентаў і канцэпцый. Гэта не адна мадэль. Калі мы правяраем за капотам, першае, што мы бачым, гэта тое, што ёсць кампанент разумення тэксту, які пераўтворыць тэкставую інфармацыю ў лікавае прадстаўленне, якое фіксуе паняцці тэксту.
Мы можам назваць гэты кадавальнік тэксту трансфарматарам моўная мадэль (тэхнічна: кадавальнік тэксту мадэлі CLIP). Ён прымае ўваходны тэкст і стварае спіс цэлых лікаў (вектар) для кожнага слова/лексемы ў тэксце. Затым гэтыя дадзеныя перадаюцца ў генератар малюнкаў, які складаецца з некалькіх кампанентаў.
Ёсць два этапы ў генератары малюнкаў:
1. Стваральнік інфармацыі аб выяве
Гэты элемент з'яўляецца асноўным кампанентам стабільнай дыфузіі. Гэта тое, дзе зроблена большасць паляпшэнняў у прадукцыйнасці ў параўнанні з больш раннімі версіямі.
Гэты кампанент праходзіць некалькі этапаў, каб атрымаць даныя выявы. Стваральнік вобразнай інфармацыі дзейнічае толькі ў межах інфармацыйнай прасторы вобраза (або латэнтнай прасторы).
Гэта хутчэй, чым ранейшыя мадэлі дыфузіі, якія працавалі ў прасторы пікселяў, дзякуючы гэтай характарыстыкі. Тэхнічна кажучы, гэты кампанент складаецца з алгарытму планавання і UNet нейронных сеткі.
Працэс, які адбываецца ў гэтым кампаненце, называецца «дыфузія». Высакаякасная выява ў канчатковым выніку ствараецца ў выніку паэтапнай апрацоўкі інфармацыі (наступным кампанентам, дэкодэрам выявы).
2. Дэкодэр выявы
Выкарыстоўваючы дадзеныя, атрыманыя ад вытворцы інфармацыі, дэкодэр выявы стварае карцінку. Ён выконваецца толькі адзін раз для стварэння гатовага піксельнага малюнка ў завяршэнне аперацыі.
Падручнік па нанясенні малюнкаў па стабільнай дыфузіі
Устойлівы дыфузны малюнак у жывапісе - гэта тэхніка запаўнення адсутных або пашкоджаных участкаў выявы. Мэта карціны ў жывапісе - схаваць факт аднаўлення выявы.
Гэтая тэхніка часта выкарыстоўваецца для выдалення непажаданых рэчаў з выявы або аднаўлення пашкоджаных участкаў гістарычных фатаграфій. Стабільная дыфузія Inpainting - гэта адносна нядаўні спосаб inpainting, які дае перспектыўныя эфекты.
Выконваючы прыведзеныя ніжэй інструкцыі, вы зможаце пачаць вывучаць inpainting і мадыфікаваць існуючыя фатаграфіі, калі хочаце паспрабаваць inpainting са стабільнай дыфузіяй:
- Перайсці да Huggingface Стабільнае дыфузійнае малюнак
- Загрузіце свой уласны малюнак
- Выдаліце частку выявы, якую трэба замяніць.
- Увядзіце тут падказку (што вы хочаце дадаць замест таго, што выдаляеце)
- Выберыце «запусціць»
У відэа ўверсе мы загружаем фота з трыма лімонамі і мяняем іх на яблыкі. Я асабіста рэкамендую паспрабаваць гэта з вашымі ўласнымі фатаграфіямі і падказкамі.
заключэнне
Увогуле, устойлівае дыфузійнае малюнак з'яўляецца выдатным метадам стварэння фальшывых малюнкаў або відэа, якія выглядаюць вельмі рэальнымі. Па меры прасоўвання новых тэхналогій будзе станавіцца ўсё цяжэй і цяжэй адрозніць сапраўднасць ад махлярства па меры развіцця тэхналогій.
суахір
Першы тайм зусім не звязаны з другім. Было б вельмі крута, калі б аўтар растлумачыў, як працуе inpaint у рамках мадэлі, якую ён тлумачыў раней, мог бы даць разуменне. Але не! Для гэтага спатрэбілася б сапраўднае разуменне, а не збор і апрацоўка выпадковага тэксту.