Најверојатно сте свесни дека компјутерот може да опише слика.
На пример, слика на куче што си игра со вашите деца може да се преведе како „куче и деца во градината“. Но, дали знаевте дека и обратното е сега изводливо? Ти пишуваш некои зборови и машината генерира нова слика.
За разлика од пребарувањето на Google, кое ги пребарува постоечките фотографии, сето ова е свежо. Во последниве години, OpenAI е една од водечките организации, известувајќи за неверојатни резултати.
Тие ги обучуваат своите алгоритми на огромни бази на податоци за текст и слики. Тие објавија труд за нивниот модел на слика GLIDE, кој беше обучен на стотици милиони фотографии. Во однос на фотореализмот, тој го надминува нивниот претходен модел „DALL-E“.
Во оваа објава, ќе го разгледаме GLIDE на OpenAI, една од неколкуте фасцинантни иницијативи насочени кон создавање и менување на фотореалистични слики со модели на дифузија водени со текст. Да почнеме.
Што е Отворете го AI Glide?
Додека повеќето слики можат да се опишат со зборови, создавањето слики од внесување текст бара специјализирано знаење и значително време.
Дозволувањето на агентот за вештачка интелигенција да произведува фотореалистични слики од природен јазик не само што им овозможува на луѓето да создаваат богат и разновиден визуелен материјал со невидена леснотија, туку исто така овозможува поедноставно повторувачко префинетост и ситно-грануларна контрола на создадените слики.
GLIDE може да се користи за уредување постоечки фотографии со користење на текстуални поттикнувања на природен јазик за вметнување нови објекти, создавање сенки и рефлексии, изведување сликање слика, и така натаму.
Исто така, може да ги претвори основните линиски цртежи во фотореалистички фотографии и има исклучителни можности за производство и поправка со нула примероци за сложени ситуации.
Неодамнешните истражувања покажаа дека моделите за дифузија базирани на веројатност можат исто така да произведат висококвалитетни синтетички слики, особено кога се комбинираат со водечки пристап кој ги балансира разновидноста и верноста.
OpenAI објави а модел на водена дифузија во мај, што овозможува моделите на дифузија да бидат условени со ознаките на класификаторот. GLIDE го подобрува овој успех со внесување на водена дифузија на проблемот со креирање на текстусловена слика.
По обуката на моделот на дифузија на GLIDE од 3.5 милијарди параметри со помош на текстуален енкодер за условување на описите на природните јазици, истражувачите тестираа две алтернативни стратегии за водење: CLIP насоки и насоки без класификатори.
CLIP е скалабилна техника за учење заедничко претставување на текст и слики што дава резултат врз основа на тоа колку сликата е блиску до натпис.
Тимот ја користеше оваа стратегија во нивните модели за дифузија со замена на класификаторот со модел CLIP кој ги „води“ моделите. Во меѓувреме, насоките без класификатори е стратегија за насочување на моделите на дифузија кои не вклучуваат обука на посебен класификатор.
GLIDE Architecture
Архитектурата GLIDE се состои од три компоненти: модел на аблирана дифузија (ADM) обучен да генерира слика од 64 × 64, текстуален модел (трансформатор) кој влијае на генерирањето слика преку текстуална порака и модел за зголемување на примерокот што ги конвертира нашите мали 64 × 64 слики до повеќе интерпретабилни 256 x 256 пиксели.
Првите две компоненти работат заедно за да го контролираат процесот на генерирање слика, така што соодветно го одразува текстот, додека вториот е потребен за да ги направи сликите што ги создаваме полесни за разбирање. Проектот GLIDE беше инспириран од а извештај објавен во 2021 година што покажа дека ADM техниките ги надминуваат моментално популарните, најсовремени генеративни модели во однос на квалитетот на примерокот на сликата.
За ADM, авторите на GLIDE го користеа истиот модел ImageNet 64 x 64 како Dhariwal и Nichol, но со 512 канали наместо 64. Моделот ImageNet има приближно 2.3 милијарди параметри како резултат на ова.
Тимот на GLIDE, за разлика од Даривал и Никол, сакаше да има поголема директна контрола врз процесот на генерирање слика, па затоа го комбинираа визуелниот модел со трансформатор со овозможено внимание. GLIDE ви дава одредена контрола врз излезот од процесот на генерирање слика со обработка на потсетниците за внесување текст.
Ова се постигнува со обука на моделот на трансформаторот на соодветно голема база на податоци од фотографии и натписи (слично на онаа користена во проектот DALL-E).
Текстот првично е кодиран во серија K токени со цел да се услови. После тоа, токените се вчитуваат во трансформаторски модел. Излезот на трансформаторот потоа може да се користи на два начина. За моделот ADM, се користи последното вградување на токен наместо вградувањето на класата.
Второ, завршниот слој на вградувањето на токените - серија вектори на карактеристики - се проектира независно на димензиите за секој слој на внимание во моделот ADM и се поврзува со секој контекст на внимание.
Во реалноста, ова му овозможува на моделот ADM да произведе слика од нови комбинации на слични текстуални токени на уникатен и фотореалистичен начин, врз основа на неговото научено разбирање на влезните зборови и нивните сродни слики. Овој трансформатор за кодирање на текст содржи 1.2 милијарди параметри и користи 24 преостанати блокови со ширина од 2048 година.
Конечно, моделот за дифузија на апсемплер вклучува околу 1.5 милијарди параметри и се разликува од основниот модел со тоа што неговиот енкодер за текст е помал, со ширина од 1024 и 384 базни канали, во споредба со основниот модел. Овој модел, како што покажува името, помага во надградбата на примерокот со цел да се подобри интерпретабилноста и за машините и за луѓето.
Дифузен модел
GLIDE генерира слики користејќи сопствена верзија на ADM (ADM-G за „водени“). Моделот ADM-G е модификација на моделот за дифузија U-net. Дифузиониот U-net модел драматично се разликува од повообичаените техники за синтеза на слики како што се VAE, GAN и трансформатори.
Тие градат Марков синџир на дифузни чекори за постепено да внесуваат случаен шум во податоците, а потоа да научат да го сменат процесот на дифузија и да ги обноват потребните примероци на податоци само од бучавата. Работи во две фази: напред и обратна дифузија.
Методот на напредна дифузија, со оглед на точката на податоци од вистинската дистрибуција на примерокот, додава мала количина на шум на примерокот преку претходно поставена серија чекори. Како што чекорите се зголемуваат во големина и се приближуваат до бесконечноста, примерокот ги губи сите препознатливи карактеристики и низата почнува да личи на изотропна Гаусова крива.
За време на наназад дифузија фаза, моделот на дифузија учи да го смени влијанието на додадениот шум на сликите и да ја врати произведената слика назад во првобитната форма со обид да личи на оригиналната дистрибуција на влезен примерок.
Комплетниот модел може да го направи тоа со вистински Гаусовиот влез за бучава и известување. Методот ADM-G се разликува од претходниот со тоа што моделот, или CLIP или прилагоден трансформатор, влијае на фазата на наназад на дифузија со користење на токени за текстуални пораки што се внесуваат.
Способности за лизгање
1. Генерирање на слика
Најпопуларната и најшироко користена употреба на GLIDE веројатно ќе биде синтезата на слики. Иако сликите се скромни и GLIDE има потешкотии со животински/човечки форми, потенцијалот за производство на слика со една снимка е речиси бесконечен.
Може да создава фотографии од животни, познати личности, пејзажи, згради и многу повеќе, а тоа може да го прави во различни уметнички стилови, како и фотореалистично. Авторите на истражувачите тврдат дека GLIDE е способен да интерпретира и приспособи широк спектар на текстуални влезови во визуелен формат, како што се гледа во примероците подолу.
2. Сликање со лизгање
Автоматското сликање фотографии на GLIDE е веројатно најфасцинантната употреба. GLIDE може да направи постоечка слика како влез, да ја обработи имајќи го предвид текстуалното барање за локации што треба да се променат, а потоа лесно да прави активни модификации на тие делови.
Мора да се користи заедно со модел за уредување, како што е SDEdit, за да се добијат уште подобри резултати. Во иднина, апликациите што ги искористуваат можностите како овие може да бидат клучни во развојот на пристапи за менување слика без код.
Заклучок
Сега, кога го поминавме процесот, треба да ги сфатите основите за тоа како функционира GLIDE, како и широчината на неговите способности при креирање слики и модификација во слика.
Оставете Одговор