DALL-E 2 супраць Imagen - выявы і мастацтва, створаныя AI

Змест[Схаваць][Паказаць]

Што такое генерацыя тэксту ў малюнак?
Што такое DALLE 2?+-
- Як гэта працуе?
- Недахопы
Што такое Google Imagen AI?+-
- Як гэта працуе?
Прадукцыйнасць DALLE 2 супраць Imagen
заключэнне

У апошнія гады мадэлі глыбокага навучання сталі больш эфектыўнымі для разумення чалавечай мовы.

Падумайце аб такіх праектах GPT-3, які цяпер здольны ствараць цэлыя артыкулы і сайты. GitHub нядаўна прадставіў Капілат GitHub, сэрвіс, які забяспечвае поўныя фрагменты кода, проста апісваючы тып кода, які вам патрэбны.

Даследчыкі з OpenAI, Facebook і Google працавалі над спосабамі выкарыстання глыбокага навучання для выканання яшчэ адной задачы: субтытраў да малюнкаў. Выкарыстоўваючы вялікі набор даных з мільёнамі запісаў, яны прыдумалі некалькі дзіўны вынікі.

У апошні час гэтыя даследчыкі спрабавалі выканаць супрацьлеглую задачу: стварыць выявы з надпісу. Ці магчыма цяпер стварыць цалкам новы вобраз з апісання?

У гэтым кіраўніцтве будуць разгледжаны дзве найбольш прасунутыя мадэлі пераўтварэння тэксту ў малюнак: DALL-E 2 ад OpenAI і Imagen AI ад Google. Кожны з гэтых праектаў укараніў наватарскія метады, якія могуць змяніць грамадства, якім мы яго ведаем.

Але спачатку давайце разбярэмся, што мы маем на ўвазе пад стварэннем тэксту ў малюнак.

Што такое генерацыя тэксту ў малюнак?

Мадэлі пераўтварэння тэксту ў малюнак дазваляюць кампутарам ствараць новыя і ўнікальныя выявы на аснове падказак. Цяпер людзі могуць даць тэкставае апісанне выявы, якую яны жадаюць стварыць, і мадэль будзе спрабаваць стварыць візуальны выгляд, які адпавядае гэтаму апісанню як мага бліжэй.

Для далейшага павышэння прадукцыйнасці ў мадэлях машыннага навучання выкарыстоўваліся вялікія наборы даных, якія змяшчаюць пары выява-подпіс.

Большасць тэксту ў малюнак мадэлі выкарыстоўваюць мадэль мовы трансфарматара інтэрпрэтаваць падказкі. Гэты тып мадэлі з'яўляецца нейронных сеткі які спрабуе даведацца кантэкст і семантычнае значэнне натуральнай мовы.

Далей, генератыўныя мадэлі, такія як дыфузійныя мадэлі і генератыўныя спаборніцкія сеткі выкарыстоўваюцца для сінтэзу малюнкаў.

Што такое DALLE 2?

DALL-E 2 стварае рэалістычныя выявы і мастацтва

АД-Е 2 гэта камп'ютэрная мадэль ад OpenAI, якая была выпушчана ў красавіку 2022 года. Мадэль была навучана на базе дадзеных з мільёнамі пазначаных малюнкаў, каб звязваць словы і фразы з выявамі.

Карыстальнікі могуць увесці простую фразу, напрыклад «кот есць лазанью», і DALL-E 2 згенеруе ўласную інтэрпрэтацыю таго, што гэтая фраза спрабуе апісаць.

Акрамя стварэння малюнкаў з нуля, DALL-E 2 таксама можа рэдагаваць існуючыя выявы. У прыведзеным ніжэй прыкладзе DALL-E змог стварыць мадыфікаваны вобраз пакоя з дабаўленай канапай.

DALL-E 2 можа рэдагаваць існуючыя выявы

DALL-E 2 - толькі адзін з многіх падобных праектаў, выпушчаных OpenAI за апошнія некалькі гадоў. GPT-3 OpenAI стаў вартым навін, калі здавалася, што ён стварае тэкст розных стыляў.

У цяперашні час DALL-E 2 усё яшчэ знаходзіцца ў стадыі бэта-тэставання. Зацікаўленыя карыстальнікі могуць падпісацца на іх ліст чакання і чакаць доступу.

Як гэта працуе?

Хоць вынікі DALL-E 2 уражваюць, вам можа быць цікава, як гэта ўсё працуе.

DALL-E 2 з'яўляецца прыкладам мультымадальнай рэалізацыі праекта OpenAI GPT-3.

агляд архітэктуры DALL-E 2

Спачатку тэкставая падказка карыстальніка змяшчаецца ў тэкставы кадавальнік, які адлюстроўвае падказку ў прасторы прадстаўлення. DALL-E 2 выкарыстоўвае іншую мадэль OpenAI пад назвай CLIP (Contrastive Language-Image Pre-Training) для атрымання семантычнай інфармацыі з натуральнай мовы.

Наступная мадэль, вядомая як папярэдні адлюстроўвае кадыроўку тэксту ў кадыроўку выявы. Гэта кадзіраванне выявы павінна фіксаваць семантычную інфармацыю, знадзеную на этапе кадавання тэксту.

Каб стварыць сапраўдную выяву, DALL-E 2 выкарыстоўвае дэкодэр выявы для стварэння візуальнага відарыса з выкарыстаннем семантычнай інфармацыі і дэталяў кадавання выявы. OpenAI выкарыстоўвае мадыфікаваную версію ГЛІД мадэль для стварэння выявы. GLIDE абапіраецца на а дыфузійная мадэль для стварэння вобразаў.

Даданне GLIDE да мадэлі DALL-E 2 дазволіла атрымаць больш фотарэалістычны выхад. Паколькі мадэль GLIDE стахастычная або вызначаецца выпадковым чынам, мадэль DALL-E 2 можа лёгка ствараць варыяцыі, запускаючы мадэль зноў і зноў.

Недахопы

Нягледзячы на ўражлівыя вынікі мадэлі DALL-E 2, яна ўсё яшчэ сутыкаецца з некаторымі абмежаваннямі.

Арфаграфічны тэкст

мадэль парушае напісанне слоў у шыльдах

Падказкі, якія спрабуюць прымусіць DALL-E 2 генераваць тэкст, паказваюць, што ён адчувае цяжкасці з напісаннем слоў. Эксперты мяркуюць, што гэта можа быць таму, што інфармацыя аб правапісе не з'яўляецца часткай навучальны набор даных.

Кампазіцыйнае разважанне

мадэль змагаецца з размяшчэннем аб'ектаў у прасторы

Даследчыкі адзначаюць, што ў DALL-E 2 усё яшчэ ёсць некаторыя цяжкасці з кампазіцыйнымі развагамі. Прасцей кажучы, мадэль можа разумець асобныя аспекты выявы, у той жа час маючы праблемы з высвятленнем адносін паміж гэтымі аспектамі.

Напрыклад, калі атрымаць падказку «чырвоны куб на сінім кубе», DALL-E дакладна згенеруе сіні і чырвоны кубы, але не зможа іх правільна размясціць. Таксама было заўважана, што ў мадэлі ўзнікаюць цяжкасці з падказкамі, якія патрабуюць выцягвання пэўнай колькасці аб'ектаў.

Зрушэнне ў наборы даных

Калі падказка не змяшчае іншых дэталяў, было заўважана, што DALL-E паказвае белых або заходніх людзей і асяроддзе. Такая рэпрэзентацыйная прадузятасць узнікае з-за вялікай колькасці арыентаваных на Захад малюнкаў у наборы даных.

DALL-E 2 мае гендэрныя прадузятасці

Таксама было заўважана, што мадэль прытрымліваецца гендэрных стэрэатыпаў. Напрыклад, пры ўводзе радка «сцюардэса» часцей за ўсё ствараюцца выявы жанчын-сцюардэс.

Што такое Google Imagen AI?

DALL-E 2 супраць Imagen - Imagen лепш у напісанні і кампазіцыі

Google, Imagen AI гэта мадэль, якая накіравана на стварэнне фотарэалістычных малюнкаў з уводнага тэксту. Падобна DALL-E, мадэль таксама выкарыстоўвае моўныя мадэлі трансфарматара для разумення тэксту і абапіраецца на выкарыстанне мадэляў дыфузіі для стварэння высакаякасных малюнкаў.

Разам з Imagen Google таксама выпусціў эталон для мадэляў пераўтварэння тэксту ў малюнак пад назвай DrawBench. Выкарыстоўваючы DrawBench, яны змаглі заўважыць, што людзі-ацэншчыкі аддаюць перавагу вываду Imagen перад іншымі мадэлямі, уключаючы DALL-E 2.

Як гэта працуе?

imagen выкарыстоўвае дыфузійную мадэль для стварэння работ з высокім дазволам

Падобна DALL-E, Imagen спачатку пераўтворыць падказку карыстальніка ў тэкст, убудаваны праз кадавальнік замарожанага тэксту.

Imagen выкарыстоўвае мадэль дыфузіі, якая вывучае, як пераўтварыць шаблон шуму ў выявы. Першапачатковы выхад гэтых відарысаў з'яўляецца нізкім разрозненнем і пазней праходзіць праз іншую мадэль, вядомую як дыфузійная мадэль звышраздзялення, каб павялічыць раздзяленне канчатковага відарыса. Першая дыфузійная мадэль выдае малюнак памерам 64 × 64 пікселя, а потым павялічваецца да выявы высокага раздзялення 1024 × 1024.

Зыходзячы з даследаванняў каманды Imagen, вялікія замарожаныя моўныя мадэлі, навучаныя толькі на тэкставых дадзеных, па-ранейшаму з'яўляюцца вельмі эфектыўнымі тэкставымі кадавальнікамі для генерацыі тэксту ў малюнак.

Даследаванне таксама ўводзіць паняцце дынамічнага парога. Гэты метад дазваляе выявам выглядаць больш фотарэалістычна за кошт павелічэння вагі кіраўніцтва пры стварэнні выявы.

Прадукцыйнасць DALLE 2 супраць Imagen

Папярэднія вынікі эталоннага тэсту Google паказваюць, што рэспандэнты аддаюць перавагу выявам, створаным Imagen, а не DALL-E 2 і іншым мадэлям пераўтварэння тэксту ў відарыс, такім як Latent Diffusion і VQGAN+CLIP.

Вынікі DALL-E 2 супраць Imagen з дапамогай DrawBench ад Google

Дадзеныя, атрыманыя ад каманды Imagen, таксама паказалі, што іх мадэль лепш спраўляецца з правапісам тэксту, што з'яўляецца вядомым недахопам мадэлі DALL-E 2.

Аднак, паколькі Google яшчэ не выпусціў мадэль для грамадскасці, яшчэ трэба высветліць, наколькі дакладныя тэсты Google.

заключэнне

Рост фотарэалістычных мадэляў пераўтварэння тэксту ў відарыс выклікае спрэчкі, таму што гэтыя мадэлі саспелі для неэтычнага выкарыстання.

Тэхналогія можа прывесці да стварэння адкрытага кантэнту або ў якасці інструмента для дэзінфармацыі. Даследчыкі як з Google, так і з OpenAI ведаюць пра гэта, збольшага таму гэтыя тэхналогіі па-ранейшаму даступныя не ўсім.

Мадэлі пераўтварэння тэксту ў малюнак таксама маюць значныя эканамічныя наступствы. Ці паўплываюць такія прафесіі, як мадэлі, фатографы і мастакі, калі такія мадэлі, як DALL-E, стануць мэйнстрымам?

На дадзены момант гэтыя мадэлі ўсё яшчэ маюць абмежаванні. Уважлівае вывучэнне выявы, створанай штучным інтэлектам, выявіць яе недасканаласці. Паколькі OpenAI і Google змагаюцца за найбольш эфектыўныя мадэлі, гэта можа быць пытаннем часу, перш чым будзе створаны сапраўды ідэальны вынік: малюнак, які немагчыма адрозніць ад рэальнага.

Як вы думаеце, што адбудзецца, калі тэхналогіі пойдуць так далёка?

DALL-E 2 супраць Imagen – выявы і мастацтва, створаныя AI

Што такое генерацыя тэксту ў малюнак?

Што такое DALLE 2?

Як гэта працуе?

Недахопы

Што такое Google Imagen AI?

Як гэта працуе?

Прадукцыйнасць DALLE 2 супраць Imagen

заключэнне

аб Дэён Менор

Іншыя артыкулы на HashDork:

Як паменшыць галюцынацыі ў вашым AI

Каласян супраць Хейгена

Гэты інфармацыйны бюлетэнь будучых тэхналогій не адстой

DALL-E 2 супраць Imagen – выявы і мастацтва, створаныя AI

Што такое генерацыя тэксту ў малюнак?

Што такое DALLE 2?

Як гэта працуе?

Недахопы

Што такое Google Imagen AI?

Як гэта працуе?

Прадукцыйнасць DALLE 2 супраць Imagen

заключэнне

аб Дэён Менор

Іншыя артыкулы на HashDork:

Як паменшыць галюцынацыі ў вашым AI

10 лепшых інструментаў AI для сацыяльных сетак

Каласян супраць Хейгена

10 лепшых інструментаў для стварэння анімаваных відэа са штучным інтэлектам

чытач узаемадзеянняў

Пакінуць каментар адмяніць адказ

Гэты інфармацыйны бюлетэнь будучых тэхналогій не адстой