У апошнія гады мадэлі глыбокага навучання сталі больш эфектыўнымі для разумення чалавечай мовы.
Падумайце аб такіх праектах GPT-3, які цяпер здольны ствараць цэлыя артыкулы і сайты. GitHub нядаўна прадставіў Капілат GitHub, сэрвіс, які забяспечвае поўныя фрагменты кода, проста апісваючы тып кода, які вам патрэбны.
Даследчыкі з OpenAI, Facebook і Google працавалі над спосабамі выкарыстання глыбокага навучання для выканання яшчэ адной задачы: субтытраў да малюнкаў. Выкарыстоўваючы вялікі набор даных з мільёнамі запісаў, яны прыдумалі некалькі дзіўны вынікі.
У апошні час гэтыя даследчыкі спрабавалі выканаць супрацьлеглую задачу: стварыць выявы з надпісу. Ці магчыма цяпер стварыць цалкам новы вобраз з апісання?
У гэтым кіраўніцтве будуць разгледжаны дзве найбольш прасунутыя мадэлі пераўтварэння тэксту ў малюнак: DALL-E 2 ад OpenAI і Imagen AI ад Google. Кожны з гэтых праектаў укараніў наватарскія метады, якія могуць змяніць грамадства, якім мы яго ведаем.
Але спачатку давайце разбярэмся, што мы маем на ўвазе пад стварэннем тэксту ў малюнак.
Што такое генерацыя тэксту ў малюнак?
Мадэлі пераўтварэння тэксту ў малюнак дазваляюць кампутарам ствараць новыя і ўнікальныя выявы на аснове падказак. Цяпер людзі могуць даць тэкставае апісанне выявы, якую яны жадаюць стварыць, і мадэль будзе спрабаваць стварыць візуальны выгляд, які адпавядае гэтаму апісанню як мага бліжэй.
Для далейшага павышэння прадукцыйнасці ў мадэлях машыннага навучання выкарыстоўваліся вялікія наборы даных, якія змяшчаюць пары выява-подпіс.
Большасць тэксту ў малюнак мадэлі выкарыстоўваюць мадэль мовы трансфарматара інтэрпрэтаваць падказкі. Гэты тып мадэлі з'яўляецца нейронных сеткі які спрабуе даведацца кантэкст і семантычнае значэнне натуральнай мовы.
Далей, генератыўныя мадэлі, такія як дыфузійныя мадэлі і генератыўныя спаборніцкія сеткі выкарыстоўваюцца для сінтэзу малюнкаў.
Што такое DALLE 2?
АД-Е 2 гэта камп'ютэрная мадэль ад OpenAI, якая была выпушчана ў красавіку 2022 года. Мадэль была навучана на базе дадзеных з мільёнамі пазначаных малюнкаў, каб звязваць словы і фразы з выявамі.
Карыстальнікі могуць увесці простую фразу, напрыклад «кот есць лазанью», і DALL-E 2 згенеруе ўласную інтэрпрэтацыю таго, што гэтая фраза спрабуе апісаць.
Акрамя стварэння малюнкаў з нуля, DALL-E 2 таксама можа рэдагаваць існуючыя выявы. У прыведзеным ніжэй прыкладзе DALL-E змог стварыць мадыфікаваны вобраз пакоя з дабаўленай канапай.
DALL-E 2 - толькі адзін з многіх падобных праектаў, выпушчаных OpenAI за апошнія некалькі гадоў. GPT-3 OpenAI стаў вартым навін, калі здавалася, што ён стварае тэкст розных стыляў.
У цяперашні час DALL-E 2 усё яшчэ знаходзіцца ў стадыі бэта-тэставання. Зацікаўленыя карыстальнікі могуць падпісацца на іх ліст чакання і чакаць доступу.
Як гэта працуе?
Хоць вынікі DALL-E 2 уражваюць, вам можа быць цікава, як гэта ўсё працуе.
DALL-E 2 з'яўляецца прыкладам мультымадальнай рэалізацыі праекта OpenAI GPT-3.
Спачатку тэкставая падказка карыстальніка змяшчаецца ў тэкставы кадавальнік, які адлюстроўвае падказку ў прасторы прадстаўлення. DALL-E 2 выкарыстоўвае іншую мадэль OpenAI пад назвай CLIP (Contrastive Language-Image Pre-Training) для атрымання семантычнай інфармацыі з натуральнай мовы.
Наступная мадэль, вядомая як папярэдні адлюстроўвае кадыроўку тэксту ў кадыроўку выявы. Гэта кадзіраванне выявы павінна фіксаваць семантычную інфармацыю, знадзеную на этапе кадавання тэксту.
Каб стварыць сапраўдную выяву, DALL-E 2 выкарыстоўвае дэкодэр выявы для стварэння візуальнага відарыса з выкарыстаннем семантычнай інфармацыі і дэталяў кадавання выявы. OpenAI выкарыстоўвае мадыфікаваную версію ГЛІД мадэль для стварэння выявы. GLIDE абапіраецца на а дыфузійная мадэль для стварэння вобразаў.
Даданне GLIDE да мадэлі DALL-E 2 дазволіла атрымаць больш фотарэалістычны выхад. Паколькі мадэль GLIDE стахастычная або вызначаецца выпадковым чынам, мадэль DALL-E 2 можа лёгка ствараць варыяцыі, запускаючы мадэль зноў і зноў.
Недахопы
Нягледзячы на ўражлівыя вынікі мадэлі DALL-E 2, яна ўсё яшчэ сутыкаецца з некаторымі абмежаваннямі.
Арфаграфічны тэкст
Падказкі, якія спрабуюць прымусіць DALL-E 2 генераваць тэкст, паказваюць, што ён адчувае цяжкасці з напісаннем слоў. Эксперты мяркуюць, што гэта можа быць таму, што інфармацыя аб правапісе не з'яўляецца часткай навучальны набор даных.
Кампазіцыйнае разважанне
Даследчыкі адзначаюць, што ў DALL-E 2 усё яшчэ ёсць некаторыя цяжкасці з кампазіцыйнымі развагамі. Прасцей кажучы, мадэль можа разумець асобныя аспекты выявы, у той жа час маючы праблемы з высвятленнем адносін паміж гэтымі аспектамі.
Напрыклад, калі атрымаць падказку «чырвоны куб на сінім кубе», DALL-E дакладна згенеруе сіні і чырвоны кубы, але не зможа іх правільна размясціць. Таксама было заўважана, што ў мадэлі ўзнікаюць цяжкасці з падказкамі, якія патрабуюць выцягвання пэўнай колькасці аб'ектаў.
Зрушэнне ў наборы даных
Калі падказка не змяшчае іншых дэталяў, было заўважана, што DALL-E паказвае белых або заходніх людзей і асяроддзе. Такая рэпрэзентацыйная прадузятасць узнікае з-за вялікай колькасці арыентаваных на Захад малюнкаў у наборы даных.
Таксама было заўважана, што мадэль прытрымліваецца гендэрных стэрэатыпаў. Напрыклад, пры ўводзе радка «сцюардэса» часцей за ўсё ствараюцца выявы жанчын-сцюардэс.
Што такое Google Imagen AI?
Google, Imagen AI гэта мадэль, якая накіравана на стварэнне фотарэалістычных малюнкаў з уводнага тэксту. Падобна DALL-E, мадэль таксама выкарыстоўвае моўныя мадэлі трансфарматара для разумення тэксту і абапіраецца на выкарыстанне мадэляў дыфузіі для стварэння высакаякасных малюнкаў.
Разам з Imagen Google таксама выпусціў эталон для мадэляў пераўтварэння тэксту ў малюнак пад назвай DrawBench. Выкарыстоўваючы DrawBench, яны змаглі заўважыць, што людзі-ацэншчыкі аддаюць перавагу вываду Imagen перад іншымі мадэлямі, уключаючы DALL-E 2.
Як гэта працуе?
Падобна DALL-E, Imagen спачатку пераўтворыць падказку карыстальніка ў тэкст, убудаваны праз кадавальнік замарожанага тэксту.
Imagen выкарыстоўвае мадэль дыфузіі, якая вывучае, як пераўтварыць шаблон шуму ў выявы. Першапачатковы выхад гэтых відарысаў з'яўляецца нізкім разрозненнем і пазней праходзіць праз іншую мадэль, вядомую як дыфузійная мадэль звышраздзялення, каб павялічыць раздзяленне канчатковага відарыса. Першая дыфузійная мадэль выдае малюнак памерам 64 × 64 пікселя, а потым павялічваецца да выявы высокага раздзялення 1024 × 1024.
Зыходзячы з даследаванняў каманды Imagen, вялікія замарожаныя моўныя мадэлі, навучаныя толькі на тэкставых дадзеных, па-ранейшаму з'яўляюцца вельмі эфектыўнымі тэкставымі кадавальнікамі для генерацыі тэксту ў малюнак.
Даследаванне таксама ўводзіць паняцце дынамічнага парога. Гэты метад дазваляе выявам выглядаць больш фотарэалістычна за кошт павелічэння вагі кіраўніцтва пры стварэнні выявы.
Прадукцыйнасць DALLE 2 супраць Imagen
Папярэднія вынікі эталоннага тэсту Google паказваюць, што рэспандэнты аддаюць перавагу выявам, створаным Imagen, а не DALL-E 2 і іншым мадэлям пераўтварэння тэксту ў відарыс, такім як Latent Diffusion і VQGAN+CLIP.
Дадзеныя, атрыманыя ад каманды Imagen, таксама паказалі, што іх мадэль лепш спраўляецца з правапісам тэксту, што з'яўляецца вядомым недахопам мадэлі DALL-E 2.
Аднак, паколькі Google яшчэ не выпусціў мадэль для грамадскасці, яшчэ трэба высветліць, наколькі дакладныя тэсты Google.
заключэнне
Рост фотарэалістычных мадэляў пераўтварэння тэксту ў відарыс выклікае спрэчкі, таму што гэтыя мадэлі саспелі для неэтычнага выкарыстання.
Тэхналогія можа прывесці да стварэння адкрытага кантэнту або ў якасці інструмента для дэзінфармацыі. Даследчыкі як з Google, так і з OpenAI ведаюць пра гэта, збольшага таму гэтыя тэхналогіі па-ранейшаму даступныя не ўсім.
Мадэлі пераўтварэння тэксту ў малюнак таксама маюць значныя эканамічныя наступствы. Ці паўплываюць такія прафесіі, як мадэлі, фатографы і мастакі, калі такія мадэлі, як DALL-E, стануць мэйнстрымам?
На дадзены момант гэтыя мадэлі ўсё яшчэ маюць абмежаванні. Уважлівае вывучэнне выявы, створанай штучным інтэлектам, выявіць яе недасканаласці. Паколькі OpenAI і Google змагаюцца за найбольш эфектыўныя мадэлі, гэта можа быць пытаннем часу, перш чым будзе створаны сапраўды ідэальны вынік: малюнак, які немагчыма адрозніць ад рэальнага.
Як вы думаеце, што адбудзецца, калі тэхналогіі пойдуць так далёка?
Пакінуць каментар