Преглед садржаја[Сакрити][Прикажи]
Последњих година, модели дубоког учења постали су ефикаснији у разумевању људског језика.
Размислите о пројектима као што су РУЦЕНТЕР-КСНУМКС, који сада може да креира читаве чланке и веб странице. ГитХуб је недавно представљен ГитХуб Цопилот, услуга која пружа читаве исечке кода једноставним описом типа кода који вам је потребан.
Истраживачи у ОпенАИ-у, Фацебоок-у и Гоогле-у раде на начинима да користе дубоко учење за обављање још једног задатка: натписа слика. Користећи велики скуп података са милионима уноса, дошли су до неких изненађујуће Резултати.
У последње време, ови истраживачи су покушали да изврше супротан задатак: креирају слике из натписа. Да ли је сада могуће направити потпуно нову слику из описа?
Овај водич ће истражити два најнапреднија модела текста у слику: ОпенАИ-јев ДАЛЛ-Е 2 и Гоогле-ов Имаген АИ. Сваки од ових пројеката увео је револуционарне методе које могу променити друштво какво познајемо.
Али прво, хајде да разумемо шта подразумевамо под генерисањем текста у слику.
Шта је генерисање текста у слику?
Модели од текста у слику омогућавају рачунарима да креирају нове и јединствене слике на основу упита. Људи сада могу дати текстуални опис слике коју желе да произведу, а модел ће покушати да направи визуелни приказ који одговара том опису што је ближе могуће.
Модели машинског учења су искористили употребу великих скупова података који садрже парове слика-наслов за даље побољшање перформанси.
Већина текста у слику модели користе модел језика трансформатора да тумачи упутства. Овај тип модела је а неуронска мрежа који покушава да научи контекст и семантичко значење природног језика.
Даље, генеративни модели као нпр дифузиони модели а за синтезу слике користе се генеративне супарничке мреже.
Шта је ДАЛЛЕ 2?
ДАЛЛ-Е2 је рачунарски модел компаније ОпенАИ који је објављен у априлу 2022. Модел је обучен за базу података од милиона означених слика за повезивање речи и фраза са сликама.
Корисници могу да откуцају једноставну фразу, као што је „мачка једе лазање“, а ДАЛЛ-Е 2 ће генерисати сопствену интерпретацију онога што фраза покушава да опише.
Поред креирања слика од нуле, ДАЛЛ-Е 2 такође може да уређује постојеће слике. У примеру испод, ДАЛЛ-Е је успео да генерише модификовану слику собе са додатним каучем.
ДАЛЛ-Е 2 је само један од многих сличних пројеката које је ОпенАИ објавио у последњих неколико година. ОпенАИ-јев ГПТ-3 постао је вредан вести када се чинило да генерише текст различитих стилова.
Тренутно је ДАЛЛ-Е 2 још увек у бета тестирању. Заинтересовани корисници се могу пријавити за своје листа чекања и сачекајте приступ.
Како то ради?
Иако су резултати ДАЛЛ-Е 2 импресивни, можда се питате како све то функционише.
ДАЛЛ-Е 2 је пример мултимодалне имплементације ОпенАИ ГПТ-3 пројекта.
Прво, кориснички упит за текст се поставља у кодер текста који пресликава промпт у простор за представљање. ДАЛЛ-Е 2 користи други ОпенАИ модел који се зове ЦЛИП (Пре-тренинг са контрастним језиком и сликом) за добијање семантичких информација из природног језика.
Затим, модел познат као пре пресликава кодирање текста у кодирање слике. Ово кодирање слике треба да обухвати семантичке информације које се налазе у кораку кодирања текста.
Да би креирао стварну слику, ДАЛЛ-Е 2 користи декодер слике да генерише визуелни приказ користећи семантичке информације и детаље кодирања слике. ОпенАИ користи модификовану верзију ГЛИДЕ модел за извођење генерисања слике. ГЛИДЕ се ослања на а модел дифузије за стварање слика.
Додавање ГЛИДЕ модела ДАЛЛ-Е 2 омогућило је фотореалистичнији излаз. Пошто је модел ГЛИДЕ стохастички или насумично одређен, модел ДАЛЛ-Е 2 може лако да креира варијације тако што ће модел изнова и изнова покретати.
Ограничења
Упркос импресивним резултатима модела ДАЛЛ-Е 2, он се и даље суочава са неким ограничењима.
Правописни текст
Упутства која покушавају да натерају ДАЛЛ-Е 2 да генерише текст откривају да има потешкоћа у писању речи. Стручњаци претпостављају да је то можда зато што информације о правопису нису део скуп података за обуку.
Цомпоситионал Реасонинг
Истраживачи примећују да ДАЛЛ-Е 2 још увек има неких потешкоћа са композиционим резоновањем. Једноставно речено, модел може да разуме појединачне аспекте слике док и даље има проблема да схвати односе између ових аспеката.
На пример, ако добијете промпт „црвена коцка на врху плаве коцке“, ДАЛЛ-Е ће тачно генерисати плаву коцку и црвену коцку, али неће их правилно поставити. Такође је примећено да модел има потешкоћа са упутствима која захтевају извлачење одређеног броја објеката.
Пристрасност у скупу података
Ако упит не садржи друге детаље, примећено је да ДАЛЛ-Е приказује беле или западњачке људе и окружење. Ова репрезентативна пристрасност настаје због обиља западно-центричних слика у скупу података.
Такође је примећено да модел прати родне стереотипе. На пример, куцање „стјуардесе“ углавном генерише слике жена стјуардеса.
Шта је Гоогле Имаген АИ?
Гоогле је Имаген АИ је модел који има за циљ да креира фотореалистичне слике од унесеног текста. Слично ДАЛЛ-Е, модел такође користи моделе језика трансформатора за разумевање текста и ослања се на употребу модела дифузије за креирање висококвалитетних слика.
Поред Имаген-а, Гоогле је такође објавио бенцхмарк за моделе текста у слику под називом ДравБенцх. Користећи ДравБенцх, успели су да запазе да су људи за оцењивање преферирали Имаген излаз у односу на друге моделе укључујући ДАЛЛ-Е 2.
Како то ради?
Слично ДАЛЛ-Е, Имаген прво конвертује кориснички упит у текст који се уграђује преко замрзнутог кодера текста.
Имаген користи модел дифузије који учи како да конвертује образац шума у слике. Почетни излаз ових слика је ниске резолуције и касније се пропуштају кроз други модел познат као модел дифузије супер резолуције да би се повећала резолуција коначне слике. Први модел дифузије даје слику од 64×64 пиксела, а касније се увећава на слику високе резолуције 1024×1024.
На основу истраживања тима Имаген, велики замрзнути језички модели обучени само на текстуалним подацима су и даље веома ефикасни кодери текста за генерисање текста у слику.
Студија такође уводи концепт динамичког прага. Овај метод омогућава да слике изгледају фотореалистичније повећањем тежине навођења приликом генерисања слике.
Перформансе ДАЛЛЕ 2 вс Имаген
Прелиминарни резултати Гоогле-овог бенцхмарк-а показују да испитаници људи преферирају слике које генерише Имаген у односу на ДАЛЛ-Е 2 и друге моделе текста у слику као што су Латентна дифузија и ВКГАН+ЦЛИП.
Резултати који долазе од Имаген тима такође су показали да њихов модел има боље резултате у писању текста, што је позната слабост модела ДАЛЛ-Е 2.
Међутим, пошто Гоогле још увек није објавио модел јавности, остаје да се види колико су тачни Гуглови мерили.
Zakljucak
Пораст фотореалистичних модела текста у слику је контроверзан јер су ови модели зрели за неетичку употребу.
Технологија може довести до стварања експлицитног садржаја или као алат за дезинформације. Истраживачи из Гугла и ОпенАИ-а су свесни тога, што је делимично разлог зашто ове технологије још увек нису доступне свима.
Модели текста у слику такође имају значајне економске импликације. Да ли ће професије као што су модели, фотографи и уметници бити погођене ако модели као што је ДАЛЛ-Е постану мејнстрим?
У овом тренутку, ови модели и даље имају ограничења. Држање било које слике генерисане вештачком интелигенцијом за преглед откриће њене несавршености. С обзиром да се и ОпенАИ и Гоогле такмиче за најефикасније моделе, може бити питање времена када ће се створити заиста савршен резултат: слика која се не разликује од стварне ствари.
Шта мислите да ће се догодити када технологија оде тако далеко?
Ostavite komentar