Преглед садржаја[Сакрити][Прикажи]
Највероватније сте свесни да компјутер може да опише слику.
На пример, слика пса који се игра са вашом децом може се превести као „пас и деца у башти“. Али да ли сте знали да је сада изводљив и супротан начин? Укуцате неке речи и машина генерише нову слику.
За разлику од Гоогле претраге, која претражује постојеће фотографије, ово је све свеже. Последњих година, ОпенАИ је била једна од водећих организација, извештавајући о запањујућим резултатима.
Они тренирају своје алгоритме на огромним базама података са текстом и сликама. Објавили су рад о свом моделу слике ГЛИДЕ, који је обучен на стотинама милиона фотографија. Што се тиче фотореализма, надмашује њихов претходни 'ДАЛЛ-Е' модел.
У овом посту ћемо погледати ОпенАИ-јев ГЛИДЕ, једну од неколико фасцинантних иницијатива које имају за циљ производњу и измену фотореалистичних слика помоћу модела дифузије вођених текстом. Почнимо.
Шта је Отворите АИ Глиде?
Иако се већина слика може описати речима, креирање слика из уноса текста захтева специјализовано знање и значајну количину времена.
Дозвољавање АИ агенту да производи фотореалистичне слике из упита природног језика не само да омогућава људима да креирају богат и разнолик визуелни материјал са невиђеном лакоћом, већ такође омогућава једноставније итеративно пречишћавање и фину контролу креираних слика.
ГЛИДЕ се може користити за уређивање постојећих фотографија коришћењем текстуалних упита на природном језику за уметање нових објеката, креирање сенки и рефлексија, извођење сликање слике, и тако даље.
Такође може да претвори основне цртеже линија у фотореалистичне фотографије и има изузетне могућности производње и поправке без узорка за сложене ситуације.
Недавна истраживања су показала да модели дифузије засновани на вероватноћи такође могу произвести висококвалитетне синтетичке слике, посебно када се комбинују са водећим приступом који балансира разноликост и верност.
ОпенАИ је објавио а модел вођене дифузије маја, што омогућава да модели дифузије буду условљени ознакама класификатора. ГЛИДЕ побољшава овај успех уносећи вођену дифузију у проблем креирања текстуалне условне слике.
Након обучавања модела ГЛИДЕ дифузије са 3.5 милијарди параметара помоћу енкодера текста за условљавање описа природног језика, истраживачи су тестирали две алтернативне стратегије вођења: ЦЛИП навођење и навођење без класификатора.
ЦЛИП је скалабилна техника за учење заједничких репрезентација текста и слика која даје резултат на основу тога колико је слика близу наслова.
Тим је користио ову стратегију у својим моделима дифузије тако што је класификатор заменио ЦЛИП моделом који „води“ моделе. У међувремену, вођење без класификатора је стратегија за усмеравање модела дифузије који не укључују обуку посебног класификатора.
ГЛИДЕ Арцхитецтуре
ГЛИДЕ архитектура се састоји од три компоненте: Аблатед Диффусион Модел (АДМ) обученог да генерише слику величине 64 × 64, текстуалног модела (трансформатора) који утиче на генерисање слике преко текстуалног одзивника и модела за повећање узорковања који претвара наш мали 64 × 64 слике на разумљивије 256 к 256 пиксела.
Прве две компоненте раде заједно да контролишу процес генерисања слике тако да она на одговарајући начин одражава текстуални упит, док је последња неопходна да би слике које креирамо биле лакше разумљиве. Пројекат ГЛИДЕ је инспирисан а Извештај објављен 2021 који је показао да су АДМ технике надмашиле тренутно популарне, најсавременије генеративне моделе у погледу квалитета узорка слике.
За АДМ, ГЛИДЕ аутори су користили исти модел ИмагеНет 64 к 64 као Дхаривал и Ницхол, али са 512 канала уместо 64. ИмагеНет модел има отприлике 2.3 милијарде параметара као резултат тога.
ГЛИДЕ тим, за разлику од Дхаривала и Ницхола, желео је да има већу директну контролу над процесом генерисања слике, тако да су комбиновали визуелни модел са трансформатором који омогућава пажњу. ГЛИДЕ вам даје одређену контролу над излазом процеса генерисања слике обрадом упита за унос текста.
Ово се постиже обучавањем модела трансформатора на одговарајуће великом скупу фотографија и натписа (слично оном који се користи у пројекту ДАЛЛ-Е).
Текст је иницијално кодиран у серију К токена да би се условио. Након тога, жетони се учитавају у модел трансформатора. Излаз трансформатора се тада може користити на два начина. За АДМ модел, коначно уграђивање токена се користи уместо уграђивања класе.
Друго, завршни слој уградње токена – серија вектора карактеристика – пројектује се независно на димензије за сваки слој пажње у АДМ моделу и повезује се са сваким контекстом пажње.
У стварности, ово омогућава АДМ моделу да произведе слику од нових комбинација сличних текстуалних токена на јединствен и фотореалистичан начин, на основу наученог разумевања улазних речи и њихових повезаних слика. Овај трансформатор за кодирање текста садржи 1.2 милијарде параметара и користи 24 преостала блока ширине 2048.
Коначно, модел дифузије за упсамплер укључује око 1.5 милијарди параметара и разликује се од основног модела по томе што је његов текстуални кодер мањи, са ширином од 1024 и 384 базна канала, у поређењу са основним моделом. Овај модел, као што назив говори, помаже у надоградњи узорка како би се побољшала интерпретабилност и за машине и за људе.
Модел дифузије
ГЛИДЕ генерише слике користећи сопствену верзију АДМ-а (АДМ-Г за „вођени“). АДМ-Г модел је модификација дифузионог У-мрежног модела. Дифузиони У-мрежни модел се драматично разликује од уобичајених техника синтезе слике као што су ВАЕ, ГАН и трансформатори.
Они граде Марковљев ланац корака дифузије како би постепено убризгали насумични шум у податке, а затим научили да преокрену процес дифузије и поново направе потребне узорке података само из буке. Ради у две фазе: напредна и реверзна дифузија.
Метода напредне дифузије, која има тачку података из праве дистрибуције узорка, додаје малу количину шума узорку током унапред подешеног низа корака. Како се кораци повећавају у величини и приближавају се бесконачности, узорак губи све препознатљиве карактеристике и секвенца почиње да личи на изотропну Гаусову криву.
Током повратне дифузије фаза, модел дифузије учи да преокрене утицај додатног шума на слике и врати произведену слику у првобитни облик покушавајући да личи на оригиналну дистрибуцију улазног узорка.
Завршен модел би то могао да уради са правим Гаусовим уносом шума и промптом. Метод АДМ-Г разликује се од претходног по томе што модел, било ЦЛИП или прилагођени трансформатор, утиче на фазу дифузије уназад коришћењем токена текстуалних промптова који се уносе.
Могућности клизања
1. Генерисање слике
Најпопуларнија и најшире коришћена употреба ГЛИДЕ ће вероватно бити синтеза слике. Иако су слике скромне и ГЛИДЕ има потешкоћа са животињским/људским облицима, потенцијал за производњу слика у једном снимку је скоро бескрајан.
Може да креира фотографије животиња, познатих личности, пејзажа, зграда и још много тога, и може то да ради у различитим уметничким стиловима, као и фотореалистично. Аутори истраживача тврде да је ГЛИДЕ способан да интерпретира и прилагоди широк спектар текстуалних уноса у визуелни формат, као што се види у доле наведеним узорцима.
2. Сликање клизачем
ГЛИДЕ-ово аутоматско сликање фотографија је вероватно најфасцинантнија употреба. ГЛИДЕ може узети постојећу слику као улаз, обрадити је са текстуалним упитом на уму за локације које треба изменити, а затим са лакоћом вршити активне модификације тих делова.
Мора се користити у комбинацији са моделом за уређивање, као што је СДЕдит, да би се произвели још бољи резултати. У будућности, апликације које користе предности попут ових могле би бити кључне у развоју приступа за мењање слике без кода.
Zakljucak
Сада када смо прошли кроз процес, требало би да схватите основе како ГЛИДЕ функционише, као и ширину његових могућности у креирању слика и модификовању слике.
Ostavite komentar