Най-вероятно знаете, че компютърът може да опише картина.
Например снимка на куче, което си играе с вашите деца, може да се преведе като „куче и деца в градината“. Но знаете ли, че и обратният начин вече е осъществим? Вие въвеждате няколко думи и машината генерира нова картина.
За разлика от търсенето в Google, което търси в съществуващи снимки, всичко това е свежо. През последните години OpenAI е една от водещите организации, отчитайки зашеметяващи резултати.
Те обучават своите алгоритми върху масивни текстови и картинни бази данни. Те публикуваха статия за техния модел на изображение GLIDE, който беше обучен върху стотици милиони снимки. По отношение на фотореализма, той превъзхожда техния предишен модел "DALL-E".
В тази публикация ще разгледаме GLIDE на OpenAI, една от няколкото очарователни инициативи, насочени към създаване и промяна на фотореалистични картини с модели на дифузия, управлявани от текст. Нека да започнем.
Какво е Отворете AI Glide?
Докато повечето изображения могат да бъдат описани с думи, създаването на изображения от въведен текст изисква специализирани познания и значително време.
Разрешаването на AI агент да произвежда фотореалистични картини от подкани на естествен език не само позволява на хората да създават богат и разнообразен визуален материал с безпрецедентна лекота, но също така позволява по-просто итеративно усъвършенстване и фин контрол на създадените изображения.
GLIDE може да се използва за редактиране на съществуващи снимки чрез използване на текстови подкани на естествен език за вмъкване на нови обекти, създаване на сенки и отражения, изпълнение изображение в живописта, и така нататък.
Той може също да превърне основни линейни чертежи във фотореалистични снимки и има изключителни възможности за производство и ремонт с нулева проба за сложни ситуации.
Скорошни изследвания показаха, че дифузионните модели, базирани на вероятности, също могат да произвеждат висококачествени синтетични картини, особено когато се комбинират с насочващ подход, който балансира разнообразието и прецизността.
OpenAI публикува a модел на направлявана дифузия през май, което позволява дифузионните модели да зависят от етикетите на класификатор. GLIDE подобрява този успех, като въвежда насочена дифузия към проблема със създаването на условно текстово изображение.
След обучение на дифузионен модел GLIDE с 3.5 милиарда параметъра, използващ текстов енкодер за обуславяне на описания на естествен език, изследователите тестваха две алтернативни насочващи стратегии: CLIP насочване и насочване без класификатор.
CLIP е мащабируема техника за изучаване на съвместни представяния на текст и картини, която предоставя резултат въз основа на това колко близо е изображението до надписа.
Екипът използва тази стратегия в своите дифузионни модели, като замени класификатора с CLIP модел, който „насочва“ моделите. Междувременно ръководството без класификатор е стратегия за насочване на дифузионни модели, които не включват обучението на отделен класификатор.
Архитектура GLIDE
Архитектурата GLIDE се състои от три компонента: Ablated Diffusion Model (ADM), обучен да генерира изображение 64 × 64, текстов модел (трансформатор), който влияе върху генерирането на изображение чрез текстова подкана, и модел за повишаване на дискретизацията, който преобразува нашите малки 64 × 64 изображения до по-интерпретируеми 256 x 256 пиксела.
Първите два компонента работят заедно, за да контролират процеса на генериране на картина, така че да отразява правилно текстовата подкана, докато последният е необходим, за да направи изображенията, които създаваме, по-лесни за разбиране. Проектът GLIDE е вдъхновен от a доклад, публикуван през 2021 г което показа, че ADM техниките превъзхождат понастоящем популярните, най-съвременни генеративни модели по отношение на качеството на пробата на картината.
За ADM авторите на GLIDE са използвали същия модел ImageNet 64 x 64 като Dhariwal и Nichol, но с 512 канала вместо 64. В резултат на това моделът ImageNet има приблизително 2.3 милиарда параметри.
Екипът на GLIDE, за разлика от Dhariwal и Nichol, искаше да има по-голям пряк контрол върху процеса на генериране на картина, поради което те комбинираха визуалния модел с трансформатор, активиран за внимание. GLIDE ви дава известен контрол върху изхода на процеса на генериране на картина чрез обработка на подканите за въвеждане на текст.
Това се постига чрез обучение на модела на трансформатора върху подходящо голям набор от данни от снимки и надписи (подобно на използваното в проекта DALL-E).
Текстът първоначално е кодиран в поредица от K токена, за да бъде кондициониран. След това жетоните се зареждат в трансформаторен модел. След това изходът на трансформатора може да се използва по два начина. За ADM модела се използва окончателното вграждане на токен вместо вграждането на клас.
Второ, последният слой на вграждането на токени – поредица от вектори на характеристиките – се проектира независимо спрямо измеренията за всеки слой на вниманието в ADM модела и се свързва към всеки контекст на внимание.
В действителност това позволява на ADM модела да произвежда картина от нови комбинации от подобни текстови токени по уникален и фотореалистичен начин, въз основа на наученото разбиране на входните думи и свързаните с тях изображения. Този трансформатор за кодиране на текст съдържа 1.2 милиарда параметъра и използва 24 остатъчни блока с ширина 2048.
И накрая, дифузионният модел на upsampler включва около 1.5 милиарда параметри и се различава от основния модел по това, че неговият текстов енкодер е по-малък, с ширина от 1024 и 384 основни канала, в сравнение с базовия модел. Този модел, както показва името, помага при надграждането на извадката, за да се подобри интерпретируемостта както за машини, така и за хора.
Дифузионен модел
GLIDE генерира изображения, използвайки своя собствена версия на ADM (ADM-G за „насочван“). Моделът ADM-G е модификация на дифузионния U-net модел. Дифузионният U-net модел се различава драстично от по-често срещаните техники за синтез на изображения като VAE, GAN и трансформатори.
Те изграждат верига на Марков от стъпки на дифузия, за да инжектират постепенно произволен шум в данните и след това се научават да обръщат процеса на дифузия и да възстановяват необходимите проби от данни само от шума. Работи на два етапа: предна и обратна дифузия.
Методът на дифузия напред, при дадена точка от данни от истинското разпределение на пробата, добавя малко количество шум към пробата през предварително зададена поредица от стъпки. Тъй като стъпките се увеличават по размер и се приближават до безкрайност, пробата губи всички разпознаваеми характеристики и последователността започва да прилича на изотропна крива на Гаус.
По време на обратната дифузия фаза, дифузионният модел се научава да обръща влиянието на добавения шум върху снимките и да връща създаденото изображение към оригиналната му форма, като се опитва да наподобява оригиналното разпределение на входната проба.
Един завършен модел би могъл да направи това с реален шум на Гаус и подкана. Методът ADM-G се различава от предходния по това, че моделът, или CLIP, или персонализиран трансформатор, въздейства на фазата на обратна дифузия чрез използване на въведените текстови подкани.
Възможности за плъзгане
1. Генериране на изображение
Най-популярната и широко използвана употреба на GLIDE вероятно ще бъде синтезът на изображения. Въпреки че снимките са скромни и GLIDE има трудности с животински/човешки форми, потенциалът за създаване на еднократно изображение е почти безкраен.
Може да създава снимки на животни, знаменитости, пейзажи, сгради и много други и може да го прави в различни стилове на изкуството, както и фотореалистично. Авторите на изследователите твърдят, че GLIDE е в състояние да интерпретира и адаптира голямо разнообразие от текстови входове във визуален формат, както се вижда в примерите по-долу.
2. Плъзгане в рисуване
Автоматичното рисуване на снимки на GLIDE е може би най-завладяващата употреба. GLIDE може да вземе съществуваща снимка като вход, да я обработи с текстовата подкана за места, които трябва да бъдат променени, и след това да направи активни модификации на тези части с лекота.
Трябва да се използва заедно с модел за редактиране, като SDEdit, за да се получат още по-добри резултати. В бъдеще приложения, които се възползват от възможности като тези, може да са от решаващо значение за разработването на подходи за промяна на картина без код.
Заключение
Сега, след като преминахме през процеса, трябва да разберете основите на това как работи GLIDE, както и широчината на неговите възможности за създаване на картина и модификация в изображението.
Оставете коментар