Урок за Dreambooth за начинаещи

Съдържание[Крия][Покажи]

Какво е Dreambooth?
Характеристики:
Приложение+-
Урок за Dreambooth+-
Ограничения на Dreambooth
Заключение

Големите модели текст-към-изображение направиха значителен напредък в развитието на AI, като произвеждат висококачествен и разнообразен синтез на картина от дадена текстова подкана.

Тези модели не са в състояние да синтезират уникални представяния на субекти в различни настройки или да възпроизведат външния вид на субекти в даден референтен набор.

Новоиздадени технологии като DALL.E2 на OpenAI или StabilityAI Стабилна дифузия и Midjourney вече щурмуват интернет. Сега е време да персонализирате резултатите. Но как?

Google DreamBooth AI пристигна.

DreamBooth има способността да разпознава темата на картина, да я деконструира от оригиналния й контекст и след това прецизно да я синтезира в нов желан контекст. Освен това може да се използва с настоящите генератори на изображения с изкуствен интелект.

В тази статия ще разгледаме задълбочено DreamBooth, неговата употреба, неговия урок, неговите ограничения и много повече.

Какво е Dreambooth?

будка за сънища, съвсем нов модел за разпространение на текст към изображение, беше представен от Google. Писмена подкана може да се използва като насока от Google DreamBooth AI за генериране на широка гама от снимки на избрания от потребителя обект в различни настройки.

Изследователска група от Бостънския университет и Google разработиха DreamBooth, авангардна техника за промяна на модели от текст към изображение, които са преминали през обширно предварително обучение.

Цялостната концепция е доста ясна: те искат да увеличат езиковия речник, така че необичайните идентификатори на токени да бъдат свързани с персонализирани теми, които потребителите могат да дефинират.

Основната цел на модела е да свърже потребителите към модел на дифузия от текст към изображение като им предоставя ресурсите, от които се нуждаят, за да създадат фотореалистични представяния на случаите на избрания от тях предмет.

В резултат на това тази техника изглежда работи добре за обобщаване на предизвикателствата в редица ситуации.

DreamBooth на Google се различава от предишните инструменти за текст към изображение, като напр DALL-E2, Стабилна дифузия, и По средата на пътуването, тъй като дава на потребителите повече контрол върху изображението на темата, преди да им позволи да манипулират модела на дифузия, използвайки текстови входове.

Характеристики:

DreamBooth AI може да подобри модел текст към изображение с 3-5 изображения.
Оригинални фотореалистични снимки могат да бъдат създадени с DreamBooth AI.
В допълнение, DreamBooth AI може да създава снимки на тема от различни ъгли.

Приложение

Предаване на изкуство

Тази задача се различава конкретно от трансфера на стил, който запазва семантиката на изходната сцена, като същевременно включва стила на друго изображение в оригиналната сцена.

Художествено предаване

Въз основа на творческия подход AI може да извърши значителни промени в сцената, като същевременно запази идентификацията и спецификата на екземпляра на темата.

Промяна на имота

Характеристиките на обекта могат да бъдат модифицирани от DreamBooth AI.

Промяна на имота

Аксесоари

Силната композиция преди модела на генериране е това, което прави способността на DreamBooth AI да украсява обекти толкова интересна.

Аксесоари

Реконтекстуализация

DreamBooth AI може да създаде отличителни изображения за определен екземпляр на предмет, като даде на обучен модел изречение, което включва уникалния идентификатор и съществителното име на класа.

Реконтекстуализация

Той може да генерира обекта в уникални, нечувани досега пози, артикулации и структура на сцената, вместо да променя обкръжението. Реалистични отражения и сенки, както и взаимодействия между обекта и околните обекти.

Урок за Dreambooth

В този урок ще следваме Google Collab бележник, и аз ще ви преведа през него, което ще ви накара да го разберете и използвате сами.

Настройка на GPU и инсталиране на библиотеки

Първата стъпка е да разберете какви видове GPU и VRAM са налични. Инсталирането на няколко изисквания и зависимости също е необходимо. Просто натиснете бутона за възпроизвеждане и изчакайте да приключи.

Настройване на GPU и инсталиране на библиотеки

Създайте акаунт в Huggingface и генерирайте токен

Следващата стъпка е да се регистрирате за Huggingface акаунт. Когато приключите, щракнете върху настройки в горния десен ъгъл. Ще пристигнете на следващата страница.

Токен за прегръщащо лице

Създайте токена и името, както е поискано от тук. Токенът трябва да бъде копиран и поставен в Google Collab в клетката по-долу.

Токен в Google Colab

Инсталирайте xformers

На този етап можете просто да натиснете бутона за възпроизвеждане, за да инсталирате xformers, като щракнете върху времето за изпълнение.

Инсталирайте Xformers

Свържете се с Диск

Сега просто трябва да стартирате тази клетка, за да се свържете с Google Drive.

Свържете се с Диск

Въведете подканата

В следващата клетка просто трябва да въведете подканата.

Въведете подканата

Качване на снимки

В тази стъпка просто трябва да качите снимките, които искате да тренирате.

Можете да качвате вашите изображения в тази клетка

Обучете AI модел

Това е най-важната фаза, тъй като ще използвате DreamBooth, за да обучите нов AI модел въз основа на всички ваши изпратени референтни снимки. Трябва да ограничите вниманието си до две полета за въвеждане. „—instance prompt“ е първият параметър. Тук трябва да предоставите много ясно име.

Аргументът „–concept list“ е второто критично поле за въвеждане. То трябва да бъде преименувано, за да съответства на използваното в секцията „Промяна на подканата“.

Обучение AI модел

Генериране на AI изображения

AI снимките ще бъдат създадени на този етап, където можете да въведете текстовите инструкции.

Генериране на AI изображения

Ограничения на Dreambooth

Командният ред се превръща в бариера за извършване на итерации в темата с висока степен на детайлност. DreamBooth може да промени контекста на обекта, но ако моделът желае да промени самия обект, има проблеми с рамката.
Друг проблем е пренастройването на изходната картина към входното изображение. Ако няма достатъчно предоставени снимки, обектът може да не бъде взет под внимание или да се смеси с контекста на изпратените изображения. Когато се поиска контекст за нечетно генериране, се случва същото.

Заключение

За да произведат резултати от един входен текст, по-голямата част от моделите текст към изображение изискват милиони параметри и библиотеки.

DreamBooth опростява придобиването и използването на съдържание за потребителите, като изисква само въвеждането на три до пет тематични снимки заедно с текстов фон.

Урок за Dreambooth за начинаещи

Какво е Dreambooth?

Характеристики: