Съдържание[Крия][Покажи]
Големите модели текст-към-изображение направиха значителен напредък в развитието на AI, като произвеждат висококачествен и разнообразен синтез на картина от дадена текстова подкана.
Тези модели не са в състояние да синтезират уникални представяния на субекти в различни настройки или да възпроизведат външния вид на субекти в даден референтен набор.
Новоиздадени технологии като DALL.E2 на OpenAI или StabilityAI Стабилна дифузия и Midjourney вече щурмуват интернет. Сега е време да персонализирате резултатите. Но как?
Google DreamBooth AI пристигна.
DreamBooth има способността да разпознава темата на картина, да я деконструира от оригиналния й контекст и след това прецизно да я синтезира в нов желан контекст. Освен това може да се използва с настоящите генератори на изображения с изкуствен интелект.
В тази статия ще разгледаме задълбочено DreamBooth, неговата употреба, неговия урок, неговите ограничения и много повече.
Какво е Dreambooth?
будка за сънища, съвсем нов модел за разпространение на текст към изображение, беше представен от Google. Писмена подкана може да се използва като насока от Google DreamBooth AI за генериране на широка гама от снимки на избрания от потребителя обект в различни настройки.
Изследователска група от Бостънския университет и Google разработиха DreamBooth, авангардна техника за промяна на модели от текст към изображение, които са преминали през обширно предварително обучение.
Цялостната концепция е доста ясна: те искат да увеличат езиковия речник, така че необичайните идентификатори на токени да бъдат свързани с персонализирани теми, които потребителите могат да дефинират.
Основната цел на модела е да свърже потребителите към модел на дифузия от текст към изображение като им предоставя ресурсите, от които се нуждаят, за да създадат фотореалистични представяния на случаите на избрания от тях предмет.
В резултат на това тази техника изглежда работи добре за обобщаване на предизвикателствата в редица ситуации.
DreamBooth на Google се различава от предишните инструменти за текст към изображение, като напр DALL-E2, Стабилна дифузия, и По средата на пътуването, тъй като дава на потребителите повече контрол върху изображението на темата, преди да им позволи да манипулират модела на дифузия, използвайки текстови входове.
Характеристики:
- DreamBooth AI може да подобри модел текст към изображение с 3-5 изображения.
- Оригинални фотореалистични снимки могат да бъдат създадени с DreamBooth AI.
- В допълнение, DreamBooth AI може да създава снимки на тема от различни ъгли.
Приложение
Предаване на изкуство
Тази задача се различава конкретно от трансфера на стил, който запазва семантиката на изходната сцена, като същевременно включва стила на друго изображение в оригиналната сцена.
Въз основа на творческия подход AI може да извърши значителни промени в сцената, като същевременно запази идентификацията и спецификата на екземпляра на темата.
Промяна на имота
Характеристиките на обекта могат да бъдат модифицирани от DreamBooth AI.
Аксесоари
Силната композиция преди модела на генериране е това, което прави способността на DreamBooth AI да украсява обекти толкова интересна.
Реконтекстуализация
DreamBooth AI може да създаде отличителни изображения за определен екземпляр на предмет, като даде на обучен модел изречение, което включва уникалния идентификатор и съществителното име на класа.
Той може да генерира обекта в уникални, нечувани досега пози, артикулации и структура на сцената, вместо да променя обкръжението. Реалистични отражения и сенки, както и взаимодействия между обекта и околните обекти.
Урок за Dreambooth
В този урок ще следваме Google Collab бележник, и аз ще ви преведа през него, което ще ви накара да го разберете и използвате сами.
Настройка на GPU и инсталиране на библиотеки
Първата стъпка е да разберете какви видове GPU и VRAM са налични. Инсталирането на няколко изисквания и зависимости също е необходимо. Просто натиснете бутона за възпроизвеждане и изчакайте да приключи.
Създайте акаунт в Huggingface и генерирайте токен
Следващата стъпка е да се регистрирате за Huggingface акаунт. Когато приключите, щракнете върху настройки в горния десен ъгъл. Ще пристигнете на следващата страница.
Създайте токена и името, както е поискано от тук. Токенът трябва да бъде копиран и поставен в Google Collab в клетката по-долу.
Инсталирайте xformers
На този етап можете просто да натиснете бутона за възпроизвеждане, за да инсталирате xformers, като щракнете върху времето за изпълнение.
Свържете се с Диск
Сега просто трябва да стартирате тази клетка, за да се свържете с Google Drive.
Въведете подканата
В следващата клетка просто трябва да въведете подканата.
Качване на снимки
В тази стъпка просто трябва да качите снимките, които искате да тренирате.
Обучете AI модел
Това е най-важната фаза, тъй като ще използвате DreamBooth, за да обучите нов AI модел въз основа на всички ваши изпратени референтни снимки. Трябва да ограничите вниманието си до две полета за въвеждане. „—instance prompt“ е първият параметър. Тук трябва да предоставите много ясно име.
Аргументът „–concept list“ е второто критично поле за въвеждане. То трябва да бъде преименувано, за да съответства на използваното в секцията „Промяна на подканата“.
Генериране на AI изображения
AI снимките ще бъдат създадени на този етап, където можете да въведете текстовите инструкции.
Ограничения на Dreambooth
- Командният ред се превръща в бариера за извършване на итерации в темата с висока степен на детайлност. DreamBooth може да промени контекста на обекта, но ако моделът желае да промени самия обект, има проблеми с рамката.
- Друг проблем е пренастройването на изходната картина към входното изображение. Ако няма достатъчно предоставени снимки, обектът може да не бъде взет под внимание или да се смеси с контекста на изпратените изображения. Когато се поиска контекст за нечетно генериране, се случва същото.
Заключение
За да произведат резултати от един входен текст, по-голямата част от моделите текст към изображение изискват милиони параметри и библиотеки.
DreamBooth опростява придобиването и използването на съдържание за потребителите, като изисква само въвеждането на три до пет тематични снимки заедно с текстов фон.
Оставете коментар