Зміст[Сховати][Показати]
Великі моделі перетворення тексту в зображення зробили значний прогрес у розвитку штучного інтелекту, виробляючи високоякісний і диверсифікований синтез зображення з заданого текстового підказки.
Ці моделі не здатні синтезувати унікальні представлення суб’єктів у різних умовах або відтворити зовнішній вигляд суб’єктів у заданому еталонному наборі.
Нещодавно випущені технології, такі як DALL.E2 від OpenAI або StabilityAI Стабільна дифузія і Midjourney вже захоплюють Інтернет. Настав час налаштувати результати. Але як?
Google DreamBooth AI прийшов.
DreamBooth має здатність розпізнавати тему зображення, деконструювати його з оригінального контексту, а потім точно синтезувати його в новий бажаний контекст. Крім того, його можна використовувати з поточними генераторами зображень AI.
У цій статті ми детально розглянемо DreamBooth, його використання, підручник, його обмеження та багато іншого.
Що таке Dreambooth?
будка мрійGoogle представила абсолютно нову модель розповсюдження тексту в зображення. Google DreamBooth AI може використовувати письмове повідомлення як вказівку для створення широкого діапазону фотографій вибраного користувачем об’єкта в різних налаштуваннях.
Дослідницька група з Бостонського університету та Google розробила DreamBooth, передову техніку для зміни моделей тексту в зображення, яка пройшла тривале попереднє навчання.
Загальна концепція досить проста: вони хочуть розширити словник бачення мови таким чином, щоб незвичайні ідентифікатори токенів пов’язувалися з користувацькими темами, які користувачі можуть визначати.
Основна мета моделі – підключити користувачів до модель дифузії тексту в зображення надаючи їм ресурси, необхідні для створення фотореалістичних зображень екземплярів вибраного предмета.
Як наслідок, ця техніка, здається, добре працює для узагальнення викликів у низці ситуацій.
Google DreamBooth відрізняється від попередніх інструментів перетворення тексту в зображення, як-от ВІД-Є 2, Стабільна дифузія та Серед подорожі, оскільки він дає користувачам більше контролю над зображенням теми, перш ніж дозволяти їм маніпулювати дифузійною моделлю за допомогою текстових вхідних даних.
риси
- DreamBooth AI може покращити модель перетворення тексту в зображення з 3-5 зображень.
- Оригінальні фотореалістичні фотографії можна створювати за допомогою DreamBooth AI.
- Крім того, DreamBooth AI може створювати фотографії певної теми з різних ракурсів.
додаток
Перетворення мистецтва
Це завдання особливо відрізняється від передачі стилю, яке зберігає семантику вихідної сцени, одночасно включаючи стиль іншого зображення в оригінальну сцену.
Завдяки творчому підходу штучний інтелект може вносити значні зміни в сцену, зберігаючи ідентифікацію та специфіку екземпляра теми.
Зміна власності
Характеристики предметного екземпляра можуть бути змінені за допомогою DreamBooth AI.
Аксесуари
Сильна композиція до моделі генерації робить здатність DreamBooth AI прикрашати об’єкти такою цікавою.
Реконтекстуалізація
DreamBooth AI може створювати характерні зображення для певного екземпляра предмета, надаючи навченій моделі речення, яке містить унікальний ідентифікатор та іменник класу.
Він може створювати об’єкт в унікальних, раніше нечуваних позах, артикуляції та структурі сцени, а не змінювати оточення. Реалістичні відображення та тіні, а також взаємодія між суб’єктом і навколишніми об’єктами.
Підручник Dreambooth
У цьому підручнику ми будемо дотримуватися Блокнот Google Collab, і я проведу вас через це, що змусить вас зрозуміти та використовувати його самостійно.
Налаштування GPU та встановлення бібліотек
Першим кроком є визначення доступних типів GPU та VRAM. Також необхідно встановити кілька вимог і залежностей. Просто натисніть кнопку відтворення та дочекайтеся завершення.
Створіть обліковий запис на Huggingface та згенеруйте маркер
Наступним кроком є реєстрація облікового запису Huggingface. Коли ви закінчите, натисніть налаштування у верхньому правому куті. Ви потрапите на наступну сторінку.
Створіть токен і ім’я за запитом тут. Маркер потрібно скопіювати та вставити в комірку Google Collab у клітинку нижче.
Встановити xformers
На цьому етапі ви можете просто натиснути кнопку відтворення, щоб установити xformers, натиснувши на середовище виконання.
Підключіться до Диска
Тепер вам просто потрібно запустити цю комірку, щоб підключитися до диска Google.
Введіть підказку
У наступній клітинці вам просто потрібно ввести підказку.
Завантаження картинок
На цьому кроці вам просто потрібно завантажити зображення, які ви хотіли б потренувати.
Навчання моделі ШІ
Це найважливіший етап, оскільки ви будете використовувати DreamBooth для навчання нової моделі ШІ на основі всіх надісланих вами еталонних фотографій. Ви повинні обмежити свою увагу двома полями введення. «—instance prompt» є першим параметром. Тут потрібно вказати дуже чітке ім’я.
Аргумент «–concept list» є другим критичним полем введення. Його потрібно перейменувати відповідно до того, що використовується в розділі «Змінити підказку».
Створення зображень AI
На цьому етапі будуть створені зображення ШІ, де ви зможете вводити текстові інструкції.
Обмеження Dreambooth
- Командний рядок стає перешкодою для виконання ітерацій у темі з високим ступенем деталізації. DreamBooth може змінити контекст об’єкта, але якщо модель бажає змінити об’єкт сама, виникають проблеми з рамкою.
- Іншою проблемою є перепідгонка вихідного зображення до вхідного. Якщо надано недостатньо зображень, об’єкт може не розглядатися або змішуватися з контекстом поданих зображень. Коли запитують контекст для непарного покоління, відбувається те саме.
Висновок
Для отримання виходу з одного введення тексту більшість моделей перетворення тексту в зображення потребують мільйонів параметрів і бібліотек.
DreamBooth спрощує отримання та використання контенту для споживачів, вимагаючи лише введення трьох-п’яти тематичних фотографій разом із текстовим фоном.
залишити коментар