Samouczek Dreambooth dla początkujących

Spis treści[Ukryć][Pokazać]

Co to jest Dreambooth?
Korzyści
Zastosowanie+-
Instrukcja Dream Bootha+-
Ograniczenia Dreambootha
Wnioski

Duże modele zamiany tekstu na obraz poczyniły znaczący postęp w rozwoju sztucznej inteligencji, wytwarzając wysokiej jakości i zróżnicowaną syntezę obrazu z danego monitu tekstowego.

Modele te nie są w stanie zsyntetyzować unikalnych reprezentacji przedmiotów w różnych ustawieniach ani odtworzyć wyglądu obiektów w danym zestawie odniesienia.

Nowo wydane technologie, takie jak DALL.E2 OpenAI lub StabilityAI Stabilna dyfuzja i Midjourney już szturmem podbijają internet. Nadszedł czas, aby dostosować wyniki. Ale jak?

Nadeszła sztuczna inteligencja Google DreamBooth.

DreamBooth ma możliwość rozpoznania tematu obrazu, dekonstrukcji go z oryginalnego kontekstu, a następnie precyzyjnej syntezy w nowy pożądany kontekst. Dodatkowo może być używany z obecnymi generatorami obrazów AI.

W tym artykule przyjrzymy się dokładnie DreamBooth, jego użyciu, samouczkowi, jego ograniczeniom i wielu innym.

Co to jest Dreambooth?

Wymarzona budka, zupełnie nowy model rozpowszechniania tekstu na obraz, został zaprezentowany przez Google. Pisemna zachęta może być wykorzystana przez Google DreamBooth AI jako wskazówka do wygenerowania szerokiej gamy zdjęć wybranego przez użytkownika tematu w różnych ustawieniach.

Grupa badawcza z Boston University i Google opracowała DreamBooth, najnowocześniejszą technikę zmiany modeli tekstu na obraz, które przeszły intensywne szkolenie wstępne.

Ogólna koncepcja jest raczej prosta: chcą rozszerzyć słownik wizyjny języka, tak aby nietypowe identyfikatory tokenów były powiązane z niestandardowymi tematami, które użytkownicy mogą definiować.

Głównym celem modelu jest połączenie użytkowników z model dyfuzji tekstu do obrazu dając im zasoby, których potrzebują do tworzenia fotorealistycznych reprezentacji przypadków wybranego przez nich tematu.

W rezultacie ta technika wydaje się dobrze sprawdzać przy podsumowywaniu wyzwań w różnych sytuacjach.

DreamBooth firmy Google różni się od poprzednich narzędzi zamiany tekstu na obraz, takich jak DALL-E2, Stabilna dyfuzja, W połowie drogi, ponieważ daje użytkownikom większą kontrolę nad obrazem tematu, zanim pozwoli im manipulować modelem rozpowszechniania przy użyciu danych tekstowych.

Korzyści

DreamBooth AI może ulepszyć model zamiany tekstu na obraz z 3-5 obrazami.
Oryginalne fotorealistyczne zdjęcia można tworzyć za pomocą DreamBooth AI.
Ponadto DreamBooth AI może tworzyć zdjęcia tematu pod różnymi kątami.

Zastosowanie

interpretacje sztuki

To zadanie różni się w szczególności od przeniesienia stylu, które zachowuje semantykę sceny źródłowej, jednocześnie włączając styl innego obrazu do oryginalnej sceny.

Wykonanie sztuki

W oparciu o kreatywne podejście sztuczna inteligencja może dokonywać znaczących zmian scen, zachowując jednocześnie identyfikację i specyfikę wystąpienia tematu.

Modyfikacja właściwości

Charakterystyka instancji podmiotu może być modyfikowana przez DreamBooth AI.

Modyfikacja właściwości

Akcesoria

Silna kompozycja przed generacją modelu sprawia, że zdolność DreamBooth AI do ozdabiania obiektów jest tak interesująca.

Akcesoria

Rekontekstualizacja

Sztuczna inteligencja DreamBooth może tworzyć charakterystyczne obrazy dla określonej instancji podmiotu, przekazując wyszkolonemu modelowi zdanie zawierające unikalny identyfikator i rzeczownik klasy.

Rekontekstualizacja

Może generować obiekt w unikalnych, wcześniej niespotykanych pozach, artykulacjach i strukturze sceny, zamiast zmieniać otoczenie. Realistyczne odbicia i cienie, a także interakcje między obiektem a otaczającymi obiektami.

Instrukcja Dream Bootha

W tym samouczku będziemy śledzić Notatnik Google Collab, a ja przeprowadzę Cię przez to, co sprawi, że zrozumiesz i wykorzystasz to na własną rękę.

Konfigurowanie GPU i instalowanie bibliotek

Pierwszym krokiem jest ustalenie, jakie rodzaje procesorów graficznych i pamięci VRAM są dostępne. Konieczne jest również zainstalowanie kilku wymagań i zależności. Po prostu naciśnij przycisk odtwarzania, a następnie poczekaj, aż się skończy.

Konfigurowanie GPU i instalowanie bibliotek

Załóż konto na Huggingface i wygeneruj token

Następnym krokiem jest rejestracja konta Huggingface. Po zakończeniu kliknij ustawienia w prawym górnym rogu. Dotrzesz na następną stronę.

Token przytulania twarzy

Utwórz token i nazwę zgodnie z żądaniem stąd. Token należy skopiować i wkleić we współpracy Google w komórce poniżej.

Token w Google Colab

Zainstaluj xformers

Na tym etapie możesz po prostu nacisnąć przycisk odtwarzania, aby zainstalować xformers, klikając środowisko wykonawcze.

Zainstaluj Xformers

Połącz z Dyskiem

Teraz wystarczy uruchomić tę komórkę, aby połączyć się z dyskiem Google.

Połącz z Dyskiem

Wprowadź monit

W następnej komórce wystarczy wpisać monit.

Wprowadź monit

Przesyłanie zdjęć

W tym kroku wystarczy przesłać zdjęcia, które chcesz trenować.

Możesz przesyłać swoje obrazy w tej komórce

Trenuj model AI

Jest to najważniejsza faza, ponieważ będziesz wykorzystywać DreamBooth do trenowania nowego modelu sztucznej inteligencji na podstawie wszystkich przesłanych zdjęć referencyjnych. Musisz ograniczyć swoją uwagę do dwóch pól wejściowych. „—instancja zachęty” to pierwszy parametr. W tym miejscu musisz podać bardzo wyróżniającą się nazwę.

Argument „–concept list” jest drugim krytycznym polem wejściowym. Należy zmienić jego nazwę, aby była zgodna z nazwą używaną w sekcji „Zmień monit”.

Treningowy model sztucznej inteligencji

Generuj obrazy AI

Obrazy AI zostaną utworzone na tym etapie, gdzie możesz wprowadzić instrukcje tekstowe.

Generuj obrazy AI

Ograniczenia Dreambootha

Wiersz polecenia staje się przeszkodą w tworzeniu iteracji w temacie o wysokim stopniu szczegółowości. DreamBooth może zmienić kontekst obiektu, ale jeśli model chce zmienić sam temat, występują problemy z ramką.
Innym problemem jest nadmierne dopasowanie obrazu wyjściowego do obrazu wejściowego. Jeśli nie dostarczono wystarczającej liczby zdjęć, temat może nie zostać wzięty pod uwagę lub może zostać wmieszany w kontekst przesłanych obrazów. Kiedy pytany jest kontekst dla nieparzystej generacji, dzieje się to samo.

Wnioski

Aby wygenerować dane wyjściowe z pojedynczego wejścia tekstowego, większość modeli zamiany tekstu na obraz wymaga milionów parametrów i bibliotek.

DreamBooth upraszcza pozyskiwanie i wykorzystywanie treści przez konsumentów, wymagając jedynie wprowadzenia od trzech do pięciu fotografii tematycznych wraz z tłem tekstowym.

Dreambooth Tutorial dla początkujących

Co to jest Dreambooth?

Korzyści