Spis treści[Ukryć][Pokazać]
Duże modele zamiany tekstu na obraz poczyniły znaczący postęp w rozwoju sztucznej inteligencji, wytwarzając wysokiej jakości i zróżnicowaną syntezę obrazu z danego monitu tekstowego.
Modele te nie są w stanie zsyntetyzować unikalnych reprezentacji przedmiotów w różnych ustawieniach ani odtworzyć wyglądu obiektów w danym zestawie odniesienia.
Nowo wydane technologie, takie jak DALL.E2 OpenAI lub StabilityAI Stabilna dyfuzja i Midjourney już szturmem podbijają internet. Nadszedł czas, aby dostosować wyniki. Ale jak?
Nadeszła sztuczna inteligencja Google DreamBooth.
DreamBooth ma możliwość rozpoznania tematu obrazu, dekonstrukcji go z oryginalnego kontekstu, a następnie precyzyjnej syntezy w nowy pożądany kontekst. Dodatkowo może być używany z obecnymi generatorami obrazów AI.
W tym artykule przyjrzymy się dokładnie DreamBooth, jego użyciu, samouczkowi, jego ograniczeniom i wielu innym.
Co to jest Dreambooth?
Wymarzona budka, zupełnie nowy model rozpowszechniania tekstu na obraz, został zaprezentowany przez Google. Pisemna zachęta może być wykorzystana przez Google DreamBooth AI jako wskazówka do wygenerowania szerokiej gamy zdjęć wybranego przez użytkownika tematu w różnych ustawieniach.
Grupa badawcza z Boston University i Google opracowała DreamBooth, najnowocześniejszą technikę zmiany modeli tekstu na obraz, które przeszły intensywne szkolenie wstępne.
Ogólna koncepcja jest raczej prosta: chcą rozszerzyć słownik wizyjny języka, tak aby nietypowe identyfikatory tokenów były powiązane z niestandardowymi tematami, które użytkownicy mogą definiować.
Głównym celem modelu jest połączenie użytkowników z model dyfuzji tekstu do obrazu dając im zasoby, których potrzebują do tworzenia fotorealistycznych reprezentacji przypadków wybranego przez nich tematu.
W rezultacie ta technika wydaje się dobrze sprawdzać przy podsumowywaniu wyzwań w różnych sytuacjach.
DreamBooth firmy Google różni się od poprzednich narzędzi zamiany tekstu na obraz, takich jak DALL-E2, Stabilna dyfuzja, W połowie drogi, ponieważ daje użytkownikom większą kontrolę nad obrazem tematu, zanim pozwoli im manipulować modelem rozpowszechniania przy użyciu danych tekstowych.
Korzyści
- DreamBooth AI może ulepszyć model zamiany tekstu na obraz z 3-5 obrazami.
- Oryginalne fotorealistyczne zdjęcia można tworzyć za pomocą DreamBooth AI.
- Ponadto DreamBooth AI może tworzyć zdjęcia tematu pod różnymi kątami.
Zastosowanie
interpretacje sztuki
To zadanie różni się w szczególności od przeniesienia stylu, które zachowuje semantykę sceny źródłowej, jednocześnie włączając styl innego obrazu do oryginalnej sceny.
W oparciu o kreatywne podejście sztuczna inteligencja może dokonywać znaczących zmian scen, zachowując jednocześnie identyfikację i specyfikę wystąpienia tematu.
Modyfikacja właściwości
Charakterystyka instancji podmiotu może być modyfikowana przez DreamBooth AI.
Akcesoria
Silna kompozycja przed generacją modelu sprawia, że zdolność DreamBooth AI do ozdabiania obiektów jest tak interesująca.
Rekontekstualizacja
Sztuczna inteligencja DreamBooth może tworzyć charakterystyczne obrazy dla określonej instancji podmiotu, przekazując wyszkolonemu modelowi zdanie zawierające unikalny identyfikator i rzeczownik klasy.
Może generować obiekt w unikalnych, wcześniej niespotykanych pozach, artykulacjach i strukturze sceny, zamiast zmieniać otoczenie. Realistyczne odbicia i cienie, a także interakcje między obiektem a otaczającymi obiektami.
Instrukcja Dream Bootha
W tym samouczku będziemy śledzić Notatnik Google Collab, a ja przeprowadzę Cię przez to, co sprawi, że zrozumiesz i wykorzystasz to na własną rękę.
Konfigurowanie GPU i instalowanie bibliotek
Pierwszym krokiem jest ustalenie, jakie rodzaje procesorów graficznych i pamięci VRAM są dostępne. Konieczne jest również zainstalowanie kilku wymagań i zależności. Po prostu naciśnij przycisk odtwarzania, a następnie poczekaj, aż się skończy.
Załóż konto na Huggingface i wygeneruj token
Następnym krokiem jest rejestracja konta Huggingface. Po zakończeniu kliknij ustawienia w prawym górnym rogu. Dotrzesz na następną stronę.
Utwórz token i nazwę zgodnie z żądaniem stąd. Token należy skopiować i wkleić we współpracy Google w komórce poniżej.
Zainstaluj xformers
Na tym etapie możesz po prostu nacisnąć przycisk odtwarzania, aby zainstalować xformers, klikając środowisko wykonawcze.
Połącz z Dyskiem
Teraz wystarczy uruchomić tę komórkę, aby połączyć się z dyskiem Google.
Wprowadź monit
W następnej komórce wystarczy wpisać monit.
Przesyłanie zdjęć
W tym kroku wystarczy przesłać zdjęcia, które chcesz trenować.
Trenuj model AI
Jest to najważniejsza faza, ponieważ będziesz wykorzystywać DreamBooth do trenowania nowego modelu sztucznej inteligencji na podstawie wszystkich przesłanych zdjęć referencyjnych. Musisz ograniczyć swoją uwagę do dwóch pól wejściowych. „—instancja zachęty” to pierwszy parametr. W tym miejscu musisz podać bardzo wyróżniającą się nazwę.
Argument „–concept list” jest drugim krytycznym polem wejściowym. Należy zmienić jego nazwę, aby była zgodna z nazwą używaną w sekcji „Zmień monit”.
Generuj obrazy AI
Obrazy AI zostaną utworzone na tym etapie, gdzie możesz wprowadzić instrukcje tekstowe.
Ograniczenia Dreambootha
- Wiersz polecenia staje się przeszkodą w tworzeniu iteracji w temacie o wysokim stopniu szczegółowości. DreamBooth może zmienić kontekst obiektu, ale jeśli model chce zmienić sam temat, występują problemy z ramką.
- Innym problemem jest nadmierne dopasowanie obrazu wyjściowego do obrazu wejściowego. Jeśli nie dostarczono wystarczającej liczby zdjęć, temat może nie zostać wzięty pod uwagę lub może zostać wmieszany w kontekst przesłanych obrazów. Kiedy pytany jest kontekst dla nieparzystej generacji, dzieje się to samo.
Wnioski
Aby wygenerować dane wyjściowe z pojedynczego wejścia tekstowego, większość modeli zamiany tekstu na obraz wymaga milionów parametrów i bibliotek.
DreamBooth upraszcza pozyskiwanie i wykorzystywanie treści przez konsumentów, wymagając jedynie wprowadzenia od trzech do pięciu fotografii tematycznych wraz z tłem tekstowym.
Dodaj komentarz