Najprawdopodobniej zdajesz sobie sprawę, że komputer może opisać obraz.
Na przykład zdjęcie psa bawiącego się z dziećmi można przetłumaczyć jako „pies i dzieci w ogrodzie”. Ale czy wiesz, że odwrotne rozwiązanie jest teraz również możliwe? Wpisujesz kilka słów, a maszyna generuje nowy obraz.
W przeciwieństwie do wyszukiwarki Google, która przeszukuje istniejące zdjęcia, to wszystko jest świeże. W ostatnich latach OpenAI była jedną z wiodących organizacji, odnotowując oszałamiające wyniki.
Trenują swoje algorytmy na ogromnych bazach danych tekstowych i graficznych. Opublikowali artykuł na temat swojego modelu obrazu GLIDE, który został przeszkolony na setkach milionów zdjęć. Pod względem fotorealizmu przewyższa swój poprzedni model „DALL-E”.
W tym poście przyjrzymy się GLIDE OpenAI, jednej z kilku fascynujących inicjatyw mających na celu tworzenie i modyfikowanie fotorealistycznych obrazów za pomocą modeli dyfuzji sterowanych tekstem. Zaczynajmy.
Co to jest Otwórz szybowanie AI?
Chociaż większość obrazów można opisać słowami, tworzenie obrazów z danych wejściowych tekstowych wymaga specjalistycznej wiedzy i znacznej ilości czasu.
Umożliwienie agentowi sztucznej inteligencji tworzenia fotorealistycznych obrazów z podpowiedzi języka naturalnego nie tylko pozwala ludziom tworzyć bogaty i różnorodny materiał wizualny z bezprecedensową łatwością, ale także pozwala na prostsze iteracyjne udoskonalanie i precyzyjną kontrolę tworzonych obrazów.
GLIDE można używać do edycji istniejących zdjęć, wykorzystując podpowiedzi tekstowe w języku naturalnym do wstawiania nowych obiektów, tworzenia cieni i odbić, wykonywania malowanie obrazuI tak dalej.
Może również przekształcić podstawowe rysunki liniowe w fotorealistyczne zdjęcia i ma wyjątkowe możliwości produkcji i naprawy zerowej próby w złożonych sytuacjach.
Ostatnie badania wykazały, że modele dyfuzji oparte na prawdopodobieństwie mogą również generować wysokiej jakości obrazy syntetyczne, szczególnie w połączeniu z podejściem przewodnim, które równoważy różnorodność i wierność.
OpenAI opublikował Model dyfuzji kierowanej w maju, co pozwala na uzależnienie modeli dyfuzji od etykiet klasyfikatora. GLIDE poprawia ten sukces, wprowadzając kierowaną dyfuzję do problemu tworzenia obrazów warunkowych tekstem.
Po przeszkoleniu 3.5-miliardowego modelu dyfuzji GLIDE przy użyciu kodera tekstowego do warunkowania opisów w języku naturalnym, naukowcy przetestowali dwie alternatywne strategie naprowadzania: nawigację CLIP i nawigację bez klasyfikatorów.
CLIP to skalowalna technika uczenia się wspólnych reprezentacji tekstu i obrazów, która zapewnia ocenę na podstawie odległości obrazu od podpisu.
Zespół wykorzystał tę strategię w swoich modelach dyfuzji, zastępując klasyfikator modelem CLIP, który „kieruje” modelami. Tymczasem wskazówki bez klasyfikatorów to strategia kierowania modelami dyfuzji, która nie wymaga uczenia oddzielnego klasyfikatora.
GLIDE Architektura
Architektura GLIDE składa się z trzech komponentów: ablowanego modelu dyfuzji (ADM) wyszkolonego do generowania obrazu 64 × 64, modelu tekstowego (transformatora), który wpływa na generowanie obrazu za pomocą monitu tekstowego, oraz modelu upsamplingu, który konwertuje nasz mały 64 × 64 obrazy do bardziej zrozumiałych 256 x 256 pikseli.
Pierwsze dwa komponenty współpracują ze sobą, aby kontrolować proces generowania obrazu, tak aby odpowiednio odzwierciedlał monit tekstowy, podczas gdy drugi jest wymagany, aby obrazy, które tworzymy, były łatwiejsze do zrozumienia. Projekt GLIDE został zainspirowany raport opublikowany w 2021 roku który pokazał, że techniki ADM przewyższają obecnie popularne, najnowocześniejsze modele generatywne pod względem jakości próbki obrazu.
W przypadku ADM autorzy GLIDE zastosowali ten sam model ImageNet 64 x 64 co Dhariwal i Nichol, ale z 512 kanałami zamiast 64. W wyniku tego model ImageNet ma około 2.3 miliarda parametrów.
Zespół GLIDE, w przeciwieństwie do Dhariwala i Nichola, chciał mieć większą bezpośrednią kontrolę nad procesem generowania obrazu, dlatego połączyli model wizualny z transformatorem zwracającym uwagę. GLIDE daje pewną kontrolę nad wyjściem procesu generowania obrazu poprzez przetwarzanie monitów wprowadzania tekstu.
Osiąga się to poprzez trenowanie modelu transformatora na odpowiednio dużym zbiorze danych zdjęć i podpisów (podobnie jak w projekcie DALL-E).
Tekst jest początkowo zakodowany w serii K tokenów w celu jego uwarunkowania. Następnie tokeny są ładowane do modelu transformatora. Wyjście transformatora można następnie wykorzystać na dwa sposoby. W przypadku modelu ADM zamiast osadzania klasy używane jest ostateczne osadzanie tokenów.
Po drugie, ostatnia warstwa osadzeń tokenów – seria wektorów cech – jest rzutowana niezależnie na wymiary każdej warstwy uwagi w modelu ADM i łączona z każdym kontekstem uwagi.
W rzeczywistości umożliwia to modelowi ADM tworzenie obrazu z nowych kombinacji podobnych tokenów tekstowych w unikalny i fotorealistyczny sposób, w oparciu o wyuczone rozumienie słów wejściowych i powiązanych z nimi obrazów. Ten transformator kodujący tekst zawiera 1.2 miliarda parametrów i wykorzystuje 24 pozostałe bloki o szerokości 2048.
Wreszcie, model dyfuzji z upsamplerem zawiera około 1.5 miliarda parametrów i różni się od modelu podstawowego tym, że jego koder tekstu jest mniejszy i ma szerokość 1024 i 384 kanałów bazowych w porównaniu z modelem podstawowym. Model ten, jak sama nazwa wskazuje, pomaga w aktualizacji próbki w celu poprawy interpretacji zarówno dla maszyn, jak i ludzi.
Model dyfuzji
GLIDE generuje obrazy przy użyciu własnej wersji ADM (ADM-G oznacza „kierowany”). Model ADM-G jest modyfikacją modelu dyfuzyjnego U-net. Model dyfuzji U-net znacznie różni się od bardziej powszechnych technik syntezy obrazów, takich jak VAE, GAN i transformatory.
Tworzą łańcuch kroków dyfuzji Markowa, aby stopniowo wprowadzać losowy szum do danych, a następnie uczą się odwracać proces dyfuzji i odtwarzać wymagane próbki danych z samego szumu. Działa w dwóch etapach: dyfuzja do przodu i do tyłu.
Metoda dyfuzji do przodu, biorąc pod uwagę punkt danych z rzeczywistego rozkładu próbki, dodaje niewielką ilość szumu do próbki w zaprogramowanej serii kroków. W miarę jak kroki powiększają się i zbliżają do nieskończoności, próbka traci wszystkie rozpoznawalne cechy, a sekwencja zaczyna przypominać izotropową krzywą Gaussa.
Podczas dyfuzji wstecznej faza, model dyfuzji uczy się odwracać wpływ dodanego szumu na obrazy i prowadzić wytworzony obraz z powrotem do jego pierwotnego kształtu, próbując przypominać oryginalny rozkład próbki wejściowej.
Ukończony model mógłby to zrobić z rzeczywistym wejściem szumu Gaussa i podpowiedzią. Metoda ADM-G różni się od poprzedniej pod tym względem, że model, CLIP lub dostosowany transformator, wpływa na fazę dyfuzji wstecznej poprzez wykorzystanie wprowadzanych tokenów podpowiedzi tekstowych.
Możliwości ślizgowe
1. Generowanie obrazu
Najpopularniejszym i najszerzej stosowanym zastosowaniem GLIDE będzie prawdopodobnie synteza obrazów. Chociaż zdjęcia są skromne, a GLIDE ma trudności z formami zwierzęcymi/ludzkimi, możliwości tworzenia pojedynczych zdjęć są prawie nieograniczone.
Może tworzyć zdjęcia zwierząt, celebrytów, krajobrazów, budynków i wiele więcej, w różnych stylach artystycznych, a także fotorealistycznie. Autorzy badaczy twierdzą, że GLIDE jest w stanie interpretować i dostosowywać szeroką gamę tekstowych danych wejściowych do formatu wizualnego, jak widać na poniższych przykładach.
2. Szybuj malowanie
Automatyczne malowanie zdjęć w GLIDE jest prawdopodobnie najbardziej fascynującym zastosowaniem. GLIDE może przyjąć istniejący obraz jako dane wejściowe, przetworzyć go z uwzględnieniem monitu tekstowego w celu znalezienia lokalizacji, które należy zmienić, a następnie z łatwością dokonać aktywnych modyfikacji tych części.
Musi być używany w połączeniu z modelem edycji, takim jak SDEdit, aby uzyskać jeszcze lepsze wyniki. W przyszłości aplikacje korzystające z takich możliwości mogą mieć kluczowe znaczenie w opracowywaniu podejść do zmiany obrazu bez kodu.
Wnioski
Teraz, gdy przeszliśmy przez ten proces, powinieneś zrozumieć podstawy działania GLIDE, a także zakres jego możliwości w zakresie tworzenia obrazu i modyfikacji obrazu.
Dodaj komentarz