W ostatnich latach modele głębokiego uczenia się stały się bardziej skuteczne w rozumieniu ludzkiego języka.
Pomyśl o projektach takich jak GPT-3, który jest teraz w stanie tworzyć całe artykuły i strony internetowe. Niedawno wprowadzono GitHub Drugi pilot GitHub, usługa udostępniająca całe fragmenty kodu przez proste opisanie typu potrzebnego kodu.
Badacze z OpenAI, Facebooka i Google pracują nad sposobami wykorzystania głębokiego uczenia się do radzenia sobie z innym zadaniem: tworzeniem napisów do obrazów. Korzystając z dużego zbioru danych z milionami wpisów, wymyślili kilka zaskakujący wyniki.
Ostatnio badacze ci próbowali wykonać odwrotne zadanie: stworzyć obrazy z podpisu. Czy można teraz stworzyć zupełnie nowy obraz z opisu?
W tym przewodniku omówimy dwa najbardziej zaawansowane modele przetwarzania tekstu na obraz: OpenAI DALL-E 2 i Google Imagen AI. Każdy z tych projektów wprowadził przełomowe metody, które mogą zmienić społeczeństwo, jakie znamy.
Ale najpierw zrozummy, co rozumiemy przez generowanie tekstu na obraz.
Co to jest generowanie tekstu na obraz?
Modele tekstu na obraz umożliwiają komputerom tworzenie nowych i unikalnych obrazów na podstawie monitów. Ludzie mogą teraz podać opis tekstowy obrazu, który chcą stworzyć, a model spróbuje stworzyć wizualizację, która będzie jak najdokładniej pasować do tego opisu.
Modele uczenia maszynowego wykorzystują duże zestawy danych zawierające pary obraz-podpis w celu dalszej poprawy wydajności.
Większość tekstu na obraz modele używają modelu języka transformatora interpretować podpowiedzi. Ten typ modelu to sieci neuronowe który próbuje poznać kontekst i znaczenie semantyczne języka naturalnego.
Następnie modele generatywne, takie jak modele dyfuzyjne i generatywne sieci kontradyktoryjne są wykorzystywane do syntezy obrazów.
Co to jest Dalle 2?
DALL-E2 to model komputerowy firmy OpenAI, który został wydany w kwietniu 2022 roku. Model został przeszkolony w bazie danych zawierającej miliony oznaczonych zdjęć, aby kojarzyć słowa i frazy z obrazami.
Użytkownicy mogą wpisać prostą frazę, taką jak „kot jedzący lasagne”, a DALL-E 2 wygeneruje własną interpretację tego, co fraza próbuje opisać.
Oprócz tworzenia obrazów od podstaw, DALL-E 2 może również edytować istniejące obrazy. W poniższym przykładzie DALL-E był w stanie wygenerować zmodyfikowany obraz pokoju z dodaną kanapą.
DALL-E 2 to tylko jeden z wielu podobnych projektów, które OpenAI wypuścił w ciągu ostatnich kilku lat. GPT-3 OpenAI stał się wart opublikowania, gdy wydawał się generować tekst o różnych stylach.
Obecnie DALL-E 2 jest nadal w fazie testów beta. Zainteresowani użytkownicy mogą zarejestrować się na swoje Lista oczekujących i czekaj na dostęp.
Jak to działa?
Chociaż wyniki DALL-E 2 są imponujące, możesz się zastanawiać, jak to wszystko działa.
DALL-E 2 jest przykładem multimodalnej implementacji projektu OpenAI GPT-3.
Najpierw monit tekstowy użytkownika jest umieszczany w koderze tekstu, który mapuje monit do przestrzeni reprezentacji. DALL-E 2 wykorzystuje inny model OpenAI o nazwie CLIP (Contrastive Language-Image Pre-Training) w celu uzyskania informacji semantycznych z języka naturalnego.
Następnie model znany jako wcześniejszy mapuje kodowanie tekstu na kodowanie obrazu. To kodowanie obrazu powinno przechwycić informacje semantyczne znalezione w kroku kodowania tekstu.
Aby utworzyć rzeczywisty obraz, DALL-E 2 wykorzystuje dekoder obrazu do generowania wizualizacji przy użyciu informacji semantycznych i szczegółów kodowania obrazu. OpenAI używa zmodyfikowanej wersji POŚLIZG model do wykonania generowania obrazu. GLIDE opiera się na model dyfuzyjny do tworzenia obrazów.
Dodanie funkcji GLIDE do modelu DALL-E 2 umożliwiło uzyskanie bardziej fotorealistycznego wydruku. Ponieważ model GLIDE jest określany stochastycznie lub losowo, model DALL-E 2 może łatwo tworzyć wariacje, uruchamiając model raz po raz.
Ograniczenia
Pomimo imponujących wyników modelu DALL-E 2, wciąż napotyka on pewne ograniczenia.
Tekst pisowni
Monity, które próbują zmusić DALL-E 2 do generowania tekstu, ujawniają, że ma on trudności z pisownią słów. Eksperci zakładają, że może to być spowodowane tym, że informacje o pisowni nie są częścią pliku zbiór danych treningowych.
Rozumowanie kompozycyjne
Naukowcy zauważają, że DALL-E 2 wciąż ma pewne trudności z rozumowaniem kompozycyjnym. Mówiąc najprościej, model może zrozumieć poszczególne aspekty obrazu, ale nadal ma problem z określeniem relacji między tymi aspektami.
Na przykład, jeśli zostanie wyświetlony monit „czerwona kostka na górze niebieskiej kostki”, DALL-E wygeneruje dokładnie niebieską kostkę i czerwoną kostkę, ale nie umieści ich poprawnie. Zaobserwowano również, że model ma trudności z podpowiedziami, które wymagają wyciągnięcia określonej liczby obiektów.
Stronniczość w zbiorze danych
Jeśli monit nie zawiera żadnych innych szczegółów, zaobserwowano, że DALL-E przedstawia białych lub zachodnich ludzi i środowiska. To odchylenie reprezentacyjne występuje z powodu obfitości obrazów zorientowanych na Zachód w zbiorze danych.
Zaobserwowano również, że model podąża za stereotypami płci. Na przykład wpisanie hasła „stewardesa” generuje głównie obrazy kobiet stewardes.
Co to jest sztuczna inteligencja Google Imagen?
Google'a Obraz AI to model, którego celem jest tworzenie fotorealistycznych obrazów z tekstu wejściowego. Podobnie jak DALL-E, model wykorzystuje również modele języka transformatora do zrozumienia tekstu i opiera się na wykorzystaniu modeli dyfuzji do tworzenia obrazów o wysokiej jakości.
Wraz z Imagen, firma Google wydała również benchmark dla modeli tekstu na obraz o nazwie DrawBench. Korzystając z DrawBench, byli w stanie zaobserwować, że ludzie oceniający preferują dane wyjściowe Imagen w porównaniu z innymi modelami, w tym DALL-E 2.
Jak to działa?
Podobnie do DALL-E, Imagen najpierw konwertuje monit użytkownika na osadzony tekst za pomocą kodera zamrożonego tekstu.
Imagen wykorzystuje model dyfuzji, który uczy się, jak przekształcić wzór szumu w obrazy. Początkowe dane wyjściowe tych obrazów mają niską rozdzielczość, a następnie są przepuszczane przez inny model, znany jako model dyfuzji super-rozdzielczości, w celu zwiększenia rozdzielczości końcowego obrazu. Pierwszy model dyfuzyjny generuje obraz o rozdzielczości 64 × 64 pikseli, a następnie jest powiększany do obrazu o wysokiej rozdzielczości 1024 × 1024.
W oparciu o badania zespołu Imagen, duże zamrożone modele językowe wytrenowane tylko na danych tekstowych są nadal wysoce skutecznymi koderami tekstu do generowania tekstu na obraz.
W opracowaniu wprowadzono również koncepcję progowania dynamicznego. Ta metoda sprawia, że obrazy wyglądają bardziej fotorealistycznie, zwiększając wagi wskazówek podczas generowania obrazu.
Wydajność DALLE 2 vs Imagen
Wstępne wyniki testu porównawczego Google pokazują, że respondenci wolą obrazy generowane przez Imagen niż DALL-E 2 i inne modele tekstu na obraz, takie jak Latent Diffusion i VQGAN+CLIP.
Dane pochodzące od zespołu Imagen wykazały również, że ich model lepiej radzi sobie z pisownią tekstu, co jest znaną słabością modelu DALL-E 2.
Ponieważ jednak Google nie udostępnił jeszcze modelu publicznie, nadal okaże się, jak dokładne są testy porównawcze Google.
Wnioski
Pojawienie się fotorealistycznych modeli tekstu na obraz jest kontrowersyjne, ponieważ modele te są gotowe do nieetycznego użycia.
Technologia może prowadzić do tworzenia wyraźnych treści lub jako narzędzie dezinformacji. Zdają sobie z tego sprawę badacze zarówno z Google, jak i OpenAI, dlatego częściowo te technologie wciąż nie są dostępne dla wszystkich.
Modele tekstu na obraz mają również istotne konsekwencje ekonomiczne. Czy zawody takie jak modelki, fotografowie i artyści ucierpią, jeśli modele takie jak DALL-E staną się głównym nurtem?
W tej chwili modele te nadal mają ograniczenia. Przyjrzenie się dowolnemu obrazowi wygenerowanemu przez sztuczną inteligencję ujawni jego niedoskonałości. Ponieważ zarówno OpenAI, jak i Google konkurują o najskuteczniejsze modele, może być kwestią czasu, zanim zostanie wygenerowany naprawdę doskonały wynik: obraz, który jest nie do odróżnienia od rzeczywistego.
Jak myślisz, co się stanie, gdy technologia zajdzie tak daleko?
Dodaj komentarz