MultiModal-GPT: nowa granica w integracji języka i wizji

Czy kiedykolwiek żałowałeś, że nie możesz rozmawiać z sztuczną inteligencją, która rozumie zarówno dane mówione, jak i wizualne? Paradygmat MultiModal-GPT łączy przetwarzanie języka z rozumieniem wizualnym.

Daje możliwość dokładnej i zróżnicowanej interakcji człowiek-komputer. Multimodalny GPT może dodawać opisowe podpisy, liczyć poszczególne elementy i odpowiadać na ogólne pytania użytkowników.

Ale jak to robi? A co możesz zrobić z MultiModal-GPT?

Opowiedzmy historię od początku i zrozummy, jakie możliwości stoją przed nami.

Wraz z pojawieniem się modeli językowych, takich jak GPT-4, technologie przetwarzania języka naturalnego przeżywają rewolucję. Innowacje takie jak ChatGPT zostały już włączone do naszego życia.

I wydaje się, że wciąż przybywają!

GPT-4 i jego ograniczenia

GPT-4 wykazał się niesamowitą biegłością w multimodalnych rozmowach z ludźmi. W badaniach podjęto próbę zduplikowania tej wydajności, ale ze względu na potencjalnie dużą liczbę tokenów obrazkowych, w tym modele z precyzyjnymi informacjami wizualnymi, mogą być kosztowne obliczeniowo.

Istniejące modele również nie obejmują dostrajania instrukcji językowych w swoich badaniach, co ogranicza ich zdolność do uczestniczenia w wieloobrotowych konwersacjach obraz-tekst.

Opierając się na frameworku Flamingo

Opracowano nowy model o nazwie MultiModal-GPT, aby umożliwić komunikację z ludźmi zarówno za pomocą wskazówek językowych, jak i wizualnych.

Twórcy zastosowali program o nazwie Ramka Flaminga, który został wcześniej przeszkolony w zakresie rozumienia zarówno tekstu, jak i elementów wizualnych, aby było to wykonalne.

Framework Flamingo

Flamingo wymagało jednak pewnych zmian, ponieważ nie było w stanie mieć rozszerzonych dialogów obejmujących tekst i elementy wizualne.

Zaktualizowany model MultiModal-GPT może zbierać dane z obrazów i mieszać je z językiem, aby rozumieć i wykonywać ludzkie polecenia.

Multimodalny GPT

MultiModal-GPT to rodzaj modelu sztucznej inteligencji, który może śledzić różne ludzkie zapytania, takie jak opisywanie elementów wizualnych, liczenie przedmiotów i odpowiadanie na pytania. Rozumie polecenia i wykonuje je, używając mieszanki danych wizualnych i werbalnych.

Badacze przeszkolili model, korzystając zarówno z danych wizualnych, jak i językowych, aby zwiększyć zdolność MultiModal-GPT do konwersacji z ludźmi. Dodatkowo spowodowało zauważalną poprawę w sposobie prowadzenia dyskursu. Spowodowało to również zauważalną poprawę wydajności konwersacji.

Odkryli, że posiadanie wysokiej jakości danych szkoleniowych ma kluczowe znaczenie dla dobrej wydajności konwersacji, ponieważ mały zestaw danych z krótkimi odpowiedziami może umożliwić modelowi tworzenie krótszych odpowiedzi na dowolne polecenie.

Co możesz zrobić z MultiModal-GPT?

Angażowanie się w rozmowy

Podobnie jak modele językowe, które pojawiły się wcześniej, jedną z głównych cech MultiModal-GPT jest zdolność do angażowania się w dyskusje w języku naturalnym. Oznacza to, że konsumenci mogą wchodzić w interakcje z modelem tak samo, jak z prawdziwą osobą.

Na przykład MultiModal-GPT może podać klientom szczegółowy przepis na makaron lub polecić restauracje, w których można zjeść poza domem. Model jest również w stanie odpowiadać na ogólne pytania dotyczące zamiarów podróży użytkowników.

Makaron

Rozpoznawanie obiektów

MultiModal-GPT może rozpoznawać rzeczy na zdjęciach i odpowiadać na zapytania o nie. Na przykład model może rozpoznać Freddiego Mercury'ego na obrazie i odpowiedzieć na pytania na jego temat.

Może również policzyć liczbę osobników i wyjaśnić, co robią na obrazku. Ta zdolność identyfikacji obiektów ma zastosowanie w różnych dziedzinach, w tym w handlu elektronicznym, opiece zdrowotnej i bezpieczeństwie.

Przykład

MultiModal-GPT może również rozpoznawać tekst wewnątrz obrazów cyfrowych. Oznacza to, że model może czytać tekst na zdjęciach i wydobywać przydatne dane. Może na przykład wykrywać postacie na obrazie i identyfikować autora książki.

Jest to niezwykle przydatne narzędzie do zarządzanie dokumentami, wprowadzanie danych i analiza treści.

Gandalf

Rozumowanie i generowanie wiedzy

Multimodalny GPT może rozumować i tworzyć wiedzę o świecie. Oznacza to, że może dostarczyć pełnych wyjaśnień do zdjęć, a nawet powiedzieć im, w jakiej porze roku zdjęcie zostało zrobione.

Ta umiejętność jest przydatna w różnych dyscyplinach, w tym w monitorowaniu środowiska, rolnictwie i meteorologii. Model może dodatkowo generować kreatywne rzeczy, takie jak poezja, opowieści i piosenki, co czyni go doskonałym narzędziem do kreatywnych zadań.

Wewnętrzne działanie MultiModal-GPT

Szablon ujednoliconych instrukcji

Zespół przedstawia jeden szablon do integracji jednomodalnych danych lingwistycznych i multimodalnych danych wzrokowo-językowych w celu prawidłowego trenowania modelu MultiModal-GPT w sposób synergiczny.

Ta połączona strategia ma na celu poprawę wydajności modelu w różnych zadaniach poprzez wykorzystanie uzupełniających się możliwości obu modalności danych i zachęcanie do głębszego zrozumienia podstawowych idei.

Zbiory danych Dolly 15k i Alpaca GPT4 są używane przez zespół do mierzenia umiejętności wykonywania instrukcji tylko w języku. Te zestawy danych działają jak szablon zachęty do strukturyzacji danych wejściowych zestawu danych w celu zagwarantowania spójnego formatu zgodnego z instrukcjami.

Przegląd zestawu danych Dolly 15k

Obraz: Przegląd zestawu danych Doly 15k

Jak działa model?

Na model MultiModal-GPT składają się trzy kluczowe komponenty: dekoder języka, resampler postrzegający i koder wizyjny. Obraz jest pobierany przez koder wizyjny, który następnie generuje zbiór charakteryzujących go cech.

Dekoder języka wykorzystuje informacje z kodera wizyjnego do tworzenia tekstu opisującego obraz za pomocą resamplera postrzegającego.

Komponentem modelu, który rozumie język i tworzy tekst, jest dekoder języka. Aby przewidzieć następujące słowo we frazie, model jest szkolony przy użyciu danych dotyczących tylko języka i wzroku oraz instrukcji językowych.

To uczy model, jak reagować na polecenia ludzi i zapewnia akceptowalny tekst do opisów obrazów.

Model

Zespół za

MultiModal-GPT został stworzony przez zespół badaczy i inżynierów Microsoft Research Asia pod kierownictwem Tao Gong, Chengqi Lyu i Shilong Zhang. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo i Kai Chen wszyscy przyczynili się do badania i rozwoju modelu.

Przetwarzanie języka naturalnego, wizja komputerowai uczenie maszynowe to obszary kompetencji zespołu. Mają kilka artykułów opublikowanych na czołowych konferencjach i publikacjach, a także różne wyróżnienia i wyróżnienia za ich wysiłki naukowe.

Badania zespołu koncentrują się na opracowaniu najnowocześniejszych modeli i podejść umożliwiających bardziej naturalne i inteligentne interakcje między ludźmi a technologią.

Rozwój multimodalny GPT jest godnym uwagi osiągnięciem w tej dziedzinie, ponieważ jest to jeden z pierwszych modeli łączących wizję i język w jednej ramie wielookresowej dyskusji.

Wkład zespołu w badania i rozwój MultiModal-GPT może mieć znaczący wpływ na przyszłość przetwarzania języka naturalnego i interakcji człowiek-maszyna.

Jak korzystać z multimodalnego GPT

Dla początkujących korzystanie z narzędzia MultiModal-GPT jest proste. Wystarczy przejść do https://mmgpt.openmmlab.org.cn/ i naciśnij przycisk „Prześlij obraz”.

Wybierz plik obrazu do przesłania, a następnie wpisz monit tekstowy w polu tekstowym. Aby utworzyć odpowiedź z modelu, kliknij przycisk „Prześlij”, który pojawi się pod polem tekstowym.

Możesz eksperymentować z różnymi zdjęciami i instrukcjami, aby dowiedzieć się więcej o możliwościach modelu.

Interfejs 1

Instalacja

Aby zainstalować pakiet MultiModal-GPT, użyj polecenia terminala „git clone https://github.com/open-mmlab/Multimodal-GPT.git”, aby sklonować repozytorium z GitHub. Możesz po prostu wykonać następujące kroki:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

Alternatywnie użyj conda env create -f environment.yml ustanowić nowe środowisko conda. Możesz uruchomić demo lokalnie po zainstalowaniu, pobierając wstępnie wytrenowane ciężary i przechowując je w folderze punktów kontrolnych.

Demo Gradio można następnie uruchomić, uruchamiając polecenie „python app.py”.

Potencjalne wady

Model MultiModal-GPT wciąż ma wady i jest miejsce na rozwój pomimo jego doskonałych osiągów.

Na przykład, gdy mamy do czynienia ze skomplikowanymi lub niejednoznacznymi danymi wejściowymi, model może nie zawsze być w stanie rozpoznać i zrozumieć kontekst danych wejściowych. Może to skutkować niedokładnymi przewidywaniami lub reakcjami modelu.

Ponadto, zwłaszcza gdy dane wejściowe są skomplikowane lub otwarte, model może nie zawsze dawać najlepszą reakcję lub wynik. Na przykład na odpowiedź modelki mogło wpłynąć podobieństwo okładek obu książek w przypadku błędnej identyfikacji okładki książki.

Wnioski

Ogólnie rzecz biorąc, model MultiModal-GPT stanowi duży krok naprzód w przetwarzaniu języka naturalnego i uczeniu maszynowym. Używanie go i eksperymentowanie z nim jest bardzo ekscytujące. Więc ty też powinieneś spróbować!

Ma jednak ograniczenia, podobnie jak wszystkie modele, i wymaga dodatkowego udoskonalania i ulepszania w celu uzyskania maksymalnej wydajności w różnych zastosowaniach i domenach.