Prawdopodobnie jesteśmy dopiero na początku nowej generatywnej rewolucji AI.
Generatywna sztuczna inteligencja odnosi się do algorytmów i modeli zdolnych do tworzenia treści. Dane wyjściowe takich modeli obejmują tekst, dźwięk i obrazy, które często można pomylić z rzeczywistymi danymi wyjściowymi człowieka.
Aplikacje takie jak ChatGPT pokazały, że generatywna sztuczna inteligencja nie jest zwykłą nowością. Sztuczna inteligencja jest teraz w stanie postępować zgodnie ze szczegółowymi instrukcjami i wydaje się mieć głębokie zrozumienie tego, jak działa świat.
Ale jak doszliśmy do tego punktu? W tym przewodniku omówimy niektóre z kluczowych przełomów w badaniach nad sztuczną inteligencją, które utorowały drogę tej nowej i ekscytującej rewolucji generatywnej sztucznej inteligencji.
Powstanie sieci neuronowych
Początki współczesnej sztucznej inteligencji można prześledzić w badaniach nad głębokie uczenie i sieci neuronowe w 2012 roku.
W tym samym roku Alex Krizhevsky i jego zespół z University of Toronto byli w stanie opracować bardzo dokładny algorytm, który może klasyfikować obiekty.
Połączenia najnowocześniejszą sieć neuronową, znany obecnie jako AlexNet, był w stanie klasyfikować obiekty w wizualnej bazie danych ImageNet ze znacznie niższym wskaźnikiem błędów niż drugie miejsce.
Sieci neuronowe to algorytmy, które wykorzystują sieć funkcji matematycznych do uczenia się określonego zachowania na podstawie niektórych danych treningowych. Na przykład można zasilić sieć neuronową danymi medycznymi, aby wyszkolić model w zakresie diagnozowania choroby, takiej jak rak.
Mamy nadzieję, że sieć neuronowa powoli znajdzie wzorce w danych i stanie się dokładniejsza, gdy otrzyma nowe dane.
AlexNet był przełomową aplikacją splotowa sieć neuronowa lub CNN. Słowo kluczowe „splotowe” odnosi się do dodawania warstw splotowych, które kładą większy nacisk na dane, które są bliżej siebie.
Chociaż CNN były już pomysłem w latach 1980., popularność zaczęły zyskiwać dopiero na początku 2010 r., kiedy najnowsza technologia GPU wyniosła tę technologię na nowe wyżyny.
Sukces CNN w dziedzinie wizja komputerowa doprowadziło do większego zainteresowania badaniami nad sieciami neuronowymi.
Giganci technologiczni, tacy jak Google i Facebook, postanowili udostępnić publicznie własne frameworki AI. Interfejsy API wysokiego poziomu, takie jak Keras dał użytkownikom przyjazny dla użytkownika interfejs do eksperymentowania z głębokimi sieciami neuronowymi.
Sieci CNN świetnie radziły sobie z rozpoznawaniem obrazów i analizą wideo, ale miały problemy z rozwiązywaniem problemów językowych. To ograniczenie w przetwarzaniu języka naturalnego może wynikać z faktu, że obrazy i tekst są zasadniczo różnymi problemami.
Na przykład, jeśli masz model, który klasyfikuje, czy obraz zawiera sygnalizację świetlną, sygnalizacja świetlna, o której mowa, może pojawić się w dowolnym miejscu obrazu. Jednak ten rodzaj pobłażliwości nie działa dobrze w języku. Zdanie „Bob zjadł rybę” i „Ryba zjadła Boba” mają bardzo różne znaczenia, pomimo użycia tych samych słów.
Stało się jasne, że naukowcy muszą znaleźć nowe podejście do rozwiązywania problemów związanych z ludzkim językiem.
Transformatory zmieniają wszystko
W 2017, do Referat naukowy zatytułowany „Attention Is All You Need” zaproponował nowy typ sieci: Transformator.
Podczas gdy sieci CNN działają poprzez wielokrotne filtrowanie małych fragmentów obrazu, transformatory łączą każdy element danych z każdym innym elementem. Badacze nazywają ten proces „samouwagą”.
Podczas próby analizowania zdań CNN i transformatory działają zupełnie inaczej. Podczas gdy CNN skupi się na tworzeniu połączeń ze słowami, które są blisko siebie, transformator stworzy połączenia między każdym słowem w zdaniu.
Proces samouwagi jest integralną częścią rozumienia ludzkiego języka. Oddalając widok i obserwując, jak całe zdanie pasuje do siebie, maszyny mogą lepiej zrozumieć strukturę zdania.
Po opublikowaniu pierwszych modeli transformatorów naukowcy wkrótce wykorzystali nową architekturę, aby skorzystać z niewiarygodnej ilości danych tekstowych znalezionych w Internecie.
GPT-3 i Internet
W 2020 roku OpenAI GPT-3 model pokazał, jak skuteczne mogą być transformatory. GPT-3 był w stanie wygenerować tekst, który wydaje się prawie nie do odróżnienia od ludzkiego. Częścią tego, co uczyniło GPT-3 tak potężnym, była ilość wykorzystanych danych treningowych. Większość przedtreningowego zestawu danych modelu pochodzi z zestawu danych znanego jako Common Crawl, który zawiera ponad 400 miliardów tokenów.
Podczas gdy zdolność GPT-3 do generowania realistycznego tekstu ludzkiego była sama w sobie przełomowa, naukowcy odkryli, w jaki sposób ten sam model może rozwiązywać inne zadania.
Na przykład ten sam model GPT-3, którego możesz użyć do wygenerowania tweeta, może również pomóc w podsumowaniu tekstu, przepisaniu akapitu i ukończeniu historii. Modele językowe stały się tak potężne, że obecnie są zasadniczo narzędziami ogólnego przeznaczenia, które wykonują dowolne polecenia.
Charakter ogólnego przeznaczenia GPT-3 pozwolił na takie zastosowania Drugi pilot GitHub, co pozwala programistom generować działający kod z prostego języka angielskiego.
Modele dyfuzji: od tekstu do obrazów
Postęp dokonany w przypadku transformatorów i NLP utorował również drogę dla generatywnej sztucznej inteligencji w innych dziedzinach.
W dziedzinie widzenia komputerowego omówiliśmy już, w jaki sposób głębokie uczenie się umożliwiło maszynom zrozumienie obrazów. Jednak nadal musieliśmy znaleźć sposób, aby sztuczna inteligencja sama generowała obrazy, a nie tylko je klasyfikowała.
Generatywne modele obrazów, takie jak DALL-E 2, Stable Diffusion i Midjourney, stały się popularne ze względu na możliwość konwersji tekstu na obrazy.
Te modele obrazów opierają się na dwóch kluczowych aspektach: modelu, który rozumie związek między obrazami a tekstem, oraz modelu, który może faktycznie utworzyć obraz o wysokiej rozdzielczości pasujący do danych wejściowych.
OpenAI's CLIP (Contrastive Language – Image Pre-training) to model typu open source, którego celem jest rozwiązanie pierwszego aspektu. Biorąc pod uwagę obraz, model CLIP może przewidzieć najbardziej odpowiedni opis tekstowy dla tego konkretnego obrazu.
Model CLIP działa poprzez uczenie się, jak wyodrębnić ważne cechy obrazu i stworzyć prostszą reprezentację obrazu.
Gdy użytkownicy wprowadzają przykładowy tekst do DALL-E 2, dane wejściowe są konwertowane na „osadzenie obrazu” przy użyciu modelu CLIP. Celem jest teraz znalezienie sposobu na wygenerowanie obrazu, który pasuje do wygenerowanego osadzania obrazu.
Najnowsze generatywne AI obrazu wykorzystują a model dyfuzyjny podjąć się zadania faktycznego stworzenia obrazu. Modele dyfuzji opierają się na sieciach neuronowych, które zostały wstępnie przeszkolone, aby wiedzieć, jak usuwać dodatkowy szum z obrazów.
Podczas tego procesu uczenia sieć neuronowa może ostatecznie nauczyć się, jak tworzyć obraz o wysokiej rozdzielczości z losowego obrazu szumu. Ponieważ mamy już mapowanie tekstu i obrazów dostarczone przez CLIP, możemy to zrobić trenować model dyfuzji na osadzaniach obrazów CLIP w celu stworzenia procesu generowania dowolnego obrazu.
Generatywna rewolucja AI: co będzie dalej?
Jesteśmy teraz w punkcie, w którym przełomy w generatywnej sztucznej inteligencji mają miejsce co kilka dni. Ponieważ generowanie różnych rodzajów mediów za pomocą sztucznej inteligencji staje się coraz łatwiejsze, czy powinniśmy się martwić, jak może to wpłynąć na nasze społeczeństwo?
Podczas gdy obawy związane z maszynami zastępującymi pracowników zawsze pojawiały się w rozmowach od czasu wynalezienia silnika parowego, wydaje się, że tym razem jest nieco inaczej.
Generacyjna sztuczna inteligencja staje się narzędziem wielofunkcyjnym, które może zakłócić branże, które zostały uznane za bezpieczne przed przejęciem sztucznej inteligencji.
Czy będziemy potrzebować programistów, jeśli sztuczna inteligencja zacznie pisać bezbłędny kod od kilku podstawowych instrukcji? Czy ludzie zatrudnią kreatywnych, jeśli będą mogli po prostu użyć modelu generatywnego do wytworzenia pożądanej produkcji taniej?
Trudno przewidzieć przyszłość generatywnej rewolucji AI. Ale teraz, gdy symboliczna puszka Pandory została otwarta, mam nadzieję, że technologia pozwoli na bardziej ekscytujące innowacje, które mogą wywrzeć pozytywny wpływ na świat.
Dodaj komentarz