Pravděpodobně jsme právě na začátku nové generativní revoluce umělé inteligence.
Generativní umělá inteligence označuje algoritmy a modely, které jsou schopny vytvářet obsah. Výstup takových modelů zahrnuje text, zvuk a obrázky, které lze často mylně považovat za skutečný lidský výstup.
Aplikace jako ChatGPT ukázaly, že generativní AI není pouhou novinkou. Umělá inteligence je nyní schopna následovat podrobné pokyny a zdá se, že hluboce rozumí tomu, jak svět funguje.
Ale jak jsme se dostali do tohoto bodu? V této příručce si projdeme některé z klíčových průlomů ve výzkumu umělé inteligence, které vydláždily cestu této nové a vzrušující generativní revoluci umělé inteligence.
Vzestup neuronových sítí
Počátky moderní umělé inteligence můžete vysledovat ve výzkumu na hluboké učení a neuronové sítě v 2012.
V tomto roce byli Alex Krizhevsky a jeho tým z University of Toronto schopni dosáhnout vysoce přesného algoritmu, který dokáže klasifikovat objekty.
Projekt nejmodernější neuronové sítě, nyní známý jako AlexNet, dokázal klasifikovat objekty ve vizuální databázi ImageNet s mnohem nižší chybovostí než druhý.
Neuronové sítě jsou algoritmy, které používají síť matematických funkcí k učení konkrétního chování na základě některých trénovacích dat. Můžete například napájet lékařská data neuronové sítě, abyste model naučili diagnostikovat onemocnění, jako je rakovina.
Doufáme, že neuronová síť pomalu najde vzory v datech a stane se přesnějšími, když dostane nová data.
AlexNet byl průlomovou aplikací a konvoluční neuronová síť nebo CNN. Klíčové slovo „konvoluční“ odkazuje na přidání konvolučních vrstev, které klade větší důraz na data, která jsou blíže k sobě.
Zatímco CNN byly nápadem již v 1980. letech, popularitu si začaly získávat až na počátku roku 2010, kdy nejnovější technologie GPU posunula technologii do nových výšin.
Úspěch CNN v oblasti počítačového vidění vedlo k většímu zájmu o výzkum neuronových sítí.
Techničtí giganti jako Google a Facebook se rozhodli uvolnit své vlastní rámce umělé inteligence pro veřejnost. API na vysoké úrovni jako např Keras poskytl uživatelům uživatelsky přívětivé rozhraní pro experimentování s hlubokými neuronovými sítěmi.
CNN byly skvělé v rozpoznávání obrazu a analýze videa, ale měly problémy, pokud jde o řešení jazykových problémů. Toto omezení ve zpracování přirozeného jazyka může existovat, protože obrázky a text jsou ve skutečnosti zásadně odlišné problémy.
Pokud máte například model, který klasifikuje, zda obrázek obsahuje semafor, může se dotyčný semafor objevit kdekoli na obrázku. Tento druh shovívavosti však v jazyce nefunguje dobře. Věty „Bob snědl rybu“ a „Ryba snědl Boba“ mají naprosto odlišné významy, přestože používají stejná slova.
Bylo jasné, že výzkumníci potřebují najít nový přístup k řešení problémů týkajících se lidského jazyka.
Transformátory mění všechno
V 2017, je výzkum papír s názvem „Attention Is All You Need“ navrhl nový typ sítě: Transformer.
Zatímco CNN fungují tak, že opakovaně filtrují malé části obrazu, transformátory propojují každý prvek v datech s každým dalším prvkem. Výzkumníci tento proces nazývají „sebepozornost“.
Při pokusu o analýzu vět fungují CNN a transformátory velmi odlišně. Zatímco CNN se zaměří na vytváření spojení se slovy, která jsou blízko sebe, transformátor vytvoří spojení mezi každým a každým slovem ve větě.
Proces sebepozornosti je nedílnou součástí porozumění lidské řeči. Oddálením a sledováním toho, jak do sebe celá věta zapadá, mohou stroje lépe porozumět struktuře věty.
Jakmile byly vydány první modely transformátorů, výzkumníci brzy použili novou architekturu k využití neuvěřitelného množství textových dat nalezených na internetu.
GPT-3 a internet
V roce 2020 OpenAI GPT-3 model ukázal, jak efektivní mohou být transformátory. GPT-3 dokázal vytisknout text, který se zdá být téměř k nerozeznání od člověka. Část toho, co udělalo GPT-3 tak výkonným, bylo množství použitých tréninkových dat. Většina datové sady před trénováním modelu pochází z datové sady známé jako Common Crawl, která obsahuje více než 400 miliard tokenů.
Zatímco schopnost GPT-3 generovat realistický lidský text byla sama o sobě průlomová, výzkumníci zjistili, jak může stejný model vyřešit další úkoly.
Například stejný model GPT-3, který můžete použít ke generování tweetu, vám také může pomoci shrnout text, přepsat odstavec a dokončit příběh. Jazykové modely se staly tak mocnými, že jsou nyní v podstatě univerzálními nástroji, které následují jakýkoli typ příkazu.
Obecná povaha GPT-3 umožnila takové aplikace GitHub Copilot, který umožňuje programátorům generovat pracovní kód z jednoduché angličtiny.
Difúzní modely: Od textu k obrázkům
Pokrok dosažený v oblasti transformátorů a NLP také připravil cestu pro generativní umělou inteligenci v jiných oblastech.
V oblasti počítačového vidění jsme již probrali, jak hluboké učení umožnilo strojům porozumět obrazům. Stále jsme však potřebovali najít způsob, jak by umělá inteligence generovala obrázky sama, než aby je jen klasifikovala.
Generativní obrazové modely jako DALL-E 2, Stable Diffusion a Midjourney se staly populární díky tomu, jak jsou schopny převádět textový vstup na obrázky.
Tyto obrazové modely se spoléhají na dva klíčové aspekty: model, který rozumí vztahu mezi obrázky a textem, a model, který skutečně dokáže vytvořit obraz s vysokým rozlišením, který odpovídá zadání.
OpenAI CLIP (Contrastive Language–Image Pre-training) je model s otevřeným zdrojovým kódem, jehož cílem je vyřešit první aspekt. Vzhledem k obrázku může model CLIP předpovědět nejrelevantnější textový popis pro tento konkrétní obrázek.
Model CLIP funguje tak, že se učí, jak extrahovat důležité prvky obrázku a vytvořit jednodušší reprezentaci obrázku.
Když uživatelé poskytnou DALL-E 2 vzorový textový vstup, vstup se převede na „vložení obrázku“ pomocí modelu CLIP. Cílem je nyní najít způsob, jak vygenerovat obrázek, který odpovídá vygenerovanému vložení obrázku.
Nejnovější generativní obrazové umělé inteligence používají a difuzní model vypořádat se s úkolem skutečně vytvořit obrázek. Difúzní modely spoléhají na neuronové sítě, které byly předem vycvičeny, aby věděly, jak odstranit přidaný šum z obrázků.
Během tohoto procesu tréninku se neuronová síť může nakonec naučit, jak vytvořit obraz s vysokým rozlišením z obrazu s náhodným šumem. Vzhledem k tomu, že již máme mapování textu a obrázků, které poskytuje CLIP, můžeme trénovat difúzní model na vkládání obrázků CLIP k vytvoření procesu generování libovolného obrázku.
Generativní AI revoluce: Co přijde dál?
Nyní jsme v bodě, kdy každých pár dní dochází k průlomům v generativní umělé inteligenci. Vzhledem k tomu, že generování různých typů médií pomocí AI je stále snazší, měli bychom se obávat, jak by to mohlo ovlivnit naši společnost?
Zatímco starosti se stroji nahrazujícími dělníky byly od vynálezu parního stroje neustále v řeči, zdá se, že tentokrát je to trochu jinak.
Generativní AI se stává víceúčelovým nástrojem, který může narušit průmyslová odvětví, která byla považována za bezpečná před převzetím AI.
Budeme potřebovat programátory, když umělá inteligence dokáže začít psát bezchybný kód z několika základních instrukcí? Budou lidé najímat kreativy, pokud mohou použít generativní model k produkci požadovaného výstupu levněji?
Je těžké předvídat budoucnost generativní revoluce umělé inteligence. Ale teď, když byla otevřena obrazná Pandořina skříňka, doufám, že technologie umožní další vzrušující inovace, které mohou zanechat pozitivní dopad na svět.
Napsat komentář