Pravdepodobne sme len na začiatku novej generatívnej revolúcie AI.
Generatívna umelá inteligencia označuje algoritmy a modely, ktoré sú schopné vytvárať obsah. Výstup takýchto modelov zahŕňa text, zvuk a obrázky, ktoré možno často mylne považovať za skutočný ľudský výstup.
Aplikácie ako napr ChatGPT ukázali, že generatívna AI nie je len novinkou. AI je teraz schopná riadiť sa podrobnými pokynmi a zdá sa, že hlboko rozumie tomu, ako svet funguje.
Ale ako sme sa dostali do tohto bodu? V tejto príručke si prejdeme niektoré z kľúčových objavov vo výskume AI, ktoré vydláždili cestu tejto novej a vzrušujúcej generatívnej revolúcii AI.
Vzostup neurónových sietí
Počiatky modernej AI môžete sledovať vo výskume na hlboké učenie a neurónové siete v 2012.
V tom roku Alex Krizhevsky a jeho tím z University of Toronto dokázali dosiahnuť vysoko presný algoritmus, ktorý dokáže klasifikovať objekty.
najmodernejšiu neurónovú sieť, teraz známy ako AlexNet, dokázal klasifikovať objekty vo vizuálnej databáze ImageNet s oveľa nižšou chybovosťou ako druhý.
Neurónové siete sú algoritmy, ktoré využívajú sieť matematických funkcií na učenie sa konkrétneho správania na základe niektorých tréningových údajov. Môžete napríklad napájať lekárske údaje neurónovej siete, aby ste model naučili diagnostikovať ochorenie, ako je rakovina.
Dúfame, že neurónová sieť pomaly nájde vzory v údajoch a stane sa presnejšou, keď dostane nové údaje.
AlexNet bola prelomová aplikácia a konvolučná neurónová sieť alebo CNN. Kľúčové slovo „konvolučné“ sa vzťahuje na pridanie konvolučných vrstiev, ktoré kladie väčší dôraz na údaje, ktoré sú bližšie k sebe.
Zatiaľ čo CNN boli nápadom už v 1980. rokoch, popularitu si začali získavať až začiatkom roku 2010, keď najnovšia technológia GPU posunula technológiu do nových výšin.
Úspech CNN v oblasti počítačová vízia viedlo k väčšiemu záujmu o výskum neurónových sietí.
Technologickí giganti ako Google a Facebook sa rozhodli uvoľniť svoje vlastné rámce AI pre verejnosť. Vysokoúrovňové API ako napr KERAS poskytol používateľom užívateľsky prívetivé rozhranie na experimentovanie s hlbokými neurónovými sieťami.
CNN boli skvelé v rozpoznávaní obrázkov a analýze videa, ale mali problémy, pokiaľ ide o riešenie jazykových problémov. Toto obmedzenie v spracovaní prirodzeného jazyka môže existovať, pretože obrázky a text sú v skutočnosti zásadne odlišné problémy.
Ak máte napríklad model, ktorý klasifikuje, či obrázok obsahuje semafor, daný semafor sa môže objaviť kdekoľvek na obrázku. Tento druh zhovievavosti však v jazyku nefunguje dobre. Veta „Bob zjedol rybu“ a „Ryba zjedol Boba“ má úplne odlišný význam napriek tomu, že používajú rovnaké slová.
Bolo jasné, že výskumníci potrebujú nájsť nový prístup k riešeniu problémov týkajúcich sa ľudského jazyka.
Transformátory menia všetko
V 2017, na výzkumná práca s názvom „Attention Is All You Need“ navrhol nový typ siete: Transformer.
Zatiaľ čo CNN fungujú tak, že opakovane filtrujú malé časti obrazu, transformátory spájajú každý prvok v údajoch s každým iným prvkom. Výskumníci tento proces nazývajú „sebapozornosť“.
Pri pokuse o analýzu viet fungujú CNN a transformátory veľmi odlišne. Zatiaľ čo CNN sa zameria na vytváranie spojení so slovami, ktoré sú blízko seba, transformátor vytvorí spojenia medzi každým a každým slovom vo vete.
Proces sebapozorovania je neoddeliteľnou súčasťou porozumenia ľudskej reči. Oddialením a pohľadom na to, ako do seba celá veta zapadá, môžu stroje lepšie pochopiť štruktúru vety.
Po vydaní prvých modelov transformátorov výskumníci čoskoro použili novú architektúru, aby využili neuveriteľné množstvo textových údajov nájdených na internete.
GPT-3 a internet
V roku 2020 OpenAI GPT-3 model ukázal, aké efektívne môžu byť transformátory. GPT-3 dokázal vytlačiť text, ktorý sa zdá byť takmer na nerozoznanie od človeka. Časť toho, čo urobilo GPT-3 tak výkonným, bolo množstvo použitých tréningových dát. Väčšina predtréningového súboru údajov modelu pochádza zo súboru údajov známeho ako Common Crawl, ktorý obsahuje viac ako 400 miliárd tokenov.
Zatiaľ čo schopnosť GPT-3 generovať realistický ľudský text bola sama osebe prelomová, výskumníci zistili, ako môže rovnaký model vyriešiť iné úlohy.
Napríklad rovnaký model GPT-3, ktorý môžete použiť na generovanie tweetu, vám môže tiež pomôcť zhrnúť text, prepísať odsek a dokončiť príbeh. Jazykové modely sa stali tak silnými, že sú teraz v podstate univerzálnymi nástrojmi, ktoré sa riadia akýmkoľvek typom príkazov.
Všeobecná povaha GPT-3 umožnila takéto aplikácie GitHub Copilot, ktorý umožňuje programátorom generovať pracovný kód z obyčajnej angličtiny.
Difúzne modely: Od textu k obrázkom
Pokrok dosiahnutý v oblasti transformátorov a NLP tiež pripravil pôdu pre generatívnu AI v iných oblastiach.
V oblasti počítačového videnia sme sa už zaoberali tým, ako hlboké učenie umožnilo strojom porozumieť obrazom. Stále sme však potrebovali nájsť spôsob, ako by AI mohla generovať obrázky sama, a nie ich len klasifikovať.
Generatívne obrazové modely ako DALL-E 2, Stable Diffusion a Midjourney sa stali populárnymi, pretože dokážu konvertovať textový vstup na obrázky.
Tieto obrazové modely sa opierajú o dva kľúčové aspekty: model, ktorý chápe vzťah medzi obrázkami a textom, a model, ktorý skutočne dokáže vytvoriť obraz s vysokým rozlíšením, ktorý zodpovedá zadanému údaju.
OpenAI CLIP (Contrastive Language–Image Pre-training) je model s otvoreným zdrojom, ktorého cieľom je vyriešiť prvý aspekt. Vzhľadom na obrázok môže model CLIP predpovedať najrelevantnejší textový popis pre tento konkrétny obrázok.
Model CLIP funguje tak, že sa učí extrahovať dôležité prvky obrázka a vytvoriť jednoduchšiu reprezentáciu obrázka.
Keď používatelia poskytnú vzorový textový vstup do DALL-E 2, vstup sa prevedie na „vloženie obrázka“ pomocou modelu CLIP. Cieľom je teraz nájsť spôsob, ako vygenerovať obrázok, ktorý sa zhoduje s vygenerovaným vloženým obrázkom.
Najnovšie generatívne obrazové AI používajú a difúzny model riešiť úlohu skutočného vytvorenia obrazu. Difúzne modely sa spoliehajú na neurónové siete, ktoré boli vopred vyškolené, aby vedeli, ako odstrániť pridaný šum z obrázkov.
Počas tohto procesu tréningu sa neurónová sieť môže nakoniec naučiť, ako vytvoriť obrázok s vysokým rozlíšením z obrázka s náhodným šumom. Keďže už máme mapovanie textu a obrázkov, ktoré poskytuje CLIP, môžeme trénovať difúzny model na vkladanie obrázkov CLIP na vytvorenie procesu na generovanie ľubovoľného obrázka.
Generatívna revolúcia AI: Čo bude nasledovať?
Teraz sme v bode, kde každých pár dní dochádza k prelomom v generatívnej AI. Keďže je vytváranie rôznych typov médií pomocou AI čoraz jednoduchšie, mali by sme sa obávať, ako by to mohlo ovplyvniť našu spoločnosť?
Kým od vynálezu parného stroja sa vždy hovorilo o starostiach so strojmi nahrádzajúcimi robotníkov, zdá sa, že tentokrát je to trochu inak.
Generatívna AI sa stáva viacúčelovým nástrojom, ktorý môže narušiť odvetvia, ktoré boli považované za bezpečné pred prevzatím AI.
Budeme potrebovať programátorov, ak AI dokáže začať písať bezchybný kód z niekoľkých základných pokynov? Najímajú si ľudia kreatívcov, ak môžu použiť len generatívny model na výrobu požadovaného výstupu lacnejšie?
Je ťažké predpovedať budúcnosť generatívnej revolúcie AI. Ale teraz, keď sa otvorila obrazová Pandorina skrinka, dúfam, že táto technológia umožní ďalšie vzrušujúce inovácie, ktoré môžu zanechať pozitívny vplyv na svet.
Nechaj odpoveď