Valószínűleg csak egy új generatív AI forradalom kezdetén járunk.
A generatív mesterséges intelligencia olyan algoritmusokat és modelleket jelent, amelyek képesek tartalmat létrehozni. Az ilyen modellek kimenete szöveget, hangot és képeket tartalmaz, amelyek gyakran összetéveszthetők valódi emberi kimenetekkel.
Olyan alkalmazások, mint a ChatGPT megmutatták, hogy a generatív mesterséges intelligencia nem pusztán újdonság. A mesterséges intelligencia most már képes követni a részletes utasításokat, és úgy tűnik, mélyen megérti a világ működését.
De hogyan jutottunk el idáig? Ebben az útmutatóban az AI-kutatás néhány kulcsfontosságú áttörését mutatjuk be, amelyek kikövezték az utat ennek az új és izgalmas generatív AI-forradalomnak.
A neurális hálózatok felemelkedése
A modern mesterséges intelligencia eredetét a következő kutatásokig követheti nyomon mély tanulás és neurális hálózatok A 2012.
Abban az évben Alex Krizhevsky és csapata a Torontói Egyetemről egy rendkívül pontos algoritmust tudott elérni, amely képes osztályozni az objektumokat.
A a legmodernebb neurális hálózat, amely ma AlexNet néven ismert, sokkal alacsonyabb hibaaránnyal tudta osztályozni az objektumokat az ImageNet vizuális adatbázisban, mint a második helyezett.
Neurális hálózatok olyan algoritmusok, amelyek matematikai függvények hálózatát használják egy adott viselkedés megtanulására bizonyos betanítási adatok alapján. Például táplálhat egy neurális hálózatot orvosi adatokkal, hogy megtanítsa a modellt egy betegség, például a rák diagnosztizálására.
A remény az, hogy a neurális hálózat lassan mintákat talál az adatokban, és pontosabbá válik, ha új adatokat adnak.
Az AlexNet áttörést jelentő alkalmazása volt a konvolúciós neurális hálózat vagy CNN-ek. A „konvolúciós” kulcsszó konvolúciós rétegek hozzáadására utal, amelyek nagyobb hangsúlyt helyeznek az egymáshoz közelebb álló adatokra.
Míg a CNN-ek már az 1980-as években ötletnek számítottak, csak a 2010-es évek elején kezdtek népszerűvé válni, amikor a legújabb GPU-technológia új magasságokba emelte a technológiát.
A CNN-ek sikere a területen számítógépes látás nagyobb érdeklődést váltott ki a neurális hálózatok kutatása iránt.
Az olyan technológiai óriások, mint a Google és a Facebook, úgy döntöttek, hogy nyilvánosságra hozzák saját AI-keretrendszereiket. Magas szintű API-k, mint pl Keras felhasználóbarát felületet adott a felhasználóknak a mély neurális hálózatokkal való kísérletezéshez.
A CNN-ek kiválóan alkalmasak a képfelismerésre és a videoelemzésre, de nehézségeik voltak a nyelvi alapú problémák megoldásában. Ez a korlátozás a természetes nyelvi feldolgozásban azért állhat fenn, mert a képek és a szöveg valójában alapvetően különböző problémák.
Ha például rendelkezik egy modellel, amely besorolja, hogy egy kép tartalmaz-e közlekedési lámpát, akkor a kérdéses közlekedési lámpa bárhol megjelenhet a képen. Ez a fajta engedékenység azonban nem működik jól a nyelvben. A „Bob evett halat” és a „Fish ate Bob” mondatoknak nagyon eltérő jelentése van, annak ellenére, hogy ugyanazokat a szavakat használják.
Világossá vált, hogy a kutatóknak új megközelítést kell találniuk az emberi nyelvvel kapcsolatos problémák megoldására.
A transzformátorok mindent megváltoztatnak
Az 2017-ban a kutatási papír „A figyelem minden, amire szüksége van” címmel egy új típusú hálózatot javasolt: a Transformert.
Míg a CNN-ek a kép kis részeit ismételten szűrik, a transzformátorok az adatok minden elemét minden más elemmel összekapcsolják. A kutatók ezt a folyamatot „önfigyelemnek” nevezik.
A mondatok elemzésekor a CNN-ek és a transzformátorok nagyon eltérően működnek. Míg a CNN az egymáshoz közeli szavakkal való kapcsolatok kialakítására összpontosít, a transzformátor kapcsolatokat hoz létre a mondat minden egyes szava között.
Az önfigyelem folyamat az emberi nyelv megértésének szerves része. A kicsinyítés és a teljes mondat egymáshoz illeszkedésének vizsgálatával a gépek jobban megérthetik a mondat szerkezetét.
Miután megjelentek az első transzformátormodellek, a kutatók hamarosan felhasználták az új architektúrát, hogy kihasználják az interneten található hihetetlen mennyiségű szöveges adatot.
GPT-3 és az internet
2020-ban az OpenAI GPT-3 modell megmutatta, milyen hatékonyak lehetnek a transzformátorok. A GPT-3 olyan szöveget tudott kiadni, amely szinte megkülönböztethetetlennek tűnik az embertől. Ami a GPT-3-at olyan erőssé tette, az a felhasznált edzési adatok mennyisége volt. A modell képzés előtti adatkészletének nagy része a Common Crawl néven ismert adatkészletből származik, amely több mint 400 milliárd tokent tartalmaz.
Míg a GPT-3 azon képessége, hogy valósághű emberi szöveget generáljon, önmagában is úttörő volt, a kutatók felfedezték, hogy ugyanaz a modell hogyan tud más feladatokat is megoldani.
Például ugyanaz a GPT-3 modell, amelyet tweet generálására használhat, segíthet a szöveg összefoglalásában, a bekezdés átírásában és a történet befejezésében. Nyelvi modellek olyan erősek lettek, hogy mára alapvetően általános célú eszközök, amelyek bármilyen típusú parancsot követnek.
A GPT-3 általános célú természete lehetővé tette az ilyen alkalmazások használatát GitHub másodpilóta, amely lehetővé teszi a programozóknak, hogy működő kódot generáljanak egyszerű angol nyelvből.
Diffúziós modellek: szövegtől képekig
A transzformátorok és az NLP terén elért haladás más területeken is megnyitotta az utat a generatív mesterséges intelligencia előtt.
A számítógépes látás területén már foglalkoztunk azzal, hogy a mélytanulás hogyan tette lehetővé a gépek számára a képek megértését. Azonban továbbra is meg kellett találnunk a módját, hogy a mesterséges intelligencia maguk is generáljon képeket, ne csak osztályozzák azokat.
Az olyan generatív képmodellek, mint a DALL-E 2, a Stable Diffusion és a Midjourney, azért váltak népszerűvé, mert képesek a szövegbevitelt képekké alakítani.
Ezek a képmodellek két kulcsfontosságú szempontra támaszkodnak: egy modellre, amely megérti a képek és a szöveg közötti kapcsolatot, és egy olyan modellre, amely ténylegesen képes létrehozni a bemenetnek megfelelő nagyfelbontású képet.
OpenAI-k CLIP (Contrastive Language–Image Pre-training) egy nyílt forráskódú modell, amely az első szempont megoldását célozza. Adott egy kép, a CLIP modell meg tudja jósolni az adott képhez tartozó legrelevánsabb szöveges leírást.
A CLIP-modell úgy működik, hogy megtanulja, hogyan bontsa ki a fontos képjellemzőket, és hogyan hozhat létre egy kép egyszerűbb ábrázolását.
Amikor a felhasználók minta szövegbevitelt adnak meg a DALL-E 2-höz, a bemenetet a CLIP modell segítségével „képbeágyazássá” alakítják át. A cél most az, hogy megtaláljuk a módját a generált képbeágyazásnak megfelelő kép létrehozásának.
A legújabb generatív képi mesterséges intelligencia a diffúziós modell hogy megbirkózzon a tényleges képalkotás feladatával. A diffúziós modellek neurális hálózatokra támaszkodnak, amelyeket előzetesen kiképeztek, hogy tudják, hogyan távolítsák el a képekből a hozzáadott zajt.
A képzési folyamat során a neurális hálózat végül megtanulhatja, hogyan készítsen nagy felbontású képet egy véletlenszerű zajképből. Mivel már rendelkezünk a CLIP által biztosított szöveg- és képleképezéssel, megtehetjük diffúziós modellt tanítani CLIP képbeágyazásokon, hogy létrehozzon egy folyamatot bármilyen kép létrehozásához.
Generatív mesterséges intelligencia forradalom: Mi jön ezután?
Most egy olyan ponton vagyunk, ahol a generatív mesterséges intelligencia terén néhány naponként áttörések következnek be. Mivel egyre könnyebbé válik a különböző típusú médiák létrehozása mesterséges intelligencia segítségével, aggódnunk kell amiatt, hogy ez hogyan érintheti társadalmunkat?
Míg a gőzgép feltalálása óta mindig szóba került a munkásokat helyettesítő gépekkel kapcsolatos aggodalmak, úgy tűnik, ezúttal egy kicsit más a helyzet.
A generatív mesterséges intelligencia egy többcélú eszközzé válik, amely megzavarhatja azokat az iparágakat, amelyeket biztonságosnak ítéltek a mesterségesintelligencia-átvételtől.
Szükségünk lesz-e programozókra, ha az AI néhány alapvető utasításból elkezdhet hibátlan kódot írni? Felvesznek-e majd az emberek kreatívokat, ha egy generatív modell segítségével olcsóbban állíthatják elő a kívánt eredményt?
Nehéz megjósolni a generatív AI forradalom jövőjét. De most, hogy a figurális Pandora szelencéjét kinyitották, remélem, hogy a technológia még izgalmasabb újításokat tesz lehetővé, amelyek pozitív hatással lehetnek a világra.
Hagy egy Válaszol