Mi okozta a generatív AI forradalmat?

Tartalomjegyzék[Elrejt][Előadás]

A neurális hálózatok felemelkedése
A transzformátorok mindent megváltoztatnak
GPT-3 és az internet
Diffúziós modellek: szövegtől képekig
Generatív mesterséges intelligencia forradalom: Mi jön ezután?

Valószínűleg csak egy új generatív AI forradalom kezdetén járunk.

A generatív mesterséges intelligencia olyan algoritmusokat és modelleket jelent, amelyek képesek tartalmat létrehozni. Az ilyen modellek kimenete szöveget, hangot és képeket tartalmaz, amelyek gyakran összetéveszthetők valódi emberi kimenetekkel.

Olyan alkalmazások, mint a ChatGPT megmutatták, hogy a generatív mesterséges intelligencia nem pusztán újdonság. A mesterséges intelligencia most már képes követni a részletes utasításokat, és úgy tűnik, mélyen megérti a világ működését.

De hogyan jutottunk el idáig? Ebben az útmutatóban az AI-kutatás néhány kulcsfontosságú áttörését mutatjuk be, amelyek kikövezték az utat ennek az új és izgalmas generatív AI-forradalomnak.

A neurális hálózatok felemelkedése

A modern mesterséges intelligencia eredetét a következő kutatásokig követheti nyomon mély tanulás és neurális hálózatok A 2012.

Abban az évben Alex Krizhevsky és csapata a Torontói Egyetemről egy rendkívül pontos algoritmust tudott elérni, amely képes osztályozni az objektumokat.

A a legmodernebb neurális hálózat, amely ma AlexNet néven ismert, sokkal alacsonyabb hibaaránnyal tudta osztályozni az objektumokat az ImageNet vizuális adatbázisban, mint a második helyezett.

alexnet diagram

Neurális hálózatok olyan algoritmusok, amelyek matematikai függvények hálózatát használják egy adott viselkedés megtanulására bizonyos betanítási adatok alapján. Például táplálhat egy neurális hálózatot orvosi adatokkal, hogy megtanítsa a modellt egy betegség, például a rák diagnosztizálására.

A remény az, hogy a neurális hálózat lassan mintákat talál az adatokban, és pontosabbá válik, ha új adatokat adnak.

Az AlexNet áttörést jelentő alkalmazása volt a konvolúciós neurális hálózat vagy CNN-ek. A „konvolúciós” kulcsszó konvolúciós rétegek hozzáadására utal, amelyek nagyobb hangsúlyt helyeznek az egymáshoz közelebb álló adatokra.

Míg a CNN-ek már az 1980-as években ötletnek számítottak, csak a 2010-es évek elején kezdtek népszerűvé válni, amikor a legújabb GPU-technológia új magasságokba emelte a technológiát.

A CNN-ek sikere a területen számítógépes látás nagyobb érdeklődést váltott ki a neurális hálózatok kutatása iránt.

Az olyan technológiai óriások, mint a Google és a Facebook, úgy döntöttek, hogy nyilvánosságra hozzák saját AI-keretrendszereiket. Magas szintű API-k, mint pl Keras felhasználóbarát felületet adott a felhasználóknak a mély neurális hálózatokkal való kísérletezéshez.

A keras felhasználóbarát módszert kínált a mély tanulási modellekkel való kísérletezéshez

A CNN-ek kiválóan alkalmasak a képfelismerésre és a videoelemzésre, de nehézségeik voltak a nyelvi alapú problémák megoldásában. Ez a korlátozás a természetes nyelvi feldolgozásban azért állhat fenn, mert a képek és a szöveg valójában alapvetően különböző problémák.

Ha például rendelkezik egy modellel, amely besorolja, hogy egy kép tartalmaz-e közlekedési lámpát, akkor a kérdéses közlekedési lámpa bárhol megjelenhet a képen. Ez a fajta engedékenység azonban nem működik jól a nyelvben. A „Bob evett halat” és a „Fish ate Bob” mondatoknak nagyon eltérő jelentése van, annak ellenére, hogy ugyanazokat a szavakat használják.

Világossá vált, hogy a kutatóknak új megközelítést kell találniuk az emberi nyelvvel kapcsolatos problémák megoldására.

A transzformátorok mindent megváltoztatnak

Az 2017-ban a kutatási papír „A figyelem minden, amire szüksége van” címmel egy új típusú hálózatot javasolt: a Transformert.

Míg a CNN-ek a kép kis részeit ismételten szűrik, a transzformátorok az adatok minden elemét minden más elemmel összekapcsolják. A kutatók ezt a folyamatot „önfigyelemnek” nevezik.

vázlatrajz a CNN architektúráról

A mondatok elemzésekor a CNN-ek és a transzformátorok nagyon eltérően működnek. Míg a CNN az egymáshoz közeli szavakkal való kapcsolatok kialakítására összpontosít, a transzformátor kapcsolatokat hoz létre a mondat minden egyes szava között.

a transzformátor architektúrájának vázlatrajza

Az önfigyelem folyamat az emberi nyelv megértésének szerves része. A kicsinyítés és a teljes mondat egymáshoz illeszkedésének vizsgálatával a gépek jobban megérthetik a mondat szerkezetét.

Miután megjelentek az első transzformátormodellek, a kutatók hamarosan felhasználták az új architektúrát, hogy kihasználják az interneten található hihetetlen mennyiségű szöveges adatot.

GPT-3 és az internet

2020-ban az OpenAI GPT-3 modell megmutatta, milyen hatékonyak lehetnek a transzformátorok. A GPT-3 olyan szöveget tudott kiadni, amely szinte megkülönböztethetetlennek tűnik az embertől. Ami a GPT-3-at olyan erőssé tette, az a felhasznált edzési adatok mennyisége volt. A modell képzés előtti adatkészletének nagy része a Common Crawl néven ismert adatkészletből származik, amely több mint 400 milliárd tokent tartalmaz.

Míg a GPT-3 azon képessége, hogy valósághű emberi szöveget generáljon, önmagában is úttörő volt, a kutatók felfedezték, hogy ugyanaz a modell hogyan tud más feladatokat is megoldani.

Például ugyanaz a GPT-3 modell, amelyet tweet generálására használhat, segíthet a szöveg összefoglalásában, a bekezdés átírásában és a történet befejezésében. Nyelvi modellek olyan erősek lettek, hogy mára alapvetően általános célú eszközök, amelyek bármilyen típusú parancsot követnek.

A generatív ai forradalmat olyan nagy nyelvi modellek gyorsították fel, mint a gpt-3

A GPT-3 általános célú természete lehetővé tette az ilyen alkalmazások használatát GitHub másodpilóta, amely lehetővé teszi a programozóknak, hogy működő kódot generáljanak egyszerű angol nyelvből.

a google másodpilóta demója. a generatív ai forradalom még az ai-t készítő programozókat is érintheti

Diffúziós modellek: szövegtől képekig

A transzformátorok és az NLP terén elért haladás más területeken is megnyitotta az utat a generatív mesterséges intelligencia előtt.

A számítógépes látás területén már foglalkoztunk azzal, hogy a mélytanulás hogyan tette lehetővé a gépek számára a képek megértését. Azonban továbbra is meg kellett találnunk a módját, hogy a mesterséges intelligencia maguk is generáljon képeket, ne csak osztályozzák azokat.

Az olyan generatív képmodellek, mint a DALL-E 2, a Stable Diffusion és a Midjourney, azért váltak népszerűvé, mert képesek a szövegbevitelt képekké alakítani.

a dall-e 2 minta kimenete

Ezek a képmodellek két kulcsfontosságú szempontra támaszkodnak: egy modellre, amely megérti a képek és a szöveg közötti kapcsolatot, és egy olyan modellre, amely ténylegesen képes létrehozni a bemenetnek megfelelő nagyfelbontású képet.

OpenAI-k CLIP (Contrastive Language–Image Pre-training) egy nyílt forráskódú modell, amely az első szempont megoldását célozza. Adott egy kép, a CLIP modell meg tudja jósolni az adott képhez tartozó legrelevánsabb szöveges leírást.

A CLIP-modell úgy működik, hogy megtanulja, hogyan bontsa ki a fontos képjellemzőket, és hogyan hozhat létre egy kép egyszerűbb ábrázolását.

A CLIP hídként működik a képek és a szöveg között, és segített áthelyezni a generatív AI forradalmat a vizuális szférába

Amikor a felhasználók minta szövegbevitelt adnak meg a DALL-E 2-höz, a bemenetet a CLIP modell segítségével „képbeágyazássá” alakítják át. A cél most az, hogy megtaláljuk a módját a generált képbeágyazásnak megfelelő kép létrehozásának.

A legújabb generatív képi mesterséges intelligencia a diffúziós modell hogy megbirkózzon a tényleges képalkotás feladatával. A diffúziós modellek neurális hálózatokra támaszkodnak, amelyeket előzetesen kiképeztek, hogy tudják, hogyan távolítsák el a képekből a hozzáadott zajt.

A képzési folyamat során a neurális hálózat végül megtanulhatja, hogyan készítsen nagy felbontású képet egy véletlenszerű zajképből. Mivel már rendelkezünk a CLIP által biztosított szöveg- és képleképezéssel, megtehetjük diffúziós modellt tanítani CLIP képbeágyazásokon, hogy létrehozzon egy folyamatot bármilyen kép létrehozásához.

Generatív mesterséges intelligencia forradalom: Mi jön ezután?

Most egy olyan ponton vagyunk, ahol a generatív mesterséges intelligencia terén néhány naponként áttörések következnek be. Mivel egyre könnyebbé válik a különböző típusú médiák létrehozása mesterséges intelligencia segítségével, aggódnunk kell amiatt, hogy ez hogyan érintheti társadalmunkat?

Míg a gőzgép feltalálása óta mindig szóba került a munkásokat helyettesítő gépekkel kapcsolatos aggodalmak, úgy tűnik, ezúttal egy kicsit más a helyzet.

A generatív mesterséges intelligencia egy többcélú eszközzé válik, amely megzavarhatja azokat az iparágakat, amelyeket biztonságosnak ítéltek a mesterségesintelligencia-átvételtől.

Szükségünk lesz-e programozókra, ha az AI néhány alapvető utasításból elkezdhet hibátlan kódot írni? Felvesznek-e majd az emberek kreatívokat, ha egy generatív modell segítségével olcsóbban állíthatják elő a kívánt eredményt?

Nehéz megjósolni a generatív AI forradalom jövőjét. De most, hogy a figurális Pandora szelencéjét kinyitották, remélem, hogy a technológia még izgalmasabb újításokat tesz lehetővé, amelyek pozitív hatással lehetnek a világra.

Mi okozta a generatív AI forradalmat?

A neurális hálózatok felemelkedése

A transzformátorok mindent megváltoztatnak

GPT-3 és az internet

Diffúziós modellek: szövegtől képekig

Generatív mesterséges intelligencia forradalom: Mi jön ezután?

Rólunk Deion Menor

További cikkek a HashDorkról:

Hogyan csökkentsük a hallucinációkat az AI-ban

Colossyan vs Heygen

Ez a Future Tech hírlevél nem szívás

Mi okozta a generatív AI forradalmat?

A neurális hálózatok felemelkedése

A transzformátorok mindent megváltoztatnak

GPT-3 és az internet

Diffúziós modellek: szövegtől képekig

Generatív mesterséges intelligencia forradalom: Mi jön ezután?

Rólunk Deion Menor

További cikkek a HashDorkról:

Hogyan csökkentsük a hallucinációkat az AI-ban

A 10 legjobb AI-eszköz a közösségi médiához

Colossyan vs Heygen

A 10 legjobb AI animációs videókészítő eszköz

Reader interakciók

Hagy egy Válaszol Mégsem válaszát

Ez a Future Tech hírlevél nem szívás