Tartalomjegyzék[Elrejt][Előadás]
Az új és továbbfejlesztett mesterséges intelligencia javította a képességeket, a megértést és a nagyobb felbontású képek készítésének képességét. Az utóbbi időben furcsa és mulatságos képekkel találkozhatott az interneten.
Egy Shiba Inu kutya svájcisapkába és fekete garbóba van öltözve. És egy tengeri vidra Vermeer holland festő „Girl with a Pearl Earring” című művében. És van egy csésze leves, ami úgy néz ki, mint egy gyapjas szörnyeteg.
ezeket a képeket nem emberi művész alkotta.
Ehelyett a DALL-E 2, egy új mesterséges intelligencia rendszer, amely képes szöveges leírásokat képekké alakítani, hozta létre ezeket.
Egyszerűen írja le, mit szeretne látni, és a mesterséges intelligencia elkészíti Önnek – élénk részletekkel, kiváló minőségben, és bizonyos esetekben valódi találékonysággal. Ebben a bejegyzésben alaposan áttekintjük az OpenAI legújabb tanulmányát, a DALL.E 2-t, valamint annak működését és még sok mást. Kezdjük el.
Szóval, mi is az pontosan DALL.E 2?
A DALL-E 2 egy „generatív modell”, egy olyan gépi tanulási algoritmus, amely bonyolult kimenetet generál, ahelyett, hogy előrejelzési vagy osztályozási feladatokat hajtana végre a bemeneti adatokon.
A DALL-E 2-t írásos leírással látja el, és az elkészíti a megfelelő képet. A koncepciók, minőségek és stílusok kombinálásával az OpenAI DALLE 2 innovatív, valósághű grafikát és művészetet tud készíteni egy alapvető nyelvi leírásból.
A legújabb verzió, a DALLE 2 állítólag sokoldalúbb, képes nagyobb felbontásban és a kreatív stílusok szélesebb spektrumában képeket készíteni a feliratokból. Például az alábbi képek (a DALL-E 2 blogbejegyzésből) az „Egy lólovagló űrhajós” leírás alapján készültek.
Az egyik leírás így zárul: „mint egy ceruzavázlat”, míg a másik „fotorealisztikus módon”.
A meglévő fényképeket is elképesztő pontossággal tudja megváltoztatni. Így hozzáadhat vagy törölhet elemeket, miközben megtartja a színeket, a tükröződéseket és az árnyékokat, miközben megőrzi az eredeti kép megjelenését.
Hogyan működik?
A DALL-E 2 két kifinomult CLIP és diffúziós modellt használ mély tanulás az elmúlt években kidolgozott megközelítések. Ez azonban ugyanazon az elképzelésen alapul, mint az összes többi mély neurális hálózatok: reprezentációs tanulás. A CLIP egyszerre kettőt oktat neurális hálózatok képeken és feliratokon.
Az egyik hálózat a képen látható vizuális megjelenítéseket, míg a másik a szöveges megjelenítéseket tanulja meg. A képzés során a két hálózat megpróbálja módosítani a paramétereit, hogy az összehasonlítható képek és leírások hasonló beágyazásokat eredményezzenek.
A „diffúzió”, a generatív modellek egy olyan típusa, amely a betanítási mintáinak fokozatos zajosításával és zajtalanításával tanul meg képeket készíteni, a másik gépi tanulási megközelítés, amelyet a DALL-E 2-ben használnak. A diffúziós modellek hasonlóak az autoencoderekhez, mivel a bemeneti adatokat egy beágyazott ábrázolás, majd használja a beágyazási információkat az eredeti adatok újbóli létrehozásához.
OpenAI használata nyelvi modell A CLIP, amely képes összekapcsolni a szöveges leírásokat a fényképekkel, először lefordítja az írott promptot egy köztes formára, amely magában foglalja azokat a döntő tulajdonságokat, amelyekkel a képnek meg kell felelnie a promptnak (a CLIP szerint).
Másodszor, a DALL-E 2 létrehoz egy CLIP-kompatibilist kép diffúziós modell segítségével, ami egy neurális hálózat.
A véletlen pixeleket tartalmazó torzított fényképeken a diffúziós modellek megtanulhatók. Megtanulják, hogyan lehet visszaállítani a fényképek eredeti formáját. A diffúziós modellek kiváló minőségű szintetikus képeket készíthetnek, különösen, ha olyan irányadó megközelítéssel együtt használják őket, amely a pontosságot helyezi előtérbe a sokféleséggel szemben.
Következésképpen a diffúziós modell veszi a véletlenszerű képpontokat, és a CLIP segítségével konvertálja azokat új képpé, amely megfelel a szópromptnak. A diffúziós koncepció miatt a DALL-E 2 gyorsabban tud nagyobb felbontású képeket készíteni, mint a DALL-E.
DALL.E 2 használati eset
Az elmúlt húsz évben számítógépes látás a technológia az egyszerű elképzelésből a nagy áttörésig fejlődött. E fejlesztések ellenére a kép- és tárgyfelismerő modellek még mindig jelentős akadályokkal szembesülnek a mindennapi életben. Az adatkészletek hiánya a képfelismerés és a számítógépes látás egyik legjelentősebb hátránya. Mivel mindkét oldalon adathiány áll fenn, a képfelismerő modellek 100 százalékos pontosságra való betanítása szinte nehéz.
Szerencsére az OpenAI új gépi tanulási modellje áthidalhatja a technológiai szakadékot. A DALLE 2 képes elképesztő képeket generálni szöveges leírások alapján. Ez a hamis képalkotás adatot szolgáltathat a képfelismerő modellekhez azok igényei alapján. Az adatok hiánya jelentős akadálya a tárgy- és képazonosításnak.
A digitális korszakban az adatkészletek mindenütt jelen vannak, de még mindig keressük a parancsikonokat az AI-modell táplálására, hogy jó eredményeket tudjon nyújtani. A képfelismerő modell betanítása azonban nem egyszerű. Ehhez nagyszámú adatkészletre van szükség kis eltérésekkel, amelyeket nem biztos, hogy tudtunk volna egyszerűen lekérni.
Szóval, mi a válasz: A válasz a DALLE 2. Az OpenAI képgenerátor, amely képes szövegekből képeket előállítani és a meglévőket megváltoztatni, segíthet áthidalni a szakadékot. Ez elősegíti a további képzési adatok előállítását, miközben csökkenti a szükséges emberi címkézés mennyiségét. A jelentős előny ellenére tisztában kell lennie a csalárd képalkotásokkal és a felvételt kizáró képekkel. Ez oda vezethet, hogy a képészlelési módszerek torz eredményeket produkálnak.
korlátozások
Az OpenAI szerint a DALL.E 2 káros hatással lehet, ha rossz kezekbe kerül. A mai, mély hamisítványok világában a modell könnyen felhasználható hamis információk vagy rasszista képek terjesztésére, ezért az OpenAI csak meghívásra engedélyezi a fejlesztők számára a DALL.2 használatát. A modellnek szigorú tartalomkorlátozást kell betartania minden általa kapott javaslatra vonatkozóan.
Annak érdekében, hogy kizárjuk a DALL.E 2 esetleges ellenséges vagy erőszakos képek készítését, az adatkészletet halálos fegyverek nélkül hozták létre. Míg az OpenAI kijelentette, hogy a jövőben API-vá kívánja alakítani, a DALL.E 2 esetében hajlandó óvatosan eljárni.
Következtetés
A DALL-E 2 egy másik érdekes OpenAI kutatási felfedezés, amely új alkalmazások előtt nyitja meg az ajtót.
Az egyik példa a hatalmas adatkészletek létrehozása a számítógépes látás egyik fő szűk keresztmetszete – az adatok – kielégítésére. Míg sok DALL-E-alapú alkalmazás gazdasági helyzetét az OpenAI API-felhasználói számára megállapított ára és szabályzata határozza meg, ezek kétségtelenül mindegyik előmozdítja a képgyártást.
Hagy egy Válaszol