Turinys[Slėpti][Rodyti]
Naujasis ir patobulintas AI pagerino gebėjimus, supratimą ir gebėjimą kurti didesnės raiškos vaizdus. Galbūt pastaruoju metu internete sklando keistai ir juokingi vaizdai.
Shiba Inu šuo yra aprengtas berete ir juodu vėžliu. Ir jūrinė ūdra olandų tapytojo Vermeerio „Mergaitė su perlo auskaru“ maniera. Ir yra sriubos puodelis, kuris atrodo kaip vilnonis monstras.
šiuos vaizdus buvo sukurti ne žmogaus menininko.
Vietoj to, juos sukūrė DALL-E 2, nauja AI sistema, kuri gali konvertuoti tekstinius aprašymus į vaizdus.
Tiesiog užsirašykite tai, ką norite pamatyti, o AI sukurs tai už jus – ryškiomis detalėmis, puikia kokybe ir, kai kuriais atvejais, tikrai išradingai. Šiame įraše išsamiai apžvelgsime naujausią OpenAI tyrimą DALL.E 2, jo veikimą ir dar daugiau. Pradėkime.
Taigi, kas tiksliai yra DALL.E 2?
DALL-E 2 yra „generacinis modelis“, mašininio mokymosi algoritmo tipas, generuojantis sudėtingą išvestį, o ne atliekantis įvesties duomenų numatymo ar klasifikavimo užduotis.
Jūs pateikiate DALL-E 2 rašytinį aprašymą ir jis sukuria jį atitinkantį paveikslėlį. Derindama sąvokas, savybes ir stilius, OpenAI DALLE 2 gali sukurti naujovišką, tikrovišką grafiką ir meną iš pagrindinio kalbinio aprašymo.
Teigiama, kad naujausia DALLE 2 versija yra universalesnė, galinti kurti nuotraukas iš antraštės didesne raiška ir platesniu kūrybinių stilių spektru. Pavyzdžiui, toliau pateiktos nuotraukos (iš DALL-E 2 tinklaraščio įrašo) sukurtos pagal aprašymą „Astronautas jojantis ant žirgo“.
Vienas aprašymas baigiamas „kaip pieštuko eskizas“, o kitas – „fotorealistiškai“.
Jis taip pat gali stebėtinai tiksliai pakeisti esamas nuotraukas. Taigi, galite pridėti arba ištrinti elementus, išsaugodami spalvas, atspindžius ir šešėlius, išsaugodami originalų vaizdą.
Kaip tai veikia?
DALL-E 2 naudoja CLIP ir difuzijos modelius, du sudėtingesnius gilus mokymasis pastaraisiais metais sukurtų metodų. Tačiau jis remiasi ta pačia sąvoka kaip ir visi kiti giliai neuroniniai tinklai: reprezentacijos mokymasis. CLIP vienu metu treniruoja du neuroniniai tinklai ant paveikslėlių ir antraščių.
Vienas tinklas mokosi vaizdo vaizdų paveikslėlyje, o kitas mokosi teksto. Mokymo metu abu tinklai bando modifikuoti savo parametrus taip, kad palyginami paveikslėliai ir aprašymai gautų panašius įterpimus.
„Difuzija“ – generatyvinio modelio tipas, kuris mokosi daryti paveikslėlius palaipsniui keldamas triukšmą ir slopindamas savo mokomuosius pavyzdžius, yra kitas mašininio mokymosi metodas, naudojamas DALL-E 2. Difuzijos modeliai yra panašūs į automatinius kodavimo įrenginius, nes paverčia įvesties duomenis į įdėjimo atvaizdą ir tada naudokite įterpimo informaciją, kad atkurtumėte pradinius duomenis.
Naudojant OpenAI kalbos modelis CLIP, kuri gali susieti tekstinius aprašymus su nuotraukomis, pirmiausia paverčia rašytinį raginimą į tarpinę formą, apimančią esmines savybes, kurias paveikslėlis turi atitikti tą raginimą (pagal CLIP).
Antra, DALL-E 2 sukuria suderinamą su CLIP vaizdas naudojant difuzijos modelį, kuris yra neuroninis tinklas.
Iškraipytose nuotraukose su atsitiktiniais pikseliais mokomi difuzijos modeliai. Jie mokosi atkurti pirminę nuotraukų formą. Difuzijos modeliai gali sukurti aukštos kokybės sintetinius vaizdus, ypač kai jie naudojami kartu su orientaciniu požiūriu, kuris teikia pirmenybę tikslumui, o ne įvairovei.
Dėl to difuzijos modelis paima atsitiktinius pikselius ir naudoja CLIP, kad konvertuotų juos į naują vaizdą, atitinkantį žodžio raginimą. Dėl difuzijos koncepcijos DALL-E 2 gali sukurti didesnės raiškos vaizdus greičiau nei DALL-E.
DALL.E 2 naudojimo dėklas
Per pastaruosius dvidešimt metų, kompiuterio vizija technologija pažengė nuo paprastos idėjos iki didelio proveržio. Nepaisant šios pažangos, paveikslėlių ir objektų atpažinimo modeliai kasdieniame gyvenime vis dar susiduria su didelėmis kliūtimis. Duomenų rinkinių nebuvimas yra vienas iš svarbiausių vaizdo atpažinimo ir kompiuterinio matymo trūkumų. Kadangi abiejuose galuose trūksta duomenų, beveik sunku išlavinti vaizdo atpažinimo modelius, kad gautų 100 procentų tikslius rezultatus.
Laimei, naujasis OpenAI mašininio mokymosi modelis gali įveikti technologijų atotrūkį. DALLE 2 gali generuoti nuostabias nuotraukas pagal tekstinius aprašymus. Ši netikrų nuotraukų gamyba gali pateikti duomenis vaizdo atpažinimo modeliams pagal jų reikalavimus. Duomenų nebuvimas yra reikšmingas objekto ir paveikslo identifikavimo kliūtis.
Skaitmeninėje eroje duomenų rinkiniai yra visur, tačiau vis dar ieškome nuorodų, kurios padėtų dirbtinio intelekto modelį, kad jis galėtų duoti gerų rezultatų. Tačiau išlavinti vaizdo atpažinimo modelį nėra paprasta. Tam reikia daug duomenų rinkinių su mažais skirtumais, kurių galbūt negalėjome paprasčiausiai gauti.
Taigi, koks yra atsakymas: atsakymas yra DALLE 2. OpenAI paveikslėlių generatorius, galintis kurti vaizdus iš tekstų ir pakeisti esamus, gali padėti užpildyti spragą. Tai padės generuoti papildomus mokymo duomenis, kartu sumažinant reikalingo žmogaus ženklinimo kiekį. Nepaisant didelės naudos, turėtumėte žinoti apie apgaulingą vaizdų gamybą ir vaizdus, kurie neįtraukiami. Dėl to vaizdo aptikimo metodai gali duoti šališkus rezultatus.
Trūkumai
Pasak OpenAI, DALL.E 2 gali turėti žalingą poveikį, jei jis patenka į netinkamas rankas. Šiuolaikiniame padirbinėjimo pasaulyje modelis gali būti lengvai naudojamas melagingai informacijai ar rasistiniams vaizdams skleisti, todėl OpenAI leidžia kūrėjams naudoti DALL.2 tik gavus kvietimą. Modelis turi laikytis griežtų turinio apribojimų dėl visų gaunamų pasiūlymų.
Siekiant pašalinti DALL.E 2 galimybę sukurti priešiškas ar smurtines nuotraukas, duomenų rinkinys buvo sukurtas be jokių mirtinų ginklų. Nors „OpenAI“ pareiškė, kad ateityje planuoja ją paversti API, DALL.E 2 atveju ji nori elgtis atsargiai.
Išvada
DALL-E 2 yra dar vienas įdomus OpenAI tyrimo atradimas, atveriantis duris naujoms programoms.
Vienas iš pavyzdžių yra didžiulių duomenų rinkinių kūrimas, siekiant patenkinti vieną iš pagrindinių kompiuterinės vizijos kliūčių – duomenis. Nors daugelio DALL-E pagrįstų programų ekonominį atvejį lems kaina ir politika, kurią OpenAI nustato savo API naudotojams, visos jos neabejotinai paskatins nuotraukų gamybą.
Palikti atsakymą