Sisällysluettelo[Piilottaa][Näytä]
Uusi ja parannettu tekoäly on parantanut kykyjä, ymmärtämistä ja kykyä tuottaa korkeamman resoluution kuvia. Olet ehkä viime aikoina törmännyt omituisiin ja hauskoja kuviin Internetissä.
Shiba Inu -koira on pukeutunut baskeriin ja mustaan villapaitaan. Ja merisaukko hollantilaisen taidemaalari Vermeerin "Girl with a Pearl Earring" -teoksen tapaan. Ja siellä on kuppi keittoa, joka näyttää villaiselta hirviöltä.
Nämä kuvat eivät ole ihmisen taiteilijan luomia.
Sen sijaan DALL-E 2, uusi tekoälyjärjestelmä, joka voi muuntaa tekstikuvaukset kuviksi, loi ne.
Kirjoita vain, mitä haluat nähdä, ja tekoäly luo sen puolestasi – eloisasti, laadukkaasti ja joissakin tapauksissa aidolla kekseliäisyydellä. Tässä viestissä tarkastelemme syvällisesti OpenAI:n viimeisintä tutkimusta, DALL.E 2, sekä sen toimintaa ja paljon muuta. Aloitetaan.
Joten mikä on tarkalleen DALL.E 2?
DALL-E 2 on "generatiivinen malli", eräänlainen koneoppimisalgoritmi, joka tuottaa monimutkaisia tulosteita sen sijaan, että se suorittaisi ennustus- tai luokittelutehtäviä syöttötiedoille.
Toimitat DALL-E 2:lle kirjallisen kuvauksen, ja se luo sitä vastaavan kuvan. Yhdistämällä konsepteja, ominaisuuksia ja tyylejä OpenAI:n DALLE 2 voi tuottaa innovatiivisia, realistisia grafiikoita ja taidetta kielellisen peruskuvauksen perusteella.
Uusimman version, DALLE 2:n, sanotaan olevan monipuolisempi, sillä se pystyy tekemään kuvateksteistä korkeammalla resoluutiolla ja useammilla luovilla tyyleillä. Esimerkiksi alla olevat kuvat (DALL-E 2 -blogiviestistä) on luotu kuvauksella "Astronautti ratsastaa hevosella".
Yksi kuvaus päättelee "kuin lyijykynäluonnos", kun taas toinen päättelee "fotorealistisella tavalla".
Se voi myös muuttaa olemassa olevia valokuvia hämmästyttävän tarkasti. Voit siis lisätä tai poistaa elementtejä säilyttäen samalla värit, heijastukset ja varjot säilyttäen samalla alkuperäisen kuvan ulkonäön.
Miten tämä toimii?
DALL-E 2 käyttää CLIP- ja diffuusiomalleja, kaksi hienostunutta syvä oppiminen viime vuosina kehitetyt lähestymistavat. Se perustuu kuitenkin samaan käsitykseen kuin kaikki muutkin syvät neuroverkot: edustamisen oppiminen. CLIP harjoittelee samanaikaisesti kahta hermoverkkoihin kuvissa ja kuvateksteissä.
Toinen verkko oppii kuvan visuaaliset esitykset, kun taas toinen oppii tekstiesitykset. Harjoittelun aikana kaksi verkkoa yrittävät muokata parametrejaan siten, että vertailukelpoiset kuvat ja kuvaukset johtavat samanlaisiin upotuksiin.
"Diffuusio", eräänlainen generatiivinen malli, joka oppii tekemään kuvia asteittain kohinoimalla ja vaimentamalla opetusnäytteitään, on toinen DALL-E 2:ssa käytetty koneoppimismenetelmä. Diffuusiomallit ovat samanlaisia kuin autoenkooderit siinä mielessä, että ne muuntavat syötetiedot upottamalla esityksen ja luomaan sitten uudelleen alkuperäiset tiedot upotustietojen avulla.
OpenAI:n käyttö kielimalli CLIP, joka voi yhdistää tekstikuvaukset valokuviin, kääntää ensin kirjoitetun kehotteen välimuotoon, joka sisältää olennaiset ominaisuudet, jotka kuvalla tulisi olla vastaamaan tätä kehotetta (CLIP:n mukaan).
Toiseksi DALL-E 2 luo CLIP-yhteensopivan kuva diffuusiomallilla, joka on hermoverkko.
Vääristyneissä kuvissa, joissa on satunnaisia pikseleitä, opetetaan diffuusiomalleja. He oppivat palauttamaan kuvien alkuperäisen muodon. Diffuusiomallit voivat tuottaa korkealaatuisia synteettisiä kuvia, varsinkin kun niitä käytetään yhdessä ohjaavan lähestymistavan kanssa, joka asettaa tarkkuuden etusijalle monimuotoisuuden sijaan.
Seurauksena on diffuusio malli ottaa satunnaiset pikselit ja muuntaa ne uudeksi kuvaksi CLIP:n avulla, joka vastaa sanakehotetta. Diffuusiokonseptin ansiosta DALL-E 2 voi tuottaa korkeamman resoluution kuvia nopeammin kuin DALL-E.
DALL.E 2 käyttölaukku
Viimeisen kahdenkymmenen vuoden aikana tietokoneen visio teknologia on edennyt yksinkertaisesta käsitteestä suureksi läpimurroksi. Näistä edistysaskeleista huolimatta kuvien ja esineiden tunnistusmallit kohtaavat edelleen merkittäviä esteitä jokapäiväisessä elämässä. Tietojen puuttuminen on yksi kuvantunnistuksen ja tietokonenäön merkittävimmistä haitoista. Koska tiedoista on pulaa molemmissa päissä, kuvantunnistusmallien kouluttaminen 100-prosenttisen tarkkojen tulosten saamiseksi on lähes vaikeaa.
Onneksi OpenAI:n uusi koneoppimismalli voi kuroa umpeen teknologian kuilun. DALLE 2 pystyy luomaan uskomattomia kuvia tekstikuvausten perusteella. Tämä väärennöskuvatuotanto voi tarjota dataa kuvantunnistusmalleille niiden vaatimusten perusteella. Tietojen puuttuminen on merkittävä kompastuskivi kohteen ja kuvan tunnistamiselle.
Digitaalisella aikakaudella tietojoukot ovat kaikkialla, mutta etsimme edelleen pikakuvakkeita tekoälymallin syöttämiseksi, jotta se voi tarjota hyviä tuloksia. Kuvantunnistusmallin kouluttaminen ei kuitenkaan ole helppoa. Se vaatii suuren määrän tietojoukkoja pienillä eroilla, joita emme ehkä olisi voineet hakea yksinkertaisesti.
Joten mikä on vastaus: Vastaus on DALLE 2. OpenAI-kuvageneraattori, jonka kyky tuottaa kuvia teksteistä ja muuttaa olemassa olevia, voi auttaa kuromaan umpeen. Tämä auttaa luomaan lisäharjoitteludataa ja vähentää samalla tarvittavan ihmisen merkitsemisen määrää. Huolimatta merkittävästä hyödystä, sinun tulee olla tietoinen vilpillisistä kuvatuotannoista ja kuvista, jotka sulkevat pois sisällyttämisen. Tämä saattaa johtaa kuvantunnistusmenetelmiin, jotka tuottavat puolueellisia tuloksia.
Rajoitukset
DALL.E 2:lla voi olla haitallinen vaikutus, jos se joutuu vääriin käsiin, OpenAI:n mukaan. Nykypäivän syvien väärennösten maailmassa mallia voitaisiin helposti käyttää väärän tiedon tai rasististen kuvien levittämiseen, minkä vuoksi OpenAI sallii kehittäjien käyttää DALL.2:ta vain kutsusta. Mallin on noudatettava tiukkoja sisältörajoituksia kaikille saamilleen ehdotuksille.
Jotta DALL.E 2 ei voisi luoda vihamielisiä tai väkivaltaisia kuvia, tietojoukko luotiin ilman tappavia aseita. Vaikka OpenAI on ilmoittanut aikovansa muuttaa sen API:ksi tulevaisuudessa, DALL.E 2:n tapauksessa se on valmis toimimaan varoen.
Yhteenveto
DALL-E 2 on toinen mielenkiintoinen OpenAI-tutkimuslöytö, joka avaa oven uusille sovelluksille.
Yksi esimerkki on massiivisten tietojoukkojen luominen vastaamaan yhteen tietokonenäön tärkeimmistä pullonkauloista – datasta. Vaikka monien DALL-E-pohjaisten sovellusten taloudellinen tilanne määräytyy OpenAI:n API-käyttäjilleen määrittämien hintojen ja käytäntöjen perusteella, ne kaikki epäilemättä edistävät kuvantuotantoa.
Jätä vastaus