Viime vuosina syväoppimismallit ovat tulleet tehokkaammiksi ihmisten kielen ymmärtämisessä.
Ajattele projekteja, kuten GPT-3, joka pystyy nyt luomaan kokonaisia artikkeleita ja verkkosivustoja. GitHub esitteli äskettäin GitHub Copilot, palvelu, joka tarjoaa kokonaisia koodinpätkiä yksinkertaisesti kuvailemalla tarvitsemasi koodin tyypin.
OpenAI:n, Facebookin ja Googlen tutkijat ovat työskennelleet tapoja käyttää syväoppimista toisen tehtävän: kuvien tekstittämistä varten. Käyttämällä suurta tietojoukkoa, jossa on miljoonia merkintöjä, he ovat keksineet joitain yllättävä Tulokset.
Viime aikoina nämä tutkijat ovat yrittäneet suorittaa päinvastaista tehtävää: luoda kuvia kuvatekstistä. Onko nyt mahdollista luoda täysin uusi kuva kuvauksesta?
Tässä oppaassa tutkitaan kahta edistyneintä tekstistä kuvaksi -mallia: OpenAI:n DALL-E 2 ja Googlen Imagen AI. Jokainen näistä hankkeista on ottanut käyttöön uraauurtavia menetelmiä, jotka voivat muuttaa yhteiskuntaa sellaisena kuin me sen tunnemme.
Mutta ensin ymmärretään, mitä tarkoitamme tekstistä kuvaksi luomisella.
Mitä on tekstistä kuvaksi luominen?
Tekstistä kuvaksi -mallit antaa tietokoneille mahdollisuuden luoda uusia ja ainutlaatuisia kuvia kehotteiden perusteella. Ihmiset voivat nyt antaa tekstikuvauksen kuvasta, jonka he haluavat tuottaa, ja malli yrittää luoda visuaalin, joka vastaa kuvausta mahdollisimman tarkasti.
Koneoppimismallit ovat hyödyntäneet suuria tietojoukkoja, jotka sisältävät kuva-tekstipareja suorituskyvyn parantamiseksi.
Suurin osa tekstistä kuvaksi malleissa käytetään muuntajan kielimallia tulkita kehotteita. Tämän tyyppinen malli on a neuroverkkomallien joka yrittää oppia luonnollisen kielen kontekstin ja semanttisen merkityksen.
Seuraavaksi generatiiviset mallit, kuten diffuusio malleja ja generatiivisia kontradiktorisia verkostoja käytetään kuvasynteesiin.
Mikä on DALLE 2?
DALL-E2 on OpenAI:n tietokonemalli, joka julkaistiin huhtikuussa 2022. Malli koulutettiin miljoonien merkittyjen kuvien tietokantaan yhdistämään sanoja ja lauseita kuviin.
Käyttäjät voivat kirjoittaa yksinkertaisen lauseen, kuten "kissa syö lasagnea", ja DALL-E 2 luo oman tulkinnan siitä, mitä lause yrittää kuvata.
Kuvien luomisen lisäksi DALL-E 2 voi myös muokata olemassa olevia kuvia. Alla olevassa esimerkissä DALL-E pystyi luomaan muokatun kuvan huoneesta, johon oli lisätty sohva.
DALL-E 2 on vain yksi monista vastaavista projekteista, joita OpenAI on julkaissut muutaman viime vuoden aikana. OpenAI:n GPT-3:sta tuli uutisarvo, kun se näytti luovan eri tyylisiä tekstejä.
Tällä hetkellä DALL-E 2 on edelleen beta-testauksessa. Kiinnostuneet käyttäjät voivat rekisteröityä odotuslista ja odota pääsyä.
Miten se toimii?
Vaikka DALL-E 2:n tulokset ovat vaikuttavia, saatat ihmetellä, kuinka se kaikki toimii.
DALL-E 2 on esimerkki OpenAI:n GPT-3-projektin multimodaalisesta toteutuksesta.
Ensin käyttäjän tekstikehote sijoitetaan tekstienkooderiin, joka yhdistää kehotteen esitysavaruuteen. DALL-E 2 käyttää toista OpenAI-mallia nimeltä CLIP (Contrastive Language-Image Pre-Training) saadakseen semanttista tietoa luonnollisesta kielestä.
Seuraavaksi malli, joka tunnetaan nimellä aikaisempi yhdistää tekstin koodauksen kuvakoodaukseksi. Tämän kuvakoodauksen tulisi kaapata tekstin koodausvaiheessa löydetyt semanttiset tiedot.
Varsinaisen kuvan luomiseksi DALL-E 2 käyttää kuvadekooderia luomaan visuaalin käyttämällä semanttista tietoa ja kuvan koodausyksityiskohtia. OpenAI käyttää muokattua versiota LIUKUA malli kuvan luomiseen. GLIDE luottaa a diffuusio malli kuvien luomiseen.
GLIDE:n lisääminen DALL-E 2 -malliin mahdollisti fotorealistisemman tulosteen. Koska GLIDE-malli on stokastinen tai satunnaisesti määritetty, DALL-E 2 -malli voi helposti luoda muunnelmia ajamalla mallia uudestaan ja uudestaan.
Rajoitukset
Huolimatta DALL-E 2 -mallin vaikuttavista tuloksista, sillä on silti joitain rajoituksia.
Tekstin oikeinkirjoitus
Kehotteet, jotka yrittävät saada DALL-E 2:n luomaan tekstiä, paljastavat, että sillä on vaikeuksia kirjoittaa sanoja. Asiantuntijat olettavat, että tämä voi johtua siitä, että oikeinkirjoitustiedot eivät ole osa koulutustiedot.
Sävellysperustelu
Tutkijat havaitsevat, että DALL-E 2:lla on edelleen vaikeuksia koostumuksen päättelyssä. Yksinkertaisesti sanottuna malli voi ymmärtää kuvan yksittäisiä puolia, mutta silti sillä on vaikeuksia selvittää näiden näkökohtien välisiä suhteita.
Jos esimerkiksi annetaan kehote "punainen kuutio sinisen kuution päällä", DALL-E luo sinisen ja punaisen kuution tarkasti, mutta ei sijoita niitä oikein. Mallissa on myös havaittu olevan vaikeuksia sellaisten kehotteiden kanssa, jotka vaativat tietyn määrän kohteita piirrettäväksi.
Bias tietojoukossa
Jos kehote ei sisällä muita yksityiskohtia, DALL-E:n on havaittu kuvaavan valkoisia tai länsimaisia ihmisiä ja ympäristöjä. Tämä esitysharha johtuu siitä, että tietojoukossa on runsaasti länsikeskeisiä kuvia.
Mallin on myös havaittu noudattavan sukupuolistereotypioita. Esimerkiksi "lentoemäntä"-kehotteen kirjoittaminen tuottaa useimmiten kuvia naislentoemännistä.
Mikä on Google Imagen AI?
Googlen Kuva AI on malli, jonka tavoitteena on luoda fotorealistisia kuvia syötetekstistä. Kuten DALL-E, malli käyttää myös muuntajakielimalleja tekstin ymmärtämiseen ja luottaa diffuusiomallien käyttöön korkealaatuisten kuvien luomisessa.
Imagenin rinnalla Google on julkaissut myös DrawBench-nimisen vertailuarvon tekstistä kuvaksi -malleille. DrawBenchin avulla he pystyivät havaitsemaan, että arvioijat pitivät Imagen-tulostusta parempana kuin muut mallit, mukaan lukien DALL-E 2.
Miten se toimii?
Kuten DALL-E, Imagen muuntaa ensin käyttäjäkehotteen tekstin upottamiseksi jäädytetyn tekstikooderin kautta.
Imagen käyttää diffuusiomallia, joka oppii muuttamaan kohinakuvion kuviksi. Näiden kuvien alkuperäinen tulos on matalaresoluutioinen, ja ne viedään myöhemmin toisen mallin läpi, joka tunnetaan superresoluutioisena diffuusiomallina lopullisen kuvan resoluution lisäämiseksi. Ensimmäinen diffuusiomalli tuottaa 64 × 64 pikselin kuvan, ja myöhemmin se puhalletaan korkearesoluutioiseksi 1024 × 1024 -kuvaksi.
Imagen-tiimin tutkimuksen perusteella suuret, vain tekstidataan koulutetut jäädytetyt kielimallit ovat edelleen erittäin tehokkaita tekstikoodaajia tekstistä kuvaksi luomiseen.
Tutkimus esittelee myös dynaamisen kynnyksen käsitteen. Tämä menetelmä mahdollistaa kuvien näyttävän fotorealistisemmilta lisäämällä ohjauspainoja kuvaa luotaessa.
DALLE 2 vs Imagen suorituskyky
Googlen vertailutestin alustavat tulokset osoittavat, että ihmisvastaajat pitävät Imagenin luomista kuvista DALL-E 2:n ja muiden tekstistä kuvaksi -mallien, kuten Latent Diffusion ja VQGAN+CLIP, sijaan.
Imagen-tiimin tulos on myös osoittanut, että heidän mallinsa toimii paremmin tekstin oikeinkirjoituksessa, mikä on DALL-E 2 -mallin tunnettu heikkous.
Koska Google ei kuitenkaan ole vielä julkaissut mallia yleisölle, jää nähtäväksi kuinka tarkkoja Googlen vertailuarvot ovat.
Yhteenveto
Fotorealististen tekstistä kuvaksi -mallien nousu on kiistanalainen, koska nämä mallit ovat kypsiä epäeettiseen käyttöön.
Tekniikka voi johtaa eksplisiittisen sisällön luomiseen tai disinformaation välineenä. Sekä Googlen että OpenAI:n tutkijat ovat tietoisia tästä, minkä vuoksi nämä tekniikat eivät ole vieläkään kaikkien saatavilla.
Tekstistä kuvaksi -malleilla on myös merkittäviä taloudellisia vaikutuksia. Vaikuttaako mallien, valokuvaajien ja taiteilijoiden kaltaisiin ammatteihin, jos DALL-E:n kaltaisista malleista tulee valtavirtaa?
Tällä hetkellä näillä malleilla on edelleen rajoituksia. Tekoälyn luoman kuvan tarkastelu paljastaa sen puutteet. Kun sekä OpenAI että Google kilpailevat tehokkaimmista malleista, voi olla ajan kysymys, ennen kuin syntyy todella täydellinen tulos: kuva, jota ei voi erottaa todellisesta.
Mitä luulet tapahtuvan, kun tekniikka menee niin pitkälle?
Jätä vastaus