Diffuusiomallit ovat pyyhkäiset myrskyllä maapallon julkaisun myötä Dall-E 2, Googlen kuva, Vakaa diffuusioja Keskimatka, herättää innovaatioita ja venyttää koneoppimisen rajoja.
Nämä mallit voivat tuottaa sanakehotteista lähes rajattoman määrän kuvia, mukaan lukien fotorealistisia, maagisia, futuristisia ja tietysti söpöjä kuvia.
Nämä ominaisuudet kuvittelevat uudelleen, mitä piin kanssa käyttöliittymä merkitsee ihmisille, mikä antaa meille mahdollisuuden tehdä käytännössä minkä tahansa kuvan, jonka voimme kuvitella.
Kun nämä mallit kehittyvät tai seuraava generatiivinen paradigma ottaa vallan, ihmiset voivat tuottaa kuvia, elokuvia ja muita mukaansatempaavia kokemuksia pelkällä ajatuksella.
Tässä viestissä keskustelemme diffuusio malli, vakaa diffuusio, miten se toimii, ja diffuusiomallin maalausopastus mm.
Mikä on diffuusiomalli?
Koneoppimismalleja, jotka voivat luoda uutta dataa koulutustiedoista, kutsutaan generatiivisiksi malleiksi. Muita generatiivisia malleja ovat virtauspohjaiset mallit, vaihtelevat autoenkooderit ja generatiiviset vastustavat verkot (GAN).
Jokainen voi tuottaa erinomaisen laatuisia kuvia. Diffuusiomallit oppivat palauttamaan tiedot kääntämällä tämän kohinan lisäysprosessin päinvastaiseksi sen jälkeen, kun harjoitustiedot ovat vahingoittuneet lisäämällä kohinaa. Toisin sanoen diffuusiomallit pystyvät luomaan yhtenäisiä kuvia kohinasta.
Diffuusiomallit oppivat tuomalla kuviin kohinaa, jonka malli myöhemmin hallitsee poistamaan. Realististen visuaalien tuottamiseksi malli soveltaa tätä melunvaimennustekniikkaa satunnaisiin siemeniin.
Edellyttämällä kuvantuotantoprosessia näitä malleja voidaan käyttää yhdessä tekstistä kuvaksi -ohjauksen kanssa luomaan lähes rajaton määrä kuvia pelkästä tekstistä. Siemenet voidaan ohjata syötteillä upotuksista, kuten CLIP, jotta saadaan vahvat tekstistä kuvaksi -ominaisuudet.
Diffuusiomallit voivat suorittaa erilaisia tehtäviä, mukaan lukien kuvan luominen, kuvan kohinan poistaminen, maalaus, ulkomaalaus ja bittidiffuusio.
Mitä nyt on vakaa diffuusio?
Stable Diffusion on koneoppimismalli tekstipohjaiseen kuvien luomiseen, jonka tarjoaa Vakaus.AI. Se pystyy luomaan kuvia tekstistä.
Vakaan diffuusion komponentit
Vakaa diffuusio on järjestelmä, joka koostuu useista komponenteista ja käsitteistä. Se ei ole yksittäinen malli. Kun tarkistamme konepellin takaa, näemme ensimmäisenä, että siellä on tekstin ymmärtämiskomponentti, joka muuntaa tekstin tiedot numeeriseksi esitykseksi, joka vangitsee tekstin käsitteet.
Voimme kutsua tätä tekstikooderia muuntajaksi kielimalli (teknisesti: CLIP-mallin tekstikooderi). Se ottaa syötetyn tekstin ja luo luettelon kokonaisluvuista (vektorin) jokaiselle tekstin sanalle/tunnisteelle. Nämä tiedot toimitetaan sitten Image Generatoriin, joka koostuu useista komponenteista.
Kuvageneraattorissa on kaksi vaihetta:
1. Kuvatietojen luoja
Vakaan diffuusion pääkomponentti on tämä elementti. Siellä tehdään suurin osa suorituskyvyn parannuksista aikaisempiin versioihin verrattuna.
Tämä komponentti kulkee useiden vaiheiden läpi tuottaakseen kuvadataa. Kuvainformaation luoja toimii vain kuvatietoavaruudessa (tai piilevässä tilassa).
Se on nopeampi kuin aiemmat diffuusiomallit, jotka toimivat pikseliavaruudessa tämän ominaisuuden vuoksi. Teknisesti tämä komponentti koostuu aikataulutusalgoritmista ja UNetistä neuroverkkomallien.
Tässä komponentissa tapahtuvaa prosessia kutsutaan "diffuusioksi". Laadukas kuva syntyy viime kädessä, kun tiedot käsitellään vaiheittain (seuraava komponentti, kuvan dekooderi).
2. Kuvan dekooderi
Kuvadekooderi luo kuvan käyttämällä tiedon tuottajalta saamaansa dataa. Se suorittaa vain kerran valmiin pikselikuvan luomiseksi toiminnon lopussa.
Stable Diffusion Impainting opetusohjelma
Stabiilidiffuusiokuvamaalaus on tekniikka, jolla täytetään kuvan puuttuvat tai vahingoittuneet alueet. Kuvamaalauksen tarkoituksena on peittää, että kuva on restauroitu.
Tätä tekniikkaa käytetään usein poistamaan kuvasta ei-toivottuja asioita tai palauttamaan historiallisten valokuvien vahingoittuneet alueet. Vakaa diffuusiomaalaus on suhteellisen uusi maalaustapa, joka tuottaa lupaavia vaikutuksia.
Seuraamalla alla olevia ohjeita pääset tutkimaan maalausta ja muokkaamaan olemassa olevia valokuvia, jos haluat kokeilla maalausta vakaalla diffuusiolla:
- Siirry Huggingfaceen Vakaa diffuusio impainting
- Lataa oma kuvasi
- Poista kuvasta se osa, joka on vaihdettava.
- Kirjoita kehote tähän (mitä haluat lisätä poistettavan tilalle)
- Valitse "juokse"
Ylhäällä olevalla videolla lataamme kuvan, jossa on kolme sitruunaa ja vaihdamme ne omenoihin. Suosittelen henkilökohtaisesti kokeilemaan sitä omilla valokuvillasi ja kehotteillasi.
Yhteenveto
Yleensä tasainen diffuusiomaalaus on erinomainen tapa tuottaa väärennettyjä kuvia tai videoita, jotka vaikuttavat erittäin todellisilta. Kun siirrymme kohti uutta teknologiaa, tekniikan kehittyessä on entistä vaikeampaa erottaa aito ja petollinen.
Swahir
Ensimmäinen puoliaika ei liity täysin toiseen puoliskoon. Olisi ollut todella siistiä, jos kirjoittaja olisi selittänyt, miten inpaint toimii aiemmin selittämänsä mallin puitteissa, olisi voinut antaa oivalluksia. Mutta ei! Se olisi vaatinut todellista ymmärrystä satunnaisen tekstin keräämisen ja käsittelyn sijaan.