Daptar eusi[Sumputkeun][Témbongkeun]
Anjeun paling dipikaresep sadar yen komputer bisa ngajelaskeun gambar.
Contona, gambar anjing maén jeung barudak anjeun bisa ditarjamahkeun jadi 'anjing jeung barudak di kebon.' Tapi naha anjeun terang jalan anu sabalikna ayeuna tiasa dilaksanakeun ogé? Anjeun ngetik sababaraha kecap, sarta mesin ngahasilkeun gambar anyar.
Beda sareng milarian Google, anu milarian poto-poto anu tos aya, ieu sadayana seger. Dina taun-taun ayeuna, OpenAI parantos janten salah sahiji organisasi anu unggul, ngalaporkeun hasil anu luar biasa.
Aranjeunna ngalatih algoritmana dina téks sareng data gambar anu ageung. Aranjeunna nyebarkeun makalah ngeunaan modél gambar GLIDE, anu dilatih dina ratusan juta poto. Dina hal photorealism, éta outperforms saméméhna model 'DALL-E' maranéhanana.
Dina postingan ieu, urang bakal ningali OpenAI's GLIDE, salah sahiji sababaraha inisiatif anu pikaresepeun anu ditujukeun pikeun ngahasilkeun sareng ngarobih gambar fotoréalistis nganggo modél difusi dipandu téks. Hayu urang mimitian.
Naon Buka AI Glide?
Sanaos seueur gambar tiasa dijelaskeun ku kecap, nyiptakeun gambar tina input téks peryogi pangaweruh khusus sareng jumlah waktos anu signifikan.
Ngidinan agén AI pikeun ngahasilkeun gambar fotoréalistis tina basa alami nyarankeun henteu ngan ukur ngamungkinkeun jalma-jalma nyiptakeun bahan visual anu beunghar sareng rupa-rupa kalayan gampang anu teu pernah aya, tapi ogé ngamungkinkeun panyampurnaan iteratif anu langkung saderhana sareng kontrol anu halus tina gambar anu diciptakeun.
GLIDE tiasa dianggo pikeun ngédit poto anu tos aya ku cara ngagunakeun téks basa alami pikeun nyelapkeun objék énggal, nyiptakeun bayangan sareng pantulan, ngalaksanakeun lukisan gambar, teras salajengna.
Éta ogé tiasa ngarobih gambar garis dasar kana foto fotoréalistis, sareng gaduh kamampuan manufaktur sareng perbaikan nol-sampel anu luar biasa pikeun kaayaan anu rumit.
Panaliti panganyarna nunjukkeun yén modél difusi dumasar kamungkinan ogé tiasa ngahasilkeun gambar sintétik kualitas luhur, khususna upami digabungkeun sareng pendekatan pituduh anu nyaimbangkeun variasi sareng kasatiaan.
OpenAI diterbitkeun mangrupa modél difusi dipandu dina Méi, anu ngamungkinkeun model difusi janten kondisional dina labél of classifier a. GLIDE ningkatkeun kasuksésan ieu ku mawa difusi dipandu kana masalah kreasi gambar téks-kondisi.
Saatos ngalatih modél difusi GLIDE 3.5 milyar nganggo encoder téks pikeun ngondisikeun déskripsi basa alami, panalungtik nguji dua stratégi panungtun alternatif: Pitunjuk CLIP sareng pitunjuk gratis classifier.
CLIP mangrupikeun téknik anu tiasa diskalakeun pikeun diajar répréséntasi gabungan téks sareng gambar anu masihan skor dumasar kana jarak caket gambar sareng caption.
Tim éta ngagunakeun strategi ieu dina modél difusi ku cara ngagentos klasifikasi sareng modél CLIP anu "ngabimbing" modél. Samentara éta, hidayah bébas classifier mangrupakeun strategi pikeun ngarahkeun model difusi nu teu ngalibetkeun latihan hiji classifier misah.
GLIDE Arsitéktur
Arsitéktur GLIDE diwangun ku tilu komponén: Modél Difusi Ablated (ADM) anu dilatih pikeun ngahasilkeun gambar 64 × 64, modél téks (trafo) anu mangaruhan ngahasilkeun gambar liwat ajakan téks, sareng modél upsampling anu ngarobih 64 × 64 leutik urang. gambar pikeun leuwih interpretable 256 x 256 piksel.
Dua komponén kahiji gawé bareng pikeun ngadalikeun prosés ngahasilkeun gambar sangkan eta appropriately ngagambarkeun ajakan téks, sedengkeun dimungkinkeun diperlukeun sangkan gambar urang nyieun gampang ngartos. Proyék GLIDE diideuan ku a laporan diterbitkeun dina 2021 nu némbongkeun yén téhnik ADM outperformed ayeuna populér, state-of-the-art generative model dina watesan kualitas sampel gambar.
Pikeun ADM, panulis GLIDE nganggo modél ImageNet 64 x 64 anu sami sareng Dhariwal sareng Nichol, tapi kalayan saluran 512 tibatan 64. Model ImageNet gaduh kasarna 2.3 milyar parameter salaku hasil tina ieu.
Tim GLIDE, teu sapertos Dhariwal sareng Nichol, hoyong gaduh kontrol langsung anu langkung ageung kana prosés ngahasilkeun gambar, ku kituna aranjeunna ngagabungkeun modél visual sareng trafo anu diaktipkeun perhatian. GLIDE masihan anjeun sababaraha kontrol kana kaluaran prosés ngahasilkeun gambar ku ngolah paréntah input téks.
Ieu dilaksanakeun ku ngalatih modél trafo dina set data poto sareng caption anu cocog (sarupa sareng anu dianggo dina proyék DALL-E).
Téks mimitina disandikeun kana séri token K pikeun ngondisikeunana. Saatos éta, token dimuat kana modél trafo. Kaluaran trafo teras tiasa dianggo ku dua cara. Pikeun model ADM, embedding token ahir garapan tinimbang embedding kelas.
Kadua, lapisan ahir embeddings token - runtuyan véktor fitur - diproyeksikan sacara mandiri kana dimensi pikeun tiap lapisan perhatian dina modél ADM sarta dihijikeun ka unggal konteks perhatian.
Dina kanyataanana, ieu ngamungkinkeun modél ADM pikeun ngahasilkeun gambar tina kombinasi anyar token téks sarupa dina fashion unik tur photorealistic, dumasar kana pamahaman diajar na tina kecap inputs jeung gambar nu patali maranéhanana. Trafo encoding téks ieu ngandung 1.2 milyar parameter sareng nganggo 24 blok sésa kalayan rubak 2048.
Tungtungna, modél difusi upsampler ngawengku kira-kira 1.5 milyar parameter jeung beda-beda ti model dasar nu encoder téks na leuwih leutik, kalayan rubak 1024 jeung 384 saluran basa, dibandingkeun model dasar. Modél ieu, sakumaha ngaranna nunjukkeun, AIDS dina pamutahiran sampel dina raraga ngaronjatkeun interpretability pikeun duanana mesin jeung manusa.
Modél difusi
GLIDE ngahasilkeun gambar nganggo versi ADM sorangan (ADM-G pikeun "dipandu"). Modél ADM-G nyaéta modifikasi tina modél U-net difusi. Modél U-net difusi béda sacara dramatis sareng téknik sintésis gambar anu umum sapertos VAE, GAN, sareng trafo.
Aranjeunna ngawangun ranté Markov léngkah difusi pikeun laun nyuntik noise acak kana data, lajeng diajar ngabalikeun prosés difusi jeung ngawangun deui sampel data diperlukeun tina noise nyalira. Éta beroperasi dina dua tahap: difusi maju sareng mundur.
Métode difusi maju, dibéré titik data tina sebaran sabenerna sampel, nambahan jumlah leutik noise kana sampel ngaliwatan runtuyan hambalan prasetél. Nalika léngkah-léngkah nambahan ukuran sareng ngadeukeutan ka takterhingga, sampel leungit sadaya ciri anu tiasa dikenal sareng urutanna mimiti nyarupaan kurva Gaussian isotropik.
Salila difusi mundur fase, modél difusi diajar ngabalikeun pangaruh noise nu ditambahkeun kana gambar jeung ngakibatkeun gambar dihasilkeun deui ka bentuk aslina ku nyobian nyarupaan distribusi sampel input aslina.
Modél anu réngsé tiasa dilakukeun ku input sora Gaussian nyata sareng ajakan. Métode ADM-G beda-beda ti nu saméméhna yén modél, boh CLIP atawa trafo ngaropéa, mangaruhan fase difusi mundur ku ngagunakeun token ajakan téks nu inputted.
Kamampuhan meluncur
1. Generasi Gambar
Pamakéan GLIDE nu pang populerna jeung loba dipaké meureun bakal sintésis gambar. Sanaos gambarna sederhana sareng GLIDE sesah sareng bentuk sato/manusa, potensi produksi gambar hiji-shot ampir teu aya watesna.
Éta tiasa nyiptakeun poto sato, selebriti, bentang, gedong, sareng seueur deui, sareng tiasa dilakukeun dina sababaraha gaya seni ogé sacara réalistis. Panulis peneliti negeskeun yén GLIDE sanggup napsirkeun sareng adaptasi rupa-rupa input tékstual kana format visual, sapertos katingal dina conto di handap ieu.
2. Glide inpainting
Inpainting poto otomatis GLIDE tiasa waé anu paling pikaresepeun. GLIDE tiasa nyandak gambar anu tos aya salaku input, ngolah éta kalayan pituduh téks dina pikiran pikeun lokasi anu kedah dirobih, teras ngadamel modifikasi aktip kana bagian éta kalayan gampang.
Éta kedah dianggo babarengan sareng modél éditan, sapertos SDEdit, pikeun ngahasilkeun hasil anu langkung saé. Dina mangsa nu bakal datang, aplikasi nu ngamangpaatkeun kamampuhan kawas ieu bisa jadi krusial dina ngamekarkeun pendekatan gambar-ngarobah kode-gratis.
kacindekan
Ayeuna urang parantos ngalangkungan prosésna, anjeun kedah ngartos dasar-dasar kumaha GLIDE jalanna, ogé lebar kamampuanana dina nyiptakeun gambar sareng modifikasi gambar.
Leave a Reply