Bab lan Paragraf[Singidaken][Tampilake]
Sampeyan bisa uga ngerti manawa komputer bisa nggambarake gambar.
Contone, gambar asu sing lagi dolanan karo anak-anak sampeyan bisa diterjemahake minangka 'asu lan bocah-bocah ing taman.' Nanging sampeyan ngerti yen cara ngelawan saiki uga bisa ditindakake? Sampeyan ngetik sawetara tembung, lan mesin ngasilake gambar anyar.
Ora kaya telusuran Google, sing nggoleki foto sing wis ana, kabeh iki seger. Ing taun-taun pungkasan, OpenAI wis dadi salah sawijining organisasi utama, nglaporake asil sing nggumunake.
Dheweke nglatih algoritma babagan database teks lan gambar sing akeh banget. Dheweke nerbitake makalah babagan model gambar GLIDE, sing dilatih babagan atusan yuta foto. Ing babagan fotorealisme, iki ngluwihi model 'DALL-E' sadurunge.
Ing kirim iki, kita bakal ndeleng OpenAI's GLIDE, salah siji saka sawetara inisiatif sing nggumunake kanggo ngasilake lan ngganti gambar fotorealistik kanthi model difusi sing dipandu teks. Ayo diwiwiti.
apa Bukak AI Glide?
Nalika umume gambar bisa diterangake nganggo tembung, nggawe gambar saka input teks mbutuhake kawruh khusus lan wektu sing akeh.
Ngidini agen AI ngasilake gambar fotorealistik saka basa alami ora mung ngidini wong nggawe materi visual sing sugih lan macem-macem kanthi gampang, nanging uga ngidini refinement iteratif sing luwih gampang lan kontrol gambar sing apik.
GLIDE bisa digunakake kanggo nyunting foto sing wis ana kanthi nggunakake teks basa alami kanggo nglebokake obyek anyar, nggawe bayangan lan refleksi, nindakake lukisan gambar, lan liya-liyane.
Uga bisa ngowahi gambar garis dhasar dadi foto fotorealistik, lan nduweni kemampuan manufaktur lan ndandani sampel nol sing luar biasa kanggo kahanan sing rumit.
Panaliten anyar wis nuduhake manawa model difusi adhedhasar kemungkinan uga bisa ngasilake gambar sintetik kanthi kualitas dhuwur, utamane yen digabungake karo pendekatan panuntun sing ngimbangi macem-macem lan kasetyan.
OpenAI diterbitake a model difusi dipandu ing Mei, sing ngidini model difusi dadi kondisional ing label saka classifier a. GLIDE nambah sukses iki kanthi nggawa difusi dipandu kanggo masalah nggawe gambar teks-kondisi.
Sawise nglatih model difusi GLIDE parameter 3.5 milyar nggunakake encoder teks kanggo kondisi deskripsi basa alami, para peneliti nguji rong strategi panuntun alternatif: panuntun dhumateng CLIP lan panuntun dhumateng tanpa klasifikasi.
CLIP minangka teknik skalabel kanggo sinau representasi gabungan teks lan gambar sing menehi skor adhedhasar cedhake gambar karo caption.
Tim kasebut nggunakake strategi iki ing model difusi kanthi ngganti klasifikasi karo model CLIP sing "nuntun" model kasebut. Sauntara kuwi, panuntun dhumateng bebas klasifikasi minangka strategi kanggo ngarahake model difusi sing ora melu latihan klasifikasi sing kapisah.
Arsitektur GLIDE
Arsitektur GLIDE kasusun saka telung komponen: Model Difusi Ablated (ADM) sing dilatih kanggo ngasilake gambar 64 × 64, model teks (transformator) sing mengaruhi generasi gambar liwat pituduh teks, lan model upsampling sing ngowahi ukuran cilik 64 × 64. gambar kanggo liyane interpretable 256 x 256 piksel.
Rong komponen pisanan bisa bebarengan kanggo ngontrol proses ngasilake gambar supaya bisa nggambarake pituduh teks, dene sing terakhir dibutuhake kanggo nggawe gambar sing digawe luwih gampang dipahami. Proyek GLIDE diilhami dening a laporan diterbitake ing 2021 sing nuduhake yen teknik ADM ngungguli model generatif sing populer saiki ing babagan kualitas sampel gambar.
Kanggo ADM, penulis GLIDE nggunakake model ImageNet 64 x 64 sing padha karo Dhariwal lan Nichol, nanging kanthi saluran 512 tinimbang 64. Model ImageNet nduweni kira-kira 2.3 milyar parameter minangka asil saka iki.
Tim GLIDE, ora kaya Dhariwal lan Nichol, pengin duwe kontrol langsung sing luwih gedhe babagan proses ngasilake gambar, mula dheweke nggabungake model visual karo trafo sing bisa narik perhatian. GLIDE menehi sawetara kontrol liwat gambar output proses ngasilaken dening proses input teks pituduh.
Iki ditindakake kanthi nglatih model trafo ing kumpulan foto lan katrangan sing cocog (padha karo sing digunakake ing proyek DALL-E).
Teks kasebut wiwitane dienkode dadi seri token K supaya bisa dikondisikake. Sawisé iku, token dimuat menyang model trafo. Output saka trafo banjur bisa digunakake ing rong cara. Kanggo model ADM, embedding token pungkasan digunakake tinimbang embedding kelas.
Kapindho, lapisan pungkasan token embeddings - seri vektor fitur - digambarake kanthi bebas menyang dimensi kanggo saben lapisan perhatian ing model ADM lan digabungake karo saben konteks perhatian.
Ing kasunyatan, iki ngidini model ADM ngasilake gambar saka kombinasi anyar token teks sing padha kanthi cara sing unik lan fotorealistik, adhedhasar pangerten sing disinaoni saka tembung input lan gambar sing gegandhengan. Transformer encoding teks iki ngemot 1.2 milyar paramèter lan nggunakake 24 blok sisa kanthi jembaré 2048.
Pungkasan, model difusi upsampler kalebu udakara 1.5 milyar paramèter lan beda-beda saka model dhasar amarga encoder teks luwih cilik, kanthi ambane 1024 lan 384 saluran dhasar, dibandhingake karo model dhasar. Model iki, minangka jeneng nuduhake, bantuan ing upgrade saka sampel kanggo nambah interpretability kanggo loro mesin lan manungsa.
Model difusi
GLIDE ngasilake gambar nggunakake versi dhewe saka ADM (ADM-G kanggo "dipandu"). Model ADM-G minangka modifikasi saka model U-net difusi. Model U-net difusi beda banget karo teknik sintesis gambar sing luwih umum kayata VAE, GAN, lan trafo.
Padha mbangun chain Markov langkah difusi kanggo mboko sithik inject swara acak menyang data, lan banjur sinau kanggo mbalikke proses difusi lan mbangun maneh sampel data sing dibutuhake saka gangguan piyambak. Operasi ing rong tahap: difusi maju lan mundur.
Cara difusi maju, diwenehi titik data saka distribusi sejatine sampel, nambahake swara cilik menyang sampel sajrone sawetara langkah sing wis disetel. Nalika langkah-langkah nambah ukuran lan nyedhaki tanpa wates, sampel bakal ilang kabeh karakteristik sing bisa dingerteni lan urutane wiwit meh padha karo kurva Gaussian isotropik.
Sajrone difusi mundur fase, model difusi sinau kanggo mbalikke pengaruh saka gangguan ditambahaké ing gambar lan mimpin gambar diprodhuksi bali menyang wangun asli kanthi nyoba kanggo meh podo distribusi sampel input asli.
Model sing wis rampung bisa ditindakake kanthi input swara Gaussian nyata lan pituduh. Cara ADM-G beda-beda saka sing sadurunge yaiku model, CLIP utawa trafo sing disesuaikan, nyebabake fase difusi mundur kanthi nggunakake token pituduh teks sing diisi.
Kapabilitas ngleyang
1. Generasi Gambar
Panggunaan GLIDE sing paling populer lan akeh digunakake bakal dadi sintesis gambar. Senajan gambar andhap asor lan GLIDE kangelan karo wangun kewan / manungsa, potensial kanggo produksi gambar siji-dijupuk meh telas.
Bisa nggawe foto kewan, selebriti, mujur nengen, bangunan, lan akeh liyane, lan bisa nindakake ing macem-macem gaya seni uga foto-realistis. Penulis peneliti negesake manawa GLIDE bisa menehi interpretasi lan adaptasi macem-macem input teks menyang format visual, kaya sing katon ing conto ing ngisor iki.
2. Glide inpainting
Lukisan foto otomatis GLIDE bisa uga minangka panggunaan sing paling nyenengake. GLIDE bisa njupuk gambar sing wis ana minangka input, ngolah kanthi ngelingi pituduh teks kanggo lokasi sing kudu diowahi, banjur nggawe modifikasi aktif ing bagean kasebut kanthi gampang.
Iki kudu digunakake bebarengan karo model panyuntingan, kayata SDEdit, kanggo ngasilake asil sing luwih apik. Ing mangsa ngarep, aplikasi sing njupuk kauntungan saka kemampuan kaya iki bisa uga penting kanggo ngembangake pendekatan ngowahi gambar tanpa kode.
kesimpulan
Saiki kita wis ngliwati proses kasebut, sampeyan kudu ngerti dhasar babagan cara kerja GLIDE, uga jembare kemampuane ing nggawe gambar lan modifikasi ing gambar.
Ninggalake a Reply