Jadual Kandungan[Sembunyi][Tunjukkan]
Anda berkemungkinan besar sedar bahawa komputer boleh menerangkan gambar.
Contohnya, gambar anjing bermain dengan anak anda boleh diterjemahkan sebagai 'anjing dan kanak-kanak di taman.' Tetapi adakah anda tahu cara sebaliknya kini boleh dilaksanakan juga? Anda menaip beberapa perkataan, dan mesin menjana gambar baharu.
Tidak seperti carian Google, yang mencari gambar sedia ada, ini semua segar. Dalam beberapa tahun kebelakangan ini, OpenAI telah menjadi salah satu organisasi terkemuka, melaporkan hasil yang menakjubkan.
Mereka melatih algoritma mereka pada pangkalan data teks dan gambar yang besar. Mereka menerbitkan kertas kerja mengenai model imej GLIDE mereka, yang dilatih mengenai ratusan juta foto. Dari segi fotorealisme, ia mengatasi model 'DALL-E' mereka sebelum ini.
Dalam siaran ini, kita akan melihat GLIDE OpenAI, salah satu daripada beberapa inisiatif menarik yang bertujuan untuk menghasilkan dan mengubah gambar fotorealistik dengan model resapan berpandukan teks. Mari kita mulakan.
Apakah Buka AI Glide?
Walaupun kebanyakan imej boleh diterangkan dalam perkataan, mencipta imej daripada input teks memerlukan pengetahuan khusus dan masa yang banyak.
Membenarkan ejen AI menghasilkan gambar fotorealistik daripada gesaan bahasa semula jadi bukan sahaja membolehkan orang ramai mencipta bahan visual yang kaya dan pelbagai dengan kemudahan yang tidak pernah berlaku sebelum ini tetapi juga membolehkan penghalusan berulang yang lebih mudah dan kawalan terperinci bagi imej yang dicipta.
GLIDE boleh digunakan untuk mengedit foto sedia ada dengan menggunakan gesaan teks bahasa semula jadi untuk memasukkan objek baharu, mencipta bayang dan pantulan, melakukan melukis imej, Dan sebagainya.
Ia juga boleh menukar lukisan garisan asas kepada gambar fotorealistik, dan ia mempunyai keupayaan pembuatan dan pembaikan sifar sampel yang luar biasa untuk situasi yang kompleks.
Penyelidikan terkini telah menunjukkan bahawa model penyebaran berasaskan kemungkinan juga boleh menghasilkan gambar sintetik berkualiti tinggi, terutamanya apabila digabungkan dengan pendekatan panduan yang mengimbangi kepelbagaian dan kesetiaan.
OpenAI menerbitkan a model resapan berpandu pada bulan Mei, yang membenarkan model resapan bersyarat pada label pengelas. GLIDE menambah baik kejayaan ini dengan membawa penyebaran berpandu kepada masalah penciptaan imej bersyarat teks.
Selepas melatih model resapan GLIDE 3.5 bilion parameter menggunakan pengekod teks untuk menetapkan perihalan bahasa semula jadi, penyelidik menguji dua strategi panduan alternatif: bimbingan CLIP dan panduan tanpa pengelas.
CLIP ialah teknik berskala untuk mempelajari perwakilan bersama teks dan gambar yang memberikan skor berdasarkan jarak imej dengan kapsyen.
Pasukan menggunakan strategi ini dalam model penyebaran mereka dengan menggantikan pengelas dengan model CLIP yang "memandu" model. Sementara itu, bimbingan tanpa pengelas ialah strategi untuk mengarahkan model resapan yang tidak melibatkan latihan pengelas berasingan.
Seni Bina GLIDE
Seni bina GLIDE terdiri daripada tiga komponen: Model Resapan Ablated (ADM) yang dilatih untuk menjana imej 64 × 64, model teks (pengubah) yang mempengaruhi penjanaan imej melalui gesaan teks dan model upsampling yang menukar 64 × 64 kecil kami imej kepada 256 x 256 piksel yang lebih boleh ditafsir.
Dua komponen pertama bekerjasama untuk mengawal proses penjanaan gambar supaya ia mencerminkan gesaan teks dengan sewajarnya, manakala yang kedua diperlukan untuk menjadikan imej yang kami cipta lebih mudah untuk difahami. Projek GLIDE telah diilhamkan oleh a laporan diterbitkan pada tahun 2021 yang menunjukkan bahawa teknik ADM mengatasi prestasi model generatif yang popular dan terkini dari segi kualiti sampel gambar.
Untuk ADM, pengarang GLIDE menggunakan model ImageNet 64 x 64 yang sama seperti Dhariwal dan Nichol, tetapi dengan 512 saluran dan bukannya 64. Model ImageNet mempunyai kira-kira 2.3 bilion parameter akibat daripada ini.
Pasukan GLIDE, tidak seperti Dhariwal dan Nichol, mahu mempunyai kawalan langsung yang lebih besar ke atas proses penjanaan gambar, oleh itu mereka menggabungkan model visual dengan pengubah yang didayakan perhatian. GLIDE memberi anda sedikit kawalan ke atas output proses penjanaan gambar dengan memproses gesaan input teks.
Ini dicapai dengan melatih model pengubah pada set data besar foto dan kapsyen yang sesuai (serupa dengan yang digunakan dalam projek DALL-E).
Teks pada mulanya dikodkan ke dalam satu siri token K untuk mengkondisikannya. Selepas itu, token dimuatkan ke dalam model pengubah. Keluaran pengubah kemudiannya boleh digunakan dalam dua cara. Untuk model ADM, pembenaman token terakhir digunakan dan bukannya pembenaman kelas.
Kedua, lapisan akhir pembenaman token - satu siri vektor ciri - diunjurkan secara bebas kepada dimensi untuk setiap lapisan perhatian dalam model ADM dan digabungkan dengan setiap konteks perhatian.
Pada hakikatnya, ini membolehkan model ADM menghasilkan gambar daripada gabungan baharu token teks yang serupa dalam fesyen yang unik dan fotorealistik, berdasarkan pemahaman yang dipelajarinya tentang perkataan input dan imej berkaitannya. Pengubah pengekodan teks ini mengandungi 1.2 bilion parameter dan menggunakan 24 blok sisa dengan lebar 2048.
Akhir sekali, model resapan upsampler merangkumi sekitar 1.5 bilion parameter dan berbeza daripada model asas kerana pengekod teksnya lebih kecil, dengan lebar saluran asas 1024 dan 384, berbanding model asas. Model ini, seperti namanya, membantu dalam peningkatan sampel untuk meningkatkan kebolehtafsiran untuk kedua-dua mesin dan manusia.
Model resapan
GLIDE menjana imej menggunakan versi ADMnya sendiri (ADM-G untuk "dipandu"). Model ADM-G ialah pengubahsuaian model U-net resapan. Model U-net resapan berbeza secara dramatik daripada teknik sintesis imej yang lebih biasa seperti VAE, GAN dan transformer.
Mereka membina rantaian langkah resapan Markov untuk menyuntik hingar rawak secara beransur-ansur ke dalam data, dan kemudian belajar untuk membalikkan proses resapan dan membina semula sampel data yang diperlukan daripada hingar sahaja. Ia beroperasi dalam dua peringkat: resapan ke hadapan dan belakang.
Kaedah resapan ke hadapan, diberi titik data daripada taburan sebenar sampel, menambah sedikit bunyi pada sampel melalui siri pratetap langkah. Apabila langkah bertambah dalam saiz dan menghampiri ketakterhinggaan, sampel kehilangan semua ciri yang boleh dikenali dan jujukan mula menyerupai lengkung Gaussian isotropik.
Semasa resapan ke belakang fasa, model resapan belajar untuk membalikkan pengaruh bunyi tambahan pada gambar dan membawa imej yang dihasilkan kembali ke bentuk asalnya dengan cuba menyerupai pengedaran sampel input asal.
Model yang lengkap boleh berbuat demikian dengan input hingar Gaussian sebenar dan gesaan. Kaedah ADM-G berbeza daripada yang sebelumnya kerana model, sama ada CLIP atau pengubah tersuai, memberi kesan kepada fasa resapan ke belakang dengan menggunakan token gesaan teks yang dimasukkan.
Keupayaan meluncur
1. Penjanaan Imej
Penggunaan GLIDE yang paling popular dan digunakan secara meluas mungkin ialah sintesis imej. Walaupun gambarnya sederhana dan GLIDE menghadapi kesukaran dengan bentuk haiwan/manusia, potensi penghasilan imej satu tangkapan hampir tidak berkesudahan.
Ia boleh mencipta foto haiwan, selebriti, landskap, bangunan dan banyak lagi, dan ia boleh melakukannya dalam pelbagai gaya seni serta foto-realistik. Pengarang penyelidik menegaskan bahawa GLIDE mampu mentafsir dan menyesuaikan pelbagai jenis input teks ke dalam format visual, seperti yang dilihat dalam sampel di bawah.
2. Glide inpainting
Lukisan gambar automatik GLIDE boleh dikatakan penggunaan yang paling menarik. GLIDE boleh mengambil gambar sedia ada sebagai input, memprosesnya dengan gesaan teks dalam fikiran untuk lokasi yang perlu diubah, dan kemudian membuat pengubahsuaian aktif pada bahagian tersebut dengan mudah.
Ia mesti digunakan bersama dengan model penyuntingan, seperti SDEdit, untuk menghasilkan hasil yang lebih baik. Pada masa hadapan, apl yang memanfaatkan keupayaan seperti ini mungkin penting dalam membangunkan pendekatan mengubah gambar tanpa kod.
Kesimpulan
Memandangkan kita telah melalui proses tersebut, anda harus memahami asas cara GLIDE berfungsi, serta keluasan keupayaannya dalam penciptaan gambar dan pengubahsuaian dalam imej.
Sila tinggalkan balasan anda