Jadual Kandungan[Sembunyi][Tunjukkan]
AI baharu dan dipertingkatkan telah meningkatkan kebolehan, kefahaman dan kapasiti untuk menghasilkan imej resolusi lebih tinggi. Anda mungkin baru-baru ini menjumpai beberapa imej pelik dan lucu yang terapung di internet.
Seekor anjing Shiba Inu berpakaian beret dan turtleneck hitam. Dan memerang laut dengan cara pelukis Belanda Vermeer "Girl with a Pearl Earring." Dan ada secawan sup yang kelihatan seperti raksasa berbulu.
gambar-gambar ini tidak dicipta oleh artis manusia.
Sebaliknya, DALL-E 2, sistem AI baharu yang boleh menukar penerangan teks kepada imej, menciptanya.
Hanya tulis perkara yang anda mahu lihat, dan AI akan menciptanya untuk anda – dengan terperinci yang jelas, kualiti yang hebat, dan, dalam beberapa kes, daya cipta yang tulen. Dalam siaran ini, kami akan melihat secara mendalam kajian terbaru OpenAI, DALL.E 2, serta cara ia berfungsi, dan banyak lagi. Mari kita mulakan.
Jadi, apa sebenarnya DALL.E 2?
DALL-E 2 ialah "model generatif", sejenis algoritma pembelajaran mesin yang menjana output yang rumit dan bukannya melaksanakan tugas ramalan atau pengelasan pada data input.
Anda menyediakan DALL-E 2 dengan penerangan bertulis, dan ia mencipta gambar yang sepadan dengannya. Dengan menggabungkan konsep, kualiti dan gaya, DALLE 2 OpenAI boleh menghasilkan grafik dan seni yang inovatif, realistik daripada penerangan linguistik asas.
Versi terbaru, DALLE 2, dikatakan lebih serba boleh, mampu membuat gambar daripada kapsyen pada resolusi yang lebih tinggi dan dalam spektrum gaya kreatif yang lebih luas. Sebagai contoh, gambar-gambar di bawah (daripada catatan blog DALL-E 2) dicipta oleh perihalan "Seorang angkasawan menunggang kuda."
Satu huraian menyimpulkan, "seperti lakaran pensel", manakala satu lagi menyimpulkan, "dengan cara fotorealistik."
Ia juga boleh menukar gambar sedia ada dengan ketepatan yang menakjubkan. Jadi, anda boleh menambah atau memadam elemen sambil mengekalkan warna, pantulan dan bayang-bayang, semuanya sambil mengekalkan rupa imej asal.
Bagaimana ia berfungsi?
DALL-E 2 menggunakan model CLIP dan resapan, dua model yang canggih pembelajaran mendalam pendekatan yang dibangunkan dalam beberapa tahun kebelakangan ini. Walau bagaimanapun, ia berdasarkan tanggapan yang sama seperti semua deep yang lain rangkaian saraf: pembelajaran perwakilan. CLIP serentak melatih dua rangkaian saraf pada gambar dan kapsyen.
Satu rangkaian mempelajari perwakilan visual dalam gambar, manakala satu lagi mempelajari perwakilan teks. Semasa latihan, kedua-dua rangkaian cuba mengubah suai parameter mereka supaya gambar dan huraian yang setanding menghasilkan benam yang serupa.
"Penyebaran", sejenis model generatif yang belajar membuat gambar dengan membunyikan dan menolak sampel latihannya secara beransur-ansur, ialah pendekatan pembelajaran mesin lain yang digunakan dalam DALL-E 2. Model resapan adalah serupa dengan pengekod auto kerana ia mengubah data input menjadi membenamkan perwakilan dan kemudian menggunakan maklumat benam untuk mencipta semula data asal.
Menggunakan OpenAI model bahasa CLIP, yang boleh menyambungkan perihalan teks dengan gambar, ia mula-mula menterjemahkan gesaan bertulis ke dalam bentuk perantaraan yang menggabungkan sifat penting yang perlu ada pada gambar untuk sepadan dengan gesaan itu (mengikut CLIP).
Kedua, DALL-E 2 mencipta CLIP-compliant imej menggunakan model resapan, iaitu rangkaian saraf.
Pada foto terherot dengan piksel rawak, model resapan dipelajari. Mereka belajar cara memulihkan bentuk asal foto. Model resapan boleh menghasilkan imej sintetik berkualiti tinggi, terutamanya apabila digunakan bersama dengan pendekatan panduan yang mengutamakan ketepatan berbanding kepelbagaian.
Akibatnya, model penyebaran mengambil piksel rawak dan menggunakan CLIP untuk menukarnya kepada imej baharu yang sepadan dengan gesaan perkataan. Disebabkan konsep resapan, DALL-E 2 boleh menghasilkan imej resolusi lebih tinggi lebih pantas daripada DALL-E.
kes penggunaan DALL.E 2
Dalam dua puluh tahun yang lalu, penglihatan komputer teknologi telah berkembang daripada tanggapan mudah kepada kejayaan besar. Walaupun kemajuan ini, model pengecaman gambar dan objek masih menghadapi halangan yang ketara dalam kehidupan seharian. Ketiadaan set data adalah salah satu kelemahan paling ketara dalam pengecaman imej dan penglihatan komputer. Oleh kerana terdapat kekurangan data pada kedua-dua hujung, melatih model pengecaman imej untuk memberikan hasil yang tepat 100 peratus hampir sukar.
Nasib baik, model pembelajaran mesin baharu OpenAI boleh merapatkan jurang dalam teknologi. DALLE 2 mampu menghasilkan gambar yang menakjubkan berdasarkan penerangan teks. Pengeluaran gambar palsu ini boleh memberikan data kepada model pengecaman imej berdasarkan keperluan mereka. Ketiadaan data adalah batu penghalang penting untuk pengenalan objek dan gambar.
Dalam era digital, set data ada di mana-mana, namun kami masih mencari jalan pintas untuk membekalkan model AI, supaya ia dapat memberikan hasil yang baik. Walau bagaimanapun, bukan mudah untuk melatih model pengecaman imej. Ia memerlukan sejumlah besar set data dengan sedikit perbezaan, yang mungkin tidak dapat kami dapatkan semula dengan mudah.
Jadi, apakah jawapannya: Jawapannya ialah DALLE 2. Penjana gambar OpenAI, dengan kapasitinya untuk menghasilkan imej daripada teks dan menukar yang sedia ada, boleh membantu merapatkan jurang. Ini akan membantu dalam penjanaan data latihan tambahan sambil juga mengurangkan jumlah pelabelan manusia yang diperlukan. Walaupun terdapat manfaat yang ketara, anda harus sedar tentang pengeluaran imej dan imej palsu yang mengecualikan kemasukan. Ini mungkin menyebabkan kaedah pengesanan imej menghasilkan hasil yang berat sebelah.
Batasan
DALL.E 2 mungkin mempunyai pengaruh yang berbahaya jika ia jatuh ke tangan yang salah, menurut OpenAI. Dalam dunia palsu yang mendalam hari ini, model itu boleh digunakan dengan mudah untuk menyebarkan maklumat palsu atau imejan perkauman, itulah sebabnya OpenAI hanya membenarkan pembangun menggunakan DALL.2 melalui jemputan. Model mesti mematuhi sekatan kandungan yang ketat untuk semua cadangan yang dia dapat.
Untuk mengecualikan potensi DALL.E 2 mencipta sebarang gambar yang bermusuhan atau ganas, set data telah dicipta tanpa sebarang senjata yang boleh membawa maut. Walaupun OpenAI telah menyatakan bahawa ia merancang untuk mengubahnya menjadi API pada masa hadapan, dalam kes DALL.E 2, ia bersedia untuk meneruskan dengan berhati-hati.
Kesimpulan
DALL-E 2 ialah satu lagi penemuan penyelidikan OpenAI yang menarik yang membuka pintu kepada aplikasi baharu.
Satu contoh ialah mencipta set data besar-besaran untuk memenuhi salah satu data kesesakan utama visi komputer. Walaupun keadaan ekonomi untuk kebanyakan apl berasaskan DALL-E akan ditentukan oleh harga dan dasar yang ditetapkan oleh OpenAI untuk pengguna APInya, mereka semua sudah pasti akan memajukan pengeluaran gambar.
Sila tinggalkan balasan anda