Tutorial Dreambooth untuk Pemula

Jadual Kandungan[Sembunyi][Tunjukkan]

Apa itu Dreambooth?
Ciri-ciri
Kesesuaian+-
Tutorial Dreambooth+-
Had Dreambooth
Kesimpulan

Model teks-ke-imej yang besar membuat kemajuan yang ketara dalam pembangunan AI dengan menghasilkan sintesis gambar yang berkualiti tinggi dan pelbagai daripada gesaan teks yang diberikan.

Model ini tidak dapat mensintesis perwakilan unik subjek dalam pelbagai tetapan atau untuk meniru penampilan subjek dalam set rujukan yang diberikan.

Teknologi yang baru dikeluarkan seperti DALL.E2 OpenAI atau StabilityAI Resapan Stabil dan Midjourney sudah pun menggunakan internet. Kini tiba masanya untuk menyesuaikan keputusan. Namun bagaimana?

Google DreamBooth AI telah tiba.

DreamBooth mempunyai keupayaan untuk mengenali topik gambar, menyahbina daripada konteks asalnya, dan kemudian mensintesiskannya dengan tepat ke dalam konteks baharu yang dikehendaki. Selain itu, ia boleh digunakan dengan penjana gambar AI semasa.

Dalam artikel ini, kita akan melihat dengan mendalam tentang DreamBooth, penggunaannya, tutorialnya, hadnya dan banyak lagi.

Apa itu Dreambooth?

dreambooth, model penyebaran teks-ke-imej yang serba baharu, telah dipersembahkan oleh Google. Gesaan bertulis boleh digunakan sebagai panduan oleh Google DreamBooth AI untuk menjana pelbagai jenis foto subjek pilihan pengguna dalam tetapan yang berbeza.

Kumpulan penyelidikan dari Universiti Boston dan Google membangunkan DreamBooth, teknik canggih untuk mengubah model teks kepada imej yang telah menjalani pra-latihan yang meluas.

Konsep keseluruhannya agak mudah: mereka mahu meningkatkan kamus penglihatan bahasa supaya ID token yang tidak biasa dikaitkan dengan topik tersuai yang boleh ditentukan oleh pengguna.

Matlamat utama model adalah untuk menghubungkan pengguna ke model penyebaran teks ke imej dengan memberi mereka sumber yang mereka perlukan untuk menghasilkan perwakilan fotorealistik bagi contoh perkara subjek pilihan mereka.

Akibatnya, teknik ini nampaknya berfungsi dengan baik untuk meringkaskan cabaran dalam pelbagai situasi.

DreamBooth Google berbeza daripada alatan teks-ke-imej sebelumnya, seperti DALL-E2, Resapan Stabil, dan Pertengahan perjalanan, kerana ia memberi pengguna lebih kawalan ke atas imej topik sebelum membenarkan mereka memanipulasi model resapan menggunakan input berasaskan teks.

Ciri-ciri

DreamBooth AI mungkin menambah baik model teks ke imej dengan 3-5 imej.
Foto fotorealistik asal boleh dibuat dengan DreamBooth AI.
Selain itu, DreamBooth AI boleh mencipta foto topik dari pelbagai sudut.

Kesesuaian

Persembahan Seni

Tugas ini berbeza secara khusus daripada pemindahan gaya, yang mengekalkan semantik adegan sumber sambil menggabungkan gaya imej lain ke dalam adegan asal.

Penyampaian Seni

Berdasarkan pendekatan kreatif, AI boleh mencapai perubahan adegan yang ketara sambil mengekalkan pengenalan dan spesifik contoh topik.

Pengubahsuaian Harta

Ciri-ciri contoh subjek boleh diubah suai oleh DreamBooth AI.

Pengubahsuaian Harta

Aksesori

Komposisi yang kukuh sebelum model penjanaan inilah yang menjadikan keupayaan DreamBooth AI untuk menghiasi objek begitu menarik.

Aksesori

Kontekstualisasi semula

DreamBooth AI boleh menghasilkan imej tersendiri untuk contoh subjek tertentu dengan memberikan model terlatih ayat yang merangkumi pengecam unik dan kata nama kelas.

Kontekstualisasi semula

Ia boleh menjana subjek dalam postur, artikulasi dan struktur pemandangan yang unik dan tidak pernah didengari sebelum ini daripada mengubah persekitaran. Pantulan dan bayang yang realistik, serta interaksi antara subjek dan objek sekeliling.

Tutorial Dreambooth

Dalam tutorial ini, kami akan mengikuti Buku nota Google Collab, dan saya akan membimbing anda melaluinya, yang akan membuat anda memahami dan menggunakannya sendiri.

Menyediakan GPU dan memasang perpustakaan

Mengetahui jenis GPU dan VRAM yang tersedia ialah langkah pertama. Memasang beberapa keperluan dan kebergantungan juga perlu. Hanya tekan butang main, kemudian tunggu sehingga ia selesai.

Menyediakan GPU Dan Memasang Perpustakaan

Buat akaun di Huggingface dan jana token

Langkah seterusnya ialah mendaftar untuk akaun Huggingface. Apabila anda selesai, klik tetapan di penjuru kanan sebelah atas. Anda akan tiba di halaman seterusnya.

Token Muka Berpeluk

Cipta token dan nama seperti yang diminta dari sini. Token hendaklah disalin dan ditampal ke dalam kolaborasi Google dalam sel di bawah.

Token Dalam Google Colab

Pasang xformers

Pada peringkat ini, anda hanya boleh menekan butang main untuk memasang xformers dengan mengklik pada masa jalan.

Pasang Xformers

Sambung ke Drive

Sekarang, anda hanya perlu menjalankan sel ini untuk menyambung ke pemacu google.

Sambung Ke Drive

Masukkan gesaan

Dalam sel berikut, anda hanya perlu memasukkan gesaan.

Masukkan Prompt

Memuat naik gambar

Dalam langkah ini, anda hanya perlu memuat naik gambar yang anda ingin latih.

Anda Boleh Muat Naik Imej Anda Dalam Sel Ini

Latih model AI

Ini adalah fasa yang paling penting, kerana anda akan menggunakan DreamBooth untuk melatih model AI baharu berdasarkan semua gambar rujukan anda yang diserahkan. Anda mesti mengehadkan perhatian anda kepada dua medan input. “—instance prompt” ialah parameter pertama. Anda mesti memberikan nama yang sangat berbeza di sini.

Argumen '–senarai konsep' ialah medan input kritikal kedua. Ia mesti dinamakan semula supaya sepadan dengan yang digunakan dalam bahagian 'Tukar gesaan'.

Model AI Latihan

Hasilkan imej AI

Gambar AI akan dibuat pada peringkat ini, di mana anda boleh memasukkan arahan teks.

Hasilkan Imej AI

Had Dreambooth

Gesaan arahan menjadi penghalang untuk membuat lelaran dalam topik dengan tahap perincian yang tinggi. DreamBooth boleh menukar konteks subjek, tetapi jika model ingin menukar subjek itu sendiri, terdapat masalah dengan bingkai.
Isu lain ialah overfitting gambar output kepada imej input. Jika tidak ada gambar yang mencukupi yang dibekalkan, subjek mungkin tidak dipertimbangkan atau mungkin digabungkan dengan konteks imej yang diserahkan. Apabila konteks untuk generasi ganjil ditanya, perkara yang sama berlaku.

Kesimpulan

Untuk menghasilkan output daripada satu input teks, sebahagian besar model teks-ke-imej memerlukan berjuta-juta parameter dan perpustakaan.

DreamBooth memudahkan pemerolehan dan penggunaan kandungan untuk pengguna dengan hanya memerlukan input tiga hingga lima gambar topik berserta latar belakang teks.

Tutorial Dreambooth untuk Pemula

Apa itu Dreambooth?

Ciri-ciri