آموزش Dreambooth برای مبتدیان

فهرست مندرجات[پنهان شدن][نمایش]

Dreambooth چیست؟
امکانات
کاربرد+-
آموزش Dreambooth+-
محدودیت های Dreambooth
نتیجه

مدل‌های بزرگ تبدیل متن به تصویر با تولید ترکیب تصاویر با کیفیت بالا و متنوع از یک متن خاص، پیشرفت چشمگیری در توسعه هوش مصنوعی ایجاد کردند.

این مدل‌ها نمی‌توانند نمایش‌های منحصربه‌فرد سوژه‌ها را در تنظیمات مختلف ترکیب کنند یا ظاهر سوژه‌ها را در یک مجموعه مرجع معین تکرار کنند.

فناوری های جدید منتشر شده مانند OpenAI's DALL.E2 یا StabilityAI's انتشار پایدار و Midjourney در حال حاضر اینترنت را طوفان کرده اند. اکنون زمان سفارشی کردن نتایج است. با این حال چگونه؟

هوش مصنوعی Google DreamBooth وارد شده است.

DreamBooth این توانایی را دارد که موضوع یک عکس را تشخیص دهد، آن را از بافت اصلی خود تجزیه کند و سپس آن را دقیقاً در یک زمینه دلخواه جدید ترکیب کند. علاوه بر این، می توان آن را با ژنراتورهای تصویر AI فعلی استفاده کرد.

در این مقاله نگاهی عمیق به DreamBooth، کاربرد، آموزش، محدودیت‌های آن و بسیاری موارد دیگر خواهیم داشت.

Dreambooth چیست؟

Dream Booth، یک مدل کاملاً جدید انتشار متن به تصویر، توسط گوگل ارائه شد. یک فرمان نوشتاری می تواند به عنوان راهنمایی توسط Google DreamBooth AI برای تولید طیف گسترده ای از عکس ها از موضوع انتخاب شده کاربر در تنظیمات مختلف استفاده شود.

یک گروه تحقیقاتی از دانشگاه بوستون و گوگل DreamBooth را توسعه دادند، تکنیکی پیشرفته برای تغییر مدل های متن به تصویر که تحت آموزش های گسترده ای قرار گرفته اند.

مفهوم کلی نسبتاً ساده است: آنها می خواهند فرهنگ لغت بینایی زبان را به گونه ای افزایش دهند که شناسه های رمز غیر معمول با موضوعات سفارشی که کاربران می توانند تعریف کنند مرتبط شوند.

هدف اصلی این مدل اتصال کاربران به مدل انتشار متن به تصویر با دادن منابعی که برای تولید بازنمایی های واقعی از نمونه های موضوع انتخابی خود به آنها نیاز دارند.

در نتیجه، به نظر می رسد این تکنیک برای خلاصه کردن چالش ها در طیف وسیعی از موقعیت ها به خوبی کار می کند.

DreamBooth گوگل با ابزارهای قبلی متن به تصویر متفاوت است، مانند DALL-E2, انتشار پایدارو میانه سفر، به این صورت که به کاربران اجازه می دهد قبل از اینکه مدل انتشار را با استفاده از ورودی های متنی دستکاری کنند، کنترل بیشتری بر تصویر موضوع می دهد.

امکانات

DreamBooth AI ممکن است یک مدل متن به تصویر را با 3-5 تصویر بهبود بخشد.
عکس های واقعی واقعی را می توان با DreamBooth AI ایجاد کرد.
علاوه بر این، DreamBooth AI می تواند عکس هایی از یک موضوع از زوایای مختلف ایجاد کند.

کاربرد

رندیشن های هنری

این وظیفه به طور خاص با انتقال سبک متفاوت است، که معنایی صحنه منبع را حفظ می کند و در عین حال سبک تصویر دیگری را در صحنه اصلی ترکیب می کند.

نمایش هنری

بر اساس رویکرد خلاقانه، هوش مصنوعی می‌تواند تغییرات چشمگیری در صحنه انجام دهد و در عین حال ویژگی‌های شناسایی و نمونه موضوع را حفظ کند.

اصلاح ملک

ویژگی های نمونه موضوعی را می توان توسط DreamBooth AI تغییر داد.

اصلاح ملک

لوازم جانبی

ترکیب بندی قوی قبل از مدل نسل، چیزی است که توانایی DreamBooth AI را در تزئین اجسام بسیار جالب می کند.

لوازم جانبی

متن مجدد

DreamBooth AI می‌تواند با دادن جمله‌ای که شامل شناسه منحصربه‌فرد و اسم کلاس است، تصاویر متمایزی را برای یک نمونه موضوع خاص تولید کند.

متن مجدد

می‌تواند سوژه را در حالت‌ها، بیان‌ها و ساختار صحنه منحصربه‌فرد و قبلاً ناشناخته به جای تغییر محیط اطراف ایجاد کند. بازتاب ها و سایه های واقع گرایانه و همچنین تعامل بین سوژه و اشیاء اطراف.

آموزش Dreambooth

در این آموزش ما موارد زیر را دنبال خواهیم کرد نوت بوک Google Collab، و من شما را از طریق آن راهنمایی خواهم کرد، که باعث می شود خودتان آن را بفهمید و از آن استفاده کنید.

راه اندازی GPU و نصب کتابخانه ها

یافتن انواع GPU و VRAM اولین قدم است. نصب چند مورد نیاز و وابستگی نیز ضروری است. به سادگی دکمه پخش را فشار دهید، سپس منتظر بمانید تا تمام شود.

راه اندازی GPU و نصب کتابخانه ها

یک حساب کاربری در Huggingface ایجاد کنید و یک توکن ایجاد کنید

مرحله بعدی ثبت نام برای یک حساب کاربری Huggingface است. وقتی کارتان تمام شد، روی تنظیمات در گوشه بالا سمت راست کلیک کنید. به صفحه بعدی خواهید رسید.

ژتون در آغوش گرفتن صورت

رمز و نام را همانطور که از اینجا درخواست می شود ایجاد کنید. توکن باید کپی و در Google collab در سلول زیر جایگذاری شود.

توکن در گوگل کولب

xformers را نصب کنید

در این مرحله می توانید به سادگی دکمه play را فشار دهید تا xformers با کلیک بر روی runtime نصب شود.

Xformers را نصب کنید

به Drive متصل شوید

اکنون فقط باید این سلول را اجرا کنید تا به درایو گوگل متصل شوید.

اتصال به Drive

اعلان را وارد کنید

در سلول زیر فقط باید دستور را وارد کنید.

The Prompt را وارد کنید

در حال آپلود تصاویر

در این مرحله فقط باید تصاویری را که می خواهید آموزش دهید را آپلود کنید.

شما می توانید تصاویر خود را در این سلول آپلود کنید

مدل هوش مصنوعی قطار

این مهمترین مرحله است، زیرا شما از DreamBooth برای آموزش یک مدل هوش مصنوعی جدید بر اساس تمام عکس های مرجع ارسالی خود استفاده خواهید کرد. باید توجه خود را به دو فیلد ورودی محدود کنید. "-instance prompt" اولین پارامتر است. شما باید یک نام بسیار متمایز در اینجا ارائه دهید.

آرگومان «لیست مفهومی» دومین فیلد ورودی مهم است. باید برای مطابقت با نام مورد استفاده در بخش "تغییر درخواست" تغییر نام دهید.

آموزش مدل هوش مصنوعی

تولید تصاویر هوش مصنوعی

تصاویر هوش مصنوعی در این مرحله ایجاد می شوند، جایی که می توانید دستورالعمل های متنی را وارد کنید.

ایجاد تصاویر هوش مصنوعی

محدودیت های Dreambooth

خط فرمان به مانعی برای تکرار در موضوع با درجه بالایی از جزئیات تبدیل می شود. DreamBooth می تواند زمینه سوژه را تغییر دهد، اما اگر مدل بخواهد خود موضوع را تغییر دهد، مشکلاتی در قاب وجود دارد.
مسئله دیگر تطبیق بیش از حد تصویر خروجی به تصویر ورودی است. اگر تصاویر کافی ارائه نشده باشد، موضوع ممکن است در نظر گرفته نشود یا با زمینه تصاویر ارسالی ترکیب شود. وقتی زمینه ای برای یک نسل فرد پرسیده می شود، همان اتفاق می افتد.

نتیجه

برای تولید خروجی از یک ورودی متن، بخش عمده ای از مدل های متن به تصویر به میلیون ها پارامتر و کتابخانه نیاز دارند.

DreamBooth با نیاز به ورودی سه تا پنج عکس موضوعی همراه با پس‌زمینه متنی، کسب و استفاده از محتوا را برای مصرف‌کنندگان ساده می‌کند.

آموزش Dreambooth برای مبتدیان

Dreambooth چیست؟

امکانات