فهرست مندرجات[پنهان شدن][نمایش]
مدلهای بزرگ تبدیل متن به تصویر با تولید ترکیب تصاویر با کیفیت بالا و متنوع از یک متن خاص، پیشرفت چشمگیری در توسعه هوش مصنوعی ایجاد کردند.
این مدلها نمیتوانند نمایشهای منحصربهفرد سوژهها را در تنظیمات مختلف ترکیب کنند یا ظاهر سوژهها را در یک مجموعه مرجع معین تکرار کنند.
فناوری های جدید منتشر شده مانند OpenAI's DALL.E2 یا StabilityAI's انتشار پایدار و Midjourney در حال حاضر اینترنت را طوفان کرده اند. اکنون زمان سفارشی کردن نتایج است. با این حال چگونه؟
هوش مصنوعی Google DreamBooth وارد شده است.
DreamBooth این توانایی را دارد که موضوع یک عکس را تشخیص دهد، آن را از بافت اصلی خود تجزیه کند و سپس آن را دقیقاً در یک زمینه دلخواه جدید ترکیب کند. علاوه بر این، می توان آن را با ژنراتورهای تصویر AI فعلی استفاده کرد.
در این مقاله نگاهی عمیق به DreamBooth، کاربرد، آموزش، محدودیتهای آن و بسیاری موارد دیگر خواهیم داشت.
Dreambooth چیست؟
Dream Booth، یک مدل کاملاً جدید انتشار متن به تصویر، توسط گوگل ارائه شد. یک فرمان نوشتاری می تواند به عنوان راهنمایی توسط Google DreamBooth AI برای تولید طیف گسترده ای از عکس ها از موضوع انتخاب شده کاربر در تنظیمات مختلف استفاده شود.
یک گروه تحقیقاتی از دانشگاه بوستون و گوگل DreamBooth را توسعه دادند، تکنیکی پیشرفته برای تغییر مدل های متن به تصویر که تحت آموزش های گسترده ای قرار گرفته اند.
مفهوم کلی نسبتاً ساده است: آنها می خواهند فرهنگ لغت بینایی زبان را به گونه ای افزایش دهند که شناسه های رمز غیر معمول با موضوعات سفارشی که کاربران می توانند تعریف کنند مرتبط شوند.
هدف اصلی این مدل اتصال کاربران به مدل انتشار متن به تصویر با دادن منابعی که برای تولید بازنمایی های واقعی از نمونه های موضوع انتخابی خود به آنها نیاز دارند.
در نتیجه، به نظر می رسد این تکنیک برای خلاصه کردن چالش ها در طیف وسیعی از موقعیت ها به خوبی کار می کند.
DreamBooth گوگل با ابزارهای قبلی متن به تصویر متفاوت است، مانند DALL-E2, انتشار پایدارو میانه سفر، به این صورت که به کاربران اجازه می دهد قبل از اینکه مدل انتشار را با استفاده از ورودی های متنی دستکاری کنند، کنترل بیشتری بر تصویر موضوع می دهد.
امکانات
- DreamBooth AI ممکن است یک مدل متن به تصویر را با 3-5 تصویر بهبود بخشد.
- عکس های واقعی واقعی را می توان با DreamBooth AI ایجاد کرد.
- علاوه بر این، DreamBooth AI می تواند عکس هایی از یک موضوع از زوایای مختلف ایجاد کند.
کاربرد
رندیشن های هنری
این وظیفه به طور خاص با انتقال سبک متفاوت است، که معنایی صحنه منبع را حفظ می کند و در عین حال سبک تصویر دیگری را در صحنه اصلی ترکیب می کند.
بر اساس رویکرد خلاقانه، هوش مصنوعی میتواند تغییرات چشمگیری در صحنه انجام دهد و در عین حال ویژگیهای شناسایی و نمونه موضوع را حفظ کند.
اصلاح ملک
ویژگی های نمونه موضوعی را می توان توسط DreamBooth AI تغییر داد.
لوازم جانبی
ترکیب بندی قوی قبل از مدل نسل، چیزی است که توانایی DreamBooth AI را در تزئین اجسام بسیار جالب می کند.
متن مجدد
DreamBooth AI میتواند با دادن جملهای که شامل شناسه منحصربهفرد و اسم کلاس است، تصاویر متمایزی را برای یک نمونه موضوع خاص تولید کند.
میتواند سوژه را در حالتها، بیانها و ساختار صحنه منحصربهفرد و قبلاً ناشناخته به جای تغییر محیط اطراف ایجاد کند. بازتاب ها و سایه های واقع گرایانه و همچنین تعامل بین سوژه و اشیاء اطراف.
آموزش Dreambooth
در این آموزش ما موارد زیر را دنبال خواهیم کرد نوت بوک Google Collab، و من شما را از طریق آن راهنمایی خواهم کرد، که باعث می شود خودتان آن را بفهمید و از آن استفاده کنید.
راه اندازی GPU و نصب کتابخانه ها
یافتن انواع GPU و VRAM اولین قدم است. نصب چند مورد نیاز و وابستگی نیز ضروری است. به سادگی دکمه پخش را فشار دهید، سپس منتظر بمانید تا تمام شود.
یک حساب کاربری در Huggingface ایجاد کنید و یک توکن ایجاد کنید
مرحله بعدی ثبت نام برای یک حساب کاربری Huggingface است. وقتی کارتان تمام شد، روی تنظیمات در گوشه بالا سمت راست کلیک کنید. به صفحه بعدی خواهید رسید.
رمز و نام را همانطور که از اینجا درخواست می شود ایجاد کنید. توکن باید کپی و در Google collab در سلول زیر جایگذاری شود.
xformers را نصب کنید
در این مرحله می توانید به سادگی دکمه play را فشار دهید تا xformers با کلیک بر روی runtime نصب شود.
به Drive متصل شوید
اکنون فقط باید این سلول را اجرا کنید تا به درایو گوگل متصل شوید.
اعلان را وارد کنید
در سلول زیر فقط باید دستور را وارد کنید.
در حال آپلود تصاویر
در این مرحله فقط باید تصاویری را که می خواهید آموزش دهید را آپلود کنید.
مدل هوش مصنوعی قطار
این مهمترین مرحله است، زیرا شما از DreamBooth برای آموزش یک مدل هوش مصنوعی جدید بر اساس تمام عکس های مرجع ارسالی خود استفاده خواهید کرد. باید توجه خود را به دو فیلد ورودی محدود کنید. "-instance prompt" اولین پارامتر است. شما باید یک نام بسیار متمایز در اینجا ارائه دهید.
آرگومان «لیست مفهومی» دومین فیلد ورودی مهم است. باید برای مطابقت با نام مورد استفاده در بخش "تغییر درخواست" تغییر نام دهید.
تولید تصاویر هوش مصنوعی
تصاویر هوش مصنوعی در این مرحله ایجاد می شوند، جایی که می توانید دستورالعمل های متنی را وارد کنید.
محدودیت های Dreambooth
- خط فرمان به مانعی برای تکرار در موضوع با درجه بالایی از جزئیات تبدیل می شود. DreamBooth می تواند زمینه سوژه را تغییر دهد، اما اگر مدل بخواهد خود موضوع را تغییر دهد، مشکلاتی در قاب وجود دارد.
- مسئله دیگر تطبیق بیش از حد تصویر خروجی به تصویر ورودی است. اگر تصاویر کافی ارائه نشده باشد، موضوع ممکن است در نظر گرفته نشود یا با زمینه تصاویر ارسالی ترکیب شود. وقتی زمینه ای برای یک نسل فرد پرسیده می شود، همان اتفاق می افتد.
نتیجه
برای تولید خروجی از یک ورودی متن، بخش عمده ای از مدل های متن به تصویر به میلیون ها پارامتر و کتابخانه نیاز دارند.
DreamBooth با نیاز به ورودی سه تا پنج عکس موضوعی همراه با پسزمینه متنی، کسب و استفاده از محتوا را برای مصرفکنندگان ساده میکند.
پاسخ دهید