DALL.E 2 - افکار خود را با استفاده از متن به تصویر تبدیل کنید

فهرست مندرجات[پنهان شدن][نمایش]

بنابراین، DALL.E 2 دقیقاً چیست؟
چگونه کار می کند؟
مورد استفاده DALL.E 2
محدودیت ها
نتیجه

هوش مصنوعی جدید و بهبود یافته توانایی ها، درک مطلب و ظرفیت تولید تصاویر با وضوح بالاتر را بهبود بخشیده است. ممکن است اخیراً با تصاویر عجیب و جالبی روبرو شده باشید که در سراسر اینترنت شناور هستند.

یک سگ شیبا اینو یک برت و یک یقه یقه اسکی سیاه پوشیده است. و یک سمور دریایی به شیوه «دختری با گوشواره مروارید» نقاش هلندی ورمیر. و یک فنجان سوپ وجود دارد که شبیه یک هیولای پشمالو است.

این تصاویر توسط یک هنرمند انسانی خلق نشده اند.

در عوض، DALL-E 2، یک سیستم هوش مصنوعی جدید که می تواند توضیحات متنی را به تصاویر تبدیل کند، آنها را ایجاد کرد.

به سادگی آنچه را که می خواهید ببینید بنویسید، و هوش مصنوعی آن را برای شما ایجاد می کند - با جزئیات واضح، کیفیت عالی، و در برخی موارد، خلاقیت واقعی. در این پست، نگاهی عمیق به آخرین مطالعه OpenAI، DALL.E 2، و همچنین نحوه عملکرد آن و موارد دیگر خواهیم داشت. بیایید شروع کنیم.

بنابراین ، دقیقاً چیست DALL.E 2?

DALL-E 2 یک "مدل مولد" است، نوعی الگوریتم یادگیری ماشین که به جای انجام وظایف پیش‌بینی یا طبقه‌بندی روی داده‌های ورودی، خروجی پیچیده‌ای تولید می‌کند.

شما DALL-E 2 را با توضیحات مکتوب ارائه می دهید و تصویری مطابق با آن ایجاد می کند. با ترکیب مفاهیم، کیفیت‌ها و سبک‌ها، OpenAI's DALLE 2 می‌تواند گرافیک‌ها و هنرهای خلاقانه و واقعی را از یک توصیف زبان‌شناختی اولیه تولید کند.

گفته می‌شود که آخرین نسخه، DALLE 2، همه‌کاره‌تر است و می‌تواند از زیرنویس‌ها با وضوح بالاتر و در طیف وسیع‌تری از سبک‌های خلاقانه عکس بسازد. به عنوان مثال، تصاویر زیر (از پست وبلاگ DALL-E 2) با توضیح "یک فضانورد سوار بر اسب" ایجاد شده است.

یکی از توضیحات "مانند طرح مداد" نتیجه می گیرد، در حالی که توضیح دیگر "به شیوه ای فوتورئالیستی" نتیجه می گیرد.

فضانورد سوار بر اسب

همچنین می تواند عکس های موجود را با دقت شگفت انگیزی تغییر دهد. بنابراین، می‌توانید با حفظ رنگ‌ها، انعکاس‌ها و سایه‌ها، عناصر را اضافه یا حذف کنید، همگی با حفظ ظاهر تصویر اصلی.

چگونه کار می کند؟

DALL-E 2 از مدل های CLIP و Diffusion استفاده می کند، دو مدل پیچیده یادگیری عمیق رویکردهای توسعه یافته در سال های اخیر با این حال، آن را بر اساس همان تصوری است که همه عمیق دیگر شبکه های عصبی: یادگیری بازنمایی CLIP به طور همزمان دو نفر را آموزش می دهد شبکه های عصبی روی عکس ها و کپشن ها

یک شبکه نمایش های بصری در تصویر را می آموزد، در حالی که شبکه دیگر نمایش های متنی را می آموزد. در طول آموزش، دو شبکه سعی می کنند پارامترهای خود را به گونه ای تغییر دهند که تصاویر و توضیحات قابل مقایسه منجر به جاسازی های مشابه شود.

"Diffusion"، نوعی مدل تولیدی که یاد می‌گیرد با نویز کردن تدریجی و حذف نویز نمونه‌های آموزشی خود، تصاویر بسازد، دیگر رویکرد یادگیری ماشینی است که در DALL-E 2 استفاده می‌شود. مدل‌های انتشار شبیه به رمزگذارهای خودکار هستند زیرا داده‌های ورودی را به نمایش تعبیه شده و سپس از اطلاعات جاسازی برای ایجاد مجدد داده های اصلی استفاده کنید.

DALL.E2 کار می کند

با استفاده از OpenAI مدل زبان CLIP، که می‌تواند توضیحات متنی را با عکس‌ها مرتبط کند، ابتدا دستور نوشته شده را به شکلی میانی ترجمه می‌کند که ویژگی‌های مهمی را که یک عکس باید داشته باشد برای مطابقت با آن اعلان (طبق CLIP) در خود دارد.

دوم، DALL-E 2 یک CLIP سازگار ایجاد می کند تصویر با استفاده از مدل انتشار، که یک شبکه عصبی است.

در عکس های تحریف شده با پیکسل های تصادفی، مدل های انتشار یاد می شوند. آنها یاد می گیرند که چگونه فرم اصلی عکس ها را بازیابی کنند. مدل‌های انتشار می‌توانند تصاویر مصنوعی با کیفیت بالا تولید کنند، به‌ویژه زمانی که همراه با یک رویکرد راهنما استفاده می‌شوند که دقت را بر تنوع اولویت می‌دهد.

به عنوان یک نتیجه ، مدل انتشار پیکسل‌های تصادفی را می‌گیرد و از CLIP برای تبدیل آن‌ها به تصویر جدیدی که با عبارت prompt مطابقت دارد، استفاده می‌کند. به دلیل مفهوم انتشار، DALL-E 2 می تواند تصاویر با وضوح بالاتر را سریعتر از DALL-E تولید کند.

مورد استفاده DALL.E 2

در بیست سال گذشته، بینایی کامپیوتر فناوری از یک مفهوم ساده به یک پیشرفت بزرگ پیشرفت کرده است. با وجود این پیشرفت‌ها، مدل‌های تشخیص تصویر و اشیا هنوز با موانع مهمی در زندگی روزمره روبرو هستند. عدم وجود مجموعه داده ها یکی از مهم ترین اشکالات تشخیص تصویر و بینایی کامپیوتری است. از آنجایی که در هر دو طرف کمبود داده وجود دارد، آموزش مدل‌های تشخیص تصویر برای ارائه نتایج 100 درصد دقیق تقریباً دشوار است.

خوشبختانه، مدل جدید یادگیری ماشین OpenAI می تواند شکاف در فناوری را پر کند. DALLE 2 قادر است تصاویر شگفت انگیزی را بر اساس توضیحات متنی ایجاد کند. این تولید تصویر جعلی می‌تواند داده‌هایی را برای مدل‌های تشخیص تصویر بر اساس نیازهای آنها فراهم کند. فقدان داده یک مانع مهم برای شناسایی اشیا و تصویر است.

در عصر دیجیتال، مجموعه‌های داده در همه جا وجود دارند، با این حال ما همچنان به دنبال میانبرهایی برای تغذیه مدل هوش مصنوعی هستیم، بنابراین می‌تواند نتایج خوبی ارائه دهد. با این حال، آموزش یک مدل تشخیص تصویر ساده نیست. این نیاز به تعداد زیادی مجموعه داده با تفاوت های کمی دارد، که ممکن است به سادگی قادر به بازیابی آنها نباشیم.

بنابراین، پاسخ چیست: پاسخ DALLE 2 است. مولد تصویر OpenAI، با ظرفیت خود برای تولید تصاویر از متون و تغییر تصاویر موجود، می تواند به پر کردن شکاف کمک کند. این به تولید داده های آموزشی اضافی کمک می کند و در عین حال میزان برچسب گذاری انسانی مورد نیاز را نیز کاهش می دهد. علیرغم مزایای قابل توجه، باید از تولیدات و تصاویر تقلبی تصویری که گنجاندن آن را حذف می کنند، آگاه باشید. این ممکن است منجر به روش‌های تشخیص تصویر شود که نتایج مغرضانه‌ای را تولید می‌کنند.

محدودیت ها

به گفته OpenAI، اگر DALL.E 2 به دست افراد اشتباه بیفتد، ممکن است تأثیر مضری داشته باشد. در دنیای امروزی جعلی‌های عمیق، این مدل به راحتی می‌تواند برای انتشار اطلاعات نادرست یا تصاویر نژادپرستانه استفاده شود، به همین دلیل است که OpenAI فقط به توسعه‌دهندگان اجازه می‌دهد از DALL.2 با دعوت استفاده کنند. مدل باید برای همه پیشنهادهایی که دریافت می‌کند، از محدودیت محتوایی دقیق پیروی کند.

برای حذف پتانسیل DALL.E 2 ایجاد هر گونه عکس خصمانه یا خشونت آمیز، مجموعه داده بدون هیچ گونه سلاح مرگبار ایجاد شد. در حالی که OpenAI اعلام کرده است که قصد دارد آن را در آینده به یک API تبدیل کند، در مورد DALL.E 2، مایل است با احتیاط عمل کند.

نتیجه

DALL-E 2 یکی دیگر از اکتشافات تحقیقاتی جالب OpenAI است که درها را به روی برنامه های جدید باز می کند.

یک مثال ایجاد مجموعه داده های عظیم برای برآورده کردن یکی از گلوگاه های اصلی بینایی کامپیوتر - داده ها است. در حالی که وضعیت اقتصادی بسیاری از برنامه‌های مبتنی بر DALL-E با قیمت و سیاست‌هایی تعیین می‌شود که OpenAI برای کاربران API خود تعیین می‌کند، بدون شک همه آنها تولید تصویر را پیش خواهند برد.

DALL.E 2 - افکار خود را با استفاده از متن به تصویر تبدیل کنید

بنابراین ، دقیقاً چیست DALL.E 2?

چگونه کار می کند؟

مورد استفاده DALL.E 2

محدودیت ها

نتیجه

درباره ما زاغ کبود

مقالات بیشتر در HashDork:

چگونه توهمات را در هوش مصنوعی خود کاهش دهیم

کولوسیان مقابل هیگن

این خبرنامه فناوری آینده بد نیست

DALL.E 2 - افکار خود را با استفاده از متن به تصویر تبدیل کنید

بنابراین ، دقیقاً چیست DALL.E 2?

چگونه کار می کند؟

مورد استفاده DALL.E 2

محدودیت ها

نتیجه

درباره ما زاغ کبود

مقالات بیشتر در HashDork:

چگونه توهمات را در هوش مصنوعی خود کاهش دهیم

10 بهترین ابزار هوش مصنوعی برای رسانه های اجتماعی

کولوسیان مقابل هیگن

10 بهترین ابزار ساخت ویدیوی متحرک هوش مصنوعی

تداخلات خواننده

پاسخ دهید لغو پاسخ

این خبرنامه فناوری آینده بد نیست