کی میز کے مندرجات[چھپائیں][دکھائیں]
نئی اور بہتر AI نے صلاحیتوں، فہم اور اعلیٰ ریزولیوشن امیجز بنانے کی صلاحیت کو بہتر بنایا ہے۔ آپ نے حال ہی میں انٹرنیٹ پر تیرتی ہوئی کچھ عجیب اور دل لگی تصاویر دیکھی ہوں گی۔
شیبا انو کتے نے بیریٹ اور سیاہ ٹرٹل نیک پہنا ہوا ہے۔ اور ایک سمندری اوٹر ڈچ پینٹر ورمیر کے "موتی کی بالی والی لڑکی" کے انداز میں۔ اور سوپ کا ایک کپ ہے جو اونی عفریت کی طرح لگتا ہے۔
یہ تصاویر کسی انسانی فنکار نے تخلیق نہیں کیا۔
اس کے بجائے، DALL-E 2، ایک نیا AI نظام جو متنی وضاحتوں کو تصاویر میں تبدیل کر سکتا ہے، نے انہیں بنایا۔
آپ جو دیکھنا چاہتے ہیں اسے بس لکھ دیں، اور AI اسے آپ کے لیے بنائے گا – واضح تفصیل، بہترین معیار، اور، کچھ معاملات میں، حقیقی اختراع۔ اس پوسٹ میں، ہم OpenAI کے تازہ ترین مطالعہ، DALL.E 2 پر گہری نظر ڈالیں گے، ساتھ ہی یہ کیسے کام کرتا ہے، اور بہت کچھ۔ آو شروع کریں.
تو ، بالکل کیا ہے ڈی ایل ای 2?
DALL-E 2 ایک "پیداواری ماڈل" ہے، مشین لرننگ الگورتھم کی ایک قسم جو ان پٹ ڈیٹا پر پیشین گوئی یا درجہ بندی کے کاموں کو انجام دینے کے بجائے پیچیدہ آؤٹ پٹ پیدا کرتی ہے۔
آپ DALL-E 2 کو تحریری تفصیل کے ساتھ فراہم کرتے ہیں، اور یہ ایک تصویر بناتا ہے جو اس سے مطابقت رکھتی ہے۔ تصورات، خوبیوں اور طرزوں کو ملا کر، OpenAI کا DALLE 2 بنیادی لسانی وضاحت سے اختراعی، حقیقت پسندانہ گرافکس اور آرٹ تیار کر سکتا ہے۔
تازہ ترین ورژن، DALLE 2، کے بارے میں کہا جاتا ہے کہ یہ زیادہ ورسٹائل ہے، جو زیادہ ریزولوشنز اور تخلیقی انداز کے وسیع میدان میں کیپشن سے تصویریں بنانے کے قابل ہے۔ مثال کے طور پر، نیچے دی گئی تصاویر (DALL-E 2 بلاگ پوسٹ سے) "ایک خلاباز گھوڑے پر سوار" کی وضاحت سے بنائی گئی ہیں۔
ایک تفصیل ختم ہوتی ہے، "ایک پنسل خاکے کی طرح،" جب کہ دوسری کا اختتام، "فوٹوریئلسٹک انداز میں" ہوتا ہے۔
یہ حیران کن درستگی کے ساتھ موجودہ تصاویر کو بھی تبدیل کر سکتا ہے۔ لہذا، آپ اصل تصویر کی ظاہری شکل کو برقرار رکھتے ہوئے رنگوں، عکاسیوں اور سائے کو برقرار رکھتے ہوئے عناصر کو شامل یا حذف کر سکتے ہیں۔
یہ کس طرح کام کرتا ہے؟
DALL-E 2 CLIP اور ڈفیوژن ماڈلز کا استعمال کرتا ہے، دو جدید ترین گہری سیکھنے حالیہ برسوں میں تیار کردہ نقطہ نظر. تاہم، یہ اسی تصور پر مبنی ہے جیسے دیگر تمام گہرائیوں پر اعصابی نیٹ ورک: نمائندگی کی تعلیم CLIP بیک وقت دو کو تربیت دیتا ہے۔ نیند نیٹ ورک تصویروں اور عنوانات پر۔
ایک نیٹ ورک تصویر میں بصری نمائندگی سیکھتا ہے، جبکہ دوسرا متن کی نمائندگی سیکھتا ہے۔ تربیت کے دوران، دونوں نیٹ ورکس اپنے پیرامیٹرز میں ترمیم کرنے کی کوشش کرتے ہیں تاکہ تقابلی تصویروں اور وضاحتوں کے نتیجے میں یکساں سرایت ہو جائے۔
"ڈِفیوژن،" ایک قسم کا جنریٹو ماڈل جو اپنے تربیتی نمونوں کو آہستہ آہستہ شور اور تردید کرتے ہوئے تصویریں بنانا سیکھتا ہے، DALL-E 2 میں استعمال ہونے والا دوسرا مشین لرننگ اپروچ ہے۔ ڈفیوژن ماڈلز آٹو اینکوڈرز کی طرح ہوتے ہیں جس میں وہ ان پٹ ڈیٹا کو ایک تصویر میں تبدیل کرتے ہیں۔ ایمبیڈنگ نمائندگی اور پھر اصل ڈیٹا کو دوبارہ بنانے کے لیے ایمبیڈنگ معلومات کا استعمال کریں۔
اوپن اے آئی کا استعمال کرنا زبان ماڈل CLIP، جو متنی وضاحتوں کو تصویروں کے ساتھ جوڑ سکتا ہے، یہ سب سے پہلے تحریری پرامپٹ کو ایک درمیانی شکل میں ترجمہ کرتا ہے جس میں ان اہم خصوصیات کو شامل کیا جاتا ہے جو تصویر کو اس پرامپٹ سے مماثل ہونا چاہیے (CLIP کے مطابق)۔
دوسرا، DALL-E 2 ایک CLIP کے مطابق بناتا ہے۔ بازی ماڈل کا استعمال کرتے ہوئے تصویرجو کہ ایک نیورل نیٹ ورک ہے۔
بے ترتیب پکسلز کے ساتھ مسخ شدہ تصاویر پر، بازی کے ماڈل سیکھے جاتے ہیں۔ وہ سیکھتے ہیں کہ فوٹو کی اصل شکل کو کیسے بحال کیا جائے۔ ڈفیوژن ماڈلز اعلیٰ معیار کی مصنوعی تصاویر تیار کر سکتے ہیں، خاص طور پر جب ایک رہنمائی نقطہ نظر کے ساتھ استعمال کیا جائے جو تنوع پر درستگی کو ترجیح دیتا ہے۔
نتیجے کے طور پر ، بازی کا ماڈل بے ترتیب پکسلز لیتا ہے اور انہیں ایک نئی تصویر میں تبدیل کرنے کے لیے CLIP کا استعمال کرتا ہے جو لفظ پرامپٹ سے میل کھاتا ہے۔ پھیلاؤ کے تصور کی وجہ سے، DALL-E 2 DALL-E سے زیادہ تیزی سے ریزولوشن والی تصاویر تیار کر سکتا ہے۔
DALL.E 2 استعمال کیس
پچھلے بیس سالوں میں، کمپیوٹر وژن ٹیکنالوجی نے ایک سادہ تصور سے ایک اہم پیش رفت کی طرف ترقی کی ہے۔ ان ترقیوں کے باوجود، تصویر اور آبجیکٹ کی شناخت کے ماڈلز کو اب بھی روزمرہ کی زندگی میں اہم رکاوٹوں کا سامنا ہے۔ ڈیٹاسیٹس کی عدم موجودگی تصویر کی شناخت اور کمپیوٹر ویژن کی سب سے اہم خرابیوں میں سے ایک ہے۔ چونکہ دونوں سروں پر ڈیٹا کی کمی ہے، اس لیے 100 فیصد درست نتائج دینے کے لیے امیج ریکگنیشن ماڈلز کی تربیت تقریباً مشکل ہے۔
خوش قسمتی سے، OpenAI کا نیا مشین لرننگ ماڈل ٹیکنالوجی کے فرق کو پر کر سکتا ہے۔ DALLE 2 متن کی تفصیل کی بنیاد پر حیرت انگیز تصویریں بنانے کی صلاحیت رکھتا ہے۔ یہ جعلی تصویر کی تیاری تصویر کی شناخت کرنے والے ماڈلز کو ان کی ضروریات کی بنیاد پر ڈیٹا فراہم کر سکتی ہے۔ اعداد و شمار کی عدم موجودگی چیز اور تصویر کی شناخت کے لیے ایک اہم رکاوٹ ہے۔
ڈیجیٹل دور میں، ڈیٹا سیٹس ہر جگہ موجود ہیں، پھر بھی ہم AI ماڈل کو فیڈ کرنے کے لیے شارٹ کٹس تلاش کر رہے ہیں، تاکہ یہ اچھے نتائج فراہم کر سکے۔ تاہم، تصویر کی شناخت کے ماڈل کو تربیت دینا آسان نہیں ہے۔ اس کے لیے بہت سارے ڈیٹا سیٹس کی ضرورت ہوتی ہے جس میں تھوڑا سا فرق ہوتا ہے، جسے ہم شاید آسانی سے بازیافت نہیں کر پاتے تھے۔
تو، جواب کیا ہے: جواب ہے DALLE 2۔ OpenAI پکچر جنریٹر، متن سے تصاویر بنانے اور موجودہ تصویروں کو تبدیل کرنے کی صلاحیت کے ساتھ، خلا کو پر کرنے میں مدد کر سکتا ہے۔ اس سے اضافی تربیتی ڈیٹا تیار کرنے میں مدد ملے گی جبکہ انسانی لیبلنگ کی مطلوبہ مقدار کو بھی کم کیا جائے گا۔ اہم فائدے کے باوجود، آپ کو دھوکہ دہی والی تصویری پروڈکشنز اور تصاویر سے آگاہ ہونا چاہیے جو شمولیت کو خارج کرتی ہیں۔ یہ متعصب نتائج پیدا کرنے والے تصویر کی کھوج کے طریقوں کا باعث بن سکتا ہے۔
حدود
OpenAI کے مطابق، DALL.E 2 کا نقصان دہ اثر ہو سکتا ہے اگر یہ غلط ہاتھوں میں آجائے۔ آج کی گہری جعلی دنیا میں، ماڈل کو آسانی سے غلط معلومات یا نسل پرستانہ تصویروں کو پھیلانے کے لیے استعمال کیا جا سکتا ہے، یہی وجہ ہے کہ OpenAI صرف ڈویلپرز کو دعوت کے ذریعے DALL.2 استعمال کرنے کی اجازت دیتا ہے۔ ماڈل کو تمام تجاویز کے لیے مواد کی سخت پابندی کی تعمیل کرنی چاہیے۔
DALL.E 2 کی کسی بھی دشمنی یا پرتشدد تصویریں بنانے کی صلاحیت کو خارج کرنے کے لیے، ڈیٹا سیٹ بغیر کسی مہلک ہتھیار کے بنایا گیا تھا۔ جبکہ OpenAI نے کہا ہے کہ وہ مستقبل میں اسے API میں تبدیل کرنے کا ارادہ رکھتا ہے، DALL.E 2 کے معاملے میں، وہ احتیاط کے ساتھ آگے بڑھنے کے لیے تیار ہے۔
نتیجہ
DALL-E 2 ایک اور دلچسپ OpenAI تحقیقی دریافت ہے جو نئی ایپلی کیشنز کے دروازے کھولتی ہے۔
ایک مثال کمپیوٹر وژن کی اہم رکاوٹوں میں سے ایک کو پورا کرنے کے لیے بڑے پیمانے پر ڈیٹا سیٹ بنانا ہے۔ اگرچہ بہت سے DALL-E پر مبنی ایپس کے معاشی معاملے کا تعین ان قیمتوں اور پالیسیوں سے کیا جائے گا جو OpenAI اپنے API صارفین کے لیے قائم کرتی ہے، وہ سب بلاشبہ تصویر کی تیاری کو آگے بڑھائیں گے۔
جواب دیجئے