مواد جي جدول[لڪ][ڏسو]
نئين ۽ سڌريل AI صلاحيتن، سمجھڻ، ۽ اعلي ريزوليوشن تصويرون پيدا ڪرڻ جي صلاحيت کي بهتر بڻايو آهي. توهان شايد تازو ڪجهه عجيب ۽ دلفريب تصويرون ڏسي سگهو ٿا جيڪي انٽرنيٽ جي چوڌاري ڦري رهيا آهن.
هڪ شيبا انو ڪتو هڪ بيريٽ ۽ هڪ ڪارو turtleneck ۾ ملبوس آهي. ۽ ڊچ پينٽر ورمير جي ”گرل وٿ پرل ايئرنگ“ جي انداز ۾ سمنڊ جو اوٽر. ۽ اتي ھڪڙو پيالو سوپ آھي جيڪو اوني راکشس وانگر ڏسڻ ۾ اچي ٿو.
اهي تصويرون ڪنهن انساني فنڪار جي تخليق نه هئي.
ان جي بدران، DALL-E 2، هڪ نئون AI سسٽم جيڪو متن جي وضاحتن کي تصويرن ۾ تبديل ڪري سگهي ٿو، انهن کي ٺاهيو.
بس لکو جيڪو توهان ڏسڻ چاهيو ٿا، ۽ AI اهو توهان لاءِ ٺاهيندو - وشد تفصيل ۾، عظيم معيار، ۽، ڪجهه حالتن ۾، حقيقي ايجاد. هن پوسٽ ۾، اسان OpenAI جي تازي مطالعي تي هڪ گہری نظر ڪنداسين، DALL.E 2، انهي سان گڏ اهو ڪيئن ڪم ڪري ٿو، ۽ گهڻو ڪجهه. اچو ته شروع ڪريون.
سو ، جيڪو اصل ۾ آهي ڊي ايل اي 2?
DALL-E 2 هڪ ”جنريٽيو ماڊل“ آهي، هڪ قسم جي مشين لرننگ الگورٿم جيڪا ان پٽ ڊيٽا تي اڳڪٿي يا درجه بندي جا ڪم انجام ڏيڻ بجاءِ پيچيده پيداوار پيدا ڪري ٿي.
توهان DALL-E 2 مهيا ڪريو هڪ لکيل تفصيل سان، ۽ اهو هڪ تصوير ٺاهي ٿو جيڪو ان سان ملندو آهي. تصورن، خوبين ۽ اندازن کي گڏ ڪرڻ سان، OpenAI جي DALLE 2 بنيادي لساني وضاحت مان جديد، حقيقي گرافڪس ۽ فن پيدا ڪري سگھي ٿي.
جديد نسخو، DALLE 2، چيو وڃي ٿو وڌيڪ ورسٽائل، اعليٰ قراردادن تي ۽ تخليقي انداز جي وسيع اسپيڪٽرم ۾ ڪيپشنز مان تصويرون ٺاهڻ جي قابل. مثال طور، هيٺ ڏنل تصويرون (DALL-E 2 بلاگ پوسٽ تان) ”هڪ خلاباز گھوڙي تي سوار“ جي وضاحت سان ٺاهيا ويا آهن.
هڪ وضاحت ختم ٿئي ٿي، "هڪ پينسل اسڪيچ وانگر،" جڏهن ته ٻيو ختم ٿئي ٿو، "فوٽو ريئلسٽڪ انداز ۾."
اهو پڻ موجوده تصويرون تبديل ڪري سگهي ٿو حيرت انگيز درستگي سان. تنهن ڪري، توهان عناصر شامل يا حذف ڪري سگهو ٿا جڏهن رنگن، عڪس ۽ ڇانو کي برقرار رکندي، سڀ ڪجهه اصل تصوير جي ظاهري کي برقرار رکڻ دوران.
ان کي ڪيئن ڪم ڪندو؟
DALL-E 2 استعمال ڪري ٿو CLIP ۽ diffusion ماڊل، ٻه نفيس تمام گهڻي سکيا تازو سالن ۾ ترقي يافته طريقا. بهرحال، اهو ساڳيو تصور تي ٻڌل آهي جيئن ٻين سڀني گہرے اعصابي نيٽ ورڪ: نمائندگي جي سکيا. CLIP هڪ ئي وقت ٻه ٽرينون نظرياتي نيٽ ورڪ تصويرن ۽ ڪيپشن تي.
هڪ نيٽ ورڪ تصوير ۾ بصري نمائندگي سکي ٿو، جڏهن ته ٻيو متن جي نمائندگي سکي ٿو. ٽريننگ دوران، ٻه نيٽ ورڪ انهن جي پيٽرولن کي تبديل ڪرڻ جي ڪوشش ڪندا آهن ته جيئن تقابلي تصويرون ۽ وضاحتون ساڳيون ايمبيڊنگن جي نتيجي ۾.
”ڊفيوشن،“ هڪ قسم جو جنريٽو ماڊل جيڪو پنهنجي تربيتي نمونن کي بتدريج شور ۽ رد ڪندي تصويرون ٺاهڻ سکي ٿو، DALL-E 2 ۾ استعمال ٿيل هڪ ٻيو مشين لرننگ اپروچ آهي. ڊفيوشن ماڊل آٽو اينڪوڊرز سان ملندڙ جلندڙ آهن جنهن ۾ اهي ان پٽ ڊيٽا کي هڪ ۾ تبديل ڪندا آهن. ايمبيڊنگ نمائندگي ۽ پوءِ اصل ڊيٽا کي ٻيهر ٺاهڻ لاءِ ايمبيڊنگ معلومات استعمال ڪريو.
OpenAI استعمال ڪندي ٻولي ماڊل CLIP، جيڪو متن جي وضاحتن کي تصويرن سان ڳنڍي سگھي ٿو، اھو پھريائين لکيل ترجمي کي ھڪ وچولي شڪل ۾ ترجمو ڪري ٿو، جنھن ۾ اھي اھم خاصيتون شامل آھن جيڪي ھڪڙي تصوير کي انھيءَ پرامٽ سان ملن ٿيون (CLIP جي مطابق).
ٻيو، DALL-E 2 ٺاهي ٿو CLIP-compliant تصوير هڪ diffusion ماڊل استعمال ڪندي، جيڪو هڪ نيورل نيٽ ورڪ آهي.
مسخ ٿيل تصويرن تي بي ترتيب پکسلز سان، ڊفيوشن ماڊل سکيا ويا آهن. اهي سکندا آهن ته فوٽوز جي اصل شڪل کي ڪيئن بحال ڪجي. ڊفيوشن ماڊل اعلي معيار جي مصنوعي تصويرون پيدا ڪري سگھن ٿيون، خاص طور تي جڏهن استعمال ڪيو وڃي هڪ رهنمائي واري طريقي سان جيڪو تنوع تي درستگي کي ترجيح ڏئي ٿو.
نتيجي طور ، diffusion ماڊل بي ترتيب پکسلز وٺي ٿو ۽ CLIP استعمال ڪري ٿو انھن کي نئين تصوير ۾ تبديل ڪرڻ لاءِ جيڪو لفظ پرامٽ سان ملندو آھي. ڊفيوژن تصور جي ڪري، DALL-E 2 DALL-E کان وڌيڪ تيز ريزوليوشن تصويرون ٺاهي سگھي ٿو.
DALL.E 2 استعمال ڪيس
گذريل ويهن سالن ۾، ڪمپيوٽر جو نقشو ٽيڪنالاجي هڪ سادي تصور کان وڏي پيش رفت تائين ترقي ڪئي آهي. انهن واڌاري جي باوجود، تصوير ۽ اعتراض جي سڃاڻپ جا ماڊل اڃا تائين روزمره جي زندگيء ۾ اهم رڪاوٽن کي منهن ڏئي رهيا آهن. ڊيٽا سيٽ جي غير موجودگي تصوير جي سڃاڻپ ۽ ڪمپيوٽر جي ويزن جي سڀ کان اهم خرابين مان هڪ آهي. ڇاڪاڻ ته ٻنهي سرن تي ڊيٽا جي کوٽ آهي، 100 سيڪڙو صحيح نتيجا ڏيڻ لاءِ تصوير جي سڃاڻپ جي ماڊل کي تربيت ڏيڻ لڳ ڀڳ مشڪل آهي.
خوشقسمتيءَ سان، OpenAI جو نئون مشين لرننگ ماڊل ٽيڪنالاجي ۾ خال کي پورو ڪري سگھي ٿو. DALLE 2 متن جي وضاحتن جي بنياد تي شاندار تصويرون ٺاهڻ جي قابل آهي. هي جعلي تصوير جي پيداوار انهن جي ضرورتن جي بنياد تي تصوير جي سڃاڻپ ماڊل کي ڊيٽا مهيا ڪري سگهي ٿي. ڊيٽا جي غير موجودگي اعتراض ۽ تصوير جي سڃاڻپ لاء هڪ اهم رڪاوٽ آهي.
ڊجيٽل دور ۾، ڊيٽا سيٽ هر جڳهه آهن، پر اسان اڃا تائين AI ماڊل کي فيڊ ڪرڻ لاء شارٽ ڪٽ ڳولي رهيا آهيون، تنهنڪري اهو سٺو نتيجا مهيا ڪري سگهي ٿو. بهرحال، تصوير جي سڃاڻپ واري ماڊل کي تربيت ڏيڻ آسان ناهي. اهو ٿورن فرقن سان گڏ ڊيٽا سيٽ جي وڏي تعداد جي ضرورت آهي، جنهن کي اسان شايد آسانيء سان ٻيهر حاصل ڪرڻ جي قابل نه هوندا آهيون.
تنهن ڪري، جواب ڇا آهي: جواب آهي DALLE 2. OpenAI تصويري جنريٽر، متن مان تصويرون ٺاهڻ ۽ موجوده تصويرن کي تبديل ڪرڻ جي صلاحيت سان، خال کي ختم ڪرڻ ۾ مدد ڪري سگهي ٿو. اهو اضافي ٽريننگ ڊيٽا جي پيداوار ۾ مدد ڪندو جڏهن ته انساني ليبلنگ جي مقدار کي به گھٽائي ڇڏيندو. اهم فائدي جي باوجود، توهان کي دوکي واري تصوير جي پيداوار ۽ تصويرن کان آگاهي ٿيڻ گهرجي جيڪي شامل ٿيڻ کان ٻاهر آهن. اهو ٿي سگھي ٿو تصوير ڳولڻ جي طريقن جي نتيجي ۾ باصلاحيت نتيجا پيدا ڪرڻ.
حدون
DALL.E 2 شايد هڪ نقصانڪار اثر هجي جيڪڏهن اهو غلط هٿن ۾ پوي ٿو، OpenAI جي مطابق. اڄڪلهه جي گہرے جعلي جي دنيا ۾، ماڊل آساني سان غلط معلومات يا نسل پرست تصويرن کي پکيڙڻ لاءِ استعمال ٿي سگهي ٿو، اهو ئي سبب آهي ته OpenAI صرف ڊولپرز کي DALL.2 استعمال ڪرڻ جي اجازت ڏئي ٿو دعوت ذريعي. ماڊل کي لازمي طور تي سخت مواد جي پابندي جي تعميل ڪرڻ گهرجي انهن سڀني تجويزن لاءِ جيڪا هن کي ملي ٿي.
DALL.E 2 جي ڪنهن به دشمني يا پرتشدد تصويرن ٺاهڻ جي صلاحيت کي خارج ڪرڻ لاءِ، ڊيٽا سيٽ بنا ڪنهن خطرناڪ هٿيارن جي ٺاهي وئي. جڏهن ته OpenAI چيو آهي ته اهو مستقبل ۾ ان کي API ۾ تبديل ڪرڻ جو منصوبو آهي، DALL.E 2 جي صورت ۾، اهو احتياط سان اڳتي وڌڻ لاء تيار آهي.
ٿڪل
DALL-E 2 هڪ ٻي دلچسپ OpenAI تحقيقي دريافت آهي جيڪا نئين ايپليڪيشنن جا دروازا کولي ٿي.
هڪ مثال ڪمپيوٽر ويزن جي مکيه رڪاوٽن مان هڪ کي پورا ڪرڻ لاءِ وڏي ڊيٽا سيٽ ٺاهي رهيو آهي- ڊيٽا. جڏهن ته ڪيترن ئي DALL-E-based ايپس لاءِ معاشي ڪيس قيمت ۽ پاليسين طرفان طئي ڪيو ويندو جيڪي OpenAI پنهنجي API استعمال ڪندڙن لاءِ قائم ڪري ٿو، اهي سڀئي بلاشڪ تصوير جي پيداوار کي اڳتي وڌائيندا.
جواب ڇڏي وڃو