تازن سالن ۾، گہرے سکيا جا ماڊل انساني ٻولي کي سمجهڻ ۾ وڌيڪ اثرائتو ٿي چڪا آهن.
منصوبن جي باري ۾ سوچيو جهڙوڪ جي پي ٽي-3، جيڪو هاڻي مڪمل آرٽيڪل ۽ ويب سائيٽون ٺاهڻ جي قابل آهي. GitHub تازو متعارف ڪرايو آهي گٽب ڪوپل, هڪ خدمت جيڪا توهان کي گهربل ڪوڊ جي قسم کي بيان ڪندي پوري ڪوڊ جا ٽڪرا مهيا ڪري ٿي.
اوپن اي آءِ، فيس بڪ ۽ گوگل جا محقق هڪ ٻئي ڪم کي سنڀالڻ لاءِ ڊيپ لرننگ استعمال ڪرڻ جي طريقن تي ڪم ڪري رهيا آهن: ڪيپشن تصويرون. لکين داخلائن سان گڏ هڪ وڏو ڊيٽا سيٽ استعمال ڪندي، اهي ڪجهه کڻي آيا آهن حيرت انگيز نتيجا.
تازي طور تي، انهن محققن جي سامهون ڪم ڪرڻ جي ڪوشش ڪئي آهي: ڪيپشن مان تصويرون ٺاهڻ. ڇا اهو هاڻي ممڪن آهي ته وضاحت کان ٻاهر هڪ مڪمل طور تي نئين تصوير ٺاهي؟
هي گائيڊ ٻن جديد ترين ٽيڪسٽ کان تصويري ماڊل جي ڳولا ڪندو: OpenAI جي DALL-E 2 ۽ گوگل جي تصويرن AI. انهن منصوبن مان هر هڪ بنيادي طريقا متعارف ڪرايو آهي جيڪي سماج کي تبديل ڪري سگھن ٿا جيئن اسان ڄاڻون ٿا.
پر پهرين، اچو ته سمجھون ته اسان جو مطلب آهي متن کان تصويري نسل مان.
ٽيڪسٽ کان تصويري نسل ڇا آهي؟
متن کان تصويري ماڊل ڪمپيوٽرن کي اجازت ڏئي ٿو ته اهي نيون ۽ منفرد تصويرون ٺاهي سگھن ٿيون پرامپٽس جي بنياد تي. ماڻهو هاڻي هڪ تصوير جي ٽيڪسٽ وضاحت مهيا ڪري سگھن ٿا جيڪي اهي پيدا ڪرڻ چاهيندا آهن، ۽ ماڊل هڪ بصري ٺاهڻ جي ڪوشش ڪندو جيڪا انهي تفصيل سان ملائي جيترو ممڪن هجي.
مشين لرننگ ماڊلز وڏي ڊيٽا سيٽن جي استعمال کي استعمال ڪيو آهي جنهن ۾ تصويري ڪيپشن جوڙو شامل آهن ڪارڪردگي کي وڌيڪ بهتر ڪرڻ لاءِ.
سڀ کان وڌيڪ متن کان تصوير ماڊل هڪ ٽرانسفارمر ٻولي ماڊل استعمال ڪن ٿا اشارن جي تشريح ڪرڻ. هن قسم جو ماڊل هڪ آهي نظرياتي نيٽورڪ جيڪو قدرتي ٻولي جي مفهوم ۽ مفهوم کي سکڻ جي ڪوشش ڪري ٿو.
اڳيون، generative ماڊل جيئن diffusion ماڊلز ۽ generative adversarial networks استعمال ڪيا وڃن ٿا تصوير جي ترڪيب لاءِ.
DALLE 2 ڇا آهي؟
ڊيل-اي2 OpenAI پاران هڪ ڪمپيوٽر ماڊل آهي جيڪو اپريل 2022 ۾ جاري ڪيو ويو. ماڊل کي تصويرن سان لفظن ۽ جملن کي ملائڻ لاءِ لکين ليبل ٿيل تصويرن جي ڊيٽابيس تي تربيت ڏني وئي.
استعمال ڪندڙ هڪ سادو جملو ٽائيپ ڪري سگھن ٿا، جيئن ”a cat eating lasagna“، ۽ DALL-E 2 ان جي پنهنجي تشريح پيدا ڪندو، جيڪو جملو بيان ڪرڻ جي ڪوشش ڪري رهيو آهي.
شروع کان تصويرون ٺاهڻ کان علاوه، DALL-E 2 پڻ موجوده تصويرن کي ايڊٽ ڪري سگھي ٿو. هيٺ ڏنل مثال ۾، DALL-E هڪ ڪمري جي تبديل ٿيل تصوير پيدا ڪرڻ جي قابل هئي هڪ اضافو صوف سان.
DALL-E 2 ڪيترن ئي ساڳين منصوبن مان صرف هڪ آهي OpenAI گذريل ڪجهه سالن ۾ جاري ڪيو آهي. OpenAI جي GPT-3 خبرن جي قابل ٿي وئي جڏهن اهو مختلف اندازن جو متن پيدا ڪرڻ لڳي.
في الحال، DALL-E 2 اڃا تائين بيٽا ٽيسٽ ۾ آهي. دلچسپي استعمال ڪندڙ انهن لاء سائن اپ ڪري سگهن ٿا انتظار جي لسٽ ۽ رسائي جو انتظار ڪريو.
اهو ڪم ڪيئن آهي؟
جڏهن ته DALL-E 2 جا نتيجا شاندار آهن، توهان شايد حيران ٿي رهيا آهيو ته اهو سڀ ڪيئن ڪم ڪري ٿو.
DALL-E 2 OpenAI جي GPT-3 پروجيڪٽ جي ملٽي موڊل عمل جو هڪ مثال آهي.
پهريون، استعمال ڪندڙ جي ٽيڪسٽ پرامٽ کي ٽيڪسٽ انڪوڊر ۾ رکيو ويو آهي جيڪو نقشي کي نمائندگي واري جاءِ تي نقش ڪري ٿو. DALL-E 2 هڪ ٻيو OpenAI ماڊل استعمال ڪري ٿو جنهن کي CLIP (Contrastive Language-Image Pre-Training) سڏيو ويندو آهي قدرتي ٻولي مان لفظي معلومات حاصل ڪرڻ لاءِ.
اڳيون، هڪ ماڊل طور سڃاتو وڃي ٿو اڳئين نقشي جي متن جي انڪوڊنگ کي تصويري انڪوڊنگ ۾. هي تصوير انڪوڊنگ کي متن جي انڪوڊنگ قدم ۾ مليل سيمينٽڪ معلومات کي پڪڙڻ گهرجي.
حقيقي تصوير ٺاهڻ لاءِ، DALL-E 2 تصويري ڊيڪوڊر استعمال ڪري ٿو هڪ بصري پيدا ڪرڻ لاءِ لفظي معلومات ۽ تصوير جي انڪوڊنگ تفصيلن کي استعمال ڪندي. OpenAI جو تبديل ٿيل ورزن استعمال ڪري ٿو گليڊ تصوير ٺاهڻ لاء ماڊل. GLIDE تي ڀاڙي ٿو a diffusion ماڊل تصويرون ٺاهڻ لاء.
DALL-E 2 ماڊل ۾ GLIDE جو اضافو وڌيڪ فوٽو ريئلسٽڪ آئوٽ پٽ کي فعال ڪيو. جيئن ته GLIDE ماڊل اسٽوچسٽڪ يا بي ترتيب طور تي طئي ٿيل آهي، DALL-E 2 ماڊل آساني سان ماڊل کي بار بار هلائڻ سان مختلف تبديليون پيدا ڪري سگهي ٿو.
حدون
DALL-E 2 ماڊل جي شاندار نتيجن جي باوجود، اهو اڃا تائين ڪجهه حدن کي منهن ڏئي ٿو.
اسپيلنگ متن
اشارو جيڪي DALL-E 2 ٺاهڻ جي ڪوشش ڪن ٿا ٽيڪسٽ ٺاهي ظاهر ڪن ٿا ته ان کي لفظن جي اسپيلنگ ۾ مشڪل آهي. ماهرن جو فرض آهي ته اهو ٿي سگهي ٿو ڇاڪاڻ ته اسپيلنگ معلومات جو حصو نه آهي تربيتي ڊيٽا سيٽ.
ساختي دليل
محققن جو مشاهدو ڪيو ويو آهي ته DALL-E 2 اڃا تائين ساختي دليلن سان ڪجهه مشڪل آهي. سادي لفظ ۾، ماڊل هڪ تصوير جي انفرادي پهلوئن کي سمجهي سگهي ٿو جڏهن ته اڃا تائين انهن پهلوئن جي وچ ۾ لاڳاپن کي ڳولڻ ۾ مشڪل آهي.
مثال طور، جيڪڏهن ڏنو ويو ته ”ڳاڙهو ڪعب هڪ نيري ڪعبي جي مٿان“، DALL-E هڪ نيرو ڪعب ۽ هڪ ڳاڙهي ڪعب صحيح طور تي ٺاهيندو پر انهن کي درست ڪرڻ ۾ ناڪام ٿيندو. ماڊل کي پڻ ڏٺو ويو آهي ته مشڪلاتن سان مشڪلاتون آهن جن لاءِ مخصوص تعداد ۾ شيون ڪڍڻ گهرجن.
ڊيٽا سيٽ ۾ تعصب
جيڪڏهن پرامٽ ۾ ٻيا تفصيل شامل نه آهن، DALL-E ڏٺو ويو آهي سفيد يا مغربي ماڻهن ۽ ماحول کي ظاهر ڪرڻ لاءِ. هي نمائندگيءَ وارو تعصب ڊيٽا سيٽ ۾ مغربي مرڪزي تصويرن جي گهڻائي جي ڪري ٿئي ٿو.
ماڊل پڻ ڏٺو ويو آهي صنفي اسٽريائپائپس جي پيروي ڪرڻ لاءِ. مثال طور، پرامٽ ۾ ٽائپنگ ”فلائيٽ اٽينڊنٽ“ گهڻو ڪري عورتن جي فلائيٽ اٽينڊنٽ جون تصويرون ٺاهي ٿي.
Google Imagen AI ڇا آهي؟
گوگل جو تصوير AI ھڪڙو ماڊل آھي جنھن جو مقصد آھي ان پٽ ٽيڪسٽ مان فوٽو ريئلسٽڪ تصويرون ٺاھيو. DALL-E وانگر، ماڊل متن کي سمجهڻ لاءِ ٽرانسفارمر ٻولي جا ماڊل پڻ استعمال ڪري ٿو ۽ اعليٰ معيار جون تصويرون ٺاهڻ لاءِ ڊفيوژن ماڊلز جي استعمال تي ڀاڙي ٿو.
Imagen سان گڏ، گوگل پڻ ٽيڪسٽ کان تصويري ماڊلز لاءِ هڪ معيار جاري ڪيو آهي جنهن کي DrawBench سڏيو ويندو آهي. DrawBench استعمال ڪندي، اهي مشاهدو ڪرڻ جي قابل هئا ته انساني ريٽرز DALL-E 2 سميت ٻين ماڊلز تي تصويرن جي پيداوار کي ترجيح ڏني.
اهو ڪم ڪيئن آهي؟
DALL-E سان ملندڙ جلندڙ، Imagen پهريون ڀيرو صارف جي تڪڙي کي منجمد ٽيڪسٽ انڪوڊر ذريعي ٽيڪسٽ ايمبيڊنگ ۾ بدلائي ٿو.
Imagen هڪ diffusion ماڊل استعمال ڪري ٿو جيڪو سکي ٿو ته شور جي نموني کي تصويرن ۾ ڪيئن بدلجي. انهن تصويرن جي شروعاتي پيداوار گهٽ ريزوليوشن هوندي آهي ۽ بعد ۾ هڪ ٻئي ماڊل مان گذري وينديون آهن جن کي سپر ريزوليوشن ڊفيوشن ماڊل چيو ويندو آهي ته جيئن آخري تصوير جي ريزوليوشن کي وڌايو وڃي. پهريون ڊفيوشن ماڊل 64 × 64 پکسل تصوير ڪڍي ٿو ۽ بعد ۾ هڪ اعلي ريزوليوشن 1024 × 1024 تصوير تائين پهچايو ويو آهي.
Imagen ٽيم جي تحقيق جي بنياد تي، وڏي منجهيل ٻولي جا ماڊل جيڪي صرف ٽيڪسٽ ڊيٽا تي تربيت يافته آهن، اڃا به انتهائي موثر ٽيڪسٽ انڪوڊرز آهن جيڪي ٽيڪسٽ کان تصويري نسل لاءِ آهن.
مطالعي ۾ متحرڪ حد جي تصور کي پڻ متعارف ڪرايو ويو آهي. اهو طريقو تصويرن کي وڌيڪ فوٽوريئلسٽ ظاهر ڪرڻ جي قابل بنائي ٿو جڏهن تصوير ٺاهيندي رهنمائي وزن وڌائيندي.
DALLE 2 بمقابلہ تصويرن جي ڪارڪردگي
گوگل جي بينچ مارڪ مان ابتدائي نتيجا ڏيکاري ٿو ته انساني جواب ڏيڻ وارا DALL-E 2 تي Imagen پاران ٺاهيل تصويرن کي ترجيح ڏين ٿا ۽ ٻين ٽيڪسٽ کان تصويري ماڊل جهڙوڪ Latent Diffusion ۽ VQGAN+CLIP.
Imagen ٽيم مان نڪرندڙ آئوٽ پڻ ڏيکاريو ويو آهي ته انهن جو ماڊل اسپيلنگ ٽيڪسٽ تي بهتر ڪارڪردگي ڏيکاري ٿو، DALL-E 2 ماڊل جي هڪ سڃاتل ڪمزوري.
جڏهن ته، گوگل اڃا تائين عوام لاء ماڊل جاري نه ڪيو آهي، اهو اڃا تائين ڏسڻ ۾ اچي ٿو ته گوگل جا معيار ڪيترا درست آهن.
ٿڪل
فوٽو ريئلسٽڪ ٽيڪسٽ کان تصويري ماڊلز جو اڀار تڪراري آهي ڇاڪاڻ ته اهي ماڊل غير اخلاقي استعمال لاءِ تيار آهن.
ٽيڪنالاجي شايد واضح مواد جي تخليق يا غلط معلومات جي اوزار جي طور تي. گوگل ۽ اوپن اي آءِ ٻنهي جا محقق ان کان واقف آهن، اهو ئي سبب آهي جو اهي ٽيڪنالاجيون اڃا تائين هر ڪنهن جي پهچ ۾ نه آهن.
متن کان تصويري ماڊل پڻ اهم معاشي اثر رکن ٿا. ڇا پيشو جيئن ماڊل، فوٽوگرافر، ۽ فنڪار متاثر ٿيندا جيڪڏهن ماڊل جهڙوڪ DALL-E مکيه وهڪرو بڻجي ويندا؟
هن وقت، اهي ماڊل اڃا تائين حدون آهن. ڪنهن به AI ٺاهيل تصوير کي ڇنڊڇاڻ لاءِ رکڻ ان جي خامين کي ظاهر ڪندو. OpenAI ۽ گوگل ٻنهي سان گڏ سڀ کان وڌيڪ موثر ماڊلز لاءِ مقابلو ڪري رهيا آهن، اهو ٿي سگهي ٿو ته وقت جي ڳالهه هجي ان کان اڳ جو هڪ واقعي مڪمل پيداوار پيدا ٿئي: هڪ تصوير جيڪا حقيقي شيءِ کان الڳ نه ٿي سگهي.
توهان ڇا سوچيو ته ڇا ٿيندو جڏهن ٽيڪنالاجي ايتري پري ٿيندي؟
جواب ڇڏي وڃو