کی میز کے مندرجات[چھپائیں][دکھائیں]
آپ غالباً اس بات سے واقف ہوں گے کہ کمپیوٹر تصویر کو بیان کر سکتا ہے۔
مثال کے طور پر، آپ کے بچوں کے ساتھ کھیلنے والے کتے کی تصویر کا ترجمہ 'باغ میں کتا اور بچے' کے طور پر کیا جا سکتا ہے۔ لیکن کیا آپ جانتے ہیں کہ اس کے برعکس راستہ اب بھی ممکن ہے؟ آپ کچھ الفاظ ٹائپ کرتے ہیں، اور مشین ایک نئی تصویر بناتی ہے۔
گوگل سرچ کے برعکس، جو موجودہ تصویروں کو تلاش کرتا ہے، یہ سب تازہ ہے۔ حالیہ برسوں میں، اوپن اے آئی ایک سرکردہ تنظیم رہی ہے، جو شاندار نتائج کی اطلاع دیتی ہے۔
وہ اپنے الگورتھم کو بڑے پیمانے پر متن اور تصویری ڈیٹا بیس پر تربیت دیتے ہیں۔ انہوں نے اپنے GLIDE امیج ماڈل پر ایک مقالہ شائع کیا، جس کی تربیت لاکھوں تصاویر پر کی گئی تھی۔ فوٹو ریئلزم کے لحاظ سے، یہ ان کے سابقہ 'DALL-E' ماڈل سے بہتر کارکردگی کا مظاہرہ کرتا ہے۔
اس پوسٹ میں، ہم OpenAI کے GLIDE کو دیکھیں گے، جو کہ متن کی رہنمائی والے ڈفیوژن ماڈلز کے ساتھ فوٹو ریئلسٹک تصویروں کی تیاری اور اس میں ردوبدل کرنے کے متعدد دلچسپ اقدامات میں سے ایک ہے۔ چلو شروع کریں.
کیا ہے AI گلائیڈ کھولیں۔?
اگرچہ زیادہ تر تصاویر کو الفاظ میں بیان کیا جا سکتا ہے، لیکن ٹیکسٹ ان پٹس سے تصاویر بنانے کے لیے خصوصی علم اور خاصے وقت کی ضرورت ہوتی ہے۔
ایک AI ایجنٹ کو قدرتی زبان کے اشارے سے فوٹو ریئلسٹک تصویریں بنانے کی اجازت دینے سے نہ صرف لوگوں کو بے مثال آسانی کے ساتھ بھرپور اور متنوع بصری مواد تخلیق کرنے کی اجازت ملتی ہے بلکہ تخلیق کردہ تصاویر پر آسان تکراری تطہیر اور عمدہ کنٹرول کی بھی اجازت ملتی ہے۔
GLIDE کو نئی اشیاء داخل کرنے، سائے اور عکاسی بنانے، کارکردگی دکھانے کے لیے قدرتی زبان کے متن کے اشارے کا استعمال کرتے ہوئے موجودہ تصاویر میں ترمیم کرنے کے لیے استعمال کیا جا سکتا ہے۔ تصویر کی پینٹنگ، اور اسی طرح.
یہ بنیادی لائن ڈرائنگ کو فوٹو ریئلسٹک تصویروں میں بھی بدل سکتا ہے، اور اس میں پیچیدہ حالات کے لیے غیر معمولی صفر نمونہ مینوفیکچرنگ اور مرمت کی صلاحیتیں ہیں۔
حالیہ تحقیق نے یہ ثابت کیا ہے کہ امکانات پر مبنی ڈفیوژن ماڈلز بھی اعلیٰ معیار کی مصنوعی تصویریں تیار کر سکتے ہیں، خاص طور پر جب ایک رہنمائی نقطہ نظر کے ساتھ جوڑ کر مختلف قسم اور وفاداری کو متوازن کرتا ہے۔
اوپن اے آئی نے شائع کیا۔ گائیڈڈ ڈفیوژن ماڈل مئی میں، جو ڈفیوژن ماڈلز کو درجہ بندی کرنے والے کے لیبل پر مشروط ہونے کی اجازت دیتا ہے۔ GLIDE متن کی مشروط تصویر کی تخلیق کے مسئلے میں رہنمائی پھیلانے کے ذریعے اس کامیابی کو بہتر بناتا ہے۔
ایک 3.5 بلین پیرامیٹر GLIDE ڈفیوژن ماڈل کی تربیت کے بعد ایک ٹیکسٹ انکوڈر کا استعمال کرتے ہوئے فطری زبان کی وضاحتوں کی حالت میں، محققین نے دو متبادل رہنمائی کی حکمت عملیوں کا تجربہ کیا: CLIP رہنمائی اور درجہ بندی سے پاک رہنمائی۔
CLIP متن اور تصویروں کی مشترکہ نمائندگی کو سیکھنے کے لیے ایک قابل توسیع تکنیک ہے جو ایک اسکور فراہم کرتی ہے جس کی بنیاد پر تصویر کیپشن کے کتنے قریب ہے۔
ٹیم نے اس حکمت عملی کو اپنے ڈفیوژن ماڈلز میں کلاسیفائر کو ایک CLIP ماڈل کے ساتھ بدل کر استعمال کیا جو ماڈلز کی "رہنمائی" کرتا ہے۔ دریں اثنا، درجہ بندی سے پاک رہنمائی ڈفیوژن ماڈلز کو ہدایت کرنے کی حکمت عملی ہے جس میں علیحدہ درجہ بندی کرنے والے کی تربیت شامل نہیں ہے۔
گلائیڈ آرکیٹیکچر
GLIDE فن تعمیر تین اجزاء پر مشتمل ہے: ایک Ablated Diffusion Model (ADM) جسے 64×64 امیج بنانے کے لیے تربیت دی گئی ہے، ایک ٹیکسٹ ماڈل (ٹرانسفارمر) جو کہ ٹیکسٹ پرامپٹ کے ذریعے امیج جنریشن کو متاثر کرتا ہے، اور ایک نمونہ لینے والا ماڈل جو ہمارے چھوٹے 64×64 کو تبدیل کرتا ہے۔ مزید قابل تشریح 256 x 256 پکسلز کی تصاویر۔
پہلے دو اجزاء تصویر بنانے کے عمل کو کنٹرول کرنے کے لیے مل کر کام کرتے ہیں تاکہ یہ متن کے پرامپٹ کی مناسب عکاسی کرے، جب کہ بعد میں ان تصاویر کو سمجھنے میں آسانی پیدا کرنے کے لیے ضروری ہے۔ GLIDE پروجیکٹ ایک سے متاثر تھا۔ رپورٹ 2021 میں شائع ہوئی۔ جس سے ظاہر ہوتا ہے کہ تصویر کے نمونے کے معیار کے لحاظ سے ADM تکنیکوں نے فی الحال مقبول، جدید ترین جنریٹو ماڈلز سے بہتر کارکردگی کا مظاہرہ کیا۔
ADM کے لیے، GLIDE مصنفین نے اسی ImageNet 64 x 64 ماڈل کو دھاریوال اور نکول کے طور پر استعمال کیا، لیکن 512 کے بجائے 64 چینلز کے ساتھ۔ اس کے نتیجے میں ImageNet ماڈل میں تقریباً 2.3 بلین پیرامیٹرز ہیں۔
GLIDE ٹیم، دھاریوال اور نکول کے برعکس، تصویر بنانے کے عمل پر براہ راست زیادہ کنٹرول حاصل کرنا چاہتی تھی، اس طرح انہوں نے بصری ماڈل کو توجہ کے قابل ٹرانسفارمر کے ساتھ جوڑ دیا۔ GLIDE آپ کو ٹیکسٹ ان پٹ پرامپٹس پر کارروائی کرکے تصویر بنانے کے عمل کے آؤٹ پٹ پر کچھ کنٹرول فراہم کرتا ہے۔
یہ ٹرانسفارمر ماڈل کو فوٹوز اور کیپشنز کے مناسب بڑے ڈیٹاسیٹ پر تربیت دے کر پورا کیا جاتا ہے (DALL-E پروجیکٹ میں کام کرنے والے کی طرح)۔
متن کو ابتدائی طور پر K ٹوکن کی ایک سیریز میں انکوڈ کیا جاتا ہے تاکہ اسے کنڈیشن کیا جاسکے۔ اس کے بعد، ٹوکنز کو ٹرانسفارمر ماڈل میں لوڈ کیا جاتا ہے۔ ٹرانسفارمر کی آؤٹ پٹ پھر دو طریقوں سے استعمال کی جا سکتی ہے۔ ADM ماڈل کے لیے، کلاس ایمبیڈنگ کے بجائے حتمی ٹوکن ایمبیڈنگ کا استعمال کیا جاتا ہے۔
دوسرا، ٹوکن ایمبیڈنگز کی آخری پرت – فیچر ویکٹرز کی ایک سیریز – کو ADM ماڈل میں ہر توجہ کی پرت کے طول و عرض سے آزادانہ طور پر پیش کیا جاتا ہے اور ہر توجہ کے سیاق و سباق سے مربوط ہوتا ہے۔
درحقیقت، یہ ADM ماڈل کو ایک منفرد اور فوٹو ریئلسٹک انداز میں ملتے جلتے ٹیکسٹ ٹوکنز کے نئے امتزاج سے تصویر بنانے کے قابل بناتا ہے، جس کی بنیاد پر ان پٹ کے الفاظ اور ان سے متعلقہ امیجز کے بارے میں سیکھی گئی سمجھ کی بنیاد پر۔ یہ ٹیکسٹ انکوڈنگ ٹرانسفارمر 1.2 بلین پیرامیٹرز پر مشتمل ہے اور 24 کی چوڑائی کے ساتھ 2048 بچ جانے والے بلاکس کو ملازمت دیتا ہے۔
آخر میں، upsampler diffusion ماڈل میں تقریباً 1.5 بلین پیرامیٹرز شامل ہیں اور یہ بنیادی ماڈل سے مختلف ہوتا ہے کہ اس کا ٹیکسٹ انکوڈر چھوٹا ہے، جس کی چوڑائی 1024 اور 384 بیس چینلز کے ساتھ، بیس ماڈل کے مقابلے میں۔ یہ ماڈل، جیسا کہ نام سے ظاہر ہوتا ہے، مشینوں اور انسانوں دونوں کے لیے تشریح کو بہتر بنانے کے لیے نمونے کو اپ گریڈ کرنے میں مدد کرتا ہے۔
بازی ماڈل
GLIDE ADM کے اپنے ورژن کا استعمال کرتے ہوئے تصاویر بناتا ہے (ADM-G برائے "گائیڈڈ")۔ ADM-G ماڈل بازی U-net ماڈل کی ایک ترمیم ہے۔ ایک بازی U-net ماڈل زیادہ عام تصویری ترکیب کی تکنیک جیسے VAE، GAN، اور ٹرانسفارمرز سے ڈرامائی طور پر مختلف ہے۔
وہ اعداد و شمار میں بے ترتیب شور کو بتدریج انجیکشن کرنے کے لیے بازی کے مراحل کی مارکوف چین بناتے ہیں، اور پھر بازی کے عمل کو ریورس کرنا سیکھتے ہیں اور صرف شور سے مطلوبہ ڈیٹا کے نمونے دوبارہ بناتے ہیں۔ یہ دو مراحل میں کام کرتا ہے: آگے اور ریورس بازی۔
فارورڈ ڈفیوژن کا طریقہ، نمونے کی حقیقی تقسیم سے ڈیٹا پوائنٹ دیا جاتا ہے، قدموں کی ایک پیش سیٹ سیریز میں نمونے میں شور کی ایک چھوٹی سی مقدار شامل کرتا ہے۔ جیسے جیسے قدم سائز میں بڑھتے ہیں اور لامحدودیت تک پہنچتے ہیں، نمونہ تمام قابل شناخت خصوصیات کھو دیتا ہے اور ترتیب ایک isotropic Gaussian curve سے مشابہ ہونا شروع ہو جاتی ہے۔
پسماندہ بازی کے دوران مرحلہ، بازی کا ماڈل تصویروں پر شامل شور کے اثر کو ریورس کرنا سیکھتا ہے اور اصل ان پٹ نمونے کی تقسیم سے مشابہت پیدا کرنے کی کوشش کرکے تیار کردہ تصویر کو اس کی اصل شکل میں لے جاتا ہے۔
ایک مکمل ماڈل ایک حقیقی گاوسی شور ان پٹ اور ایک پرامپٹ کے ساتھ ایسا کر سکتا ہے۔ ADM-G طریقہ پچھلے سے مختلف ہوتا ہے جس میں ایک ماڈل، یا تو CLIP یا حسب ضرورت ٹرانسفارمر، ٹیکسٹ پرامپٹ ٹوکنز کو استعمال کرتے ہوئے پسماندہ پھیلاؤ کے مرحلے کو متاثر کرتا ہے جو کہ داخل کیے گئے ہیں۔
گلائیڈ کی صلاحیتیں۔
1. تصویر کی تخلیق
GLIDE کا سب سے زیادہ مقبول اور بڑے پیمانے پر استعمال ہونے والا ممکنہ طور پر تصویر کی ترکیب ہو گی۔ اگرچہ تصویریں معمولی ہیں اور GLIDE کو جانوروں/انسانی شکلوں کے ساتھ دشواری کا سامنا ہے، لیکن ایک شاٹ تصویر کی تیاری کا امکان تقریباً لامتناہی ہے۔
یہ جانوروں، مشہور شخصیات، مناظر، عمارتوں اور بہت کچھ کی تصاویر بنا سکتا ہے، اور یہ اسے مختلف قسم کے آرٹ اسٹائل کے ساتھ ساتھ تصویری حقیقت پسندی کے ساتھ بھی کرسکتا ہے۔ محققین کے مصنفین اس بات پر زور دیتے ہیں کہ GLIDE متنی آدانوں کی ایک وسیع اقسام کو بصری شکل میں تشریح اور ڈھالنے کی صلاحیت رکھتا ہے، جیسا کہ ذیل کے نمونوں میں دیکھا گیا ہے۔
2. گلائیڈ ان پینٹنگ
GLIDE کی خودکار تصویر میں پینٹنگ یقیناً سب سے زیادہ دلچسپ استعمال ہے۔ GLIDE کسی موجودہ تصویر کو ان پٹ کے طور پر لے سکتا ہے، اس پر ٹیکسٹ پرامپٹ کو ذہن میں رکھ کر ان مقامات کے لیے پروسیس کر سکتا ہے جن کو تبدیل کرنے کی ضرورت ہے، اور پھر آسانی کے ساتھ ان حصوں میں فعال ترمیم کر سکتے ہیں۔
اور بھی بہتر نتائج پیدا کرنے کے لیے اسے ایڈیٹنگ ماڈل، جیسے SDEdit کے ساتھ مل کر استعمال کیا جانا چاہیے۔ مستقبل میں، ایسی ایپس جو اس طرح کی صلاحیتوں سے فائدہ اٹھاتی ہیں، کوڈ سے پاک تصویر کو تبدیل کرنے کے طریقوں کو تیار کرنے میں اہم ہو سکتی ہیں۔
نتیجہ
اب جب کہ ہم اس عمل سے گزر چکے ہیں، آپ کو بنیادی باتوں کو سمجھنا چاہیے کہ GLIDE کس طرح کام کرتا ہے، نیز تصویر بنانے اور تصویر میں ترمیم کرنے میں اس کی صلاحیتوں کی وسعت۔
جواب دیجئے