ڈفیوژن ماڈل کا تعارف

کی میز کے مندرجات[چھپائیں][دکھائیں]

ڈفیوژن ماڈل کیا ہے؟
ڈفیوژن ماڈل میں گہرا غوطہ لگائیں۔+-
حتمی مقصد
ڈفیوژن ماڈل کے فوائد
نتیجہ

حالیہ برسوں میں، جنریٹیو ماڈلز جنہیں "ڈفیوژن ماڈلز" کہا جاتا ہے، تیزی سے مقبول ہوئے ہیں، اور اچھی وجہ سے۔

دنیا نے دیکھا ہے کہ ڈفیوژن ماڈل کس قابل ہیں، جیسے کہ تصویر کی ترکیب پر GAN کو بہتر کارکردگی کا مظاہرہ کرنا، صرف 2020 اور 2021 میں شائع ہونے والی چند اہم اشاعتوں کی بدولت۔

پریکٹیشنرز نے حال ہی میں ڈفیوژن ماڈلز کا استعمال دیکھا DALL-E2، اوپن اے آئی کا امیج تخلیق ماڈل جو پچھلے مہینے شائع ہوا تھا۔

بہت سے مشین لرننگ پریکٹیشنرز بلاشبہ ڈفیوژن ماڈلز کے اندرونی کام کے بارے میں دلچسپی رکھتے ہیں کیونکہ ان کی حالیہ کامیابیوں میں اضافہ ہے۔

اس پوسٹ میں، ہم ڈفیوژن ماڈلز کی نظریاتی بنیادوں، ان کے ڈیزائن، ان کے فوائد اور بہت کچھ دیکھیں گے۔ چلو چلتے ہیں۔

ڈفیوژن ماڈل کیا ہے؟

آئیے یہ معلوم کرکے شروع کریں کہ اس ماڈل کو ڈفیوژن ماڈل کیوں کہا جاتا ہے۔

طبیعیات کی کلاسوں میں تھرموڈینامکس سے متعلق ایک لفظ کو بازی کہتے ہیں۔ ایک نظام توازن میں نہیں ہے اگر کسی مادے کی ایک بڑی تعداد، جیسے خوشبو، ایک جگہ پر ہو۔

نظام کے توازن میں داخل ہونے کے لیے بازی ہونا ضروری ہے۔ خوشبو کے مالیکیولز زیادہ ارتکاز والے علاقے سے پورے نظام میں پھیل جاتے ہیں، جس سے نظام بھر میں یکساں ہو جاتا ہے۔

ہر چیز بازی کی وجہ سے بالآخر یکساں ہو جاتی ہے۔

ڈفیوژن ماڈل اس تھرموڈینامک غیر متوازن حالت سے متحرک ہیں۔ ڈفیوژن ماڈلز مارکوف چین کا استعمال کرتے ہیں، جو کہ متغیرات کا ایک سلسلہ ہے جہاں ہر متغیر کی قدر سابقہ واقعہ کی حالت پر انحصار کرتی ہے۔

ایک تصویر کھینچتے ہوئے، ہم پورے فارورڈ ڈفیوژن مرحلے میں یکے بعد دیگرے اس میں شور کی ایک خاص مقدار شامل کرتے ہیں۔

شور والی تصویر کو ذخیرہ کرنے کے بعد، ہم اضافی شور متعارف کروا کر سیریز میں بعد کی تصویر بنانے کے لیے آگے بڑھتے ہیں۔

کئی بار، یہ طریقہ کار کیا جاتا ہے. اس طریقہ کو چند بار دہرانے سے خالص شور کی تصویر نکلتی ہے۔

پھر ہم اس بے ترتیبی سے تصویر کیسے بنا سکتے ہیں؟

بازی کا عمل a کا استعمال کرتے ہوئے الٹ جاتا ہے۔ عصبی نیٹ ورک. ایک ہی نیٹ ورکس اور ایک ہی وزن کو t سے t-1 تک تصویر بنانے کے لیے پسماندہ بازی کے عمل میں استعمال کیا جاتا ہے۔

نیٹ ورک کو تصویر کا اندازہ لگانے کی بجائے، کوئی بھی ہر قدم پر شور کی پیشین گوئی کرنے کی کوشش کر سکتا ہے، جس کو تصویر سے ہٹانا پڑتا ہے، تاکہ کام کو مزید آسان بنایا جا سکے۔

کسی بھی منظر نامے میں، اعصابی نیٹ ورک ڈیزائن اس طریقے سے منتخب کیا جانا چاہیے جو ڈیٹا کی جہت کو برقرار رکھے۔

ڈفیوژن ماڈل میں گہرا غوطہ لگائیں۔

ڈفیوژن ماڈل کے اجزاء ایک آگے بڑھنے کا عمل ہیں (جسے بازی کا عمل بھی کہا جاتا ہے)، جس میں ایک ڈیٹم (اکثر ایک تصویر) آہستہ آہستہ شور ہوتا ہے، اور ایک الٹا عمل (جسے ریورس بازی عمل بھی کہا جاتا ہے)، جس میں شور ہوتا ہے۔ ہدف کی تقسیم سے واپس نمونے میں تبدیل کیا گیا۔

جب شور کی سطح کافی کم ہوتی ہے، تو آگے کے عمل میں نمونے لینے کے سلسلے کی منتقلی کو قائم کرنے کے لیے مشروط گاؤسیاں استعمال کی جا سکتی ہیں۔ اس علم کو مارکوف کے مفروضے کے ساتھ جوڑنے کے نتیجے میں آگے بڑھنے کے عمل کی ایک آسان پیرامیٹرائزیشن:

q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)

یہاں 1،XNUMX،XNUMX….T ایک تغیراتی نظام الاوقات ہے (یا تو سیکھا ہوا یا طے شدہ) جو کافی زیادہ T کے لیے یہ یقین دلاتا ہے کہ xT عملی طور پر ایک isotropic Gaussian ہے۔

بڑی T

مخالف عمل وہ ہے جہاں پھیلاؤ ماڈل جادو ہوتا ہے۔ ماڈل تازہ ڈیٹا تیار کرنے کے لیے تربیت کے دوران اس بازی کے عمل کو ریورس کرنا سیکھتا ہے۔ ماڈل مشترکہ تقسیم کو اس طرح سیکھتا ہے۔ (x0:T) خالص گاوسی شور مساوات سے شروع ہونے کا نتیجہ

(xT):=N(xT,0,I)۔

pθ(x0:T) := p(xT) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt، t))

جہاں گاوسی ٹرانزیشن کے وقت پر منحصر پیرامیٹرز دریافت ہوتے ہیں۔ خاص طور پر، اس بات کو نوٹ کریں کہ مارکوف کی تشکیل کس طرح بتاتی ہے کہ دی گئی ریورس ڈفیوژن ٹرانزیشن ڈسٹری بیوشن کا انحصار خاص طور پر پرانے ٹائم سٹیپ پر ہوتا ہے (یا اس کے بعد کا ٹائم سٹیپ، اس پر منحصر ہے کہ آپ اسے کیسے دیکھتے ہیں):

pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))

ماڈل ٹریننگ

ایک ریورس مارکوف ماڈل جو تربیتی اعداد و شمار کے امکان کو زیادہ سے زیادہ کرتا ہے ایک بازی ماڈل کو تربیت دینے کے لیے استعمال کیا جاتا ہے۔ عملی طور پر، تربیت منفی لاگ امکان پر متغیر بالائی حد کو کم کرنے کے مترادف ہے۔

E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L

ماڈل

ہمیں اب یہ فیصلہ کرنے کی ضرورت ہے کہ اپنے مقصد کے فنکشن کی ریاضیاتی بنیادوں کو قائم کرنے کے بعد اپنے ڈفیوژن ماڈل کو کیسے عمل میں لایا جائے۔ آگے بڑھنے کے عمل کے لیے درکار واحد فیصلہ تغیراتی نظام الاوقات کا تعین کرنا ہے، جس کی قدریں عام طور پر طریقہ کار کے دوران بڑھتی ہیں۔

ہم معکوس طریقہ کار کے لیے Gaussian ڈسٹری بیوشن پیرامیٹرائزیشن اور ماڈل فن تعمیر کے استعمال پر سختی سے غور کرتے ہیں۔

ہمارے ڈیزائن کی واحد شرط یہ ہے کہ ان پٹ اور آؤٹ پٹ دونوں ایک جیسے ہیں۔ یہ آزادی کی بے پناہ ڈگری کو واضح کرتا ہے جو ڈفیوژن ماڈلز فراہم کرتے ہیں۔

ذیل میں، ہم ان اختیارات کے بارے میں مزید گہرائی میں جائیں گے۔

آگے بڑھانے کا عمل

ہمیں آگے بڑھنے کے عمل کے سلسلے میں تغیر کا شیڈول فراہم کرنا چاہیے۔ ہم نے انہیں خاص طور پر وقت پر منحصر مستقل مقرر کیا اور اس امکان کو نظر انداز کیا کہ وہ سیکھ سکتے ہیں۔ سے ایک تاریخی شیڈول

β1 = 10−4 سے βT = 0.02.

Lt طے شدہ تغیراتی نظام الاوقات کی وجہ سے ہمارے سیکھنے کے قابل پیرامیٹرز کے سیٹ کے سلسلے میں ایک مستقل بن جاتا ہے، جس سے ہمیں تربیت کے دوران اس کو نظر انداز کرنے کی اجازت ملتی ہے، قطع نظر اس کی منتخب کردہ مخصوص اقدار سے قطع نظر۔

ریورس عمل

اب ہم معکوس عمل کی وضاحت کے لیے درکار فیصلوں پر غور کرتے ہیں۔ یاد رکھیں کہ ہم نے معکوس مارکوف ٹرانزیشن کو گاوسی کے طور پر کیسے بیان کیا:

pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))

اب جب کہ ہم نے فنکشنل اقسام کی نشاندہی کی ہے۔. اس حقیقت کے باوجود کہ پیرامیٹرائز کرنے کے لیے مزید پیچیدہ تکنیکیں موجود ہیں، ہم نے ابھی سیٹ کیا ہے۔

Σθ(xt, t) = σ 2 t I

σ 2 t = βt

اسے دوسرے طریقے سے بیان کرنے کے لیے، ہم ملٹی ویریٹ Gaussian کو ایک ہی تغیر کے ساتھ علیحدہ Gaussian کا نتیجہ سمجھتے ہیں، ایک تغیر کی قدر جو وقت کے ساتھ ساتھ اتار چڑھاؤ آ سکتی ہے۔ یہ انحرافات آگے بڑھانے کے عمل کے انحراف کے ٹائم ٹیبل سے مماثل ہیں۔

اس نئی تشکیل کے نتیجے میں، ہمارے پاس ہے:

pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)) :=N (xt−1; µθ (xt, t), σ2 t I)

اس کے نتیجے میں ذیل میں دکھایا گیا متبادل نقصان کا فعل ہوتا ہے، جسے مصنفین نے زیادہ مستقل تربیت اور اعلیٰ نتائج پیدا کرنے کے لیے پایا:

Lsimple(θ):= Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2

مصنفین پھیلاؤ کے ماڈلز اور لینگیوین پر مبنی اسکور سے مماثلت پیدا کرنے والے ماڈلز کی اس تشکیل کے درمیان بھی ربط کھینچتے ہیں۔ جیسا کہ لہر پر مبنی کوانٹم فزکس اور میٹرکس پر مبنی کوانٹم میکانکس کی آزاد اور متوازی ترقی کے ساتھ، جس نے ایک ہی مظاہر کے دو تقابلی فارمولیشنوں کا انکشاف کیا، ایسا معلوم ہوتا ہے کہ ڈفیوژن ماڈلز اور سکور پر مبنی ماڈلز ایک ہی سکے کے دو رخ ہو سکتے ہیں۔

نیٹ ورک فن تعمیر

اس حقیقت کے باوجود کہ ہمارے کنڈینسڈ نقصان کے فنکشن کا مقصد ایک ماڈل کو تربیت دینا ہے۔ Σθہم نے ابھی تک اس ماڈل کے فن تعمیر کا فیصلہ نہیں کیا ہے۔ ذہن میں رکھیں کہ ماڈل میں صرف ایک ہی ان پٹ اور آؤٹ پٹ کے طول و عرض کا ہونا ضروری ہے۔

اس رکاوٹ کو دیکھتے ہوئے، یہ شاید غیر متوقع نہیں ہے کہ U-Net جیسے فن تعمیرات کو تصویر کے پھیلاؤ کے ماڈل بنانے کے لیے کثرت سے استعمال کیا جاتا ہے۔

نیٹ ورک فن تعمیر

مسلسل مشروط گاوسی تقسیم کا استعمال کرتے ہوئے معکوس عمل کے راستے میں متعدد تبدیلیاں کی جاتی ہیں۔ یاد رکھیں کہ ریورس طریقہ کار کا مقصد عددی پکسل ویلیو سے بنی تصویر بنانا ہے۔ اس لیے تمام پکسلز پر ہر ممکنہ پکسل ویلیو کے لیے مجرد (لاگ) امکانات کا تعین کرنا ضروری ہے۔

یہ ریورس ڈفیوژن چین کی آخری منتقلی کے لیے ایک علیحدہ مجرد ڈیکوڈر تفویض کرکے پورا کیا جاتا ہے۔ کسی خاص تصویر کے امکانات کا اندازہ لگانا x0 دی x1

pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx

δ+(x) = ∞ اگر x = 1 x + 1 255 اگر x < 1 δ−(x) = −∞ اگر x = −1 x − 1 255 اگر x > −1

جہاں سپر اسکرپٹ I ایک کوآرڈینیٹ کے اخراج کی نشاندہی کرتا ہے اور D ڈیٹا میں طول و عرض کی تعداد کو ظاہر کرتا ہے۔

اس مقام پر مقصد ایک مخصوص پکسل کے لیے ہر عددی قدر کے امکان کو قائم کرنا ہے جس کے مطابق اس پکسل کی ممکنہ قدروں کی تقسیم وقت کے مختلف ہونے میں t=1۔

حتمی مقصد

سائنس دانوں کے مطابق سب سے بڑے نتائج ایک خاص وقت پر تصویر کے شور والے جز کی پیش گوئی کرنے سے آئے۔ آخر میں، وہ مندرجہ ذیل مقصد کو استعمال کرتے ہیں:

Lsimple(θ):= Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2

مندرجہ ذیل تصویر میں، ہمارے بازی ماڈل کے لیے تربیت اور نمونے لینے کے طریقہ کار کو اختصار کے ساتھ دکھایا گیا ہے:

حتمی مقصد

ڈفیوژن ماڈل کے فوائد

جیسا کہ پہلے ہی اشارہ کیا گیا تھا، بازی ماڈلز پر تحقیق کی مقدار میں حال ہی میں کئی گنا اضافہ ہوا ہے۔ ڈفیوژن ماڈلز اب جدید ترین تصویری معیار فراہم کرتے ہیں اور غیر متوازن تھرموڈینامکس سے متاثر ہیں۔

ڈفیوژن ماڈلز تصویر کے جدید معیار کے علاوہ متعدد دیگر فوائد فراہم کرتے ہیں، جیسے کہ مخالفانہ تربیت کی ضرورت نہیں ہے۔

مخالفانہ تربیت کی خرابیاں بڑے پیمانے پر معلوم ہیں، اس لیے مساوی کارکردگی اور تربیت کی تاثیر کے ساتھ غیر مخالف متبادل کا انتخاب کرنا اکثر افضل ہوتا ہے۔

ڈفیوژن ماڈلز تربیت کی تاثیر کے لحاظ سے اسکیل ایبلٹی اور ہم آہنگی کے فوائد بھی فراہم کرتے ہیں۔

اگرچہ ڈفیوژن ماڈلز بظاہر پتلی ہوا سے باہر نتائج پیدا کرتے دکھائی دیتے ہیں، لیکن ان نتائج کی بنیاد بہت سے سوچے سمجھے اور دلچسپ ریاضیاتی فیصلوں اور باریکیوں سے رکھی گئی ہے، اور صنعت کے بہترین طریقوں کو اب بھی تیار کیا جا رہا ہے۔

نتیجہ

آخر میں، محققین ڈفیوژن امکانی ماڈلز کا استعمال کرتے ہوئے اعلیٰ معیار کی تصویری ترکیب کے نتائج کا مظاہرہ کرتے ہیں، غیر متوازن تھرموڈینامکس کے خیالات سے متحرک متغیر ماڈلز کی ایک کلاس۔

انہوں نے اپنے جدید ترین نتائج اور غیر مخالف تربیت کی بدولت زبردست چیزیں حاصل کی ہیں اور ان کے بچپن کو دیکھتے ہوئے آنے والے سالوں میں مزید ترقی کی توقع کی جا سکتی ہے۔

خاص طور پر، یہ دریافت کیا گیا ہے کہ ڈفیوژن ماڈلز DALL-E 2 جیسے جدید ماڈلز کی فعالیت کے لیے اہم ہیں۔

یہاں آپ مکمل تحقیق تک رسائی حاصل کر سکتے ہیں۔

ڈفیوژن ماڈل کا تعارف

ڈفیوژن ماڈل کیا ہے؟