সাম্প্রতিক বছরগুলিতে, "ডিফিউশন মডেল" নামে পরিচিত জেনারেটিভ মডেলগুলি ক্রমবর্ধমান জনপ্রিয় হয়ে উঠেছে, এবং ভাল কারণ সহ।
2020 এবং 2021-এর দশকে প্রকাশিত কয়েকটি নির্দিষ্ট ল্যান্ডমার্ক প্রকাশনার জন্য ধন্যবাদ, ছবি সংশ্লেষণে GAN-কে ছাড়িয়ে যাওয়ার মতো ডিফিউশন মডেলগুলি কী করতে সক্ষম তা বিশ্ব দেখেছে।
প্র্যাকটিশনাররা সম্প্রতি ডিফিউশন মডেলের ব্যবহার দেখেছেন DALL-E2, OpenAI এর ছবি তৈরির মডেল যা গত মাসে প্রকাশিত হয়েছিল।
অনেক মেশিন লার্নিং অনুশীলনকারী নিঃসন্দেহে তাদের সাম্প্রতিক সাফল্যের কারণে ডিফিউশন মডেলগুলির অভ্যন্তরীণ কার্যকারিতা সম্পর্কে আগ্রহী।
এই পোস্টে, আমরা ডিফিউশন মডেলগুলির তাত্ত্বিক ভিত্তি, তাদের নকশা, তাদের সুবিধাগুলি এবং আরও অনেক কিছু দেখব। চল চলতে থাকি.
ডিফিউশন মডেল কি?
চলুন শুরু করা যাক কেন এই মডেলটিকে ডিফিউশন মডেল হিসাবে উল্লেখ করা হয়।
পদার্থবিদ্যার ক্লাসে তাপগতিবিদ্যা সম্পর্কিত একটি শব্দকে ডিফিউশন বলে। একটি সিস্টেমের ভারসাম্য বজায় থাকে না যদি একটি স্থানে একটি সুগন্ধের মতো একটি উপাদানের বৃহৎ ঘনত্ব থাকে।
সিস্টেমের ভারসাম্য প্রবেশ করার জন্য ডিফিউশন ঘটতে হবে। গন্ধের অণুগুলি একটি উচ্চতর ঘনত্বের অঞ্চল থেকে পুরো সিস্টেম জুড়ে ছড়িয়ে পড়ে, যা সিস্টেমটিকে জুড়ে অভিন্ন করে তোলে।
বিস্তারের কারণে সবকিছু শেষ পর্যন্ত একজাতীয় হয়ে যায়।
ডিফিউশন মডেলগুলি এই থার্মোডাইনামিক অ-ভারসাম্য অবস্থা দ্বারা অনুপ্রাণিত হয়। ডিফিউশন মডেলগুলি একটি মার্কভ চেইন ব্যবহার করে, যা ভেরিয়েবলের একটি সিরিজ যেখানে প্রতিটি ভেরিয়েবলের মান পূর্বের ঘটনার অবস্থার উপর নির্ভর করে।
একটি ছবি তোলা, আমরা পর্যায়ক্রমে পুরো ফরোয়ার্ড ডিফিউশন ফেজ জুড়ে এটিতে একটি নির্দিষ্ট পরিমাণ শব্দ যোগ করি।
শোরগোল ইমেজ সংরক্ষণ করার পরে, আমরা অতিরিক্ত শব্দ প্রবর্তন করে সিরিজের পরবর্তী চিত্র তৈরি করতে এগিয়ে যাই।
বেশ কয়েকবার, এই পদ্ধতিটি করা হয়। এই পদ্ধতিটি কয়েকবার পুনরাবৃত্তি করার ফলে একটি বিশুদ্ধ শব্দের ছবি।
তাহলে কিভাবে আমরা এই বিশৃঙ্খল ইমেজ থেকে একটি ছবি তৈরি করতে পারি?
প্রসারণ প্রক্রিয়া একটি ব্যবহার করে বিপরীত হয় স্নায়বিক নেটওয়ার্ক. একই নেটওয়ার্ক এবং একই ওজন ব্যাকওয়ার্ড ডিফিউশন প্রক্রিয়ায় ব্যবহার করা হয় t থেকে t-1 পর্যন্ত ছবি তৈরি করতে।
নেটওয়ার্ককে ছবিটির পূর্বাভাস দেওয়ার পরিবর্তে, কেউ প্রতিটি ধাপে গোলমালের পূর্বাভাস দেওয়ার চেষ্টা করতে পারে, যা কাজটিকে আরও সহজ করার জন্য ছবিটি থেকে সরাতে হবে।
যে কোন পরিস্থিতিতে, নিউরাল নেটওয়ার্ক ডিজাইন এমনভাবে নির্বাচন করতে হবে যা ডেটার মাত্রা বজায় রাখে।
ডিফিউশন মডেলের গভীরে ডুব দিন
একটি ডিফিউশন মডেলের উপাদানগুলি হল একটি অগ্রবর্তী প্রক্রিয়া (এটি একটি প্রসারণ প্রক্রিয়া হিসাবেও পরিচিত), যেখানে একটি ডেটাম (প্রায়শই একটি চিত্র) ধীরে ধীরে শব্দ হয় এবং একটি বিপরীত প্রক্রিয়া (এছাড়াও একটি বিপরীত বিচ্ছুরণ প্রক্রিয়া হিসাবেও পরিচিত), যেখানে গোলমাল হয় লক্ষ্য বন্টন থেকে একটি নমুনায় ফিরে রূপান্তরিত.
যখন শব্দের মাত্রা যথেষ্ট কম হয়, তখন শর্তসাপেক্ষ গাউসিয়ানগুলিকে ফরোয়ার্ড প্রক্রিয়ায় স্যাম্পলিং চেইন ট্রানজিশন স্থাপন করতে ব্যবহার করা যেতে পারে। মার্কভ অনুমানের সাথে এই জ্ঞানকে সংযুক্ত করার ফলে ফরোয়ার্ড প্রক্রিয়ার একটি সহজ প্যারামিটারাইজেশন:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
এখানে 1 ...T হল একটি পরিবর্তনের সময়সূচী (হয় শেখা বা স্থির) যা নিশ্চিত করে যে, পর্যাপ্ত উচ্চ T-এর জন্য, xT কার্যত একটি আইসোট্রপিক গাউসিয়ান।
বিপরীত প্রক্রিয়া যেখানে প্রসারিত মডেল জাদু ঘটে। মডেলটি নতুন ডেটা তৈরি করার জন্য প্রশিক্ষণের সময় এই প্রসারণ প্রক্রিয়াটিকে বিপরীত করতে শেখে। মডেল হিসেবে যৌথ বন্টন শেখে (x0:T) বিশুদ্ধ গাউসিয়ান শব্দ সমীকরণ দিয়ে শুরু করার ফলাফল
(xT):=N(xT,0,I)।
pθ(x0:T) := p(xT) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))
যেখানে গাউসিয়ান ট্রানজিশনের সময়-নির্ভর পরামিতিগুলি আবিষ্কৃত হয়। বিশেষ করে, মার্কভ ফর্মুলেশনে কীভাবে বলা হয়েছে যে প্রদত্ত রিভার্স ডিফিউশন ট্রানজিশন ডিস্ট্রিবিউশন একচেটিয়াভাবে পূর্ববর্তী টাইমস্টেপের (বা পরবর্তী টাইমস্টেপ, আপনি এটিকে কীভাবে দেখছেন তার উপর নির্ভর করে):
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
মডেল প্রশিক্ষণ
একটি বিপরীত মার্কভ মডেল যা প্রশিক্ষণ ডেটার সম্ভাব্যতাকে সর্বাধিক করে তোলে তা একটি ডিফিউশন মডেলকে প্রশিক্ষণ দিতে ব্যবহৃত হয়। ব্যবহারিকভাবে বলতে গেলে, প্রশিক্ষণ নেতিবাচক লগ সম্ভাব্যতার উপর প্রকরণগত ঊর্ধ্বসীমা হ্রাস করার অনুরূপ।
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − লগ p(xT ) − X t≥1 লগ pθ(xt−1|xt) q (xt|xt−1) =: এল
মডেল
আমাদের লক্ষ্য ফাংশনের গাণিতিক ভিত্তি স্থাপন করার পরে আমাদের ডিফিউশন মডেলটি কীভাবে কার্যকর করা যায় তা আমাদের এখন সিদ্ধান্ত নিতে হবে। ফরোয়ার্ড প্রক্রিয়ার জন্য প্রয়োজনীয় একমাত্র সিদ্ধান্ত হল প্রকরণের সময়সূচী নির্ধারণ করা, যার মান সাধারণত প্রক্রিয়া চলাকালীন বৃদ্ধি পায়।
আমরা দৃঢ়ভাবে বিপরীত পদ্ধতির জন্য গাউসিয়ান ডিস্ট্রিবিউশন প্যারামিটারাইজেশন এবং মডেল আর্কিটেকচার ব্যবহার করে বিবেচনা করি।
আমাদের ডিজাইনের একমাত্র শর্ত হল ইনপুট এবং আউটপুট উভয়েরই মাত্রা একই। এটি ডিফিউশন মডেলগুলি সরবরাহ করে এমন স্বাধীনতার বিশাল ডিগ্রিকে আন্ডারলাইন করে।
নীচে, আমরা এই বিকল্পগুলি সম্পর্কে আরও গভীরে যাব।
ফরোয়ার্ড প্রক্রিয়া
আমাদের অবশ্যই ফরোয়ার্ড প্রক্রিয়ার সাথে বৈচিত্র্যের সময়সূচী প্রদান করতে হবে। আমরা বিশেষভাবে তাদের সময়-নির্ভর ধ্রুবক হিসাবে সেট করেছি এবং সেগুলি শেখার সম্ভাবনাকে উপেক্ষা করেছি। থেকে একটি কালানুক্রমিক সময়সূচী
β1 = 10−4 থেকে βT = 0.02.
Lt স্থির বৈচিত্র্যের সময়সূচীর কারণে আমাদের শেখার যোগ্য প্যারামিটারের সেটের ক্ষেত্রে একটি ধ্রুবক হয়ে ওঠে, যা নির্বাচিত নির্দিষ্ট মান নির্বিশেষে প্রশিক্ষণের সময় এটিকে উপেক্ষা করার অনুমতি দেয়।
বিপরীত প্রক্রিয়া
আমরা এখন বিপরীত প্রক্রিয়া সংজ্ঞায়িত করার জন্য প্রয়োজনীয় সিদ্ধান্তগুলি নিয়ে যাই। মনে রাখবেন কিভাবে আমরা বিপরীত মার্কভ ট্রানজিশনকে গাউসিয়ান হিসাবে বর্ণনা করেছি:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
এখন আমরা কার্যকরী প্রকারগুলি চিহ্নিত করেছি. প্যারামিটারাইজ করার আরও জটিল কৌশল থাকা সত্ত্বেও, আমরা ঠিক করেছি
Σθ(xt, t) = σ 2 t I
σ 2 t = βt
এটিকে অন্যভাবে বলতে গেলে, আমরা মাল্টিভেরিয়েট গাউসিয়ানকে একই ভিন্নতা সহ পৃথক গাউসিয়ানদের ফলাফল হিসাবে বিবেচনা করি, একটি ভিন্নতা মান যা সময়ের সাথে সাথে ওঠানামা করতে পারে। এই বিচ্যুতিগুলি ফরওয়ার্ডিং প্রক্রিয়া বিচ্যুতির সময়সূচীর সাথে মেলে সেট করা হয়েছে৷
ফলে নতুন এই প্রণয়ন, আমাদের আছে:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)):=N (xt−1; µθ (xt, t), σ2 t I)
এর ফলে নীচে দেখানো বিকল্প ক্ষতির ফাংশন দেখা যায়, যা লেখকরা আরও সামঞ্জস্যপূর্ণ প্রশিক্ষণ এবং উচ্চতর ফলাফল তৈরি করতে দেখেছেন:
Lsimple(θ):= Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
লেখকরা ডিফিউশন মডেলের এই ফর্মুলেশন এবং ল্যাঙ্গেভিন-ভিত্তিক স্কোর-ম্যাচিং জেনারেটিভ মডেলগুলির মধ্যে সংযোগও আঁকেন। তরঙ্গ-ভিত্তিক কোয়ান্টাম পদার্থবিদ্যা এবং ম্যাট্রিক্স-ভিত্তিক কোয়ান্টাম মেকানিক্সের স্বাধীন এবং সমান্তরাল বিকাশের সাথে, যা একই ঘটনার দুটি তুলনামূলক সূত্র প্রকাশ করেছে, এটি প্রদর্শিত হয় যে ডিফিউশন মডেল এবং স্কোর-ভিত্তিক মডেল একই মুদ্রার দুটি দিক হতে পারে।
নেটওয়ার্ক আর্কিটেকচার
আমাদের ঘনীভূত ক্ষতি ফাংশন একটি মডেল প্রশিক্ষণ লক্ষ্য করা সত্ত্বেও যে Σθ, আমরা এখনও এই মডেলের আর্কিটেকচারের বিষয়ে সিদ্ধান্ত নিইনি। মনে রাখবেন যে মডেলটিতে কেবল একই ইনপুট এবং আউটপুট মাত্রা থাকতে হবে।
এই সীমাবদ্ধতার পরিপ্রেক্ষিতে, এটি সম্ভবত অপ্রত্যাশিত নয় যে U-Net-এর মতো আর্কিটেকচারগুলি প্রায়শই ছবির প্রসারণ মডেল তৈরি করতে ব্যবহৃত হয়।
ক্রমাগত শর্তাধীন গাউসিয়ান ডিস্ট্রিবিউশন ব্যবহার করার সময় বিপরীত প্রক্রিয়ার রুট বরাবর অসংখ্য পরিবর্তন করা হয়। মনে রাখবেন যে বিপরীত পদ্ধতির লক্ষ্য হল পূর্ণসংখ্যা পিক্সেল মান দিয়ে তৈরি একটি ছবি তৈরি করা। সমস্ত পিক্সেলের উপর প্রতিটি সম্ভাব্য পিক্সেল মানের জন্য পৃথক (লগ) সম্ভাবনা নির্ধারণ করা তাই প্রয়োজনীয়।
এটি রিভার্স ডিফিউশন চেইনের শেষ ট্রানজিশনে একটি পৃথক পৃথক ডিকোডার বরাদ্দ করে সম্পন্ন করা হয়। একটি নির্দিষ্ট চিত্রের সম্ভাবনা অনুমান করা x0 প্রদত্ত x1।
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ যদি x = 1 x + 1 255 যদি x < 1 δ−(x) = −∞ যদি x = −1 x − 1 255 যদি x > −1
যেখানে সুপারস্ক্রিপ্ট I একটি স্থানাঙ্কের নিষ্কাশন নির্দেশ করে এবং D ডেটাতে মাত্রার সংখ্যা নির্দেশ করে।
এই মুহুর্তে উদ্দেশ্য হল একটি নির্দিষ্ট পিক্সেলের জন্য প্রতিটি পূর্ণসংখ্যার মানের সম্ভাবনা স্থাপন করা যা সময়-পরিবর্তনের মধ্যে সেই পিক্সেলের সম্ভাব্য মানের বন্টন দেওয়া হয়। t=1।
চূড়ান্ত উদ্দেশ্য
বিজ্ঞানীদের মতে সর্বশ্রেষ্ঠ ফলাফল একটি নির্দিষ্ট সময়ে একটি ছবির শব্দের উপাদানের পূর্বাভাস দিয়ে এসেছে। শেষ পর্যন্ত, তারা নিম্নলিখিত লক্ষ্য নিয়োগ করে:
Lsimple(θ):= Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
নিম্নলিখিত ছবিতে, আমাদের প্রসারিত মডেলের জন্য প্রশিক্ষণ এবং নমুনা পদ্ধতিগুলি সংক্ষিপ্তভাবে চিত্রিত করা হয়েছে:
ডিফিউশন মডেলের সুবিধা
ইতিমধ্যে ইঙ্গিত করা হয়েছে, প্রসারিত মডেলগুলিতে গবেষণার পরিমাণ সম্প্রতি বহুগুণ বেড়েছে। ডিফিউশন মডেলগুলি এখন অত্যাধুনিক চিত্রের গুণমান সরবরাহ করে এবং অ-ভারসাম্য থার্মোডাইনামিক্স দ্বারা অনুপ্রাণিত হয়।
ডিফিউশন মডেলগুলি অত্যাধুনিক ছবির গুণমান ছাড়াও অন্যান্য বিভিন্ন সুবিধা প্রদান করে, যেমন প্রতিপক্ষের প্রশিক্ষণের প্রয়োজন হয় না।
প্রতিকূল প্রশিক্ষণের ত্রুটিগুলি ব্যাপকভাবে পরিচিত, তাই সমতুল্য কর্মক্ষমতা এবং প্রশিক্ষণের কার্যকারিতা সহ অ-বিরোধী বিকল্পগুলি বেছে নেওয়া প্রায়শই পছন্দনীয়।
ডিফিউশন মডেলগুলি প্রশিক্ষণ কার্যকারিতার পরিপ্রেক্ষিতে স্কেলেবিলিটি এবং সমান্তরালতার সুবিধা প্রদান করে।
যদিও ডিফিউশন মডেলগুলি আপাতদৃষ্টিতে পাতলা বাতাসের বাইরে ফলাফল তৈরি করে বলে মনে হয়, তবে এই ফলাফলগুলির ভিত্তি অনেকগুলি চিন্তাশীল এবং আকর্ষণীয় গাণিতিক সিদ্ধান্ত এবং সূক্ষ্মতা দ্বারা স্থাপিত হয় এবং শিল্পের সর্বোত্তম অনুশীলনগুলি এখনও তৈরি করা হচ্ছে।
উপসংহার
উপসংহারে, গবেষকরা ডিফিউশন প্রোব্যাবিলিস্টিক মডেলগুলি ব্যবহার করে উচ্চ-মানের ছবি সংশ্লেষণের ফলাফলগুলি প্রদর্শন করেন, যা অ-ভারসাম্যহীন তাপগতিবিদ্যার ধারণা দ্বারা অনুপ্রাণিত সুপ্ত পরিবর্তনশীল মডেলগুলির একটি শ্রেণি।
তারা তাদের অত্যাধুনিক ফলাফল এবং অ-প্রতিকূল প্রশিক্ষণের জন্য অসাধারণ কিছু অর্জন করেছে এবং তাদের শৈশবকালে, আগামী বছরগুলিতে আরও অগ্রগতি প্রত্যাশিত হতে পারে।
বিশেষত, এটি আবিষ্কার করা হয়েছে যে ডিফিউশন মডেলগুলি DALL-E 2 এর মতো উন্নত মডেলগুলির কার্যকারিতার জন্য অত্যন্ত গুরুত্বপূর্ণ।
এখানে আপনি সম্পূর্ণ গবেষণা অ্যাক্সেস করতে পারেন।
নির্দেশিকা সমন্ধে মতামত দিন