সাধারণভাবে, ডিপ জেনারেটিভ মডেল যেমন GAN, VAE, এবং অটোরিগ্রেসিভ মডেলগুলি ইমেজ সংশ্লেষণ সমস্যাগুলি পরিচালনা করে।
তারা যে ডেটা তৈরি করেছে তার উচ্চ মানের দেওয়া, জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্ক (GAN) সাম্প্রতিক বছরগুলিতে অনেক মনোযোগ পেয়েছে।
ডিফিউশন মডেলগুলি অধ্যয়নের আরেকটি আকর্ষণীয় ক্ষেত্র যা নিজেকে প্রতিষ্ঠিত করেছে। ইমেজ, ভিডিও এবং ভয়েস জেনারেশনের ক্ষেত্রগুলি উভয়ের জন্যই ব্যাপক ব্যবহার পাওয়া গেছে।
ডিফিউশন মডেল বনাম GAN: কোনটি ভাল ফলাফল দেয়? স্বাভাবিকভাবেই, এটি একটি চলমান আলোচনার জন্ম দিয়েছে।
GAN নামে পরিচিত কম্পিউটেশনাল আর্কিটেকচারে, দুই নিউরাল নেটওয়ার্ক প্রকৃত তথ্যের জন্য পাস করতে পারে এমন ডেটার নতুন সংশ্লেষিত উদাহরণ তৈরি করতে একে অপরের বিরুদ্ধে লড়াই করা হয়।
ডিফিউশন মডেলগুলি আরও বেশি জনপ্রিয় হয়ে উঠছে কারণ তারা প্রশিক্ষণের স্থিতিশীলতা এবং সঙ্গীত এবং গ্রাফিক্স তৈরির জন্য উচ্চ ফলাফল প্রদান করে।
এই নিবন্ধটি বিস্তারিতভাবে বিস্তারিত মডেল এবং GAN-এর মধ্য দিয়ে যাবে, সেইসাথে তারা কীভাবে একে অপরের থেকে আলাদা এবং আরও কয়েকটি জিনিস।
তাহলে, জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্ক কি?
তথ্যের নতুন, কৃত্রিম দৃষ্টান্ত তৈরি করার জন্য যেগুলিকে সত্যিকারের ডেটা বলে ভুল হতে পারে, জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্ক (GANs) দুটি নিউরাল নেটওয়ার্ক নিয়োগ করে এবং একে অপরের বিরুদ্ধে দাঁড় করিয়ে দেয় (এইভাবে নামে "প্রতিপক্ষ")।
এগুলি বক্তৃতা, ভিডিও এবং ছবি তৈরির জন্য ব্যাপকভাবে ব্যবহৃত হয়।
GAN এর উদ্দেশ্য একটি নির্দিষ্ট ডেটাসেট থেকে পূর্বে অনাবিষ্কৃত ডেটা তৈরি করা। নমুনা থেকে প্রকৃত, অজ্ঞাত অন্তর্নিহিত ডেটা বিতরণের একটি মডেল অনুমান করার চেষ্টা করা, এটি করে।
বিকল্পভাবে বলা হয়, এই নেটওয়ার্কগুলি অন্তর্নিহিত মডেল যা একটি নির্দিষ্ট পরিসংখ্যানগত বন্টন শেখার চেষ্টা করে।
এই লক্ষ্যটি কীভাবে অর্জন করা যায় তা আবিষ্কার করার জন্য GAN যে পদ্ধতি ব্যবহার করেছিল তা ছিল অভিনব। প্রকৃতপক্ষে, তারা একটি অন্তর্নিহিত মডেল বিকাশের জন্য একটি দুই-প্লেয়ার গেম খেলে ডেটা তৈরি করে।
নিম্নলিখিত কাঠামো বর্ণনা করে:
- একটি বৈষম্যকারী যা খাঁটি এবং জাল ডেটার মধ্যে পার্থক্য করার ক্ষমতা অর্জন করে
- একটি জেনারেটর যা ডেটা তৈরি করার নতুন উপায় বেছে নেয় তা বৈষম্যকারীকে প্রতারণা করতে পারে।
বৈষম্যকারী একটি নিউরাল নেটওয়ার্ক হিসাবে জাহির. অতএব, জেনারেটরকে এটি চালাতে উচ্চ মানের একটি ছবি তৈরি করতে হবে।
এই জেনারেটরগুলিকে কোনো আউটপুট বিতরণ ব্যবহার করে প্রশিক্ষিত করা হয় না, এটি অটোএনকোডার মডেল এবং অন্যান্য মডেলের মধ্যে একটি উল্লেখযোগ্য পার্থক্য।
মডেলের ক্ষতি ফাংশন পচানোর দুটি উপায় আছে:
- যদি বৈষম্যকারী সঠিকভাবে বাস্তব তথ্যের পূর্বাভাস দেয় তাহলে পরিমাপ করার ক্ষমতা
- উৎপন্ন তথ্য সঠিকভাবে একটি অংশ দ্বারা ভবিষ্যদ্বাণী করা হয়.
সর্বোত্তম সম্ভাব্য বৈষম্যকারীর উপর, এই ক্ষতির ফাংশনটি তখন কম করা হয়:
জেনেরিক মডেলগুলি তাই দূরত্ব ন্যূনতমকরণ মডেল হিসাবে বিবেচনা করা যেতে পারে এবং, যদি বৈষম্যকারী আদর্শ হয়, সত্য এবং উত্পাদিত বন্টনের মধ্যে বিচ্ছিন্নতা ন্যূনতমকরণ হিসাবে।
বাস্তবে, বিভিন্ন ভিন্নতা নিযুক্ত করা যেতে পারে এবং এর ফলে বিভিন্ন GAN প্রশিক্ষণ পদ্ধতি হতে পারে।
শেখার গতিবিদ্যা, যার মধ্যে জেনারেটর এবং বৈষম্যকারীর মধ্যে ট্রেড-অফ রয়েছে, GAN-এর ক্ষতির কার্যকারিতা সামঞ্জস্য করা সহজ হওয়া সত্ত্বেও এটি অনুসরণ করা চ্যালেঞ্জিং।
এছাড়াও কোন নিশ্চয়তা নেই যে শিক্ষা একত্রিত হবে। ফলস্বরূপ, একটি GAN মডেলকে প্রশিক্ষণ দেওয়া কঠিন, যেহেতু গ্রেডিয়েন্টগুলি অদৃশ্য হয়ে যাওয়া এবং মোডের পতনের মতো সমস্যাগুলি জুড়ে চলা সাধারণ (যখন উত্পন্ন নমুনাগুলিতে কোনও বৈচিত্র্য নেই)।
এখন, ডিফিউশন মডেলের সময়
GAN-এর ট্রেনিং কনভার্জেন্সের সমস্যাটি ডিফিউশন মডেলের বিকাশের মাধ্যমে সমাধান করা হয়েছে।
এই মডেলগুলি অনুমান করে যে একটি প্রসারণ প্রক্রিয়া শব্দের প্রগতিশীল হস্তক্ষেপের দ্বারা সংঘটিত তথ্য ক্ষতির সমতুল্য (প্রসারণ প্রক্রিয়ার প্রতিটি সময়ে একটি গাউসিয়ান শব্দ যোগ করা হয়)।
এই জাতীয় মডেলের উদ্দেশ্য হল নমুনায় উপস্থিত তথ্যকে কীভাবে শব্দ প্রভাবিত করে তা নির্ধারণ করা বা, অন্যভাবে বলতে গেলে, বিস্তারের কারণে কতটা তথ্য হারিয়ে যায়।
যদি একটি মডেল এটি খুঁজে বের করতে পারে, তবে এটি মূল নমুনাটি পুনরুদ্ধার করতে এবং তথ্যের ক্ষতি পূর্বাবস্থায় ফিরিয়ে আনতে সক্ষম হওয়া উচিত।
এটি একটি ডিনোইসিং ডিফিউশন মডেলের মাধ্যমে সম্পন্ন করা হয়। একটি ফরোয়ার্ড ডিফিউশন প্রক্রিয়া এবং একটি বিপরীত প্রসারণ প্রক্রিয়া দুটি ধাপ তৈরি করে।
ফরোয়ার্ড ডিফিউশন প্রক্রিয়ায় ধীরে ধীরে গাউসিয়ান নয়েজ (অর্থাৎ, ডিফিউশন প্রক্রিয়া) যোগ করা জড়িত যতক্ষণ না ডেটা সম্পূর্ণরূপে শব্দ দ্বারা দূষিত হয়।
নিউরাল নেটওয়ার্ককে পরবর্তীতে রিভার্স ডিফিউশন পদ্ধতি ব্যবহার করে প্রশিক্ষিত করা হয় যাতে আওয়াজ বিপরীত করার শর্তসাপেক্ষ বন্টন সম্ভাবনা শিখতে হয়।
এখানে আপনি সম্পর্কে আরো বুঝতে পারেন প্রসারিত মডেল.
ডিফিউশন মডেল বনাম GAN
একটি প্রসারিত মডেলের মতো, GANগুলি শব্দ থেকে ছবি তৈরি করে।
মডেলটি একটি জেনারেটর নিউরাল নেটওয়ার্কের সমন্বয়ে গঠিত, যা কিছু তথ্যপূর্ণ কন্ডিশনিং ভেরিয়েবলের আওয়াজ দিয়ে শুরু হয়, যেমন একটি ক্লাস লেবেল বা একটি পাঠ্য এনকোডিং।
ফলাফলটি এমন কিছু হওয়া উচিত যা একটি বাস্তব চিত্রের অনুরূপ।
ফটোরিয়ালিস্টিক এবং হাই-ফিডেলিটি ছবি প্রজন্ম তৈরি করতে, আমরা GAN নিয়োগ করি। ডিফিউশন মডেল ব্যবহার করে GAN-এর চেয়েও বেশি বাস্তবসম্মত ভিজ্যুয়াল তৈরি করা হয়।
একটি উপায়ে, প্রসারিত মডেলগুলি ঘটনাগুলি বর্ণনা করার ক্ষেত্রে আরও সঠিক।
যদিও একটি GAN ইনপুট র্যান্ডম নয়েজ বা ক্লাস কন্ডিশনিং ভেরিয়েবল হিসাবে নেয় এবং একটি বাস্তবসম্মত নমুনা আউটপুট করে, ডিফিউশন মডেলগুলি প্রায়শই ধীর, পুনরাবৃত্তিমূলক এবং আরও অনেক নির্দেশিকা প্রয়োজন।
গোলমাল থেকে আসল চিত্রে ফিরে আসার লক্ষ্যে বারবার ডিনোইসিং প্রয়োগ করা হলে ত্রুটির খুব বেশি জায়গা নেই।
প্রতিটি চেকপয়েন্ট তৈরির পর্যায় জুড়ে পাস করা হয়, এবং প্রতিটি পদক্ষেপের সাথে, ছবিটি আরও এবং আরও তথ্য পেতে পারে।
উপসংহার
উপসংহারে, কয়েকটি উল্লেখযোগ্য গবেষণার কারণে যা শুধুমাত্র 2020 এবং 2021 সালে প্রকাশিত হয়েছিল, ডিফিউশন মডেলগুলি এখন ছবি সংশ্লেষণের ক্ষেত্রে GAN-কে ছাড়িয়ে যেতে পারে।
এই বছর, OpenAI চালু হয়েছে DALL-E2, একটি ইমেজ উৎপাদন মডেল যা অনুশীলনকারীদের ডিফিউশন মডেল নিয়োগ করতে দেয়।
যদিও GAN গুলি অত্যাধুনিক, তবে তাদের সীমাবদ্ধতাগুলিকে নতুন প্রেক্ষাপটে স্কেল করা এবং ব্যবহার করা চ্যালেঞ্জিং করে তোলে।
সম্ভাবনা-ভিত্তিক মডেলগুলি ব্যবহার করে GAN-এর মতো নমুনার গুণমান অর্জনের জন্য, এতে অনেক কাজ করা হয়েছে।
নির্দেশিকা সমন্ধে মতামত দিন