আপনি কি আপনার প্রিয় শিল্পীর কাছ থেকে একটি নতুন রেকর্ড তৈরি করতে AI ব্যবহার করতে পারেন?
মেশিন লার্নিংয়ে সাম্প্রতিক অগ্রগতিগুলি দেখিয়েছে যে মডেলগুলি এখন পাঠ্য এবং চিত্রগুলির মতো জটিল ডেটা বুঝতে সক্ষম৷ ওপেনএআই-এর জুকবক্স প্রমাণ করে যে এমনকি মিউজিকও একটি নিউরাল নেটওয়ার্ক দ্বারা সুনির্দিষ্টভাবে মডেল করা যেতে পারে।
সঙ্গীত মডেল একটি জটিল বস্তু. আপনাকে উভয় সাধারণ বৈশিষ্ট্য যেমন টেম্পো, লাউডনেস এবং পিচ এবং আরও জটিল বৈশিষ্ট্য যেমন গান, যন্ত্র এবং বাদ্যযন্ত্রের কাঠামো বিবেচনা করতে হবে।
উন্নত ব্যবহার করে মেশিন লার্নিং কৌশল, OpenAI কাঁচা অডিওকে একটি উপস্থাপনায় রূপান্তর করার একটি উপায় খুঁজে পেয়েছে যা অন্যান্য মডেল ব্যবহার করতে পারে।
এই নিবন্ধটি জুকবক্স কী করতে পারে, এটি কীভাবে কাজ করে এবং প্রযুক্তির বর্তমান সীমাবদ্ধতাগুলি ব্যাখ্যা করবে৷
Jukebox AI কি?
সঙ্গীতের খাজানা ওপেনএআই-এর একটি নিউরাল নেট মডেল যা গান গাওয়ার মাধ্যমে সঙ্গীত তৈরি করতে পারে। মডেলটি বিভিন্ন ধারা এবং শিল্পীদের শৈলীতে সঙ্গীত তৈরি করতে পারে।
উদাহরণস্বরূপ, জুকবক্স এলভিস প্রিসলির শৈলীতে একটি রক গান বা কানি ওয়েস্টের শৈলীতে একটি হিপ হপ সুর তৈরি করতে পারে। আপনি এই পরিদর্শন করতে পারেন ওয়েবসাইট আপনার প্রিয় সঙ্গীত শিল্পীদের এবং ঘরানার শব্দ ক্যাপচারে মডেলটি কতটা কার্যকর তা অন্বেষণ করতে৷
মডেলের জন্য ইনপুট হিসাবে একটি ধারা, শিল্পী এবং গানের প্রয়োজন। এই ইনপুট লক্ষ লক্ষ শিল্পী এবং গানের ডেটার উপর প্রশিক্ষিত একটি মডেলকে গাইড করে৷
জুকবক্স কিভাবে কাজ করে?
লক্ষ লক্ষ গানের উপর প্রশিক্ষিত মডেল থেকে জুকবক্স কীভাবে অভিনব কাঁচা অডিও তৈরি করতে পরিচালনা করে তা দেখা যাক।
এনকোডিং প্রক্রিয়া
যদিও কিছু মিউজিক জেনারেশন মডেল MIDI ট্রেনিং ডেটা ব্যবহার করে, Jukebox প্রকৃত অডিও ফাইলে প্রশিক্ষিত হয়। অডিওটিকে একটি পৃথক স্থানে সংকুচিত করতে, জুকবক্স একটি স্বয়ংক্রিয়-এনকোডার পদ্ধতি ব্যবহার করে যা VQ-VAE নামে পরিচিত।
VQ-VAE ভেক্টর কোয়ান্টাইজড ভেরিয়েশনাল অটোএনকোডারের জন্য দাঁড়িয়েছে, যা কিছুটা জটিল শোনাতে পারে, তাই আসুন এটি ভেঙে ফেলা যাক।
প্রথমে, আসুন আমরা এখানে কী করতে চাই তা বোঝার চেষ্টা করি। লিরিক্স বা শীট মিউজিকের তুলনায়, একটি কাঁচা অডিও ফাইল অনেক বেশি জটিল। আমরা যদি আমাদের মডেলকে গান থেকে "শিখতে" চাই, তবে আমাদের এটিকে আরও সংকুচিত এবং সরলীকৃত উপস্থাপনায় রূপান্তর করতে হবে। ভিতরে মেশিন লার্নিং, আমরা এই অন্তর্নিহিত প্রতিনিধিত্ব কল a সুপ্ত স্থান.
An অটোরকোডার একটি unsupervised শেখার কৌশল যে একটি ব্যবহার করে স্নায়বিক নেটওয়ার্ক একটি প্রদত্ত ডেটা বিতরণের জন্য অ-রৈখিক সুপ্ত উপস্থাপনা খুঁজে পেতে। অটোএনকোডার দুটি অংশ নিয়ে গঠিত: একটি এনকোডার এবং ডিকোডার।
সার্জারির এনকোডার কাঁচা ডেটার একটি সেট থেকে সুপ্ত স্থান খুঁজে বের করার চেষ্টা করে যখন ডিকোডার প্রচ্ছন্ন উপস্থাপনা ব্যবহার করে এটিকে তার আসল বিন্যাসে পুনর্গঠন করার চেষ্টা করে। অটোএনকোডার মূলত শেখে কীভাবে কাঁচা ডেটা এমনভাবে সংকুচিত করতে হয় যাতে পুনর্গঠনের ত্রুটি কম হয়।
এখন যেহেতু আমরা জানি একটি অটোএনকোডার কী করে, আসুন আমরা একটি "ভেরিয়েশনাল" অটোএনকোডার বলতে কী বুঝি তা বোঝার চেষ্টা করি। সাধারণ অটোএনকোডারের তুলনায়, বৈচিত্রপূর্ণ অটোএনকোডারগুলি সুপ্ত স্থানের আগে একটি যোগ করে।
গণিতে ডাইভিং না করে, একটি সম্ভাব্য পূর্বে যোগ করা সুপ্ত বন্টনকে ঘনিষ্ঠভাবে সংকুচিত রাখে। একটি VAE এবং একটি VQ-VAE এর মধ্যে প্রধান পার্থক্য হল যে পরেরটি একটি অবিচ্ছিন্ন একটির পরিবর্তে একটি পৃথক সুপ্ত উপস্থাপনা ব্যবহার করে।
প্রতিটি VQ-VAE স্তর স্বাধীনভাবে ইনপুট এনকোড করে। নীচের স্তরের এনকোডিং সর্বোচ্চ মানের পুনর্গঠন তৈরি করে। শীর্ষ-স্তরের এনকোডিং অপরিহার্য সঙ্গীত তথ্য ধরে রাখে।
ট্রান্সফরমার ব্যবহার করে
এখন যেহেতু আমাদের কাছে VQ-VAE দ্বারা এনকোড করা সঙ্গীত কোড আছে, আমরা চেষ্টা করতে পারি সঙ্গীত তৈরি করা এই সংকুচিত বিযুক্ত স্থানে।
জুকবক্স ব্যবহার করে অটোরিগ্রেসিভ ট্রান্সফরমার আউটপুট অডিও তৈরি করতে। ট্রান্সফরমার হল এক ধরনের নিউরাল নেটওয়ার্ক যা সিকোয়েন্সড ডেটার সাথে সবচেয়ে ভালো কাজ করে। টোকেনগুলির একটি ক্রম প্রদত্ত, একটি ট্রান্সফরমার মডেল পরবর্তী টোকেনের পূর্বাভাস দেওয়ার চেষ্টা করবে।
জুকবক্স স্পার্স ট্রান্সফরমারের একটি সরলীকৃত রূপ ব্যবহার করে। পূর্বের সমস্ত মডেল প্রশিক্ষিত হয়ে গেলে, ট্রান্সফরমারটি সংকুচিত কোড তৈরি করে যা VQ-VAE ডিকোডার ব্যবহার করে আবার কাঁচা অডিওতে ডিকোড করা হয়।
জুকবক্সে শিল্পী এবং জেনার কন্ডিশনিং
প্রশিক্ষণের ধাপে অতিরিক্ত শর্তসাপেক্ষ সংকেত প্রদান করে জুকবক্সের জেনারেটিভ মডেলকে আরও নিয়ন্ত্রণযোগ্য করে তোলা হয়।
প্রথম মডেল প্রতিটি গানের জন্য শিল্পী এবং জেনার লেবেল দ্বারা প্রদান করা হয়. এটি অডিও পূর্বাভাসের এনট্রপি হ্রাস করে এবং মডেলটিকে আরও ভাল মানের অর্জন করতে দেয়। লেবেলগুলি আমাদেরকে একটি নির্দিষ্ট শৈলীতে মডেলটি পরিচালনা করতে সক্ষম করে।
শিল্পী এবং শৈলী ছাড়াও, প্রশিক্ষণের সময় সময় সংকেত যোগ করা হয়। এই সংকেতগুলির মধ্যে গানের দৈর্ঘ্য, একটি নির্দিষ্ট নমুনার শুরুর সময় এবং শেষ হয়ে যাওয়া গানের ভগ্নাংশ অন্তর্ভুক্ত থাকে। এই অতিরিক্ত তথ্য মডেলটিকে অডিও প্যাটার্ন বুঝতে সাহায্য করে যা সামগ্রিক কাঠামোর উপর নির্ভর করে।
উদাহরণস্বরূপ, মডেল শিখতে পারে যে লাইভ মিউজিকের জন্য করতালি একটি গানের শেষে ঘটে। মডেলটিও শিখতে পারে, উদাহরণস্বরূপ, কিছু জেনারে অন্যদের তুলনায় দীর্ঘ যন্ত্র বিভাগ রয়েছে।
গানের কথা
পূর্ববর্তী বিভাগে উল্লিখিত শর্তযুক্ত মডেলগুলি বিভিন্ন ধরণের গানের কণ্ঠ তৈরি করতে সক্ষম। যাইহোক, এই ভয়েসগুলি বেমানান এবং অচেনা হতে থাকে।
লিরিক প্রজন্মের ক্ষেত্রে জেনারেটিভ মডেল নিয়ন্ত্রণ করতে, গবেষকরা প্রশিক্ষণের সময় আরও প্রসঙ্গ সরবরাহ করেন। প্রকৃত অডিওর সময় লিরিক ডেটা ম্যাপ করতে সাহায্য করার জন্য, গবেষকরা ব্যবহার করেছেন স্প্লিটার কণ্ঠ্য আহরণ করতে এবং NUS AutoLyricsAlign গানের শব্দ-স্তরের প্রান্তিককরণ পেতে।
জুকবক্স মডেলের সীমাবদ্ধতা
জুকবক্সের অন্যতম প্রধান সীমাবদ্ধতা হল এর বৃহত্তর বাদ্যযন্ত্রের কাঠামো বোঝা। উদাহরণস্বরূপ, আউটপুটের একটি সংক্ষিপ্ত 20-সেকেন্ডের ক্লিপ চিত্তাকর্ষক শোনাতে পারে, কিন্তু শ্রোতারা লক্ষ্য করবেন যে কোরাস এবং শ্লোকের পুনরাবৃত্তির সাধারণ সঙ্গীত কাঠামো চূড়ান্ত আউটপুটে অনুপস্থিত।
মডেলটি রেন্ডার করতেও ধীর। এক মিনিটের অডিও সম্পূর্ণরূপে রেন্ডার করতে প্রায় 9 ঘন্টা সময় লাগে৷ এটি তৈরি করা গানের সংখ্যা সীমিত করে এবং মডেলটিকে ইন্টারেক্টিভ অ্যাপ্লিকেশনগুলিতে ব্যবহার করা থেকে বাধা দেয়।
অবশেষে, গবেষকরা উল্লেখ করেছেন যে নমুনা ডেটাসেট প্রাথমিকভাবে ইংরেজিতে এবং প্রাথমিকভাবে পশ্চিমা সঙ্গীত সম্মেলনগুলি প্রদর্শন করে৷ এআই গবেষকরা অন্যান্য ভাষা এবং অ-পাশ্চাত্য সঙ্গীত শৈলীতে সঙ্গীত তৈরি করার বিষয়ে ভবিষ্যতের গবেষণায় ফোকাস করতে পারেন।
উপসংহার
জুকবক্স প্রকল্পটি কাঁচা অডিওর মতো জটিল ডেটার সঠিক সুপ্ত উপস্থাপনা তৈরি করতে মেশিন লার্নিং মডেলগুলির ক্রমবর্ধমান ক্ষমতাকে হাইলাইট করে। অনুরূপ অগ্রগতি টেক্সট ঘটছে, যেমন প্রকল্পে দেখা যায় GPT-3, এবং ইমেজ, যেমন OpenAI-তে দেখা যায় DALL-E2.
যদিও এই স্থানটিতে গবেষণাটি চিত্তাকর্ষক হয়েছে, তবুও মেধা সম্পত্তির অধিকার সম্পর্কে উদ্বেগ রয়েছে এবং এই মডেলগুলি সামগ্রিকভাবে সৃজনশীল শিল্পগুলিতে কী প্রভাব ফেলতে পারে৷ এই মডেলগুলি যাতে উন্নত হতে পারে তা নিশ্চিত করতে গবেষক এবং সৃজনশীলদের ঘনিষ্ঠভাবে সহযোগিতা চালিয়ে যাওয়া উচিত।
ভবিষ্যত জেনারেটিভ মিউজিক মডেলগুলি শীঘ্রই সঙ্গীতজ্ঞদের জন্য বা সৃজনশীলদের জন্য একটি অ্যাপ্লিকেশন হিসাবে কাজ করতে সক্ষম হতে পারে যাদের প্রকল্পের জন্য একটি কাস্টম সঙ্গীত প্রয়োজন।
নির্দেশিকা সমন্ধে মতামত দিন