کی میز کے مندرجات[چھپائیں][دکھائیں]
کیا آپ اپنے پسندیدہ فنکار سے نیا ریکارڈ بنانے کے لیے AI کا استعمال کر سکتے ہیں؟
مشین لرننگ میں حالیہ پیش رفت نے ظاہر کیا ہے کہ ماڈلز اب متن اور تصاویر جیسے پیچیدہ ڈیٹا کو سمجھنے کے قابل ہیں۔ اوپن اے آئی کا جوک باکس ثابت کرتا ہے کہ موسیقی کو بھی نیورل نیٹ ورک کے ذریعے بالکل درست طریقے سے ماڈل بنایا جا سکتا ہے۔
موسیقی ماڈل کے لیے ایک پیچیدہ چیز ہے۔ آپ کو دونوں سادہ خصوصیات جیسے کہ ٹیمپو، لاؤڈنیس، اور پچ اور مزید پیچیدہ خصوصیات جیسے دھن، آلات اور موسیقی کی ساخت کو مدنظر رکھنا ہوگا۔
اعلی درجے کا استعمال کرتے ہوئے مشین لرننگ تکنیک، OpenAI نے خام آڈیو کو ایک نمائندگی میں تبدیل کرنے کا ایک طریقہ ڈھونڈ لیا ہے جسے دوسرے ماڈل استعمال کر سکتے ہیں۔
یہ مضمون وضاحت کرے گا کہ Jukebox کیا کر سکتا ہے، یہ کیسے کام کرتا ہے، اور ٹیکنالوجی کی موجودہ حدود۔
Jukebox AI کیا ہے؟
جوک باکس اوپن اے آئی کا نیورل نیٹ ماڈل ہے جو گانے کے ساتھ موسیقی تیار کر سکتا ہے۔ ماڈل مختلف انواع اور فنکاروں کے انداز میں موسیقی تیار کر سکتا ہے۔
مثال کے طور پر، جوک باکس ایلوس پریسلی کے انداز میں ایک راک گانا یا کنی ویسٹ کے انداز میں ہپ ہاپ دھن تیار کر سکتا ہے۔ آپ اس کا دورہ کر سکتے ہیں۔ ویب سائٹ یہ جاننے کے لیے کہ ماڈل آپ کے پسندیدہ میوزیکل فنکاروں اور انواع کی آواز کو کیپچر کرنے میں کتنا موثر ہے۔
ماڈل کو ان پٹ کے طور پر ایک صنف، فنکار اور دھن کی ضرورت ہوتی ہے۔ یہ ان پٹ لاکھوں فنکاروں اور گیت کے ڈیٹا پر تربیت یافتہ ماڈل کی رہنمائی کرتا ہے۔
Jukebox کیسے کام کرتا ہے؟
آئیے دیکھتے ہیں کہ Jukebox لاکھوں گانوں پر تربیت یافتہ ماڈل سے ناول خام آڈیو بنانے کا انتظام کیسے کرتا ہے۔
انکوڈنگ کا عمل
جب کہ کچھ میوزک جنریشن ماڈلز MIDI ٹریننگ ڈیٹا استعمال کرتے ہیں، جوک باکس کو اصل خام آڈیو فائل پر تربیت دی جاتی ہے۔ آڈیو کو ایک مجرد جگہ میں کمپریس کرنے کے لیے، جوک باکس ایک آٹو انکوڈر اپروچ استعمال کرتا ہے جسے VQ-VAE کہا جاتا ہے۔
VQ-VAE Vector Quantized Variational Autoencoder کا مطلب ہے، جو تھوڑا سا پیچیدہ لگ سکتا ہے، تو آئیے اسے توڑ دیں۔
سب سے پہلے، آئیے یہ سمجھنے کی کوشش کریں کہ ہم یہاں کیا کرنا چاہتے ہیں۔ دھن یا شیٹ میوزک کے مقابلے میں، ایک خام آڈیو فائل بہت زیادہ پیچیدہ ہے۔ اگر ہم چاہتے ہیں کہ ہمارا ماڈل گانوں سے "سیکھے"، تو ہمیں اسے زیادہ کمپریسڈ اور آسان نمائندگی میں تبدیل کرنا ہوگا۔ میں مشین لرننگ، ہم اس بنیادی نمائندگی کو کہتے ہیں۔ اویکت جگہ.
An آٹوکوڈر ایک غیر زیر نگرانی سیکھنے کی تکنیک ہے جو استعمال کرتی ہے۔ عصبی نیٹ ورک دیئے گئے ڈیٹا کی تقسیم کے لیے غیر لکیری اویکت نمائیندگیوں کو تلاش کرنے کے لیے۔ آٹو اینکوڈر دو حصوں پر مشتمل ہے: ایک انکوڈر اور ڈیکوڈر۔
۔ مرموزکار خام ڈیٹا کے سیٹ سے اویکت جگہ تلاش کرنے کی کوشش کرتا ہے جبکہ کوٹواچک اسے اس کی اصل شکل میں دوبارہ تشکیل دینے کی کوشش کرنے کے لیے اویکت نمائندگی کا استعمال کرتا ہے۔ آٹو اینکوڈر بنیادی طور پر سیکھتا ہے کہ خام ڈیٹا کو اس طرح کمپریس کرنا ہے کہ تعمیر نو کی غلطی کو کم سے کم کیا جائے۔
اب جب کہ ہم جانتے ہیں کہ آٹو اینکوڈر کیا کرتا ہے، آئیے یہ سمجھنے کی کوشش کریں کہ "متغیر" آٹو کوڈر سے ہمارا کیا مطلب ہے۔ عام آٹو اینکوڈرز کے مقابلے میں، متغیر آٹو اینکوڈر اویکت جگہ سے پہلے کا اضافہ کرتے ہیں۔
ریاضی میں غوطہ لگائے بغیر، امکانی پیشگی شامل کرنے سے اویکت تقسیم کو قریب سے کمپیکٹ کیا جاتا ہے۔ VAE اور VQ-VAE کے درمیان بنیادی فرق یہ ہے کہ مؤخر الذکر ایک مسلسل کی بجائے ایک مجرد اویکت نمائندگی کا استعمال کرتا ہے۔
ہر VQ-VAE لیول ان پٹ کو آزادانہ طور پر انکوڈ کرتا ہے۔ نیچے کی سطح کی انکوڈنگ اعلیٰ ترین معیار کی تعمیر نو پیدا کرتی ہے۔ اعلی درجے کی انکوڈنگ موسیقی کی ضروری معلومات کو برقرار رکھتی ہے۔
ٹرانسفارمرز کا استعمال
اب جب کہ ہمارے پاس VQ-VAE کے ذریعہ انکوڈ شدہ میوزک کوڈز ہیں، ہم کوشش کر سکتے ہیں۔ موسیقی پیدا کریں اس کمپریسڈ مجرد جگہ میں۔
جوک باکس استعمال کرتا ہے۔ خود بخود ٹرانسفارمرز آؤٹ پٹ آڈیو بنانے کے لیے۔ ٹرانسفارمرز نیورل نیٹ ورک کی ایک قسم ہے جو ترتیب وار ڈیٹا کے ساتھ بہترین کام کرتی ہے۔ ٹوکن کی ترتیب کو دیکھتے ہوئے، ایک ٹرانسفارمر ماڈل اگلے ٹوکن کی پیشین گوئی کرنے کی کوشش کرے گا۔
جوک باکس اسپارس ٹرانسفارمرز کی ایک آسان شکل استعمال کرتا ہے۔ ایک بار جب تمام سابقہ ماڈلز کو تربیت دی جاتی ہے، تو ٹرانسفارمر کمپریسڈ کوڈز تیار کرتا ہے جسے VQ-VAE ڈیکوڈر کا استعمال کرتے ہوئے دوبارہ خام آڈیو میں ڈی کوڈ کیا جاتا ہے۔
جوک باکس میں آرٹسٹ اور جنر کنڈیشننگ
جوک باکس کے جنریٹو ماڈل کو تربیتی مرحلے کے دوران اضافی مشروط سگنل فراہم کرکے مزید قابل کنٹرول بنایا گیا ہے۔
پہلے ماڈل ہر گانے کے لیے فنکاروں اور صنف کے لیبل فراہم کرتے ہیں۔ یہ آڈیو پیشین گوئی کی اینٹروپی کو کم کرتا ہے اور ماڈل کو بہتر معیار حاصل کرنے کی اجازت دیتا ہے۔ لیبلز ہمیں ماڈل کو ایک خاص انداز میں چلانے کے قابل بھی بناتے ہیں۔
فنکار اور صنف کے علاوہ، تربیتی وقت کے دوران ٹائمنگ سگنلز شامل کیے جاتے ہیں۔ ان اشاروں میں گانے کی لمبائی، کسی خاص نمونے کے آغاز کا وقت، اور گزرے ہوئے گانے کا حصہ شامل ہوتا ہے۔ یہ اضافی معلومات ماڈل کو آڈیو پیٹرن کو سمجھنے میں مدد کرتی ہے جو مجموعی ساخت پر انحصار کرتے ہیں۔
مثال کے طور پر، ماڈل سیکھ سکتا ہے کہ لائیو میوزک کے لیے تالیاں گانے کے اختتام پر ہوتی ہیں۔ ماڈل یہ بھی سیکھ سکتا ہے، مثال کے طور پر، کہ کچھ انواع میں دوسروں کے مقابلے طویل آلات والے حصے ہوتے ہیں۔
کی غزلیں
پچھلے حصے میں جن کنڈیشنڈ ماڈلز کا ذکر کیا گیا ہے وہ مختلف قسم کی گانے کی آوازیں پیدا کرنے کی صلاحیت رکھتے ہیں۔ تاہم، یہ آوازیں غیر مربوط اور ناقابل شناخت ہوتی ہیں۔
تخلیقی ماڈل کو کنٹرول کرنے کے لیے جب بات گیت کی نسل کی ہو، محققین تربیت کے وقت مزید سیاق و سباق فراہم کرتے ہیں۔ حقیقی آڈیو پر وقت کے مطابق گیت کے ڈیٹا کو نقشہ بنانے میں مدد کے لیے، محققین نے استعمال کیا۔ سپلیٹر آواز نکالنا اور NUS AutoLyricsAlign دھن کی لفظی سطح کی سیدھ حاصل کرنے کے لیے۔
جوک باکس ماڈل کی حدود
جوک باکس کی اہم حدود میں سے ایک بڑی موسیقی کے ڈھانچے کی سمجھ ہے۔ مثال کے طور پر، آؤٹ پٹ کا ایک مختصر 20-سیکنڈ کا کلپ متاثر کن لگ سکتا ہے، لیکن سامعین دیکھیں گے کہ کورسز اور آیات کو دہرانے کی مخصوص موسیقی کی ساخت حتمی آؤٹ پٹ میں غائب ہے۔
ماڈل رینڈر کرنے میں بھی سست ہے۔ ایک منٹ کی آڈیو کو مکمل طور پر پیش کرنے میں تقریباً 9 گھنٹے لگتے ہیں۔ یہ گانوں کی تعداد کو محدود کرتا ہے جو تیار کیے جاسکتے ہیں اور ماڈل کو انٹرایکٹو ایپلی کیشنز میں استعمال ہونے سے روکتا ہے۔
آخر میں، محققین نے نوٹ کیا ہے کہ نمونہ ڈیٹاسیٹ بنیادی طور پر انگریزی میں ہے اور بنیادی طور پر مغربی موسیقی کے کنونشنز کو دکھاتا ہے۔ اے آئی کے محققین مستقبل کی تحقیق کو دوسری زبانوں اور غیر مغربی موسیقی کے انداز میں موسیقی پیدا کرنے پر مرکوز کر سکتے ہیں۔
نتیجہ
جوک باکس پراجیکٹ مشین لرننگ ماڈلز کی بڑھتی ہوئی صلاحیت کو اجاگر کرتا ہے تاکہ پیچیدہ ڈیٹا جیسے خام آڈیو کی ایک درست اویکت نمائندگی پیدا کی جا سکے۔ اسی طرح کی پیش رفت متن میں ہو رہی ہے، جیسا کہ منصوبوں میں دیکھا گیا ہے۔ GPT-3، اور تصاویر، جیسا کہ OpenAI میں دیکھا گیا ہے۔ DALL-E2.
اگرچہ اس جگہ کی تحقیق متاثر کن رہی ہے، لیکن فکری املاک کے حقوق اور ان ماڈلز کے مجموعی طور پر تخلیقی صنعتوں پر پڑنے والے اثرات کے بارے میں اب بھی خدشات موجود ہیں۔ محققین اور تخلیق کاروں کو اس بات کو یقینی بنانے کے لیے قریبی تعاون جاری رکھنا چاہیے کہ یہ ماڈل بہتر ہوتے رہیں۔
مستقبل کے جنریٹیو میوزک ماڈلز جلد ہی موسیقاروں کے لیے ایک ٹول کے طور پر یا تخلیق کاروں کے لیے ایپلی کیشن کے طور پر کام کرنے کے قابل ہو سکتے ہیں جنہیں پروجیکٹس کے لیے اپنی مرضی کے مطابق موسیقی کی ضرورت ہے۔
جواب دیجئے