ایا تاسو کولی شئ د خپل غوره هنرمند څخه نوی ریکارډ رامینځته کولو لپاره AI وکاروئ؟
د ماشین زده کړې وروستیو پرمختګونو ښودلې چې ماډلونه اوس د پیچلو معلوماتو لکه متن او عکسونو د پوهیدو وړ دي. د OpenAI Jukebox ثابتوي چې حتی میوزیک د عصبي شبکې لخوا په دقیق ډول ماډل کیدی شي.
میوزیک د ماډل لپاره یو پیچلی څیز دی. تاسو باید دواړه ساده ځانګړتیاوې په پام کې ونیسئ لکه ټیمپو، لوړ غږ، او پچ او نور پیچلي ځانګړتیاوې لکه د سندرو، وسایلو او موسیقي جوړښت.
پرمختللی کارول ماشین زده کړه تخنیکونه، OpenAI د خام آډیو په استازیتوب بدلولو لپاره یوه لاره موندلې چې نور ماډلونه یې کارولی شي.
دا مقاله به تشریح کړي چې جوک باکس څه کولی شي، دا څنګه کار کوي، او د ټیکنالوژۍ اوسني محدودیتونه.
Jukebox AI څه شی دی؟
جوک بوکس د OpenAI لخوا یو عصبي خالص ماډل دی چې کولی شي د سندرې ویلو سره میوزیک تولید کړي. ماډل کولی شي په مختلفو ژانرونو او هنرمندانو سټایلونو کې میوزیک تولید کړي.
د مثال په توګه، جوک بوکس کولی شي د ایلوس پریسلي په سټایل کې راک سندره تولید کړي یا د کیني ویسټ په سټایل کې د هپ هاپ ټون. تاسو کولی شئ دا لیدنه وکړئ ویب پاڼه د دې موندلو لپاره چې موډل ستاسو د غوره میوزیک هنرمندانو او ژانرونو غږ اخیستلو کې څومره اغیزمن دی.
ماډل یو ژانر، هنرمند، او سندرې ته د ان پټ په توګه اړتیا لري. دا ان پټ د ملیونونو هنرمندانو او د سندرو ډیټا په اړه روزل شوي ماډل لارښود کوي.
Jukebox څنګه کار کوي؟
راځئ وګورو چې څنګه جوک بوکس اداره کوي چې په ملیونونو سندرو روزل شوي ماډل څخه ناول خام آډیو تولید کړي.
د کوډ کولو پروسه
پداسې حال کې چې د میوزیک تولید ځینې ماډلونه د MIDI روزنې ډیټا کاروي ، جوک باکس په ریښتیني خام آډیو فایل کې روزل کیږي. په جلا ځای کې د آډیو د کمپرس کولو لپاره، جوک باکس د VQ-VAE په نوم پیژندل شوی د اتوماتیک کوډ کولو طریقه کاروي.
VQ-VAE د Vector Quantized Variational Autoencoder لپاره ولاړ دی، کوم چې ممکن یو څه پیچلي وي، نو راځئ چې دا مات کړو.
لومړی، راځئ هڅه وکړو چې پوه شو چې موږ دلته څه کول غواړو. د سندرو یا شیټ میوزیک په پرتله ، د خام آډیو فایل خورا خورا پیچلی دی. که موږ غواړو چې زموږ ماډل له سندرو څخه "زده کړي" وي، نو موږ باید دا په ډیر فشار شوي او ساده نمایش کې بدل کړو. په ماشین زده کړه، موږ دې بنسټیز نمایندګۍ ته وایو a پټ ځای.
An اتوماتیک کوډ د زده کړې یو غیر څارل شوی تخنیک دی چې د a نوریال شبکه د ورکړل شوي ډیټا توزیع لپاره غیر خطي پټ نمایشونو موندلو لپاره. اتوماتیک کوډر دوه برخې لري: کوډ کوونکی او کوډ کوونکی.
د کوډګر هڅه کوي د خام ډیټا سیټ څخه پټ ځای ومومي پداسې حال کې چې کوډډر د پټ نمایش څخه کار اخلي ترڅو هڅه وکړي چې دا بیرته خپل اصلي بڼه کې بیا جوړ کړي. اتوماتیک کوډر په لازمي ډول زده کوي چې څنګه خام ډیټا په داسې ډول کمپریس کړي چې د بیارغونې تېروتنه کمه کړي.
اوس چې موږ پوهیږو چې یو اتوماتیک کوډر څه کوي، راځئ هڅه وکړو چې پوه شو چې موږ د "متغیر" اتوماتیک کوډر څخه څه معنی لرو. د عادي اوټوینکوډرونو په پرتله، تغیراتي اوټوینکوډرونه د پټ ځای څخه مخکې اضافه کوي.
پرته له دې چې په ریاضیاتو کې ډوب شي، احتمالي مخکی اضافه کول پټ ویش له نږدې سره ساتي. د VAE او VQ-VAE تر مینځ اصلي توپیر دا دی چې وروستی د دوامدار پر ځای یو جلا پټ نمایش کاروي.
هر VQ-VAE کچه په خپلواکه توګه ان پټ کوډ کوي. د ښکته کچې کوډ کول د لوړ کیفیت بیا رغونه تولیدوي. د لوړې کچې کوډ کول اړین میوزیک معلومات ساتي.
د ټرانسفارمر کارول
اوس چې موږ د VQ-VAE لخوا کوډ شوي میوزیک کوډونه لرو، موږ کولی شو هڅه وکړو میوزیک تولید کړئ په دې کمپریس شوي جلا ځای کې.
جوک باکس کاروي اتوماتیک ټرانسفارمرونه د آډیو آډیو جوړولو لپاره. ټرانسفارمرونه د عصبي شبکې یو ډول دی چې د ترتیب شوي ډیټا سره غوره کار کوي. د ټوکنونو ترتیب ته په پام سره، د ټرانسفارمر ماډل به هڅه وکړي چې د راتلونکي نښه وړاندوینه وکړي.
جوک باکس د سپارس ټرانسفارمر ساده ډول کاروي. یوځل چې ټول پخواني ماډلونه وروزل شي ، ټرانسفارمر کمپریس شوي کوډونه رامینځته کوي کوم چې بیا د VQ-VAE ډیکوډر په کارولو سره خام آډیو ته بیرته کوډ شوي.
په جوک باکس کې د هنرمند او ژانر حالت
د جوک باکس تولیدي ماډل د روزنې مرحلې په جریان کې د اضافي شرطي سیګنالونو چمتو کولو سره ډیر کنټرول وړ جوړ شوی.
لومړی ماډل د هر سندرې لپاره د هنرمندانو او ژانر لیبلونو لخوا چمتو شوي. دا د آډیو وړاندوینې انټروپي کموي او ماډل ته اجازه ورکوي چې غوره کیفیت ترلاسه کړي. لیبلونه موږ ته دا وړتیا هم راکوي چې ماډل په ځانګړي سټایل کې ودروو.
د هنرمند او ژانر سربیره ، د روزنې په وخت کې د وخت سیګنالونه اضافه کیږي. په دې نښو کې د سندرې اوږدوالی، د یوې ځانګړې نمونې د پیل وخت، او د سندرې برخه چې تیره شوې ده شامل دي. دا اضافي معلومات د ماډل سره مرسته کوي چې د آډیو نمونو پوه شي چې په ټولیز جوړښت تکیه کوي.
د مثال په توګه، ماډل ممکن زده کړي چې د ژوندی موسیقۍ لپاره ستاینه د سندرې په پای کې پیښیږي. موډل کولی شي دا هم زده کړي، د بیلګې په توګه، چې ځینې ژانرونه د نورو په پرتله اوږدې وسیلې برخې لري.
ترانه
په مخکینۍ برخه کې ذکر شوي شرط شوي ماډلونه د مختلف سندرغاړو غږونو رامینځته کولو وړتیا لري. په هرصورت، دا غږونه غیر متمرکز او د پیژندلو وړ ندي.
د تولیدي ماډل کنټرول لپاره کله چې د سندرې نسل ته راځي، څیړونکي د روزنې په وخت کې ډیر شرایط چمتو کوي. د ریښتیني آډیو په وخت کې د شعر ډیټا نقشه کولو کې مرسته کولو لپاره ، څیړونکو کارولې سپلیټر د غږونو استخراج او NUS AutoLyricsAlign د سندرو د کلمو په کچه سمون ترلاسه کول.
د جوک باکس ماډل محدودیتونه
د جوک باکس یو له اصلي محدودیتونو څخه د لوی میوزیک جوړښتونو پوهه ده. د مثال په توګه، د محصول یو لنډ 20-ثانوي کلیپ ممکن اغیزمن وي، مګر اوریدونکي به وګوري چې د کورسونو او آیتونو تکرار کولو ځانګړی موسیقي جوړښت په وروستي محصول کې شتون نلري.
ماډل هم د وړاندې کولو لپاره ورو دی. د یوې دقیقې آډیو په بشپړ ډول وړاندې کولو لپاره نږدې 9 ساعته وخت نیسي. دا د سندرو شمیر محدودوي چې تولید کیدی شي او ماډل په متقابل غوښتنلیکونو کې د کارولو مخه نیسي.
په نهایت کې ، څیړونکو یادونه کړې چې د نمونې ډیټاسیټ اساسا په انګلیسي کې دی او په عمده ډول د لویدیځ میوزیک کنوانسیونونه ښیې. د AI څیړونکي کولی شي راتلونکي څیړنې په نورو ژبو او غیر لویدیځ میوزیک سټایلونو کې د میوزیک رامینځته کولو باندې تمرکز وکړي.
پایله
د جوک بوکس پروژه د ماشین زده کړې ماډلونو وده کونکي وړتیا په ګوته کوي ترڅو د پیچلي ډیټا دقیق پټ نمایش رامینځته کړي لکه خام آډیو. ورته پرمختګونه په متن کې پیښیږي، لکه څنګه چې په پروژو کې لیدل کیږي GPT-3، او انځورونه، لکه څنګه چې په OpenAI کې لیدل شوي DALL-E2.
پداسې حال کې چې پدې ځای کې څیړنه اغیزمنه وه، لاهم د فکري ملکیت د حقونو په اړه اندیښنې شتون لري او د دې ماډلونو اغیزې ممکن په ټولیز ډول په تخلیقي صنعتونو کې وي. څیړونکي او تخلیق کونکي باید نږدې همکارۍ ته دوام ورکړي ترڅو ډاډ ترلاسه شي چې دا ماډل کولی شي پرمختګ ته دوام ورکړي.
راتلونکي تولیدي میوزیک ماډلونه به ډیر ژر د دې وړتیا ولري چې د موسیقارانو لپاره د وسیلې په توګه عمل وکړي یا د تخلیق کونکو لپاره د غوښتنلیک په توګه چې د پروژو لپاره دودیز میوزیک ته اړتیا لري.
یو ځواب ورکړئ ووځي