ඔබේ ප්රියතම කලාකරුවාගෙන් නව වාර්තාවක් නිර්මාණය කිරීමට ඔබට AI භාවිත කළ හැකිද?
යන්ත්ර ඉගෙනීමේ මෑත කාලීන ප්රගමනයන් පෙන්නුම් කර ඇත්තේ ආකෘති දැන් පෙළ සහ රූප වැනි සංකීර්ණ දත්ත අවබෝධ කර ගැනීමේ හැකියාව ඇති බවයි. OpenAI හි Jukebox මගින් සංගීතය පවා ස්නායුක ජාලයකින් නිශ්චිතවම ආදර්ශණය කළ හැකි බව ඔප්පු කරයි.
සංගීතය යනු ආකෘතියට සංකීර්ණ වස්තුවකි. ඔබ වේගය, ඝෝෂාව සහ තාරතාව වැනි සරල ලක්ෂණ සහ පද රචනය, උපකරණ සහ සංගීත ව්යුහය වැනි වඩාත් සංකීර්ණ ලක්ෂණ යන දෙකම සැලකිල්ලට ගත යුතුය.
උසස් භාවිතා කිරීම යන්ත්ර ඉගෙනීම ශිල්පීය ක්රම, OpenAI විසින් අනෙකුත් මාදිලි භාවිතා කළ හැකි නිරූපණයක් බවට raw audio පරිවර්තනය කිරීමේ ක්රමයක් සොයාගෙන ඇත.
මෙම ලිපියෙන් Jukebox හට කළ හැකි දේ, එය ක්රියා කරන ආකාරය සහ තාක්ෂණයේ වර්තමාන සීමාවන් පැහැදිලි කරනු ඇත.
Jukebox AI යනු කුමක්ද?
ජූක්බොක්ස් ගායනය සමඟ සංගීතය ජනනය කළ හැකි OpenAI හි ස්නායුක ජාල ආකෘතියකි. ආකෘතියට විවිධ ප්රභේද සහ කලාකරුවන්ගේ විලාසයන්ගෙන් සංගීතය නිෂ්පාදනය කළ හැකිය.
නිදසුනක් ලෙස, Jukebox හට එල්විස් ප්රෙස්ලිගේ ශෛලියේ රොක් ගීතයක් හෝ Kanye West ගේ ශෛලියේ හිප් හොප් තාලයක් නිෂ්පාදනය කළ හැකිය. ඔබට මෙය නැරඹීමට හැක වෙබ් අඩවිය ඔබේ ප්රියතම සංගීත කලාකරුවන්ගේ සහ ප්රභේදවල ශබ්දය ග්රහණය කර ගැනීමේදී ආකෘතිය කෙතරම් ඵලදායීද යන්න ගවේෂණය කිරීමට.
ආකෘතියට ආදානයක් ලෙස ප්රභේදයක්, කලාකරුවෙක් සහ පද රචනයක් අවශ්ය වේ. මෙම ආදානය මිලියන ගණනක් කලාකරුවන් සහ ගීත දත්ත මත පුහුණු කරන ලද ආකෘතියක් මග පෙන්වයි.
Jukebox වැඩ කරන්නේ කෙසේද?
ජූක්බොක්ස් ගීත මිලියන ගණනින් පුහුණු වූ ආකෘතියකින් නව raw ශ්රව්ය ජනනය කිරීමට සමත් වන්නේ කෙසේදැයි බලමු.
කේතන ක්රියාවලිය
සමහර සංගීත උත්පාදන ආකෘති MIDI පුහුණු දත්ත භාවිතා කරන අතර, Jukebox සැබෑ raw audio ගොනුව මත පුහුණු කර ඇත. ශ්රව්යය විවික්ත අවකාශයකට සම්පීඩනය කිරීමට, Jukebox VQ-VAE ලෙස හඳුන්වන ස්වයංක්රීය-කේතක ප්රවේශයක් භාවිතා කරයි.
VQ-VAE Vector Quantized Variational Autoencoder යන්නෙන් අදහස් කෙරේ, එය ටිකක් සංකීර්ණ විය හැක, එබැවින් අපි එය බිඳ දමමු.
පළමුව, අපි මෙහි කළ යුතු දේ තේරුම් ගැනීමට උත්සාහ කරමු. පද රචනයට හෝ ෂීට් සංගීතයට සාපේක්ෂව, අමු ශ්රව්ය ගොනුවක් අතිශයින් සංකීර්ණ වේ. අපගේ ආකෘතිය ගීත වලින් "ඉගෙන ගැනීමට" අපට අවශ්ය නම්, අපට එය වඩාත් සම්පීඩිත සහ සරල කළ නිරූපණයක් බවට පරිවර්තනය කිරීමට සිදුවනු ඇත. තුළ යන්ත්ර ඉගෙනීම, අපි මෙය පාදක නියෝජනය ලෙස හඳුන්වමු ගුප්ත අවකාශය.
An ස්වයං සංකේතනය a භාවිතා කරන අධීක්ෂණය නොකළ ඉගෙනුම් තාක්ෂණයකි ස්නායු ජාලය ලබා දී ඇති දත්ත බෙදා හැරීමක් සඳහා රේඛීය නොවන ගුප්ත නිරූපණයන් සොයා ගැනීමට. ස්වයංක්රීය කේතකය කොටස් දෙකකින් සමන්විත වේ: සංකේතකය සහ විකේතකය.
එම එන්කෝඩරය raw දත්ත සමූහයකින් ගුප්ත අවකාශය සොයා ගැනීමට උත්සාහ කරයි විකේතනයකි එය නැවත එහි මුල් ආකෘතියට ප්රතිනිර්මාණය කිරීමට උත්සාහ කිරීමට ගුප්ත නිරූපණය භාවිතා කරයි. ස්වයංක්රීය කේතකය ප්රතිනිර්මාණය කිරීමේ දෝෂය අවම වන ආකාරයෙන් අමු දත්ත සම්පීඩනය කරන්නේ කෙසේදැයි ඉගෙන ගනී.
දැන් අපි ස්වයංක්රීය කේතකයක් කරන්නේ කුමක්දැයි දන්නා බැවින්, “විචල්ය” ස්වයංක්රීය කේතකය යන්නෙන් අප අදහස් කරන්නේ කුමක්ද යන්න තේරුම් ගැනීමට උත්සාහ කරමු. සාමාන්ය ස්වයංක්රීය කේතක සමඟ සසඳන විට, විචල්ය ස්වයංක්රීය කේතක ගුප්ත අවකාශයට පෙර එකතු කරයි.
ගණිතයට කිමිදීමකින් තොරව, සම්භාවිතාව පෙර එකතු කිරීම ගුප්ත ව්යාප්තිය සමීපව සංයුක්ත කරයි. VAE සහ VQ-VAE අතර ඇති ප්රධාන වෙනස නම් දෙවැන්න අඛණ්ඩ එකකට වඩා විවික්ත ගුප්ත නිරූපණයක් භාවිතා කිරීමයි.
සෑම VQ-VAE මට්ටමක්ම ස්වාධීනව ආදානය කේතනය කරයි. පහළ මට්ටමේ කේතනය ඉහළම ගුණාත්මක ප්රතිනිර්මාණය නිෂ්පාදනය කරයි. ඉහළ මට්ටමේ කේතනය අත්යවශ්ය සංගීත තොරතුරු රඳවා ගනී.
ට්රාන්ස්ෆෝමර් භාවිතා කිරීම
දැන් අපි VQ-VAE මගින් සංකේතනය කරන ලද සංගීත කේත ඇති බැවින්, අපට උත්සාහ කළ හැකිය සංගීතය ජනනය කරන්න මෙම සම්පීඩිත විවික්ත අවකාශය තුළ.
Jukebox භාවිතා කරයි ස්වයංක්රීය ප්රතිගාමී ට්රාන්ස්ෆෝමර් ප්රතිදාන ශ්රව්ය නිර්මාණය කිරීමට. ට්රාන්ස්ෆෝමර් යනු අනුක්රමික දත්ත සමඟ හොඳින් ක්රියා කරන ස්නායුක ජාලයකි. ටෝකන අනුපිළිවෙලක් ලබා දී, ට්රාන්ස්ෆෝමර් ආකෘතියක් ඊළඟ ටෝකනය පුරෝකථනය කිරීමට උත්සාහ කරයි.
Jukebox Sparse Transformers හි සරල කළ ප්රභේදයක් භාවිතා කරයි. සියලුම පෙර මාදිලි පුහුණු වූ පසු, ට්රාන්ස්ෆෝමරය සම්පීඩිත කේත ජනනය කරයි, පසුව VQ-VAE විකේතකය භාවිතයෙන් නැවත අමු ශ්රව්ය බවට විකේතනය කරයි.
ජූක්බොක්ස් හි කලාකරු සහ ප්රභේද කන්ඩිෂන් කිරීම
පුහුණු පියවරේදී අමතර කොන්දේසි සහිත සංඥා ලබා දීමෙන් Jukebox හි උත්පාදක ආකෘතිය වඩාත් පාලනය කළ හැකිය.
පළමු මාදිලි එක් එක් ගීතය සඳහා කලාකරුවන් සහ ප්රභේද ලේබල මගින් සපයනු ලැබේ. මෙය ශ්රව්ය පුරෝකථනයේ එන්ට්රොපිය අඩු කරන අතර ආකෘතියට වඩා හොඳ ගුණාත්මක බවක් ලබා ගැනීමට ඉඩ සලසයි. ලේබල මඟින් අපට විශේෂිත ශෛලියකින් ආකෘතිය මෙහෙයවීමටද හැකියාව ලැබේ.
කලාකරුවා සහ ප්රභේදයට අමතරව, පුහුණු කාලය තුළ කාල සංඥා එකතු කරනු ලැබේ. මෙම සංඥාවලට ගීතයේ දිග, යම් නියැදියක ආරම්භක වේලාව සහ ගත වූ ගීතයේ කොටස ඇතුළත් වේ. මෙම අතිරේක තොරතුරු ආකෘතියට සමස්ත ව්යුහය මත රඳා පවතින ශ්රව්ය රටා තේරුම් ගැනීමට උපකාර කරයි.
නිදසුනක් වශයෙන්, සජීවී සංගීතය සඳහා අත්පොළසන් දීම ගීතයක් අවසානයේ සිදු වන බව නිරූපිකාව ඉගෙන ගත හැකිය. උදාහරණයක් ලෙස, සමහර ප්රභේදවල අනෙක් ඒවාට වඩා දිගු උපකරණ කොටස් ඇති බව ආකෘතියට ඉගෙන ගත හැකිය.
රචනා
පෙර කොටසේ සඳහන් කළ කොන්දේසි සහිත ආකෘති විවිධාකාර ගායන කටහඬවල් ජනනය කිරීමට සමත් වේ. කෙසේ වෙතත්, මෙම කටහඬවල් නොගැලපෙන සහ හඳුනාගත නොහැකි වේ.
ගීත නිර්මාණය කිරීමේදී උත්පාදක ආකෘතිය පාලනය කිරීම සඳහා, පර්යේෂකයන් පුහුණු කාලය තුළ වැඩි සන්දර්භයක් සපයයි. සැබෑ ශ්රව්යවල වේලාවට ගීත දත්ත සිතියම්ගත කිරීමට උපකාර කිරීම සඳහා, පර්යේෂකයන් භාවිතා කළහ ස්ප්ලෙටර් කටහඬ උපුටා ගැනීමට සහ NUS AutoLyricsAlign පද පෙළෙහි වචන මට්ටමේ පෙළගැස්වීම් ලබා ගැනීමට.
Jukebox මාදිලියේ සීමාවන්
Jukebox හි ප්රධාන සීමාවන්ගෙන් එකක් වන්නේ විශාල සංගීත ව්යුහයන් පිළිබඳ එහි අවබෝධයයි. උදාහරණයක් ලෙස, ප්රතිදානයේ තත්පර 20ක කෙටි ක්ලිප් එකක් සිත් ඇදගන්නා සුළු බවක් පෙනෙන්නට තිබුණත්, අවසාන ප්රතිදානයේ පුනරාවර්තනය වන ගායන සහ පදවල සාමාන්ය සංගීත ව්යුහය නොමැති බව සවන්දෙන්නන් දකිනු ඇත.
ආකෘතිය විදැහුම් කිරීමට ද මන්දගාමී වේ. විනාඩියක ශ්රව්යයක් සම්පූර්ණයෙන් ලබා දීමට ආසන්න වශයෙන් පැය 9ක් ගත වේ. මෙය ජනනය කළ හැකි ගීත සංඛ්යාව සීමා කරන අතර අන්තර්ක්රියාකාරී යෙදුම්වල ආකෘතිය භාවිතා කිරීම වළක්වයි.
අවසාන වශයෙන්, පර්යේෂකයන් සටහන් කර ඇත්තේ නියැදි දත්ත කට්ටලය මූලික වශයෙන් ඉංග්රීසි භාෂාවෙන් වන අතර මූලික වශයෙන් බටහිර සංගීත සම්මුතීන් ප්රදර්ශනය කරයි. AI පර්යේෂකයන්ට වෙනත් භාෂා සහ බටහිර නොවන සංගීත ශෛලීන් තුළ සංගීතය ජනනය කිරීම කෙරෙහි අනාගත පර්යේෂණ අවධානය යොමු කළ හැකිය.
නිගමනය
ජූක්බොක්ස් ව්යාපෘතිය, අමු ශ්රව්ය වැනි සංකීර්ණ දත්තවල නිවැරදි ගුප්ත නිරූපණයක් නිර්මාණය කිරීමට යන්ත්ර ඉගෙනුම් ආකෘතිවල වැඩෙන හැකියාව ඉස්මතු කරයි. වැනි ව්යාපෘතිවල පෙනෙන පරිදි, පෙළෙහි ද එවැනිම ඉදිරි ගමනක් සිදුවෙමින් පවතී Gpt-3, සහ පින්තූර, OpenAI හි දක්නට ලැබේ DALL-E2.
මෙම අවකාශයේ පර්යේෂණ සිත් ඇදගන්නා සුළු වුවද, බුද්ධිමය දේපල අයිතිවාසිකම් සහ සමස්තයක් ලෙස නිර්මාණාත්මක කර්මාන්ත කෙරෙහි මෙම ආකෘති ඇති කළ හැකි බලපෑම පිළිබඳව තවමත් කනස්සල්ල පවතී. පර්යේෂකයන් සහ නිර්මාණකරුවන් මෙම ආකෘති තවදුරටත් වැඩිදියුණු කළ හැකි බව සහතික කිරීම සඳහා සමීපව සහයෝගයෙන් කටයුතු කළ යුතුය.
අනාගත උත්පාදක සංගීත ආකෘති ඉක්මනින් සංගීතඥයින් සඳහා මෙවලමක් ලෙස හෝ ව්යාපෘති සඳහා අභිරුචි සංගීතයක් අවශ්ය නිර්මාණකරුවන් සඳහා යෙදුමක් ලෙස ක්රියා කිරීමට හැකි වනු ඇත.
ඔබමයි