Jukebox AI - ന്യൂറൽ നെറ്റ്‌വർക്കുകൾ ഉപയോഗിച്ച് സംഗീതം സൃഷ്ടിക്കുന്നു

ഉള്ളടക്ക പട്ടിക[മറയ്ക്കുക][കാണിക്കുക]

എന്താണ് Jukebox AI?
എങ്ങനെയാണ് ജൂക്ക്ബോക്സ് പ്രവർത്തിക്കുന്നത്?+-
ജൂക്ക്ബോക്സ് മോഡലിന്റെ പരിമിതികൾ
തീരുമാനം

നിങ്ങളുടെ പ്രിയപ്പെട്ട കലാകാരനിൽ നിന്ന് ഒരു പുതിയ റെക്കോർഡ് സൃഷ്ടിക്കാൻ നിങ്ങൾക്ക് AI ഉപയോഗിക്കാമോ?

മെഷീൻ ലേണിംഗിലെ സമീപകാല മുന്നേറ്റങ്ങൾ കാണിക്കുന്നത്, ടെക്‌സ്‌റ്റും ഇമേജുകളും പോലുള്ള സങ്കീർണ്ണമായ ഡാറ്റ മനസ്സിലാക്കാൻ മോഡലുകൾക്ക് ഇപ്പോൾ കഴിവുണ്ടെന്ന്. ഒരു ന്യൂറൽ നെറ്റ്‌വർക്ക് ഉപയോഗിച്ച് സംഗീതത്തെ പോലും കൃത്യമായി മാതൃകയാക്കാൻ കഴിയുമെന്ന് OpenAI-യുടെ Jukebox തെളിയിക്കുന്നു.

സംഗീതം മോഡലിന് സങ്കീർണ്ണമായ ഒരു വസ്തുവാണ്. ടെമ്പോ, ലൗഡ്‌നസ്, പിച്ച് തുടങ്ങിയ ലളിതമായ സവിശേഷതകളും വരികൾ, ഉപകരണങ്ങൾ, സംഗീത ഘടന എന്നിവ പോലുള്ള കൂടുതൽ സങ്കീർണ്ണമായ സവിശേഷതകളും നിങ്ങൾ കണക്കിലെടുക്കേണ്ടതുണ്ട്.

വിപുലമായത് ഉപയോഗിക്കുന്നു മെഷീൻ ലേണിംഗ് ടെക്നിക്കുകൾ, മറ്റ് മോഡലുകൾക്ക് ഉപയോഗിക്കാൻ കഴിയുന്ന ഒരു പ്രാതിനിധ്യത്തിലേക്ക് റോ ഓഡിയോ പരിവർത്തനം ചെയ്യുന്നതിനുള്ള ഒരു മാർഗം OpenAI കണ്ടെത്തി.

ഈ ലേഖനം Jukebox-ന് എന്തുചെയ്യാൻ കഴിയും, അത് എങ്ങനെ പ്രവർത്തിക്കുന്നു, സാങ്കേതികവിദ്യയുടെ നിലവിലെ പരിമിതികൾ എന്നിവ വിശദീകരിക്കും.

എന്താണ് Jukebox AI?

ജൂക്ബോക്സ് ഓപ്പൺഎഐയുടെ ന്യൂറൽ നെറ്റ് മോഡലാണ്, പാട്ടിനൊപ്പം സംഗീതം സൃഷ്ടിക്കാൻ കഴിയും. മോഡലിന് വിവിധ വിഭാഗങ്ങളിലും കലാകാരന്മാരുടെ ശൈലികളിലും സംഗീതം നിർമ്മിക്കാൻ കഴിയും.

ജൂക്ക്ബോക്സ് AI അറിയപ്പെടുന്ന കലാകാരന്മാരിൽ നിന്ന് പാട്ടുകൾ സൃഷ്ടിക്കുന്നു

ഉദാഹരണത്തിന്, എൽവിസ് പ്രെസ്ലിയുടെ ശൈലിയിലുള്ള ഒരു റോക്ക് ഗാനം അല്ലെങ്കിൽ കാനി വെസ്റ്റിന്റെ ശൈലിയിൽ ഒരു ഹിപ് ഹോപ്പ് ട്യൂൺ നിർമ്മിക്കാൻ ജൂക്ക്ബോക്സിന് കഴിയും. നിങ്ങൾക്ക് ഇത് സന്ദർശിക്കാം വെബ്സൈറ്റ് നിങ്ങളുടെ പ്രിയപ്പെട്ട സംഗീത കലാകാരന്മാരുടെയും വിഭാഗങ്ങളുടെയും ശബ്ദം ക്യാപ്‌ചർ ചെയ്യുന്നതിൽ മോഡൽ എത്രത്തോളം ഫലപ്രദമാണെന്ന് പര്യവേക്ഷണം ചെയ്യാൻ.

മോഡലിന് ഇൻപുട്ടായി ഒരു തരം, കലാകാരന്, വരികൾ എന്നിവ ആവശ്യമാണ്. ഈ ഇൻപുട്ട് ദശലക്ഷക്കണക്കിന് ആർട്ടിസ്റ്റുകളെയും ലിറിക് ഡാറ്റയെയും പരിശീലിപ്പിച്ച ഒരു മോഡലിനെ നയിക്കുന്നു.

എങ്ങനെയാണ് ജൂക്ക്ബോക്സ് പ്രവർത്തിക്കുന്നത്?

ദശലക്ഷക്കണക്കിന് പാട്ടുകളിൽ പരിശീലനം ലഭിച്ച ഒരു മോഡലിൽ നിന്ന് നോവൽ റോ ഓഡിയോ സൃഷ്ടിക്കാൻ ജൂക്ക്ബോക്സ് എങ്ങനെ കൈകാര്യം ചെയ്യുന്നു എന്ന് നോക്കാം.

എൻകോഡിംഗ് പ്രക്രിയ

ചില മ്യൂസിക് ജനറേഷൻ മോഡലുകൾ മിഡി പരിശീലന ഡാറ്റ ഉപയോഗിക്കുമ്പോൾ, യഥാർത്ഥ റോ ഓഡിയോ ഫയലിൽ ജൂക്ക്ബോക്സ് പരിശീലിപ്പിക്കപ്പെടുന്നു. ഒരു പ്രത്യേക സ്ഥലത്തേക്ക് ഓഡിയോ കംപ്രസ്സുചെയ്യാൻ, ജ്യൂക്ക്ബോക്സ് VQ-VAE എന്നറിയപ്പെടുന്ന ഒരു ഓട്ടോ-എൻകോഡർ സമീപനം ഉപയോഗിക്കുന്നു.

VQ-VAE വെക്റ്റർ ക്വാണ്ടൈസ്ഡ് വേരിയേഷണൽ ഓട്ടോഎൻകോഡറിനെ സൂചിപ്പിക്കുന്നു, ഇത് അൽപ്പം സങ്കീർണ്ണമാണെന്ന് തോന്നാം, അതിനാൽ നമുക്ക് ഇത് തകർക്കാം.

ആദ്യം, ഇവിടെ എന്താണ് ചെയ്യാൻ ആഗ്രഹിക്കുന്നതെന്ന് മനസിലാക്കാൻ ശ്രമിക്കാം. വരികളുമായോ ഷീറ്റ് സംഗീതവുമായോ താരതമ്യപ്പെടുത്തുമ്പോൾ, ഒരു റോ ഓഡിയോ ഫയൽ വളരെ സങ്കീർണ്ണമാണ്. ഞങ്ങളുടെ മാതൃക പാട്ടുകളിൽ നിന്ന് "പഠിക്കാൻ" ആഗ്രഹിക്കുന്നുവെങ്കിൽ, ഞങ്ങൾ അതിനെ കൂടുതൽ കംപ്രസ്സുചെയ്‌തതും ലളിതവുമായ പ്രാതിനിധ്യമാക്കി മാറ്റേണ്ടതുണ്ട്. ഇൻ മെഷീൻ ലേണിംഗ്, ഞങ്ങൾ ഇതിനെ അടിസ്ഥാന പ്രാതിനിധ്യം എന്ന് വിളിക്കുന്നു a ഒളിഞ്ഞിരിക്കുന്ന സ്ഥലം.

ഒരു സാമ്പിൾ ഇൻപുട്ടിന്റെ കംപ്രസ് ചെയ്ത പതിപ്പാണ് latent space

An ഓട്ടോഎൻകോഡർ എ ഉപയോഗിക്കുന്ന ഒരു മേൽനോട്ടമില്ലാത്ത പഠന സാങ്കേതികതയാണ് ന്യൂറൽ നെറ്റ്വർക്ക് തന്നിരിക്കുന്ന ഡാറ്റാ വിതരണത്തിനായുള്ള നോൺ-ലീനിയർ ലാറ്റന്റ് പ്രാതിനിധ്യങ്ങൾ കണ്ടെത്തുന്നതിന്. ഓട്ടോഎൻകോഡറിൽ രണ്ട് ഭാഗങ്ങൾ അടങ്ങിയിരിക്കുന്നു: ഒരു എൻകോഡറും ഡീകോഡറും.

ദി എൻകോഡർ ഒരു കൂട്ടം റോ ഡാറ്റയിൽ നിന്ന് ഒളിഞ്ഞിരിക്കുന്ന ഇടം കണ്ടെത്താൻ ശ്രമിക്കുന്നു ഡീകോഡർ മറഞ്ഞിരിക്കുന്ന പ്രാതിനിധ്യം അതിന്റെ യഥാർത്ഥ ഫോർമാറ്റിലേക്ക് പുനർനിർമ്മിക്കാൻ ശ്രമിക്കുന്നതിന് ഉപയോഗിക്കുന്നു. പുനർനിർമ്മാണ പിശക് കുറയ്ക്കുന്ന തരത്തിൽ അസംസ്‌കൃത ഡാറ്റ എങ്ങനെ കംപ്രസ് ചെയ്യാമെന്ന് ഓട്ടോഎൻകോഡർ പ്രധാനമായും പഠിക്കുന്നു.

ഒരു ഓട്ടോഎൻ‌കോഡർ എന്താണ് ചെയ്യുന്നതെന്ന് ഇപ്പോൾ നമുക്കറിയാം, ഒരു “വ്യതിയാന” ഓട്ടോഎൻ‌കോഡർ എന്നതുകൊണ്ട് എന്താണ് ഉദ്ദേശിക്കുന്നതെന്ന് മനസിലാക്കാൻ ശ്രമിക്കാം. സാധാരണ ഓട്ടോഎൻകോഡറുകളുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ, വേരിയേഷനൽ ഓട്ടോഎൻകോഡറുകൾ ഒളിഞ്ഞിരിക്കുന്ന സ്ഥലത്തിന് മുമ്പായി ചേർക്കുന്നു.

ഗണിതശാസ്ത്രത്തിലേക്ക് കടക്കാതെ, ഒരു പ്രോബബിലിസ്റ്റിക് പ്രീയർ ചേർക്കുന്നത് ഒളിഞ്ഞിരിക്കുന്ന വിതരണത്തെ അടുത്ത് ഒതുക്കി നിർത്തുന്നു. ഒരു VAE-യും VQ-VAE-യും തമ്മിലുള്ള പ്രധാന വ്യത്യാസം, രണ്ടാമത്തേത് തുടർച്ചയായ ഒന്നിന് പകരം വ്യതിരിക്തമായ ഒളിഞ്ഞിരിക്കുന്ന പ്രാതിനിധ്യം ഉപയോഗിക്കുന്നു എന്നതാണ്. എൻകോഡിംഗിനും ഡീകോഡിംഗിനുമുള്ള ജൂക്ക്ബോക്സ് AI യുടെ ആർക്കിടെക്ചറിന്റെ ഡയഗ്രം

ഓരോ VQ-VAE ലെവലും ഇൻപുട്ട് സ്വതന്ത്രമായി എൻകോഡ് ചെയ്യുന്നു. താഴത്തെ നില എൻകോഡിംഗ് ഉയർന്ന നിലവാരമുള്ള പുനർനിർമ്മാണം ഉണ്ടാക്കുന്നു. ഉയർന്ന തലത്തിലുള്ള എൻകോഡിംഗ് അവശ്യ സംഗീത വിവരങ്ങൾ നിലനിർത്തുന്നു.

ട്രാൻസ്ഫോർമറുകൾ ഉപയോഗിക്കുന്നു

ട്രാക്കിൽ അടുത്ത ഓഡിയോ ക്ലിപ്പ് ജനറേറ്റ് ചെയ്യാൻ jukebox AI ട്രാൻസ്ഫോർമറുകൾ ഉപയോഗിക്കുന്നു

ഇപ്പോൾ VQ-VAE എൻകോഡ് ചെയ്‌ത സംഗീത കോഡുകൾ ഉള്ളതിനാൽ നമുക്ക് ശ്രമിക്കാം സംഗീതം സൃഷ്ടിക്കുക ഈ കംപ്രസ് ചെയ്ത വ്യതിരിക്ത സ്ഥലത്ത്.

ജൂക്ക്ബോക്സ് ഉപയോഗിക്കുന്നു ഓട്ടോ റിഗ്രസീവ് ട്രാൻസ്ഫോർമറുകൾ ഔട്ട്പുട്ട് ഓഡിയോ സൃഷ്ടിക്കാൻ. ക്രമീകരിച്ച ഡാറ്റയിൽ മികച്ച രീതിയിൽ പ്രവർത്തിക്കുന്ന ഒരു തരം ന്യൂറൽ നെറ്റ്‌വർക്കാണ് ട്രാൻസ്‌ഫോർമറുകൾ. ടോക്കണുകളുടെ ഒരു ശ്രേണി നൽകിയാൽ, ഒരു ട്രാൻസ്ഫോർമർ മോഡൽ അടുത്ത ടോക്കൺ പ്രവചിക്കാൻ ശ്രമിക്കും.

ജ്യൂക്ക്ബോക്സ് സ്പാർസ് ട്രാൻസ്ഫോർമറുകളുടെ ഒരു ലളിതമായ വേരിയന്റ് ഉപയോഗിക്കുന്നു. എല്ലാ മുൻ മോഡലുകളും പരിശീലിച്ചുകഴിഞ്ഞാൽ, ട്രാൻസ്ഫോർമർ കംപ്രസ് ചെയ്ത കോഡുകൾ സൃഷ്ടിക്കുന്നു, അത് VQ-VAE ഡീകോഡർ ഉപയോഗിച്ച് വീണ്ടും റോ ഓഡിയോയിലേക്ക് ഡീകോഡ് ചെയ്യുന്നു.

ജൂക്ക്ബോക്സിലെ ആർട്ടിസ്റ്റും തരം കണ്ടീഷനിംഗും

പ്രാരംഭ ജൂക്ക്ബോക്‌സ് AI മോഡൽ ഒരു ഗാനം ഒരു പ്രത്യേക തരം അല്ലെങ്കിൽ ആർട്ടിസ്റ്റ് പോലെ എങ്ങനെയാണെന്ന് മനസ്സിലാക്കാൻ ശ്രമിക്കുന്നു

പരിശീലന ഘട്ടത്തിൽ അധിക സോപാധിക സിഗ്നലുകൾ നൽകിക്കൊണ്ട് ജൂക്ക്ബോക്‌സിന്റെ ജനറേറ്റീവ് മോഡൽ കൂടുതൽ നിയന്ത്രിക്കാനാകും.

ആദ്യ മോഡലുകൾ ഓരോ പാട്ടിനും ആർട്ടിസ്റ്റുകളും ജെനർ ലേബലുകളും നൽകുന്നു. ഇത് ഓഡിയോ പ്രവചനത്തിന്റെ എൻട്രോപ്പി കുറയ്ക്കുകയും മികച്ച നിലവാരം കൈവരിക്കാൻ മോഡലിനെ അനുവദിക്കുകയും ചെയ്യുന്നു. ഒരു പ്രത്യേക ശൈലിയിൽ മോഡലിനെ നയിക്കാനും ലേബലുകൾ നമ്മെ പ്രാപ്തരാക്കുന്നു.

ആർട്ടിസ്റ്റും വിഭാഗവും കൂടാതെ, പരിശീലന സമയത്ത് സമയ സിഗ്നലുകൾ ചേർക്കുന്നു. ഈ സിഗ്നലുകളിൽ പാട്ടിന്റെ ദൈർഘ്യം, ഒരു പ്രത്യേക സാമ്പിളിന്റെ ആരംഭ സമയം, കഴിഞ്ഞ പാട്ടിന്റെ അംശം എന്നിവ ഉൾപ്പെടുന്നു. മൊത്തത്തിലുള്ള ഘടനയെ ആശ്രയിക്കുന്ന ഓഡിയോ പാറ്റേണുകൾ മനസ്സിലാക്കാൻ ഈ അധിക വിവരങ്ങൾ മോഡലിനെ സഹായിക്കുന്നു.

ഉദാഹരണത്തിന്, തത്സമയ സംഗീതത്തിനായുള്ള കരഘോഷം ഒരു പാട്ടിന്റെ അവസാനത്തിലാണ് സംഭവിക്കുന്നതെന്ന് മോഡൽ മനസ്സിലാക്കിയേക്കാം. ഉദാഹരണത്തിന്, ചില വിഭാഗങ്ങൾക്ക് മറ്റുള്ളവയേക്കാൾ ദൈർഘ്യമേറിയ ഇൻസ്ട്രുമെന്റൽ വിഭാഗങ്ങളുണ്ടെന്ന് മോഡലിന് പഠിക്കാനാകും.

വരികൾ

മുമ്പത്തെ വിഭാഗത്തിൽ പറഞ്ഞിരിക്കുന്ന കണ്ടീഷൻ ചെയ്ത മോഡലുകൾ വ്യത്യസ്തമായ ആലാപന ശബ്ദങ്ങൾ സൃഷ്ടിക്കാൻ പ്രാപ്തമാണ്. എന്നിരുന്നാലും, ഈ ശബ്ദങ്ങൾ പൊരുത്തമില്ലാത്തതും തിരിച്ചറിയാൻ കഴിയാത്തതുമാണ്.

ഗാനരചനയുടെ കാര്യത്തിൽ ജനറേറ്റീവ് മോഡൽ നിയന്ത്രിക്കുന്നതിന്, പരിശീലന സമയത്ത് ഗവേഷകർ കൂടുതൽ സന്ദർഭം നൽകുന്നു. യഥാർത്ഥ ഓഡിയോയിലെ ടൈമിംഗിലേക്ക് ലിറിക് ഡാറ്റ മാപ്പ് ചെയ്യാൻ സഹായിക്കുന്നതിന്, ഗവേഷകർ ഉപയോഗിച്ചു സ്പ്ലീറ്റർ വോക്കൽ എക്‌സ്‌ട്രാക്‌റ്റ് ചെയ്യാനും NUS ഓട്ടോലിറിക്സ് അലൈൻ ചെയ്യുക വരികളുടെ പദ-തല വിന്യാസം ലഭിക്കുന്നതിന്.

ജൂക്ക്ബോക്സ് മോഡലിന്റെ പരിമിതികൾ

ജ്യൂക്ക്ബോക്സിന്റെ പ്രധാന പരിമിതികളിലൊന്ന് വലിയ സംഗീത ഘടനകളെക്കുറിച്ചുള്ള ഗ്രാഹ്യമാണ്. ഉദാഹരണത്തിന്, ഔട്ട്‌പുട്ടിന്റെ 20 സെക്കൻഡ് ദൈർഘ്യമുള്ള ഒരു ചെറിയ ക്ലിപ്പ് ആകർഷകമായി തോന്നിയേക്കാം, എന്നാൽ കോറസുകളും വാക്യങ്ങളും ആവർത്തിക്കുന്ന സാധാരണ സംഗീത ഘടന അന്തിമ ഔട്ട്‌പുട്ടിൽ ഇല്ലെന്ന് ശ്രോതാക്കൾ ശ്രദ്ധിക്കും.

മോഡലും റെൻഡർ ചെയ്യാൻ മന്ദഗതിയിലാണ്. ഒരു മിനിറ്റ് ഓഡിയോ പൂർണ്ണമായും റെൻഡർ ചെയ്യാൻ ഏകദേശം 9 മണിക്കൂർ എടുക്കും. ഇത് സൃഷ്ടിക്കാൻ കഴിയുന്ന പാട്ടുകളുടെ എണ്ണം പരിമിതപ്പെടുത്തുകയും ഇന്ററാക്ടീവ് ആപ്ലിക്കേഷനുകളിൽ മോഡൽ ഉപയോഗിക്കുന്നതിൽ നിന്ന് തടയുകയും ചെയ്യുന്നു.

അവസാനമായി, സാമ്പിൾ ഡാറ്റാസെറ്റ് പ്രാഥമികമായി ഇംഗ്ലീഷിലാണെന്നും പ്രാഥമികമായി പാശ്ചാത്യ സംഗീത കൺവെൻഷനുകൾ പ്രദർശിപ്പിക്കുന്നുവെന്നും ഗവേഷകർ അഭിപ്രായപ്പെട്ടു. മറ്റ് ഭാഷകളിലും പാശ്ചാത്യേതര സംഗീത ശൈലികളിലും സംഗീതം സൃഷ്ടിക്കുന്നതിൽ AI ഗവേഷകർക്ക് ഭാവി ഗവേഷണങ്ങളിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കാൻ കഴിയും.

തീരുമാനം

റോ ഓഡിയോ പോലുള്ള സങ്കീർണ്ണമായ ഡാറ്റയുടെ കൃത്യമായ ഒളിഞ്ഞിരിക്കുന്ന പ്രാതിനിധ്യം സൃഷ്ടിക്കുന്നതിനുള്ള മെഷീൻ ലേണിംഗ് മോഡലുകളുടെ വർദ്ധിച്ചുവരുന്ന കഴിവ് ജൂക്ക്ബോക്സ് പ്രോജക്റ്റ് എടുത്തുകാണിക്കുന്നു. പോലുള്ള പ്രോജക്‌ടുകളിൽ കാണുന്നത് പോലെ സമാനമായ മുന്നേറ്റങ്ങൾ ടെക്‌സ്‌റ്റിൽ സംഭവിക്കുന്നു ജിപിടി -3, കൂടാതെ ചിത്രങ്ങൾ, OpenAI- കളിൽ കാണുന്നത് പോലെ DALL-E2.

ഈ സ്ഥലത്തെ ഗവേഷണം ശ്രദ്ധേയമാണെങ്കിലും, ബൗദ്ധിക സ്വത്തവകാശത്തെക്കുറിച്ചും ഈ മോഡലുകൾ മൊത്തത്തിൽ ക്രിയേറ്റീവ് വ്യവസായങ്ങളിൽ ചെലുത്തിയേക്കാവുന്ന സ്വാധീനത്തെക്കുറിച്ചും ഇപ്പോഴും ആശങ്കയുണ്ട്. ഈ മോഡലുകൾ മെച്ചപ്പെടുത്തുന്നത് തുടരാനാകുമെന്ന് ഉറപ്പാക്കാൻ ഗവേഷകരും സർഗ്ഗാത്മകരും അടുത്ത് സഹകരിച്ച് പ്രവർത്തിക്കുന്നത് തുടരണം.

ഭാവിയിലെ ജനറേറ്റീവ് മ്യൂസിക് മോഡലുകൾക്ക് സംഗീതജ്ഞർക്കുള്ള ഒരു ഉപകരണമായി അല്ലെങ്കിൽ പ്രോജക്റ്റുകൾക്ക് ഇഷ്‌ടാനുസൃത സംഗീതം ആവശ്യമുള്ള ക്രിയേറ്റീവുകൾക്കുള്ള ഒരു ആപ്ലിക്കേഷനായി ഉടൻ പ്രവർത്തിക്കാൻ കഴിഞ്ഞേക്കും.

Jukebox AI - ന്യൂറൽ നെറ്റ്‌വർക്കുകൾ ഉപയോഗിച്ച് സംഗീതം സൃഷ്ടിക്കുന്നു

എന്താണ് Jukebox AI?