നിങ്ങളുടെ പ്രിയപ്പെട്ട കലാകാരനിൽ നിന്ന് ഒരു പുതിയ റെക്കോർഡ് സൃഷ്ടിക്കാൻ നിങ്ങൾക്ക് AI ഉപയോഗിക്കാമോ?
മെഷീൻ ലേണിംഗിലെ സമീപകാല മുന്നേറ്റങ്ങൾ കാണിക്കുന്നത്, ടെക്സ്റ്റും ഇമേജുകളും പോലുള്ള സങ്കീർണ്ണമായ ഡാറ്റ മനസ്സിലാക്കാൻ മോഡലുകൾക്ക് ഇപ്പോൾ കഴിവുണ്ടെന്ന്. ഒരു ന്യൂറൽ നെറ്റ്വർക്ക് ഉപയോഗിച്ച് സംഗീതത്തെ പോലും കൃത്യമായി മാതൃകയാക്കാൻ കഴിയുമെന്ന് OpenAI-യുടെ Jukebox തെളിയിക്കുന്നു.
സംഗീതം മോഡലിന് സങ്കീർണ്ണമായ ഒരു വസ്തുവാണ്. ടെമ്പോ, ലൗഡ്നസ്, പിച്ച് തുടങ്ങിയ ലളിതമായ സവിശേഷതകളും വരികൾ, ഉപകരണങ്ങൾ, സംഗീത ഘടന എന്നിവ പോലുള്ള കൂടുതൽ സങ്കീർണ്ണമായ സവിശേഷതകളും നിങ്ങൾ കണക്കിലെടുക്കേണ്ടതുണ്ട്.
വിപുലമായത് ഉപയോഗിക്കുന്നു മെഷീൻ ലേണിംഗ് ടെക്നിക്കുകൾ, മറ്റ് മോഡലുകൾക്ക് ഉപയോഗിക്കാൻ കഴിയുന്ന ഒരു പ്രാതിനിധ്യത്തിലേക്ക് റോ ഓഡിയോ പരിവർത്തനം ചെയ്യുന്നതിനുള്ള ഒരു മാർഗം OpenAI കണ്ടെത്തി.
ഈ ലേഖനം Jukebox-ന് എന്തുചെയ്യാൻ കഴിയും, അത് എങ്ങനെ പ്രവർത്തിക്കുന്നു, സാങ്കേതികവിദ്യയുടെ നിലവിലെ പരിമിതികൾ എന്നിവ വിശദീകരിക്കും.
എന്താണ് Jukebox AI?
ജൂക്ബോക്സ് ഓപ്പൺഎഐയുടെ ന്യൂറൽ നെറ്റ് മോഡലാണ്, പാട്ടിനൊപ്പം സംഗീതം സൃഷ്ടിക്കാൻ കഴിയും. മോഡലിന് വിവിധ വിഭാഗങ്ങളിലും കലാകാരന്മാരുടെ ശൈലികളിലും സംഗീതം നിർമ്മിക്കാൻ കഴിയും.
ഉദാഹരണത്തിന്, എൽവിസ് പ്രെസ്ലിയുടെ ശൈലിയിലുള്ള ഒരു റോക്ക് ഗാനം അല്ലെങ്കിൽ കാനി വെസ്റ്റിന്റെ ശൈലിയിൽ ഒരു ഹിപ് ഹോപ്പ് ട്യൂൺ നിർമ്മിക്കാൻ ജൂക്ക്ബോക്സിന് കഴിയും. നിങ്ങൾക്ക് ഇത് സന്ദർശിക്കാം വെബ്സൈറ്റ് നിങ്ങളുടെ പ്രിയപ്പെട്ട സംഗീത കലാകാരന്മാരുടെയും വിഭാഗങ്ങളുടെയും ശബ്ദം ക്യാപ്ചർ ചെയ്യുന്നതിൽ മോഡൽ എത്രത്തോളം ഫലപ്രദമാണെന്ന് പര്യവേക്ഷണം ചെയ്യാൻ.
മോഡലിന് ഇൻപുട്ടായി ഒരു തരം, കലാകാരന്, വരികൾ എന്നിവ ആവശ്യമാണ്. ഈ ഇൻപുട്ട് ദശലക്ഷക്കണക്കിന് ആർട്ടിസ്റ്റുകളെയും ലിറിക് ഡാറ്റയെയും പരിശീലിപ്പിച്ച ഒരു മോഡലിനെ നയിക്കുന്നു.
എങ്ങനെയാണ് ജൂക്ക്ബോക്സ് പ്രവർത്തിക്കുന്നത്?
ദശലക്ഷക്കണക്കിന് പാട്ടുകളിൽ പരിശീലനം ലഭിച്ച ഒരു മോഡലിൽ നിന്ന് നോവൽ റോ ഓഡിയോ സൃഷ്ടിക്കാൻ ജൂക്ക്ബോക്സ് എങ്ങനെ കൈകാര്യം ചെയ്യുന്നു എന്ന് നോക്കാം.
എൻകോഡിംഗ് പ്രക്രിയ
ചില മ്യൂസിക് ജനറേഷൻ മോഡലുകൾ മിഡി പരിശീലന ഡാറ്റ ഉപയോഗിക്കുമ്പോൾ, യഥാർത്ഥ റോ ഓഡിയോ ഫയലിൽ ജൂക്ക്ബോക്സ് പരിശീലിപ്പിക്കപ്പെടുന്നു. ഒരു പ്രത്യേക സ്ഥലത്തേക്ക് ഓഡിയോ കംപ്രസ്സുചെയ്യാൻ, ജ്യൂക്ക്ബോക്സ് VQ-VAE എന്നറിയപ്പെടുന്ന ഒരു ഓട്ടോ-എൻകോഡർ സമീപനം ഉപയോഗിക്കുന്നു.
VQ-VAE വെക്റ്റർ ക്വാണ്ടൈസ്ഡ് വേരിയേഷണൽ ഓട്ടോഎൻകോഡറിനെ സൂചിപ്പിക്കുന്നു, ഇത് അൽപ്പം സങ്കീർണ്ണമാണെന്ന് തോന്നാം, അതിനാൽ നമുക്ക് ഇത് തകർക്കാം.
ആദ്യം, ഇവിടെ എന്താണ് ചെയ്യാൻ ആഗ്രഹിക്കുന്നതെന്ന് മനസിലാക്കാൻ ശ്രമിക്കാം. വരികളുമായോ ഷീറ്റ് സംഗീതവുമായോ താരതമ്യപ്പെടുത്തുമ്പോൾ, ഒരു റോ ഓഡിയോ ഫയൽ വളരെ സങ്കീർണ്ണമാണ്. ഞങ്ങളുടെ മാതൃക പാട്ടുകളിൽ നിന്ന് "പഠിക്കാൻ" ആഗ്രഹിക്കുന്നുവെങ്കിൽ, ഞങ്ങൾ അതിനെ കൂടുതൽ കംപ്രസ്സുചെയ്തതും ലളിതവുമായ പ്രാതിനിധ്യമാക്കി മാറ്റേണ്ടതുണ്ട്. ഇൻ മെഷീൻ ലേണിംഗ്, ഞങ്ങൾ ഇതിനെ അടിസ്ഥാന പ്രാതിനിധ്യം എന്ന് വിളിക്കുന്നു a ഒളിഞ്ഞിരിക്കുന്ന സ്ഥലം.
An ഓട്ടോഎൻകോഡർ എ ഉപയോഗിക്കുന്ന ഒരു മേൽനോട്ടമില്ലാത്ത പഠന സാങ്കേതികതയാണ് ന്യൂറൽ നെറ്റ്വർക്ക് തന്നിരിക്കുന്ന ഡാറ്റാ വിതരണത്തിനായുള്ള നോൺ-ലീനിയർ ലാറ്റന്റ് പ്രാതിനിധ്യങ്ങൾ കണ്ടെത്തുന്നതിന്. ഓട്ടോഎൻകോഡറിൽ രണ്ട് ഭാഗങ്ങൾ അടങ്ങിയിരിക്കുന്നു: ഒരു എൻകോഡറും ഡീകോഡറും.
ദി എൻകോഡർ ഒരു കൂട്ടം റോ ഡാറ്റയിൽ നിന്ന് ഒളിഞ്ഞിരിക്കുന്ന ഇടം കണ്ടെത്താൻ ശ്രമിക്കുന്നു ഡീകോഡർ മറഞ്ഞിരിക്കുന്ന പ്രാതിനിധ്യം അതിന്റെ യഥാർത്ഥ ഫോർമാറ്റിലേക്ക് പുനർനിർമ്മിക്കാൻ ശ്രമിക്കുന്നതിന് ഉപയോഗിക്കുന്നു. പുനർനിർമ്മാണ പിശക് കുറയ്ക്കുന്ന തരത്തിൽ അസംസ്കൃത ഡാറ്റ എങ്ങനെ കംപ്രസ് ചെയ്യാമെന്ന് ഓട്ടോഎൻകോഡർ പ്രധാനമായും പഠിക്കുന്നു.
ഒരു ഓട്ടോഎൻകോഡർ എന്താണ് ചെയ്യുന്നതെന്ന് ഇപ്പോൾ നമുക്കറിയാം, ഒരു “വ്യതിയാന” ഓട്ടോഎൻകോഡർ എന്നതുകൊണ്ട് എന്താണ് ഉദ്ദേശിക്കുന്നതെന്ന് മനസിലാക്കാൻ ശ്രമിക്കാം. സാധാരണ ഓട്ടോഎൻകോഡറുകളുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ, വേരിയേഷനൽ ഓട്ടോഎൻകോഡറുകൾ ഒളിഞ്ഞിരിക്കുന്ന സ്ഥലത്തിന് മുമ്പായി ചേർക്കുന്നു.
ഗണിതശാസ്ത്രത്തിലേക്ക് കടക്കാതെ, ഒരു പ്രോബബിലിസ്റ്റിക് പ്രീയർ ചേർക്കുന്നത് ഒളിഞ്ഞിരിക്കുന്ന വിതരണത്തെ അടുത്ത് ഒതുക്കി നിർത്തുന്നു. ഒരു VAE-യും VQ-VAE-യും തമ്മിലുള്ള പ്രധാന വ്യത്യാസം, രണ്ടാമത്തേത് തുടർച്ചയായ ഒന്നിന് പകരം വ്യതിരിക്തമായ ഒളിഞ്ഞിരിക്കുന്ന പ്രാതിനിധ്യം ഉപയോഗിക്കുന്നു എന്നതാണ്.
ഓരോ VQ-VAE ലെവലും ഇൻപുട്ട് സ്വതന്ത്രമായി എൻകോഡ് ചെയ്യുന്നു. താഴത്തെ നില എൻകോഡിംഗ് ഉയർന്ന നിലവാരമുള്ള പുനർനിർമ്മാണം ഉണ്ടാക്കുന്നു. ഉയർന്ന തലത്തിലുള്ള എൻകോഡിംഗ് അവശ്യ സംഗീത വിവരങ്ങൾ നിലനിർത്തുന്നു.
ട്രാൻസ്ഫോർമറുകൾ ഉപയോഗിക്കുന്നു
ഇപ്പോൾ VQ-VAE എൻകോഡ് ചെയ്ത സംഗീത കോഡുകൾ ഉള്ളതിനാൽ നമുക്ക് ശ്രമിക്കാം സംഗീതം സൃഷ്ടിക്കുക ഈ കംപ്രസ് ചെയ്ത വ്യതിരിക്ത സ്ഥലത്ത്.
ജൂക്ക്ബോക്സ് ഉപയോഗിക്കുന്നു ഓട്ടോ റിഗ്രസീവ് ട്രാൻസ്ഫോർമറുകൾ ഔട്ട്പുട്ട് ഓഡിയോ സൃഷ്ടിക്കാൻ. ക്രമീകരിച്ച ഡാറ്റയിൽ മികച്ച രീതിയിൽ പ്രവർത്തിക്കുന്ന ഒരു തരം ന്യൂറൽ നെറ്റ്വർക്കാണ് ട്രാൻസ്ഫോർമറുകൾ. ടോക്കണുകളുടെ ഒരു ശ്രേണി നൽകിയാൽ, ഒരു ട്രാൻസ്ഫോർമർ മോഡൽ അടുത്ത ടോക്കൺ പ്രവചിക്കാൻ ശ്രമിക്കും.
ജ്യൂക്ക്ബോക്സ് സ്പാർസ് ട്രാൻസ്ഫോർമറുകളുടെ ഒരു ലളിതമായ വേരിയന്റ് ഉപയോഗിക്കുന്നു. എല്ലാ മുൻ മോഡലുകളും പരിശീലിച്ചുകഴിഞ്ഞാൽ, ട്രാൻസ്ഫോർമർ കംപ്രസ് ചെയ്ത കോഡുകൾ സൃഷ്ടിക്കുന്നു, അത് VQ-VAE ഡീകോഡർ ഉപയോഗിച്ച് വീണ്ടും റോ ഓഡിയോയിലേക്ക് ഡീകോഡ് ചെയ്യുന്നു.
ജൂക്ക്ബോക്സിലെ ആർട്ടിസ്റ്റും തരം കണ്ടീഷനിംഗും
പരിശീലന ഘട്ടത്തിൽ അധിക സോപാധിക സിഗ്നലുകൾ നൽകിക്കൊണ്ട് ജൂക്ക്ബോക്സിന്റെ ജനറേറ്റീവ് മോഡൽ കൂടുതൽ നിയന്ത്രിക്കാനാകും.
ആദ്യ മോഡലുകൾ ഓരോ പാട്ടിനും ആർട്ടിസ്റ്റുകളും ജെനർ ലേബലുകളും നൽകുന്നു. ഇത് ഓഡിയോ പ്രവചനത്തിന്റെ എൻട്രോപ്പി കുറയ്ക്കുകയും മികച്ച നിലവാരം കൈവരിക്കാൻ മോഡലിനെ അനുവദിക്കുകയും ചെയ്യുന്നു. ഒരു പ്രത്യേക ശൈലിയിൽ മോഡലിനെ നയിക്കാനും ലേബലുകൾ നമ്മെ പ്രാപ്തരാക്കുന്നു.
ആർട്ടിസ്റ്റും വിഭാഗവും കൂടാതെ, പരിശീലന സമയത്ത് സമയ സിഗ്നലുകൾ ചേർക്കുന്നു. ഈ സിഗ്നലുകളിൽ പാട്ടിന്റെ ദൈർഘ്യം, ഒരു പ്രത്യേക സാമ്പിളിന്റെ ആരംഭ സമയം, കഴിഞ്ഞ പാട്ടിന്റെ അംശം എന്നിവ ഉൾപ്പെടുന്നു. മൊത്തത്തിലുള്ള ഘടനയെ ആശ്രയിക്കുന്ന ഓഡിയോ പാറ്റേണുകൾ മനസ്സിലാക്കാൻ ഈ അധിക വിവരങ്ങൾ മോഡലിനെ സഹായിക്കുന്നു.
ഉദാഹരണത്തിന്, തത്സമയ സംഗീതത്തിനായുള്ള കരഘോഷം ഒരു പാട്ടിന്റെ അവസാനത്തിലാണ് സംഭവിക്കുന്നതെന്ന് മോഡൽ മനസ്സിലാക്കിയേക്കാം. ഉദാഹരണത്തിന്, ചില വിഭാഗങ്ങൾക്ക് മറ്റുള്ളവയേക്കാൾ ദൈർഘ്യമേറിയ ഇൻസ്ട്രുമെന്റൽ വിഭാഗങ്ങളുണ്ടെന്ന് മോഡലിന് പഠിക്കാനാകും.
വരികൾ
മുമ്പത്തെ വിഭാഗത്തിൽ പറഞ്ഞിരിക്കുന്ന കണ്ടീഷൻ ചെയ്ത മോഡലുകൾ വ്യത്യസ്തമായ ആലാപന ശബ്ദങ്ങൾ സൃഷ്ടിക്കാൻ പ്രാപ്തമാണ്. എന്നിരുന്നാലും, ഈ ശബ്ദങ്ങൾ പൊരുത്തമില്ലാത്തതും തിരിച്ചറിയാൻ കഴിയാത്തതുമാണ്.
ഗാനരചനയുടെ കാര്യത്തിൽ ജനറേറ്റീവ് മോഡൽ നിയന്ത്രിക്കുന്നതിന്, പരിശീലന സമയത്ത് ഗവേഷകർ കൂടുതൽ സന്ദർഭം നൽകുന്നു. യഥാർത്ഥ ഓഡിയോയിലെ ടൈമിംഗിലേക്ക് ലിറിക് ഡാറ്റ മാപ്പ് ചെയ്യാൻ സഹായിക്കുന്നതിന്, ഗവേഷകർ ഉപയോഗിച്ചു സ്പ്ലീറ്റർ വോക്കൽ എക്സ്ട്രാക്റ്റ് ചെയ്യാനും NUS ഓട്ടോലിറിക്സ് അലൈൻ ചെയ്യുക വരികളുടെ പദ-തല വിന്യാസം ലഭിക്കുന്നതിന്.
ജൂക്ക്ബോക്സ് മോഡലിന്റെ പരിമിതികൾ
ജ്യൂക്ക്ബോക്സിന്റെ പ്രധാന പരിമിതികളിലൊന്ന് വലിയ സംഗീത ഘടനകളെക്കുറിച്ചുള്ള ഗ്രാഹ്യമാണ്. ഉദാഹരണത്തിന്, ഔട്ട്പുട്ടിന്റെ 20 സെക്കൻഡ് ദൈർഘ്യമുള്ള ഒരു ചെറിയ ക്ലിപ്പ് ആകർഷകമായി തോന്നിയേക്കാം, എന്നാൽ കോറസുകളും വാക്യങ്ങളും ആവർത്തിക്കുന്ന സാധാരണ സംഗീത ഘടന അന്തിമ ഔട്ട്പുട്ടിൽ ഇല്ലെന്ന് ശ്രോതാക്കൾ ശ്രദ്ധിക്കും.
മോഡലും റെൻഡർ ചെയ്യാൻ മന്ദഗതിയിലാണ്. ഒരു മിനിറ്റ് ഓഡിയോ പൂർണ്ണമായും റെൻഡർ ചെയ്യാൻ ഏകദേശം 9 മണിക്കൂർ എടുക്കും. ഇത് സൃഷ്ടിക്കാൻ കഴിയുന്ന പാട്ടുകളുടെ എണ്ണം പരിമിതപ്പെടുത്തുകയും ഇന്ററാക്ടീവ് ആപ്ലിക്കേഷനുകളിൽ മോഡൽ ഉപയോഗിക്കുന്നതിൽ നിന്ന് തടയുകയും ചെയ്യുന്നു.
അവസാനമായി, സാമ്പിൾ ഡാറ്റാസെറ്റ് പ്രാഥമികമായി ഇംഗ്ലീഷിലാണെന്നും പ്രാഥമികമായി പാശ്ചാത്യ സംഗീത കൺവെൻഷനുകൾ പ്രദർശിപ്പിക്കുന്നുവെന്നും ഗവേഷകർ അഭിപ്രായപ്പെട്ടു. മറ്റ് ഭാഷകളിലും പാശ്ചാത്യേതര സംഗീത ശൈലികളിലും സംഗീതം സൃഷ്ടിക്കുന്നതിൽ AI ഗവേഷകർക്ക് ഭാവി ഗവേഷണങ്ങളിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കാൻ കഴിയും.
തീരുമാനം
റോ ഓഡിയോ പോലുള്ള സങ്കീർണ്ണമായ ഡാറ്റയുടെ കൃത്യമായ ഒളിഞ്ഞിരിക്കുന്ന പ്രാതിനിധ്യം സൃഷ്ടിക്കുന്നതിനുള്ള മെഷീൻ ലേണിംഗ് മോഡലുകളുടെ വർദ്ധിച്ചുവരുന്ന കഴിവ് ജൂക്ക്ബോക്സ് പ്രോജക്റ്റ് എടുത്തുകാണിക്കുന്നു. പോലുള്ള പ്രോജക്ടുകളിൽ കാണുന്നത് പോലെ സമാനമായ മുന്നേറ്റങ്ങൾ ടെക്സ്റ്റിൽ സംഭവിക്കുന്നു ജിപിടി -3, കൂടാതെ ചിത്രങ്ങൾ, OpenAI- കളിൽ കാണുന്നത് പോലെ DALL-E2.
ഈ സ്ഥലത്തെ ഗവേഷണം ശ്രദ്ധേയമാണെങ്കിലും, ബൗദ്ധിക സ്വത്തവകാശത്തെക്കുറിച്ചും ഈ മോഡലുകൾ മൊത്തത്തിൽ ക്രിയേറ്റീവ് വ്യവസായങ്ങളിൽ ചെലുത്തിയേക്കാവുന്ന സ്വാധീനത്തെക്കുറിച്ചും ഇപ്പോഴും ആശങ്കയുണ്ട്. ഈ മോഡലുകൾ മെച്ചപ്പെടുത്തുന്നത് തുടരാനാകുമെന്ന് ഉറപ്പാക്കാൻ ഗവേഷകരും സർഗ്ഗാത്മകരും അടുത്ത് സഹകരിച്ച് പ്രവർത്തിക്കുന്നത് തുടരണം.
ഭാവിയിലെ ജനറേറ്റീവ് മ്യൂസിക് മോഡലുകൾക്ക് സംഗീതജ്ഞർക്കുള്ള ഒരു ഉപകരണമായി അല്ലെങ്കിൽ പ്രോജക്റ്റുകൾക്ക് ഇഷ്ടാനുസൃത സംഗീതം ആവശ്യമുള്ള ക്രിയേറ്റീവുകൾക്കുള്ള ഒരു ആപ്ലിക്കേഷനായി ഉടൻ പ്രവർത്തിക്കാൻ കഴിഞ്ഞേക്കും.
നിങ്ങളുടെ അഭിപ്രായങ്ങൾ രേഖപ്പെടുത്തുക