உங்களுக்கு பிடித்த கலைஞரின் புதிய சாதனையை உருவாக்க AI ஐப் பயன்படுத்த முடியுமா?
இயந்திர கற்றலில் சமீபத்திய முன்னேற்றங்கள் மாதிரிகள் இப்போது உரை மற்றும் படங்கள் போன்ற சிக்கலான தரவைப் புரிந்துகொள்ளும் திறன் கொண்டவை என்பதைக் காட்டுகின்றன. ஓபன்ஏஐயின் ஜூக்பாக்ஸ், இசையைக் கூட நரம்பியல் நெட்வொர்க் மூலம் துல்லியமாக வடிவமைக்க முடியும் என்பதை நிரூபிக்கிறது.
இசை மாதிரிக்கு ஒரு சிக்கலான பொருள். டெம்போ, சத்தம் மற்றும் சுருதி போன்ற எளிய அம்சங்களையும் பாடல் வரிகள், கருவிகள் மற்றும் இசை அமைப்பு போன்ற மிகவும் சிக்கலான அம்சங்களையும் நீங்கள் கருத்தில் கொள்ள வேண்டும்.
மேம்பட்ட பயன்படுத்தி இயந்திர கற்றல் நுட்பங்கள், மற்ற மாதிரிகள் பயன்படுத்தக்கூடிய ஒரு பிரதிநிதித்துவமாக மூல ஆடியோவை மாற்ற OpenAI ஒரு வழியைக் கண்டறிந்துள்ளது.
இந்தக் கட்டுரை ஜூக்பாக்ஸ் என்ன செய்ய முடியும், அது எவ்வாறு செயல்படுகிறது மற்றும் தொழில்நுட்பத்தின் தற்போதைய வரம்புகள் ஆகியவற்றை விளக்கும்.
Jukebox AI என்றால் என்ன?
ஜூக்பாக்ஸ் பாடலுடன் இசையை உருவாக்கக்கூடிய OpenAI இன் நியூரல் நெட் மாடலாகும். மாதிரியானது பல்வேறு வகைகளிலும் கலைஞர்களின் பாணிகளிலும் இசையை உருவாக்க முடியும்.
எடுத்துக்காட்டாக, ஜூக்பாக்ஸ் எல்விஸ் பிரெஸ்லியின் பாணியில் ஒரு ராக் பாடலை அல்லது கன்யே வெஸ்ட் பாணியில் ஒரு ஹிப் ஹாப் ட்யூனை உருவாக்க முடியும். இதை நீங்கள் பார்வையிடலாம் வலைத்தளம் உங்களுக்குப் பிடித்த இசைக் கலைஞர்கள் மற்றும் வகைகளின் ஒலியைப் படம்பிடிப்பதில் மாடல் எவ்வளவு பயனுள்ளதாக இருக்கிறது என்பதை ஆராய.
மாதிரிக்கு ஒரு வகை, கலைஞர் மற்றும் பாடல் வரிகள் உள்ளீடு தேவை. இந்த உள்ளீடு மில்லியன் கணக்கான கலைஞர்கள் மற்றும் பாடல் தரவுகளில் பயிற்சியளிக்கப்பட்ட மாதிரிக்கு வழிகாட்டுகிறது.
ஜூக்பாக்ஸ் எப்படி வேலை செய்கிறது?
மில்லியன் கணக்கான பாடல்களில் பயிற்சி பெற்ற மாடலில் இருந்து ஜூக்பாக்ஸ் நாவல் ரா ஆடியோவை எவ்வாறு உருவாக்குகிறது என்பதைப் பார்ப்போம்.
குறியாக்க செயல்முறை
சில இசை உருவாக்க மாதிரிகள் MIDI பயிற்சி தரவைப் பயன்படுத்தும் போது, ஜூக்பாக்ஸ் உண்மையான மூல ஆடியோ கோப்பில் பயிற்சியளிக்கப்படுகிறது. ஆடியோவை தனித்தனி இடத்தில் சுருக்க, ஜூக்பாக்ஸ் VQ-VAE எனப்படும் தன்னியக்க குறியாக்கி அணுகுமுறையைப் பயன்படுத்துகிறது.
VQ-VAE Vector Quantized Variational Autoencoder ஐக் குறிக்கிறது, இது சற்று சிக்கலானதாகத் தோன்றலாம், எனவே அதை உடைப்போம்.
முதலில், நாம் இங்கே என்ன செய்ய விரும்புகிறோம் என்பதைப் புரிந்துகொள்ள முயற்சிப்போம். பாடல் வரிகள் அல்லது தாள் இசையுடன் ஒப்பிடும்போது, மூல ஆடியோ கோப்பு மிகவும் சிக்கலானது. எங்கள் மாதிரி பாடல்களில் இருந்து "கற்க" விரும்பினால், அதை மிகவும் சுருக்கப்பட்ட மற்றும் எளிமைப்படுத்தப்பட்ட பிரதிநிதித்துவமாக மாற்ற வேண்டும். இல் இயந்திர கற்றல், இதை அடிப்படை பிரதிநிதித்துவம் என்று அழைக்கிறோம் மறைந்த இடம்.
An தன்னியக்க குறியீடு இது ஒரு மேற்பார்வை செய்யப்படாத கற்றல் நுட்பமாகும், இது a நரம்பு நெட்வொர்க் கொடுக்கப்பட்ட தரவு விநியோகத்திற்கான நேரியல் அல்லாத மறைந்த பிரதிநிதித்துவங்களைக் கண்டறிய. ஆட்டோஎன்கோடர் இரண்டு பகுதிகளைக் கொண்டுள்ளது: ஒரு குறியாக்கி மற்றும் குறிவிலக்கி.
தி குறியாக்கி மூல தரவுகளின் தொகுப்பிலிருந்து உள்ளுறை இடத்தைக் கண்டறிய முயற்சிக்கிறது குறிவிலக்கியையும் மறைந்த பிரதிநிதித்துவத்தை அதன் அசல் வடிவத்திற்கு மீண்டும் உருவாக்க முயற்சிக்கிறது. மறுகட்டமைப்புப் பிழையைக் குறைக்கும் வகையில் மூலத் தரவை எவ்வாறு சுருக்குவது என்பதை ஆட்டோஎன்கோடர் முக்கியமாகக் கற்றுக்கொள்கிறது.
ஒரு தன்னியக்க குறியாக்கி என்ன செய்கிறது என்பதை இப்போது நாம் அறிவோம், "மாறுபட்ட" தன்னியக்க குறியாக்கி என்றால் என்ன என்பதை புரிந்து கொள்ள முயற்சிப்போம். வழக்கமான தன்னியக்க குறியாக்கிகளுடன் ஒப்பிடும்போது, மாறுபாடு கொண்ட தன்னியக்க குறியாக்கிகள் மறைந்த இடத்திற்கு முன் சேர்க்கின்றன.
கணிதத்தில் மூழ்காமல், ஒரு நிகழ்தகவை முன் கூட்டுவது, மறைந்திருக்கும் பரவலை நெருக்கமாகக் கச்சிதமாக வைத்திருக்கும். VAE மற்றும் VQ-VAE க்கு இடையேயான முக்கிய வேறுபாடு என்னவென்றால், பிந்தையது தொடர்ச்சியான ஒன்றைக் காட்டிலும் தனித்துவமான மறைந்த பிரதிநிதித்துவத்தைப் பயன்படுத்துகிறது.
ஒவ்வொரு VQ-VAE நிலையும் சுயாதீனமாக உள்ளீட்டை குறியாக்குகிறது. கீழ் நிலை குறியாக்கம் மிக உயர்ந்த தரமான மறுகட்டமைப்பை உருவாக்குகிறது. உயர்மட்ட குறியாக்கம் அத்தியாவசிய இசைத் தகவலைத் தக்க வைத்துக் கொள்ளும்.
மின்மாற்றிகளைப் பயன்படுத்துதல்
இப்போது VQ-VAE ஆல் குறியிடப்பட்ட இசைக் குறியீடுகள் எங்களிடம் உள்ளன, நாங்கள் முயற்சி செய்யலாம் இசை உருவாக்க இந்த சுருக்கப்பட்ட தனித்த இடத்தில்.
ஜூக்பாக்ஸ் பயன்படுத்துகிறது தன்னியக்க மின்மாற்றிகள் வெளியீட்டு ஆடியோவை உருவாக்க. டிரான்ஸ்ஃபார்மர்கள் வரிசைப்படுத்தப்பட்ட தரவுகளுடன் சிறப்பாகச் செயல்படும் ஒரு வகையான நரம்பியல் நெட்வொர்க் ஆகும். டோக்கன்களின் வரிசையில் கொடுக்கப்பட்டால், ஒரு மின்மாற்றி மாதிரி அடுத்த டோக்கனைக் கணிக்க முயற்சிக்கும்.
ஜூக்பாக்ஸ் ஸ்பார்ஸ் டிரான்ஸ்ஃபார்மர்களின் எளிமைப்படுத்தப்பட்ட மாறுபாட்டைப் பயன்படுத்துகிறது. அனைத்து முன் மாதிரிகள் பயிற்சி பெற்றவுடன், மின்மாற்றி சுருக்கப்பட்ட குறியீடுகளை உருவாக்குகிறது, பின்னர் அவை VQ-VAE டிகோடரைப் பயன்படுத்தி மீண்டும் மூல ஆடியோவாக டிகோட் செய்யப்படுகின்றன.
ஜூக்பாக்ஸில் கலைஞர் மற்றும் வகை கண்டிஷனிங்
பயிற்சியின் போது கூடுதல் நிபந்தனை சமிக்ஞைகளை வழங்குவதன் மூலம் ஜூக்பாக்ஸின் ஜெனரேட்டிவ் மாடல் மிகவும் கட்டுப்படுத்தப்படுகிறது.
ஒவ்வொரு பாடலுக்கும் கலைஞர்கள் மற்றும் வகை லேபிள்களால் முதல் மாதிரிகள் வழங்கப்படுகின்றன. இது ஆடியோ முன்கணிப்பின் என்ட்ரோபியைக் குறைக்கிறது மற்றும் மாடல் சிறந்த தரத்தை அடைய அனுமதிக்கிறது. லேபிள்கள் ஒரு குறிப்பிட்ட பாணியில் மாதிரியை இயக்கவும் உதவுகிறது.
கலைஞர் மற்றும் வகையைத் தவிர, பயிற்சி நேரத்தில் நேர சமிக்ஞைகள் சேர்க்கப்படுகின்றன. இந்த சமிக்ஞைகளில் பாடலின் நீளம், ஒரு குறிப்பிட்ட மாதிரியின் தொடக்க நேரம் மற்றும் பாடலின் பின்னம் ஆகியவை அடங்கும். இந்த கூடுதல் தகவல், ஒட்டுமொத்த கட்டமைப்பை நம்பியிருக்கும் ஆடியோ வடிவங்களைப் புரிந்துகொள்ள மாதிரிக்கு உதவுகிறது.
எடுத்துக்காட்டாக, நேரடி இசைக்கான கைதட்டல் ஒரு பாடலின் முடிவில் நிகழ்கிறது என்பதை மாதிரி அறியலாம். எடுத்துக்காட்டாக, சில வகைகளில் மற்றவற்றை விட நீண்ட கருவிப் பிரிவுகள் இருப்பதையும் மாதிரி அறியலாம்.
பாடல்
முந்தைய பகுதியில் குறிப்பிடப்பட்ட நிபந்தனைக்குட்பட்ட மாதிரிகள் பல்வேறு பாடும் குரல்களை உருவாக்கும் திறன் கொண்டவை. இருப்பினும், இந்த குரல்கள் பொருத்தமற்றவை மற்றும் அடையாளம் காண முடியாதவை.
பாடல் உருவாக்கத்திற்கு வரும்போது உருவாக்கும் மாதிரியைக் கட்டுப்படுத்த, ஆராய்ச்சியாளர்கள் பயிற்சி நேரத்தில் அதிக சூழலை வழங்குகிறார்கள். உண்மையான ஆடியோவில் உள்ள நேரத்திற்கு பாடல் வரிகளை வரைபடமாக்க உதவ, ஆராய்ச்சியாளர்கள் பயன்படுத்தினர் ஸ்ப்ளீட்டர் குரல்களைப் பிரித்தெடுக்க மற்றும் NUS தானியங்கு வரிகள் சீரமை பாடல் வரிகளின் சொல்-நிலை சீரமைப்புகளைப் பெற.
ஜூக்பாக்ஸ் மாதிரியின் வரம்புகள்
ஜூக்பாக்ஸின் முக்கிய வரம்புகளில் ஒன்று பெரிய இசை அமைப்புகளைப் பற்றிய புரிதல் ஆகும். எடுத்துக்காட்டாக, வெளியீட்டின் குறுகிய 20-வினாடி கிளிப் சுவாரஸ்யமாகத் தோன்றலாம், ஆனால் மீண்டும் மீண்டும் வரும் கோரஸ்கள் மற்றும் வசனங்களின் வழக்கமான இசை அமைப்பு இறுதி வெளியீட்டில் இல்லை என்பதை கேட்போர் கவனிப்பார்கள்.
மாதிரியும் வழங்குவதில் மெதுவாக உள்ளது. ஒரு நிமிட ஆடியோவை முழுமையாக வழங்குவதற்கு தோராயமாக 9 மணிநேரம் ஆகும். இது உருவாக்கப்படக்கூடிய பாடல்களின் எண்ணிக்கையைக் கட்டுப்படுத்துகிறது மற்றும் ஊடாடும் பயன்பாடுகளில் மாதிரியைப் பயன்படுத்துவதைத் தடுக்கிறது.
கடைசியாக, மாதிரி தரவுத்தொகுப்பு முதன்மையாக ஆங்கிலத்தில் உள்ளது மற்றும் முதன்மையாக மேற்கத்திய இசை மரபுகளைக் காட்டுகிறது என்று ஆராய்ச்சியாளர்கள் குறிப்பிட்டுள்ளனர். AI ஆராய்ச்சியாளர்கள் பிற மொழிகள் மற்றும் மேற்கத்திய அல்லாத இசை பாணிகளில் இசையை உருவாக்குவதில் எதிர்கால ஆராய்ச்சியில் கவனம் செலுத்த முடியும்.
தீர்மானம்
ஜூக்பாக்ஸ் திட்டம், மூல ஆடியோ போன்ற சிக்கலான தரவுகளின் துல்லியமான மறைந்த பிரதிநிதித்துவங்களை உருவாக்க இயந்திர கற்றல் மாதிரிகளின் வளர்ந்து வரும் திறனை எடுத்துக்காட்டுகிறது. போன்ற திட்டங்களில் காணப்படுவது போல், இதே போன்ற முன்னேற்றங்கள் உரையில் நிகழ்கின்றன GPT-3, மற்றும் படங்கள், OpenAI இல் காணப்படுகின்றன DALL-E2.
இந்த இடத்தில் ஆராய்ச்சி சுவாரஸ்யமாக இருந்தாலும், அறிவுசார் சொத்துரிமைகள் மற்றும் ஒட்டுமொத்த படைப்புத் தொழில்களில் இந்த மாதிரிகள் ஏற்படுத்தக்கூடிய தாக்கம் பற்றிய கவலைகள் இன்னும் உள்ளன. இந்த மாதிரிகள் தொடர்ந்து மேம்படுத்தப்படுவதை உறுதிசெய்ய ஆராய்ச்சியாளர்களும் படைப்பாளிகளும் நெருக்கமாக ஒத்துழைக்க வேண்டும்.
எதிர்கால உருவாக்கும் இசை மாதிரிகள் விரைவில் இசைக்கலைஞர்களுக்கான கருவியாகவோ அல்லது திட்டங்களுக்கு தனிப்பயன் இசை தேவைப்படும் படைப்பாளிகளுக்கான பயன்பாடாகவோ செயல்பட முடியும்.
ஒரு பதில் விடவும்