ਕੀ ਤੁਸੀਂ ਆਪਣੇ ਮਨਪਸੰਦ ਕਲਾਕਾਰ ਤੋਂ ਨਵਾਂ ਰਿਕਾਰਡ ਬਣਾਉਣ ਲਈ AI ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੇ ਹੋ?
ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਵਿੱਚ ਹਾਲੀਆ ਸਫਲਤਾਵਾਂ ਨੇ ਦਿਖਾਇਆ ਹੈ ਕਿ ਮਾਡਲ ਹੁਣ ਟੈਕਸਟ ਅਤੇ ਚਿੱਤਰਾਂ ਵਰਗੇ ਗੁੰਝਲਦਾਰ ਡੇਟਾ ਨੂੰ ਸਮਝਣ ਦੇ ਸਮਰੱਥ ਹਨ। ਓਪਨਏਆਈ ਦਾ ਜੂਕਬਾਕਸ ਸਾਬਤ ਕਰਦਾ ਹੈ ਕਿ ਇੱਥੋਂ ਤੱਕ ਕਿ ਸੰਗੀਤ ਨੂੰ ਵੀ ਇੱਕ ਨਿਊਰਲ ਨੈਟਵਰਕ ਦੁਆਰਾ ਸਹੀ ਢੰਗ ਨਾਲ ਮਾਡਲ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ।
ਸੰਗੀਤ ਮਾਡਲ ਲਈ ਇੱਕ ਗੁੰਝਲਦਾਰ ਵਸਤੂ ਹੈ। ਤੁਹਾਨੂੰ ਸਧਾਰਣ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਜਿਵੇਂ ਕਿ ਟੈਂਪੋ, ਉੱਚੀ, ਅਤੇ ਪਿੱਚ ਅਤੇ ਹੋਰ ਗੁੰਝਲਦਾਰ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਜਿਵੇਂ ਕਿ ਬੋਲ, ਯੰਤਰ, ਅਤੇ ਸੰਗੀਤਕ ਬਣਤਰ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖਣਾ ਹੋਵੇਗਾ।
ਉੱਨਤ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਤਕਨੀਕਾਂ, ਓਪਨਏਆਈ ਨੇ ਕੱਚੇ ਆਡੀਓ ਨੂੰ ਇੱਕ ਪ੍ਰਤਿਨਿਧਤਾ ਵਿੱਚ ਬਦਲਣ ਦਾ ਇੱਕ ਤਰੀਕਾ ਲੱਭਿਆ ਹੈ ਜਿਸਦੀ ਵਰਤੋਂ ਦੂਜੇ ਮਾਡਲ ਕਰ ਸਕਦੇ ਹਨ।
ਇਹ ਲੇਖ ਜੂਕਬਾਕਸ ਕੀ ਕਰ ਸਕਦਾ ਹੈ, ਇਹ ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ, ਅਤੇ ਤਕਨਾਲੋਜੀ ਦੀਆਂ ਮੌਜੂਦਾ ਸੀਮਾਵਾਂ ਦੀ ਵਿਆਖਿਆ ਕਰੇਗਾ।
Jukebox AI ਕੀ ਹੈ?
ਜੈਕਬੌਕਸ ਓਪਨਏਆਈ ਦੁਆਰਾ ਇੱਕ ਨਿਊਰਲ ਨੈੱਟ ਮਾਡਲ ਹੈ ਜੋ ਗਾਉਣ ਨਾਲ ਸੰਗੀਤ ਤਿਆਰ ਕਰ ਸਕਦਾ ਹੈ। ਮਾਡਲ ਕਈ ਕਿਸਮਾਂ ਅਤੇ ਕਲਾਕਾਰਾਂ ਦੀਆਂ ਸ਼ੈਲੀਆਂ ਵਿੱਚ ਸੰਗੀਤ ਤਿਆਰ ਕਰ ਸਕਦਾ ਹੈ।
ਉਦਾਹਰਨ ਲਈ, ਜੂਕਬਾਕਸ ਐਲਵਿਸ ਪ੍ਰੈਸਲੇ ਦੀ ਸ਼ੈਲੀ ਵਿੱਚ ਇੱਕ ਰੌਕ ਗੀਤ ਜਾਂ ਕੈਨਯ ਵੈਸਟ ਦੀ ਸ਼ੈਲੀ ਵਿੱਚ ਇੱਕ ਹਿੱਪ ਹੌਪ ਧੁਨ ਤਿਆਰ ਕਰ ਸਕਦਾ ਹੈ। ਤੁਸੀਂ ਇਸ 'ਤੇ ਜਾ ਸਕਦੇ ਹੋ ਵੈਬਸਾਈਟ ਇਹ ਪਤਾ ਲਗਾਉਣ ਲਈ ਕਿ ਮਾਡਲ ਤੁਹਾਡੇ ਮਨਪਸੰਦ ਸੰਗੀਤਕ ਕਲਾਕਾਰਾਂ ਅਤੇ ਸ਼ੈਲੀਆਂ ਦੀ ਆਵਾਜ਼ ਨੂੰ ਕੈਪਚਰ ਕਰਨ ਲਈ ਕਿੰਨਾ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੈ।
ਮਾਡਲ ਨੂੰ ਇੱਕ ਸ਼ੈਲੀ, ਕਲਾਕਾਰ, ਅਤੇ ਗੀਤਾਂ ਦੇ ਰੂਪ ਵਿੱਚ ਇਨਪੁਟ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਇਹ ਇਨਪੁਟ ਲੱਖਾਂ ਕਲਾਕਾਰਾਂ ਅਤੇ ਗੀਤਕਾਰੀ ਡੇਟਾ 'ਤੇ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਮਾਡਲ ਦੀ ਅਗਵਾਈ ਕਰਦਾ ਹੈ।
ਜੂਕਬਾਕਸ ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ?
ਆਓ ਦੇਖੀਏ ਕਿ ਕਿਵੇਂ ਜੂਕਬਾਕਸ ਲੱਖਾਂ ਗੀਤਾਂ 'ਤੇ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਮਾਡਲ ਤੋਂ ਨਾਵਲ ਕੱਚਾ ਆਡੀਓ ਤਿਆਰ ਕਰਨ ਦਾ ਪ੍ਰਬੰਧ ਕਰਦਾ ਹੈ।
ਏਨਕੋਡਿੰਗ ਪ੍ਰਕਿਰਿਆ
ਜਦੋਂ ਕਿ ਕੁਝ ਸੰਗੀਤ ਜਨਰੇਸ਼ਨ ਮਾਡਲ MIDI ਸਿਖਲਾਈ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ, ਜੂਕਬਾਕਸ ਨੂੰ ਅਸਲ ਕੱਚੀ ਆਡੀਓ ਫਾਈਲ 'ਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ। ਆਡੀਓ ਨੂੰ ਇੱਕ ਵੱਖਰੀ ਥਾਂ ਵਿੱਚ ਸੰਕੁਚਿਤ ਕਰਨ ਲਈ, ਜੂਕਬਾਕਸ ਇੱਕ ਆਟੋ-ਏਨਕੋਡਰ ਪਹੁੰਚ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ ਜਿਸਨੂੰ VQ-VAE ਕਿਹਾ ਜਾਂਦਾ ਹੈ।
VQ-VAE ਵੈਕਟਰ ਕੁਆਂਟਾਈਜ਼ਡ ਵੇਰੀਏਸ਼ਨਲ ਆਟੋਏਨਕੋਡਰ ਦਾ ਅਰਥ ਹੈ, ਜੋ ਥੋੜਾ ਗੁੰਝਲਦਾਰ ਲੱਗ ਸਕਦਾ ਹੈ, ਇਸ ਲਈ ਆਓ ਇਸਨੂੰ ਤੋੜ ਦੇਈਏ।
ਪਹਿਲਾਂ, ਆਓ ਇਹ ਸਮਝਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰੀਏ ਕਿ ਅਸੀਂ ਇੱਥੇ ਕੀ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹਾਂ। ਬੋਲ ਜਾਂ ਸ਼ੀਟ ਸੰਗੀਤ ਦੀ ਤੁਲਨਾ ਵਿੱਚ, ਇੱਕ ਕੱਚੀ ਆਡੀਓ ਫਾਈਲ ਬਹੁਤ ਜ਼ਿਆਦਾ ਗੁੰਝਲਦਾਰ ਹੈ। ਜੇਕਰ ਅਸੀਂ ਚਾਹੁੰਦੇ ਹਾਂ ਕਿ ਸਾਡਾ ਮਾਡਲ ਗੀਤਾਂ ਤੋਂ "ਸਿੱਖਿਆ" ਹੋਵੇ, ਤਾਂ ਸਾਨੂੰ ਇਸਨੂੰ ਵਧੇਰੇ ਸੰਕੁਚਿਤ ਅਤੇ ਸਰਲ ਪੇਸ਼ਕਾਰੀ ਵਿੱਚ ਬਦਲਣਾ ਹੋਵੇਗਾ। ਵਿੱਚ ਮਸ਼ੀਨ ਸਿਖਲਾਈ, ਅਸੀਂ ਇਸ ਅੰਤਰੀਵ ਪ੍ਰਤੀਨਿਧਤਾ ਨੂੰ ਕਹਿੰਦੇ ਹਾਂ a ਗੁਪਤ ਸਪੇਸ.
An ਆਟੋਏਨਕੋਡ ਇੱਕ ਨਿਰੀਖਣ ਰਹਿਤ ਸਿਖਲਾਈ ਤਕਨੀਕ ਹੈ ਜੋ ਏ ਨਿਊਰਲ ਨੈਟਵਰਕ ਦਿੱਤੇ ਗਏ ਡੇਟਾ ਵੰਡ ਲਈ ਗੈਰ-ਲੀਨੀਅਰ ਲੁਕਵੇਂ ਪ੍ਰਸਤੁਤੀਆਂ ਨੂੰ ਲੱਭਣ ਲਈ। ਆਟੋਏਨਕੋਡਰ ਵਿੱਚ ਦੋ ਭਾਗ ਹੁੰਦੇ ਹਨ: ਇੱਕ ਏਨਕੋਡਰ ਅਤੇ ਡੀਕੋਡਰ।
The ਏਨਕੋਡਰ ਕੱਚੇ ਡੇਟਾ ਦੇ ਇੱਕ ਸਮੂਹ ਤੋਂ ਗੁਪਤ ਸਪੇਸ ਲੱਭਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦਾ ਹੈ ਜਦੋਂ ਕਿ ਡੀਕੋਡਰ ਇਸ ਨੂੰ ਇਸਦੇ ਅਸਲ ਫਾਰਮੈਟ ਵਿੱਚ ਦੁਬਾਰਾ ਬਣਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਨ ਲਈ ਗੁਪਤ ਪ੍ਰਤੀਨਿਧਤਾ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਆਟੋਏਨਕੋਡਰ ਜ਼ਰੂਰੀ ਤੌਰ 'ਤੇ ਇਹ ਸਿੱਖਦਾ ਹੈ ਕਿ ਕਿਵੇਂ ਕੱਚੇ ਡੇਟਾ ਨੂੰ ਇਸ ਤਰੀਕੇ ਨਾਲ ਸੰਕੁਚਿਤ ਕਰਨਾ ਹੈ ਜੋ ਪੁਨਰ ਨਿਰਮਾਣ ਗਲਤੀ ਨੂੰ ਘੱਟ ਕਰਦਾ ਹੈ।
ਹੁਣ ਜਦੋਂ ਅਸੀਂ ਜਾਣਦੇ ਹਾਂ ਕਿ ਇੱਕ ਆਟੋਏਨਕੋਡਰ ਕੀ ਕਰਦਾ ਹੈ, ਆਉ ਇਹ ਸਮਝਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰੀਏ ਕਿ "ਪਰਿਵਰਤਨਸ਼ੀਲ" ਆਟੋਏਨਕੋਡਰ ਤੋਂ ਸਾਡਾ ਕੀ ਮਤਲਬ ਹੈ। ਆਮ ਆਟੋਏਨਕੋਡਰਾਂ ਦੀ ਤੁਲਨਾ ਵਿੱਚ, ਪਰਿਵਰਤਨਸ਼ੀਲ ਆਟੋਏਨਕੋਡਰ ਲੁਕਵੀਂ ਥਾਂ ਤੋਂ ਪਹਿਲਾਂ ਜੋੜਦੇ ਹਨ।
ਗਣਿਤ ਵਿੱਚ ਗੋਤਾਖੋਰੀ ਕੀਤੇ ਬਿਨਾਂ, ਇੱਕ ਸੰਭਾਵੀ ਪੂਰਵ ਜੋੜਨ ਨਾਲ ਗੁਪਤ ਵੰਡ ਨੂੰ ਨੇੜਿਓਂ ਸੰਕੁਚਿਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਇੱਕ VAE ਅਤੇ ਇੱਕ VQ-VAE ਵਿੱਚ ਮੁੱਖ ਅੰਤਰ ਇਹ ਹੈ ਕਿ ਬਾਅਦ ਵਾਲਾ ਇੱਕ ਨਿਰੰਤਰ ਇੱਕ ਦੀ ਬਜਾਏ ਇੱਕ ਵੱਖਰੇ ਅਪ੍ਰਤੱਖ ਪ੍ਰਤੀਨਿਧਤਾ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ।
ਹਰੇਕ VQ-VAE ਪੱਧਰ ਸੁਤੰਤਰ ਤੌਰ 'ਤੇ ਇੰਪੁੱਟ ਨੂੰ ਏਨਕੋਡ ਕਰਦਾ ਹੈ। ਹੇਠਲੇ ਪੱਧਰ ਦੀ ਏਨਕੋਡਿੰਗ ਉੱਚ-ਗੁਣਵੱਤਾ ਪੁਨਰ ਨਿਰਮਾਣ ਪੈਦਾ ਕਰਦੀ ਹੈ। ਸਿਖਰ-ਪੱਧਰ ਦੀ ਏਨਕੋਡਿੰਗ ਜ਼ਰੂਰੀ ਸੰਗੀਤਕ ਜਾਣਕਾਰੀ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖਦੀ ਹੈ।
ਟ੍ਰਾਂਸਫਾਰਮਰਾਂ ਦੀ ਵਰਤੋਂ ਕਰਨਾ
ਹੁਣ ਜਦੋਂ ਸਾਡੇ ਕੋਲ VQ-VAE ਦੁਆਰਾ ਏਨਕੋਡ ਕੀਤੇ ਸੰਗੀਤ ਕੋਡ ਹਨ, ਅਸੀਂ ਕੋਸ਼ਿਸ਼ ਕਰ ਸਕਦੇ ਹਾਂ ਸੰਗੀਤ ਤਿਆਰ ਕਰੋ ਇਸ ਕੰਪਰੈੱਸਡ ਡਿਸਕਰੀਟ ਸਪੇਸ ਵਿੱਚ।
ਜੂਕਬਾਕਸ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ ਆਟੋਰੀਗਰੈਸਿਵ ਟ੍ਰਾਂਸਫਾਰਮਰ ਆਉਟਪੁੱਟ ਆਡੀਓ ਬਣਾਉਣ ਲਈ. ਟ੍ਰਾਂਸਫਾਰਮਰ ਇੱਕ ਕਿਸਮ ਦਾ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਹੈ ਜੋ ਕ੍ਰਮਬੱਧ ਡੇਟਾ ਦੇ ਨਾਲ ਵਧੀਆ ਕੰਮ ਕਰਦਾ ਹੈ। ਟੋਕਨਾਂ ਦੇ ਕ੍ਰਮ ਨੂੰ ਦੇਖਦੇ ਹੋਏ, ਇੱਕ ਟ੍ਰਾਂਸਫਾਰਮਰ ਮਾਡਲ ਅਗਲੇ ਟੋਕਨ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰੇਗਾ।
ਜੂਕਬਾਕਸ ਸਪਾਰਸ ਟ੍ਰਾਂਸਫਾਰਮਰਾਂ ਦੇ ਇੱਕ ਸਰਲ ਰੂਪ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇੱਕ ਵਾਰ ਜਦੋਂ ਸਾਰੇ ਪੁਰਾਣੇ ਮਾਡਲਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ, ਤਾਂ ਟ੍ਰਾਂਸਫਾਰਮਰ ਕੰਪਰੈੱਸਡ ਕੋਡ ਤਿਆਰ ਕਰਦਾ ਹੈ ਜੋ ਫਿਰ VQ-VAE ਡੀਕੋਡਰ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕੱਚੇ ਆਡੀਓ ਵਿੱਚ ਡੀਕੋਡ ਕੀਤੇ ਜਾਂਦੇ ਹਨ।
ਜੂਕਬਾਕਸ ਵਿੱਚ ਕਲਾਕਾਰ ਅਤੇ ਸ਼ੈਲੀ ਕੰਡੀਸ਼ਨਿੰਗ
ਜੂਕਬਾਕਸ ਦੇ ਜਨਰੇਟਿਵ ਮਾਡਲ ਨੂੰ ਸਿਖਲਾਈ ਦੇ ਪੜਾਅ ਦੌਰਾਨ ਵਾਧੂ ਸ਼ਰਤੀਆ ਸੰਕੇਤ ਪ੍ਰਦਾਨ ਕਰਕੇ ਵਧੇਰੇ ਨਿਯੰਤਰਣਯੋਗ ਬਣਾਇਆ ਗਿਆ ਹੈ।
ਪਹਿਲੇ ਮਾਡਲ ਹਰ ਗੀਤ ਲਈ ਕਲਾਕਾਰਾਂ ਅਤੇ ਸ਼ੈਲੀ ਦੇ ਲੇਬਲਾਂ ਦੁਆਰਾ ਪ੍ਰਦਾਨ ਕੀਤੇ ਜਾਂਦੇ ਹਨ। ਇਹ ਆਡੀਓ ਪੂਰਵ ਅਨੁਮਾਨ ਦੀ ਐਨਟ੍ਰੋਪੀ ਨੂੰ ਘਟਾਉਂਦਾ ਹੈ ਅਤੇ ਮਾਡਲ ਨੂੰ ਬਿਹਤਰ ਗੁਣਵੱਤਾ ਪ੍ਰਾਪਤ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ। ਲੇਬਲ ਸਾਨੂੰ ਇੱਕ ਖਾਸ ਸ਼ੈਲੀ ਵਿੱਚ ਮਾਡਲ ਨੂੰ ਚਲਾਉਣ ਲਈ ਵੀ ਸਮਰੱਥ ਬਣਾਉਂਦੇ ਹਨ।
ਕਲਾਕਾਰ ਅਤੇ ਸ਼ੈਲੀ ਤੋਂ ਇਲਾਵਾ, ਸਿਖਲਾਈ ਦੇ ਸਮੇਂ ਦੌਰਾਨ ਸਮੇਂ ਦੇ ਸੰਕੇਤ ਸ਼ਾਮਲ ਕੀਤੇ ਜਾਂਦੇ ਹਨ। ਇਹਨਾਂ ਸਿਗਨਲਾਂ ਵਿੱਚ ਗੀਤ ਦੀ ਲੰਬਾਈ, ਕਿਸੇ ਖਾਸ ਨਮੂਨੇ ਦਾ ਅਰੰਭ ਸਮਾਂ, ਅਤੇ ਗੀਤ ਦਾ ਅੰਸ਼ ਸ਼ਾਮਲ ਹੁੰਦਾ ਹੈ ਜੋ ਬੀਤ ਗਿਆ ਹੈ। ਇਹ ਵਾਧੂ ਜਾਣਕਾਰੀ ਮਾਡਲ ਨੂੰ ਆਡੀਓ ਪੈਟਰਨਾਂ ਨੂੰ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰਦੀ ਹੈ ਜੋ ਸਮੁੱਚੇ ਢਾਂਚੇ 'ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ।
ਉਦਾਹਰਨ ਲਈ, ਮਾਡਲ ਇਹ ਸਿੱਖ ਸਕਦਾ ਹੈ ਕਿ ਲਾਈਵ ਸੰਗੀਤ ਲਈ ਤਾੜੀਆਂ ਇੱਕ ਗੀਤ ਦੇ ਅੰਤ ਵਿੱਚ ਵਾਪਰਦੀਆਂ ਹਨ। ਮਾਡਲ ਇਹ ਵੀ ਸਿੱਖ ਸਕਦਾ ਹੈ, ਉਦਾਹਰਨ ਲਈ, ਕਿ ਕੁਝ ਸ਼ੈਲੀਆਂ ਵਿੱਚ ਹੋਰਾਂ ਨਾਲੋਂ ਲੰਬੇ ਯੰਤਰ ਭਾਗ ਹੁੰਦੇ ਹਨ।
ਬੋਲ
ਪਿਛਲੇ ਭਾਗ ਵਿੱਚ ਦੱਸੇ ਗਏ ਕੰਡੀਸ਼ਨਡ ਮਾਡਲ ਕਈ ਤਰ੍ਹਾਂ ਦੀਆਂ ਗਾਉਣ ਵਾਲੀਆਂ ਆਵਾਜ਼ਾਂ ਪੈਦਾ ਕਰਨ ਦੇ ਸਮਰੱਥ ਹਨ। ਹਾਲਾਂਕਿ, ਇਹ ਆਵਾਜ਼ਾਂ ਅਸੰਗਤ ਅਤੇ ਪਛਾਣਨਯੋਗ ਨਹੀਂ ਹੁੰਦੀਆਂ ਹਨ।
ਜਨਰੇਟਿਵ ਮਾਡਲ ਨੂੰ ਨਿਯੰਤਰਿਤ ਕਰਨ ਲਈ ਜਦੋਂ ਇਹ ਗੀਤਕਾਰੀ ਦੀ ਗੱਲ ਆਉਂਦੀ ਹੈ, ਖੋਜਕਰਤਾ ਸਿਖਲਾਈ ਦੇ ਸਮੇਂ ਹੋਰ ਪ੍ਰਸੰਗ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ। ਅਸਲ ਆਡੀਓ 'ਤੇ ਸਮੇਂ ਲਈ ਗੀਤ ਦੇ ਡੇਟਾ ਦਾ ਨਕਸ਼ਾ ਬਣਾਉਣ ਲਈ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਵਰਤਿਆ ਸਪਲੀਟਰ vocals ਨੂੰ ਐਕਸਟਰੈਕਟ ਕਰਨ ਲਈ ਅਤੇ NUS AutoLyricsAlign ਬੋਲਾਂ ਦੇ ਸ਼ਬਦ-ਪੱਧਰ ਦੀ ਇਕਸਾਰਤਾ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ।
ਜੂਕਬਾਕਸ ਮਾਡਲ ਦੀਆਂ ਸੀਮਾਵਾਂ
ਜੂਕਬਾਕਸ ਦੀਆਂ ਮੁੱਖ ਸੀਮਾਵਾਂ ਵਿੱਚੋਂ ਇੱਕ ਵੱਡੀ ਸੰਗੀਤਕ ਬਣਤਰਾਂ ਦੀ ਸਮਝ ਹੈ। ਉਦਾਹਰਨ ਲਈ, ਆਉਟਪੁੱਟ ਦੀ ਇੱਕ ਛੋਟੀ 20-ਸਕਿੰਟ ਦੀ ਕਲਿੱਪ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਲੱਗ ਸਕਦੀ ਹੈ, ਪਰ ਸਰੋਤੇ ਧਿਆਨ ਦੇਣਗੇ ਕਿ ਕੋਰਸ ਅਤੇ ਆਇਤਾਂ ਨੂੰ ਦੁਹਰਾਉਣ ਦੀ ਖਾਸ ਸੰਗੀਤਕ ਬਣਤਰ ਅੰਤਮ ਆਉਟਪੁੱਟ ਵਿੱਚ ਗੈਰਹਾਜ਼ਰ ਹੈ।
ਮਾਡਲ ਰੈਂਡਰ ਕਰਨ ਲਈ ਵੀ ਹੌਲੀ ਹੈ। ਇੱਕ ਮਿੰਟ ਦੇ ਆਡੀਓ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਰੈਂਡਰ ਕਰਨ ਵਿੱਚ ਲਗਭਗ 9 ਘੰਟੇ ਲੱਗਦੇ ਹਨ। ਇਹ ਗੀਤਾਂ ਦੀ ਸੰਖਿਆ ਨੂੰ ਸੀਮਿਤ ਕਰਦਾ ਹੈ ਜੋ ਤਿਆਰ ਕੀਤੇ ਜਾ ਸਕਦੇ ਹਨ ਅਤੇ ਮਾਡਲ ਨੂੰ ਇੰਟਰਐਕਟਿਵ ਐਪਲੀਕੇਸ਼ਨਾਂ ਵਿੱਚ ਵਰਤੇ ਜਾਣ ਤੋਂ ਰੋਕਦਾ ਹੈ।
ਅੰਤ ਵਿੱਚ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਨੋਟ ਕੀਤਾ ਹੈ ਕਿ ਨਮੂਨਾ ਡੇਟਾਸੈਟ ਮੁੱਖ ਤੌਰ 'ਤੇ ਅੰਗਰੇਜ਼ੀ ਵਿੱਚ ਹੈ ਅਤੇ ਮੁੱਖ ਤੌਰ 'ਤੇ ਪੱਛਮੀ ਸੰਗੀਤ ਸੰਮੇਲਨਾਂ ਨੂੰ ਪ੍ਰਦਰਸ਼ਿਤ ਕਰਦਾ ਹੈ। AI ਖੋਜਕਰਤਾ ਹੋਰ ਭਾਸ਼ਾਵਾਂ ਅਤੇ ਗੈਰ-ਪੱਛਮੀ ਸੰਗੀਤ ਸ਼ੈਲੀਆਂ ਵਿੱਚ ਸੰਗੀਤ ਪੈਦਾ ਕਰਨ 'ਤੇ ਭਵਿੱਖੀ ਖੋਜ ਨੂੰ ਫੋਕਸ ਕਰ ਸਕਦੇ ਹਨ।
ਸਿੱਟਾ
ਜੂਕਬਾਕਸ ਪ੍ਰੋਜੈਕਟ ਕੱਚੇ ਆਡੀਓ ਵਰਗੇ ਗੁੰਝਲਦਾਰ ਡੇਟਾ ਦੀ ਇੱਕ ਸਹੀ ਗੁਪਤ ਪ੍ਰਸਤੁਤੀਆਂ ਬਣਾਉਣ ਲਈ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਮਾਡਲਾਂ ਦੀ ਵਧ ਰਹੀ ਸਮਰੱਥਾ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ। ਇਸੇ ਤਰ੍ਹਾਂ ਦੀਆਂ ਸਫਲਤਾਵਾਂ ਟੈਕਸਟ ਵਿੱਚ ਹੋ ਰਹੀਆਂ ਹਨ, ਜਿਵੇਂ ਕਿ ਪ੍ਰੋਜੈਕਟਾਂ ਵਿੱਚ ਦੇਖਿਆ ਗਿਆ ਹੈ GPT-3, ਅਤੇ ਚਿੱਤਰ, ਜਿਵੇਂ ਕਿ OpenAI's ਵਿੱਚ ਦੇਖਿਆ ਗਿਆ ਹੈ FROM-E 2.
ਹਾਲਾਂਕਿ ਇਸ ਸਪੇਸ ਵਿੱਚ ਖੋਜ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਰਹੀ ਹੈ, ਅਜੇ ਵੀ ਬੌਧਿਕ ਸੰਪੱਤੀ ਦੇ ਅਧਿਕਾਰਾਂ ਬਾਰੇ ਚਿੰਤਾਵਾਂ ਹਨ ਅਤੇ ਇਹਨਾਂ ਮਾਡਲਾਂ ਦਾ ਸਮੁੱਚੇ ਤੌਰ 'ਤੇ ਰਚਨਾਤਮਕ ਉਦਯੋਗਾਂ 'ਤੇ ਕੀ ਪ੍ਰਭਾਵ ਪੈ ਸਕਦਾ ਹੈ। ਖੋਜਕਰਤਾਵਾਂ ਅਤੇ ਰਚਨਾਤਮਕਾਂ ਨੂੰ ਇਹ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਨੇੜਿਓਂ ਸਹਿਯੋਗ ਕਰਨਾ ਜਾਰੀ ਰੱਖਣਾ ਚਾਹੀਦਾ ਹੈ ਕਿ ਇਹ ਮਾਡਲਾਂ ਵਿੱਚ ਸੁਧਾਰ ਕਰਨਾ ਜਾਰੀ ਰੱਖਿਆ ਜਾ ਸਕਦਾ ਹੈ।
ਭਵਿੱਖ ਦੇ ਜਨਰੇਟਿਵ ਸੰਗੀਤ ਮਾਡਲ ਜਲਦੀ ਹੀ ਸੰਗੀਤਕਾਰਾਂ ਲਈ ਇੱਕ ਸਾਧਨ ਵਜੋਂ ਜਾਂ ਉਹਨਾਂ ਰਚਨਾਤਮਕਾਂ ਲਈ ਇੱਕ ਐਪਲੀਕੇਸ਼ਨ ਵਜੋਂ ਕੰਮ ਕਰਨ ਦੇ ਯੋਗ ਹੋ ਸਕਦੇ ਹਨ ਜਿਨ੍ਹਾਂ ਨੂੰ ਪ੍ਰੋਜੈਕਟਾਂ ਲਈ ਇੱਕ ਕਸਟਮ ਸੰਗੀਤ ਦੀ ਲੋੜ ਹੈ।
ਕੋਈ ਜਵਾਬ ਛੱਡਣਾ