ਜੂਕਬਾਕਸ ਏਆਈ - ਨਿਊਰਲ ਨੈਟਵਰਕਸ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਸੰਗੀਤ ਤਿਆਰ ਕਰਨਾ

ਵਿਸ਼ਾ - ਸੂਚੀ[ਛੁਪਾਓ][ਦਿਖਾਓ]

Jukebox AI ਕੀ ਹੈ?
ਜੂਕਬਾਕਸ ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ?+-
ਜੂਕਬਾਕਸ ਮਾਡਲ ਦੀਆਂ ਸੀਮਾਵਾਂ
ਸਿੱਟਾ

ਕੀ ਤੁਸੀਂ ਆਪਣੇ ਮਨਪਸੰਦ ਕਲਾਕਾਰ ਤੋਂ ਨਵਾਂ ਰਿਕਾਰਡ ਬਣਾਉਣ ਲਈ AI ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੇ ਹੋ?

ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਵਿੱਚ ਹਾਲੀਆ ਸਫਲਤਾਵਾਂ ਨੇ ਦਿਖਾਇਆ ਹੈ ਕਿ ਮਾਡਲ ਹੁਣ ਟੈਕਸਟ ਅਤੇ ਚਿੱਤਰਾਂ ਵਰਗੇ ਗੁੰਝਲਦਾਰ ਡੇਟਾ ਨੂੰ ਸਮਝਣ ਦੇ ਸਮਰੱਥ ਹਨ। ਓਪਨਏਆਈ ਦਾ ਜੂਕਬਾਕਸ ਸਾਬਤ ਕਰਦਾ ਹੈ ਕਿ ਇੱਥੋਂ ਤੱਕ ਕਿ ਸੰਗੀਤ ਨੂੰ ਵੀ ਇੱਕ ਨਿਊਰਲ ਨੈਟਵਰਕ ਦੁਆਰਾ ਸਹੀ ਢੰਗ ਨਾਲ ਮਾਡਲ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ।

ਸੰਗੀਤ ਮਾਡਲ ਲਈ ਇੱਕ ਗੁੰਝਲਦਾਰ ਵਸਤੂ ਹੈ। ਤੁਹਾਨੂੰ ਸਧਾਰਣ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਜਿਵੇਂ ਕਿ ਟੈਂਪੋ, ਉੱਚੀ, ਅਤੇ ਪਿੱਚ ਅਤੇ ਹੋਰ ਗੁੰਝਲਦਾਰ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਜਿਵੇਂ ਕਿ ਬੋਲ, ਯੰਤਰ, ਅਤੇ ਸੰਗੀਤਕ ਬਣਤਰ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖਣਾ ਹੋਵੇਗਾ।

ਉੱਨਤ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਤਕਨੀਕਾਂ, ਓਪਨਏਆਈ ਨੇ ਕੱਚੇ ਆਡੀਓ ਨੂੰ ਇੱਕ ਪ੍ਰਤਿਨਿਧਤਾ ਵਿੱਚ ਬਦਲਣ ਦਾ ਇੱਕ ਤਰੀਕਾ ਲੱਭਿਆ ਹੈ ਜਿਸਦੀ ਵਰਤੋਂ ਦੂਜੇ ਮਾਡਲ ਕਰ ਸਕਦੇ ਹਨ।

ਇਹ ਲੇਖ ਜੂਕਬਾਕਸ ਕੀ ਕਰ ਸਕਦਾ ਹੈ, ਇਹ ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ, ਅਤੇ ਤਕਨਾਲੋਜੀ ਦੀਆਂ ਮੌਜੂਦਾ ਸੀਮਾਵਾਂ ਦੀ ਵਿਆਖਿਆ ਕਰੇਗਾ।

Jukebox AI ਕੀ ਹੈ?

ਜੈਕਬੌਕਸ ਓਪਨਏਆਈ ਦੁਆਰਾ ਇੱਕ ਨਿਊਰਲ ਨੈੱਟ ਮਾਡਲ ਹੈ ਜੋ ਗਾਉਣ ਨਾਲ ਸੰਗੀਤ ਤਿਆਰ ਕਰ ਸਕਦਾ ਹੈ। ਮਾਡਲ ਕਈ ਕਿਸਮਾਂ ਅਤੇ ਕਲਾਕਾਰਾਂ ਦੀਆਂ ਸ਼ੈਲੀਆਂ ਵਿੱਚ ਸੰਗੀਤ ਤਿਆਰ ਕਰ ਸਕਦਾ ਹੈ।

jukebox AI ਜਾਣੇ-ਪਛਾਣੇ ਕਲਾਕਾਰਾਂ ਦੇ ਗੀਤ ਤਿਆਰ ਕਰਦਾ ਹੈ

ਉਦਾਹਰਨ ਲਈ, ਜੂਕਬਾਕਸ ਐਲਵਿਸ ਪ੍ਰੈਸਲੇ ਦੀ ਸ਼ੈਲੀ ਵਿੱਚ ਇੱਕ ਰੌਕ ਗੀਤ ਜਾਂ ਕੈਨਯ ਵੈਸਟ ਦੀ ਸ਼ੈਲੀ ਵਿੱਚ ਇੱਕ ਹਿੱਪ ਹੌਪ ਧੁਨ ਤਿਆਰ ਕਰ ਸਕਦਾ ਹੈ। ਤੁਸੀਂ ਇਸ 'ਤੇ ਜਾ ਸਕਦੇ ਹੋ ਵੈਬਸਾਈਟ ਇਹ ਪਤਾ ਲਗਾਉਣ ਲਈ ਕਿ ਮਾਡਲ ਤੁਹਾਡੇ ਮਨਪਸੰਦ ਸੰਗੀਤਕ ਕਲਾਕਾਰਾਂ ਅਤੇ ਸ਼ੈਲੀਆਂ ਦੀ ਆਵਾਜ਼ ਨੂੰ ਕੈਪਚਰ ਕਰਨ ਲਈ ਕਿੰਨਾ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੈ।

ਮਾਡਲ ਨੂੰ ਇੱਕ ਸ਼ੈਲੀ, ਕਲਾਕਾਰ, ਅਤੇ ਗੀਤਾਂ ਦੇ ਰੂਪ ਵਿੱਚ ਇਨਪੁਟ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਇਹ ਇਨਪੁਟ ਲੱਖਾਂ ਕਲਾਕਾਰਾਂ ਅਤੇ ਗੀਤਕਾਰੀ ਡੇਟਾ 'ਤੇ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਮਾਡਲ ਦੀ ਅਗਵਾਈ ਕਰਦਾ ਹੈ।

ਜੂਕਬਾਕਸ ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ?

ਆਓ ਦੇਖੀਏ ਕਿ ਕਿਵੇਂ ਜੂਕਬਾਕਸ ਲੱਖਾਂ ਗੀਤਾਂ 'ਤੇ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਮਾਡਲ ਤੋਂ ਨਾਵਲ ਕੱਚਾ ਆਡੀਓ ਤਿਆਰ ਕਰਨ ਦਾ ਪ੍ਰਬੰਧ ਕਰਦਾ ਹੈ।

ਏਨਕੋਡਿੰਗ ਪ੍ਰਕਿਰਿਆ

ਜਦੋਂ ਕਿ ਕੁਝ ਸੰਗੀਤ ਜਨਰੇਸ਼ਨ ਮਾਡਲ MIDI ਸਿਖਲਾਈ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ, ਜੂਕਬਾਕਸ ਨੂੰ ਅਸਲ ਕੱਚੀ ਆਡੀਓ ਫਾਈਲ 'ਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ। ਆਡੀਓ ਨੂੰ ਇੱਕ ਵੱਖਰੀ ਥਾਂ ਵਿੱਚ ਸੰਕੁਚਿਤ ਕਰਨ ਲਈ, ਜੂਕਬਾਕਸ ਇੱਕ ਆਟੋ-ਏਨਕੋਡਰ ਪਹੁੰਚ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ ਜਿਸਨੂੰ VQ-VAE ਕਿਹਾ ਜਾਂਦਾ ਹੈ।

VQ-VAE ਵੈਕਟਰ ਕੁਆਂਟਾਈਜ਼ਡ ਵੇਰੀਏਸ਼ਨਲ ਆਟੋਏਨਕੋਡਰ ਦਾ ਅਰਥ ਹੈ, ਜੋ ਥੋੜਾ ਗੁੰਝਲਦਾਰ ਲੱਗ ਸਕਦਾ ਹੈ, ਇਸ ਲਈ ਆਓ ਇਸਨੂੰ ਤੋੜ ਦੇਈਏ।

ਪਹਿਲਾਂ, ਆਓ ਇਹ ਸਮਝਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰੀਏ ਕਿ ਅਸੀਂ ਇੱਥੇ ਕੀ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹਾਂ। ਬੋਲ ਜਾਂ ਸ਼ੀਟ ਸੰਗੀਤ ਦੀ ਤੁਲਨਾ ਵਿੱਚ, ਇੱਕ ਕੱਚੀ ਆਡੀਓ ਫਾਈਲ ਬਹੁਤ ਜ਼ਿਆਦਾ ਗੁੰਝਲਦਾਰ ਹੈ। ਜੇਕਰ ਅਸੀਂ ਚਾਹੁੰਦੇ ਹਾਂ ਕਿ ਸਾਡਾ ਮਾਡਲ ਗੀਤਾਂ ਤੋਂ "ਸਿੱਖਿਆ" ਹੋਵੇ, ਤਾਂ ਸਾਨੂੰ ਇਸਨੂੰ ਵਧੇਰੇ ਸੰਕੁਚਿਤ ਅਤੇ ਸਰਲ ਪੇਸ਼ਕਾਰੀ ਵਿੱਚ ਬਦਲਣਾ ਹੋਵੇਗਾ। ਵਿੱਚ ਮਸ਼ੀਨ ਸਿਖਲਾਈ, ਅਸੀਂ ਇਸ ਅੰਤਰੀਵ ਪ੍ਰਤੀਨਿਧਤਾ ਨੂੰ ਕਹਿੰਦੇ ਹਾਂ a ਗੁਪਤ ਸਪੇਸ.

ਗੁਪਤ ਸਪੇਸ ਇੱਕ ਨਮੂਨਾ ਇੰਪੁੱਟ ਦਾ ਇੱਕ ਸੰਕੁਚਿਤ ਸੰਸਕਰਣ ਹੈ

An ਆਟੋਏਨਕੋਡ ਇੱਕ ਨਿਰੀਖਣ ਰਹਿਤ ਸਿਖਲਾਈ ਤਕਨੀਕ ਹੈ ਜੋ ਏ ਨਿਊਰਲ ਨੈਟਵਰਕ ਦਿੱਤੇ ਗਏ ਡੇਟਾ ਵੰਡ ਲਈ ਗੈਰ-ਲੀਨੀਅਰ ਲੁਕਵੇਂ ਪ੍ਰਸਤੁਤੀਆਂ ਨੂੰ ਲੱਭਣ ਲਈ। ਆਟੋਏਨਕੋਡਰ ਵਿੱਚ ਦੋ ਭਾਗ ਹੁੰਦੇ ਹਨ: ਇੱਕ ਏਨਕੋਡਰ ਅਤੇ ਡੀਕੋਡਰ।

The ਏਨਕੋਡਰ ਕੱਚੇ ਡੇਟਾ ਦੇ ਇੱਕ ਸਮੂਹ ਤੋਂ ਗੁਪਤ ਸਪੇਸ ਲੱਭਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦਾ ਹੈ ਜਦੋਂ ਕਿ ਡੀਕੋਡਰ ਇਸ ਨੂੰ ਇਸਦੇ ਅਸਲ ਫਾਰਮੈਟ ਵਿੱਚ ਦੁਬਾਰਾ ਬਣਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਨ ਲਈ ਗੁਪਤ ਪ੍ਰਤੀਨਿਧਤਾ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਆਟੋਏਨਕੋਡਰ ਜ਼ਰੂਰੀ ਤੌਰ 'ਤੇ ਇਹ ਸਿੱਖਦਾ ਹੈ ਕਿ ਕਿਵੇਂ ਕੱਚੇ ਡੇਟਾ ਨੂੰ ਇਸ ਤਰੀਕੇ ਨਾਲ ਸੰਕੁਚਿਤ ਕਰਨਾ ਹੈ ਜੋ ਪੁਨਰ ਨਿਰਮਾਣ ਗਲਤੀ ਨੂੰ ਘੱਟ ਕਰਦਾ ਹੈ।

ਹੁਣ ਜਦੋਂ ਅਸੀਂ ਜਾਣਦੇ ਹਾਂ ਕਿ ਇੱਕ ਆਟੋਏਨਕੋਡਰ ਕੀ ਕਰਦਾ ਹੈ, ਆਉ ਇਹ ਸਮਝਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰੀਏ ਕਿ "ਪਰਿਵਰਤਨਸ਼ੀਲ" ਆਟੋਏਨਕੋਡਰ ਤੋਂ ਸਾਡਾ ਕੀ ਮਤਲਬ ਹੈ। ਆਮ ਆਟੋਏਨਕੋਡਰਾਂ ਦੀ ਤੁਲਨਾ ਵਿੱਚ, ਪਰਿਵਰਤਨਸ਼ੀਲ ਆਟੋਏਨਕੋਡਰ ਲੁਕਵੀਂ ਥਾਂ ਤੋਂ ਪਹਿਲਾਂ ਜੋੜਦੇ ਹਨ।

ਗਣਿਤ ਵਿੱਚ ਗੋਤਾਖੋਰੀ ਕੀਤੇ ਬਿਨਾਂ, ਇੱਕ ਸੰਭਾਵੀ ਪੂਰਵ ਜੋੜਨ ਨਾਲ ਗੁਪਤ ਵੰਡ ਨੂੰ ਨੇੜਿਓਂ ਸੰਕੁਚਿਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਇੱਕ VAE ਅਤੇ ਇੱਕ VQ-VAE ਵਿੱਚ ਮੁੱਖ ਅੰਤਰ ਇਹ ਹੈ ਕਿ ਬਾਅਦ ਵਾਲਾ ਇੱਕ ਨਿਰੰਤਰ ਇੱਕ ਦੀ ਬਜਾਏ ਇੱਕ ਵੱਖਰੇ ਅਪ੍ਰਤੱਖ ਪ੍ਰਤੀਨਿਧਤਾ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਏਨਕੋਡਿੰਗ ਅਤੇ ਡੀਕੋਡਿੰਗ ਲਈ ਜੂਕਬਾਕਸ ਏਆਈ ਦੇ ਆਰਕੀਟੈਕਚਰ ਦਾ ਚਿੱਤਰ

ਹਰੇਕ VQ-VAE ਪੱਧਰ ਸੁਤੰਤਰ ਤੌਰ 'ਤੇ ਇੰਪੁੱਟ ਨੂੰ ਏਨਕੋਡ ਕਰਦਾ ਹੈ। ਹੇਠਲੇ ਪੱਧਰ ਦੀ ਏਨਕੋਡਿੰਗ ਉੱਚ-ਗੁਣਵੱਤਾ ਪੁਨਰ ਨਿਰਮਾਣ ਪੈਦਾ ਕਰਦੀ ਹੈ। ਸਿਖਰ-ਪੱਧਰ ਦੀ ਏਨਕੋਡਿੰਗ ਜ਼ਰੂਰੀ ਸੰਗੀਤਕ ਜਾਣਕਾਰੀ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖਦੀ ਹੈ।

ਟ੍ਰਾਂਸਫਾਰਮਰਾਂ ਦੀ ਵਰਤੋਂ ਕਰਨਾ

jukebox AI ਟਰੈਕ ਵਿੱਚ ਅਗਲੀ ਆਡੀਓ ਕਲਿੱਪ ਬਣਾਉਣ ਲਈ ਟ੍ਰਾਂਸਫਾਰਮਰਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ

ਹੁਣ ਜਦੋਂ ਸਾਡੇ ਕੋਲ VQ-VAE ਦੁਆਰਾ ਏਨਕੋਡ ਕੀਤੇ ਸੰਗੀਤ ਕੋਡ ਹਨ, ਅਸੀਂ ਕੋਸ਼ਿਸ਼ ਕਰ ਸਕਦੇ ਹਾਂ ਸੰਗੀਤ ਤਿਆਰ ਕਰੋ ਇਸ ਕੰਪਰੈੱਸਡ ਡਿਸਕਰੀਟ ਸਪੇਸ ਵਿੱਚ।

ਜੂਕਬਾਕਸ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ ਆਟੋਰੀਗਰੈਸਿਵ ਟ੍ਰਾਂਸਫਾਰਮਰ ਆਉਟਪੁੱਟ ਆਡੀਓ ਬਣਾਉਣ ਲਈ. ਟ੍ਰਾਂਸਫਾਰਮਰ ਇੱਕ ਕਿਸਮ ਦਾ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਹੈ ਜੋ ਕ੍ਰਮਬੱਧ ਡੇਟਾ ਦੇ ਨਾਲ ਵਧੀਆ ਕੰਮ ਕਰਦਾ ਹੈ। ਟੋਕਨਾਂ ਦੇ ਕ੍ਰਮ ਨੂੰ ਦੇਖਦੇ ਹੋਏ, ਇੱਕ ਟ੍ਰਾਂਸਫਾਰਮਰ ਮਾਡਲ ਅਗਲੇ ਟੋਕਨ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰੇਗਾ।

ਜੂਕਬਾਕਸ ਸਪਾਰਸ ਟ੍ਰਾਂਸਫਾਰਮਰਾਂ ਦੇ ਇੱਕ ਸਰਲ ਰੂਪ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇੱਕ ਵਾਰ ਜਦੋਂ ਸਾਰੇ ਪੁਰਾਣੇ ਮਾਡਲਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ, ਤਾਂ ਟ੍ਰਾਂਸਫਾਰਮਰ ਕੰਪਰੈੱਸਡ ਕੋਡ ਤਿਆਰ ਕਰਦਾ ਹੈ ਜੋ ਫਿਰ VQ-VAE ਡੀਕੋਡਰ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕੱਚੇ ਆਡੀਓ ਵਿੱਚ ਡੀਕੋਡ ਕੀਤੇ ਜਾਂਦੇ ਹਨ।

ਜੂਕਬਾਕਸ ਵਿੱਚ ਕਲਾਕਾਰ ਅਤੇ ਸ਼ੈਲੀ ਕੰਡੀਸ਼ਨਿੰਗ

ਸ਼ੁਰੂਆਤੀ ਜੂਕਬਾਕਸ AI ਮਾਡਲ ਇਹ ਸਮਝਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦਾ ਹੈ ਕਿ ਇੱਕ ਗੀਤ ਇੱਕ ਖਾਸ ਸ਼ੈਲੀ ਜਾਂ ਕਲਾਕਾਰ ਵਰਗਾ ਕਿਵੇਂ ਲੱਗਦਾ ਹੈ

ਜੂਕਬਾਕਸ ਦੇ ਜਨਰੇਟਿਵ ਮਾਡਲ ਨੂੰ ਸਿਖਲਾਈ ਦੇ ਪੜਾਅ ਦੌਰਾਨ ਵਾਧੂ ਸ਼ਰਤੀਆ ਸੰਕੇਤ ਪ੍ਰਦਾਨ ਕਰਕੇ ਵਧੇਰੇ ਨਿਯੰਤਰਣਯੋਗ ਬਣਾਇਆ ਗਿਆ ਹੈ।

ਪਹਿਲੇ ਮਾਡਲ ਹਰ ਗੀਤ ਲਈ ਕਲਾਕਾਰਾਂ ਅਤੇ ਸ਼ੈਲੀ ਦੇ ਲੇਬਲਾਂ ਦੁਆਰਾ ਪ੍ਰਦਾਨ ਕੀਤੇ ਜਾਂਦੇ ਹਨ। ਇਹ ਆਡੀਓ ਪੂਰਵ ਅਨੁਮਾਨ ਦੀ ਐਨਟ੍ਰੋਪੀ ਨੂੰ ਘਟਾਉਂਦਾ ਹੈ ਅਤੇ ਮਾਡਲ ਨੂੰ ਬਿਹਤਰ ਗੁਣਵੱਤਾ ਪ੍ਰਾਪਤ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ। ਲੇਬਲ ਸਾਨੂੰ ਇੱਕ ਖਾਸ ਸ਼ੈਲੀ ਵਿੱਚ ਮਾਡਲ ਨੂੰ ਚਲਾਉਣ ਲਈ ਵੀ ਸਮਰੱਥ ਬਣਾਉਂਦੇ ਹਨ।

ਕਲਾਕਾਰ ਅਤੇ ਸ਼ੈਲੀ ਤੋਂ ਇਲਾਵਾ, ਸਿਖਲਾਈ ਦੇ ਸਮੇਂ ਦੌਰਾਨ ਸਮੇਂ ਦੇ ਸੰਕੇਤ ਸ਼ਾਮਲ ਕੀਤੇ ਜਾਂਦੇ ਹਨ। ਇਹਨਾਂ ਸਿਗਨਲਾਂ ਵਿੱਚ ਗੀਤ ਦੀ ਲੰਬਾਈ, ਕਿਸੇ ਖਾਸ ਨਮੂਨੇ ਦਾ ਅਰੰਭ ਸਮਾਂ, ਅਤੇ ਗੀਤ ਦਾ ਅੰਸ਼ ਸ਼ਾਮਲ ਹੁੰਦਾ ਹੈ ਜੋ ਬੀਤ ਗਿਆ ਹੈ। ਇਹ ਵਾਧੂ ਜਾਣਕਾਰੀ ਮਾਡਲ ਨੂੰ ਆਡੀਓ ਪੈਟਰਨਾਂ ਨੂੰ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰਦੀ ਹੈ ਜੋ ਸਮੁੱਚੇ ਢਾਂਚੇ 'ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ।

ਉਦਾਹਰਨ ਲਈ, ਮਾਡਲ ਇਹ ਸਿੱਖ ਸਕਦਾ ਹੈ ਕਿ ਲਾਈਵ ਸੰਗੀਤ ਲਈ ਤਾੜੀਆਂ ਇੱਕ ਗੀਤ ਦੇ ਅੰਤ ਵਿੱਚ ਵਾਪਰਦੀਆਂ ਹਨ। ਮਾਡਲ ਇਹ ਵੀ ਸਿੱਖ ਸਕਦਾ ਹੈ, ਉਦਾਹਰਨ ਲਈ, ਕਿ ਕੁਝ ਸ਼ੈਲੀਆਂ ਵਿੱਚ ਹੋਰਾਂ ਨਾਲੋਂ ਲੰਬੇ ਯੰਤਰ ਭਾਗ ਹੁੰਦੇ ਹਨ।

ਬੋਲ

ਪਿਛਲੇ ਭਾਗ ਵਿੱਚ ਦੱਸੇ ਗਏ ਕੰਡੀਸ਼ਨਡ ਮਾਡਲ ਕਈ ਤਰ੍ਹਾਂ ਦੀਆਂ ਗਾਉਣ ਵਾਲੀਆਂ ਆਵਾਜ਼ਾਂ ਪੈਦਾ ਕਰਨ ਦੇ ਸਮਰੱਥ ਹਨ। ਹਾਲਾਂਕਿ, ਇਹ ਆਵਾਜ਼ਾਂ ਅਸੰਗਤ ਅਤੇ ਪਛਾਣਨਯੋਗ ਨਹੀਂ ਹੁੰਦੀਆਂ ਹਨ।

ਜਨਰੇਟਿਵ ਮਾਡਲ ਨੂੰ ਨਿਯੰਤਰਿਤ ਕਰਨ ਲਈ ਜਦੋਂ ਇਹ ਗੀਤਕਾਰੀ ਦੀ ਗੱਲ ਆਉਂਦੀ ਹੈ, ਖੋਜਕਰਤਾ ਸਿਖਲਾਈ ਦੇ ਸਮੇਂ ਹੋਰ ਪ੍ਰਸੰਗ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ। ਅਸਲ ਆਡੀਓ 'ਤੇ ਸਮੇਂ ਲਈ ਗੀਤ ਦੇ ਡੇਟਾ ਦਾ ਨਕਸ਼ਾ ਬਣਾਉਣ ਲਈ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਵਰਤਿਆ ਸਪਲੀਟਰ vocals ਨੂੰ ਐਕਸਟਰੈਕਟ ਕਰਨ ਲਈ ਅਤੇ NUS AutoLyricsAlign ਬੋਲਾਂ ਦੇ ਸ਼ਬਦ-ਪੱਧਰ ਦੀ ਇਕਸਾਰਤਾ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ।

ਜੂਕਬਾਕਸ ਮਾਡਲ ਦੀਆਂ ਸੀਮਾਵਾਂ

ਜੂਕਬਾਕਸ ਦੀਆਂ ਮੁੱਖ ਸੀਮਾਵਾਂ ਵਿੱਚੋਂ ਇੱਕ ਵੱਡੀ ਸੰਗੀਤਕ ਬਣਤਰਾਂ ਦੀ ਸਮਝ ਹੈ। ਉਦਾਹਰਨ ਲਈ, ਆਉਟਪੁੱਟ ਦੀ ਇੱਕ ਛੋਟੀ 20-ਸਕਿੰਟ ਦੀ ਕਲਿੱਪ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਲੱਗ ਸਕਦੀ ਹੈ, ਪਰ ਸਰੋਤੇ ਧਿਆਨ ਦੇਣਗੇ ਕਿ ਕੋਰਸ ਅਤੇ ਆਇਤਾਂ ਨੂੰ ਦੁਹਰਾਉਣ ਦੀ ਖਾਸ ਸੰਗੀਤਕ ਬਣਤਰ ਅੰਤਮ ਆਉਟਪੁੱਟ ਵਿੱਚ ਗੈਰਹਾਜ਼ਰ ਹੈ।

ਮਾਡਲ ਰੈਂਡਰ ਕਰਨ ਲਈ ਵੀ ਹੌਲੀ ਹੈ। ਇੱਕ ਮਿੰਟ ਦੇ ਆਡੀਓ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਰੈਂਡਰ ਕਰਨ ਵਿੱਚ ਲਗਭਗ 9 ਘੰਟੇ ਲੱਗਦੇ ਹਨ। ਇਹ ਗੀਤਾਂ ਦੀ ਸੰਖਿਆ ਨੂੰ ਸੀਮਿਤ ਕਰਦਾ ਹੈ ਜੋ ਤਿਆਰ ਕੀਤੇ ਜਾ ਸਕਦੇ ਹਨ ਅਤੇ ਮਾਡਲ ਨੂੰ ਇੰਟਰਐਕਟਿਵ ਐਪਲੀਕੇਸ਼ਨਾਂ ਵਿੱਚ ਵਰਤੇ ਜਾਣ ਤੋਂ ਰੋਕਦਾ ਹੈ।

ਅੰਤ ਵਿੱਚ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਨੋਟ ਕੀਤਾ ਹੈ ਕਿ ਨਮੂਨਾ ਡੇਟਾਸੈਟ ਮੁੱਖ ਤੌਰ 'ਤੇ ਅੰਗਰੇਜ਼ੀ ਵਿੱਚ ਹੈ ਅਤੇ ਮੁੱਖ ਤੌਰ 'ਤੇ ਪੱਛਮੀ ਸੰਗੀਤ ਸੰਮੇਲਨਾਂ ਨੂੰ ਪ੍ਰਦਰਸ਼ਿਤ ਕਰਦਾ ਹੈ। AI ਖੋਜਕਰਤਾ ਹੋਰ ਭਾਸ਼ਾਵਾਂ ਅਤੇ ਗੈਰ-ਪੱਛਮੀ ਸੰਗੀਤ ਸ਼ੈਲੀਆਂ ਵਿੱਚ ਸੰਗੀਤ ਪੈਦਾ ਕਰਨ 'ਤੇ ਭਵਿੱਖੀ ਖੋਜ ਨੂੰ ਫੋਕਸ ਕਰ ਸਕਦੇ ਹਨ।

ਸਿੱਟਾ

ਜੂਕਬਾਕਸ ਪ੍ਰੋਜੈਕਟ ਕੱਚੇ ਆਡੀਓ ਵਰਗੇ ਗੁੰਝਲਦਾਰ ਡੇਟਾ ਦੀ ਇੱਕ ਸਹੀ ਗੁਪਤ ਪ੍ਰਸਤੁਤੀਆਂ ਬਣਾਉਣ ਲਈ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਮਾਡਲਾਂ ਦੀ ਵਧ ਰਹੀ ਸਮਰੱਥਾ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ। ਇਸੇ ਤਰ੍ਹਾਂ ਦੀਆਂ ਸਫਲਤਾਵਾਂ ਟੈਕਸਟ ਵਿੱਚ ਹੋ ਰਹੀਆਂ ਹਨ, ਜਿਵੇਂ ਕਿ ਪ੍ਰੋਜੈਕਟਾਂ ਵਿੱਚ ਦੇਖਿਆ ਗਿਆ ਹੈ GPT-3, ਅਤੇ ਚਿੱਤਰ, ਜਿਵੇਂ ਕਿ OpenAI's ਵਿੱਚ ਦੇਖਿਆ ਗਿਆ ਹੈ FROM-E 2.

ਹਾਲਾਂਕਿ ਇਸ ਸਪੇਸ ਵਿੱਚ ਖੋਜ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਰਹੀ ਹੈ, ਅਜੇ ਵੀ ਬੌਧਿਕ ਸੰਪੱਤੀ ਦੇ ਅਧਿਕਾਰਾਂ ਬਾਰੇ ਚਿੰਤਾਵਾਂ ਹਨ ਅਤੇ ਇਹਨਾਂ ਮਾਡਲਾਂ ਦਾ ਸਮੁੱਚੇ ਤੌਰ 'ਤੇ ਰਚਨਾਤਮਕ ਉਦਯੋਗਾਂ 'ਤੇ ਕੀ ਪ੍ਰਭਾਵ ਪੈ ਸਕਦਾ ਹੈ। ਖੋਜਕਰਤਾਵਾਂ ਅਤੇ ਰਚਨਾਤਮਕਾਂ ਨੂੰ ਇਹ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਨੇੜਿਓਂ ਸਹਿਯੋਗ ਕਰਨਾ ਜਾਰੀ ਰੱਖਣਾ ਚਾਹੀਦਾ ਹੈ ਕਿ ਇਹ ਮਾਡਲਾਂ ਵਿੱਚ ਸੁਧਾਰ ਕਰਨਾ ਜਾਰੀ ਰੱਖਿਆ ਜਾ ਸਕਦਾ ਹੈ।

ਭਵਿੱਖ ਦੇ ਜਨਰੇਟਿਵ ਸੰਗੀਤ ਮਾਡਲ ਜਲਦੀ ਹੀ ਸੰਗੀਤਕਾਰਾਂ ਲਈ ਇੱਕ ਸਾਧਨ ਵਜੋਂ ਜਾਂ ਉਹਨਾਂ ਰਚਨਾਤਮਕਾਂ ਲਈ ਇੱਕ ਐਪਲੀਕੇਸ਼ਨ ਵਜੋਂ ਕੰਮ ਕਰਨ ਦੇ ਯੋਗ ਹੋ ਸਕਦੇ ਹਨ ਜਿਨ੍ਹਾਂ ਨੂੰ ਪ੍ਰੋਜੈਕਟਾਂ ਲਈ ਇੱਕ ਕਸਟਮ ਸੰਗੀਤ ਦੀ ਲੋੜ ਹੈ।

ਜੂਕਬਾਕਸ ਏਆਈ - ਨਿਊਰਲ ਨੈਟਵਰਕਸ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਸੰਗੀਤ ਤਿਆਰ ਕਰਨਾ

Jukebox AI ਕੀ ਹੈ?