ਕੀ ਤੁਸੀਂ ਕਦੇ ਆਪਣੇ ਮਨਪਸੰਦ ਪਾਤਰ ਨੂੰ ਤੁਹਾਡੇ ਨਾਲ ਗੱਲ ਕਰਦੇ ਸੁਣਨਾ ਚਾਹੁੰਦੇ ਹੋ? ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੀ ਮਦਦ ਨਾਲ ਕੁਦਰਤੀ-ਧੁਨੀ ਟੈਕਸਟ-ਟੂ-ਸਪੀਚ ਹੌਲੀ-ਹੌਲੀ ਅਸਲੀਅਤ ਬਣ ਰਹੀ ਹੈ।
ਉਦਾਹਰਨ ਲਈ, Google ਦੇ NAT TTS ਮਾਡਲ ਨੂੰ ਉਹਨਾਂ ਦੇ ਨਵੇਂ ਨੂੰ ਸ਼ਕਤੀ ਦੇਣ ਲਈ ਵਰਤਿਆ ਜਾ ਰਿਹਾ ਹੈ ਕਸਟਮ ਵੌਇਸ ਸੇਵਾ। ਇਹ ਸੇਵਾ ਰਿਕਾਰਡਿੰਗਾਂ ਤੋਂ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਅਵਾਜ਼ ਪੈਦਾ ਕਰਨ ਲਈ ਨਿਊਰਲ ਨੈੱਟਵਰਕਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੀ ਹੈ। ਵੈੱਬ ਐਪਸ ਜਿਵੇਂ ਕਿ ਉਬਰਡੱਕ ਆਪਣੇ ਖੁਦ ਦੇ ਸੰਸ਼ਲੇਸ਼ਿਤ ਟੈਕਸਟ ਨੂੰ ਬਣਾਉਣ ਲਈ ਤੁਹਾਡੇ ਲਈ ਚੁਣਨ ਲਈ ਸੈਂਕੜੇ ਆਵਾਜ਼ਾਂ ਪ੍ਰਦਾਨ ਕਰੋ।
ਇਸ ਲੇਖ ਵਿੱਚ, ਅਸੀਂ 15.ai ਵਜੋਂ ਜਾਣੇ ਜਾਂਦੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਅਤੇ ਬਰਾਬਰ ਦੇ ਰਹੱਸਮਈ AI ਮਾਡਲ ਨੂੰ ਦੇਖਾਂਗੇ। ਇੱਕ ਅਗਿਆਤ ਡਿਵੈਲਪਰ ਦੁਆਰਾ ਬਣਾਇਆ ਗਿਆ, ਇਹ ਸਭ ਤੋਂ ਵੱਧ ਕੁਸ਼ਲ ਅਤੇ ਭਾਵਨਾਤਮਕ ਹੋ ਸਕਦਾ ਹੈ ਟੈਕਸਟ-ਟੂ-ਸਪੀਚ ਮਾਡਲ ਅਜੇ ਤੱਕ.
15.ai ਕੀ ਹੈ?
15.ਏ.ਆਈ ਇੱਕ AI ਵੈੱਬ ਐਪਲੀਕੇਸ਼ਨ ਹੈ ਜੋ ਭਾਵਨਾਤਮਕ ਉੱਚ-ਵਫ਼ਾਦਾਰ ਟੈਕਸਟ-ਟੂ-ਸਪੀਚ ਆਵਾਜ਼ਾਂ ਪੈਦਾ ਕਰਨ ਦੇ ਸਮਰੱਥ ਹੈ। ਵਰਤੋਂਕਾਰ 9000: ਏ ਸਪੇਸ ਓਡੀਸੀ ਤੋਂ Spongebob Squarepants ਤੋਂ HAL 2001 ਤੱਕ ਕਈ ਤਰ੍ਹਾਂ ਦੀਆਂ ਆਵਾਜ਼ਾਂ ਵਿੱਚੋਂ ਚੁਣ ਸਕਦੇ ਹਨ।
ਪ੍ਰੋਗਰਾਮ ਨੂੰ 15 ਨਾਮ ਦੇ ਅਧੀਨ ਕੰਮ ਕਰਨ ਵਾਲੇ ਇੱਕ ਅਗਿਆਤ ਸਾਬਕਾ ਐਮਆਈਟੀ ਖੋਜਕਰਤਾ ਦੁਆਰਾ ਵਿਕਸਤ ਕੀਤਾ ਗਿਆ ਸੀ। ਡਿਵੈਲਪਰ ਨੇ ਦੱਸਿਆ ਹੈ ਕਿ ਇਸ ਪ੍ਰੋਜੈਕਟ ਦੀ ਸ਼ੁਰੂਆਤ ਵਿੱਚ ਯੂਨੀਵਰਸਿਟੀ ਦੇ ਅੰਡਰਗਰੈਜੂਏਟ ਖੋਜ ਅਵਸਰ ਪ੍ਰੋਗਰਾਮ ਦੇ ਹਿੱਸੇ ਵਜੋਂ ਕਲਪਨਾ ਕੀਤੀ ਗਈ ਸੀ।
15.ai ਵਿੱਚ ਉਪਲਬਧ ਬਹੁਤ ਸਾਰੀਆਂ ਆਵਾਜ਼ਾਂ ਨੂੰ My Little Pony: Friendship is Magic ਦੇ ਪਾਤਰਾਂ ਦੇ ਜਨਤਕ ਡੇਟਾਸੈਟਾਂ 'ਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ। ਸ਼ੋਅ ਦੇ ਸ਼ੌਕੀਨ ਪ੍ਰਸ਼ੰਸਕਾਂ ਨੇ ਆਪਣੇ ਮਨਪਸੰਦ ਕਿਰਦਾਰਾਂ ਦੇ ਸਹੀ ਟੈਕਸਟ-ਟੂ-ਸਪੀਚ ਜਨਰੇਟਰ ਬਣਾਉਣ ਦੇ ਟੀਚੇ ਨਾਲ ਸੰਵਾਦ ਦੇ ਘੰਟਿਆਂ ਨੂੰ ਇਕੱਠਾ ਕਰਨ, ਪ੍ਰਤੀਲਿਪੀਕਰਣ ਅਤੇ ਪ੍ਰਕਿਰਿਆ ਕਰਨ ਲਈ ਇੱਕ ਸਹਿਯੋਗੀ ਯਤਨ ਬਣਾਇਆ ਹੈ।
15.ai ਕੀ ਕਰ ਸਕਦਾ ਹੈ?
15.ai ਵੈੱਬ ਐਪਲੀਕੇਸ਼ਨ ਦਰਜਨਾਂ ਕਾਲਪਨਿਕ ਪਾਤਰਾਂ ਵਿੱਚੋਂ ਇੱਕ ਨੂੰ ਚੁਣ ਕੇ ਕੰਮ ਕਰਦੀ ਹੈ ਜਿਸ 'ਤੇ ਮਾਡਲ ਨੂੰ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਹੈ ਅਤੇ ਇਨਪੁਟ ਟੈਕਸਟ ਨੂੰ ਸਪੁਰਦ ਕੀਤਾ ਗਿਆ ਹੈ। ਜਨਰੇਟ 'ਤੇ ਕਲਿੱਕ ਕਰਨ ਤੋਂ ਬਾਅਦ, ਉਪਭੋਗਤਾ ਨੂੰ ਦਿੱਤੀਆਂ ਲਾਈਨਾਂ ਬੋਲਣ ਵਾਲੇ ਕਾਲਪਨਿਕ ਪਾਤਰ ਦੇ ਤਿੰਨ ਆਡੀਓ ਕਲਿੱਪ ਪ੍ਰਾਪਤ ਹੋਣੇ ਚਾਹੀਦੇ ਹਨ।
ਕਿਉਕਿ ਡੂੰਘੀ ਸਿੱਖਿਆ ਵਰਤਿਆ ਜਾਣ ਵਾਲਾ ਮਾਡਲ ਗੈਰ-ਨਿਰਧਾਰਤ ਹੈ, 15.ai ਹਰ ਵਾਰ ਥੋੜਾ ਵੱਖਰਾ ਭਾਸ਼ਣ ਦਿੰਦਾ ਹੈ। ਜਿਵੇਂ ਕਿ ਕਿਵੇਂ ਇੱਕ ਅਭਿਨੇਤਾ ਨੂੰ ਸਹੀ ਡਿਲੀਵਰੀ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਕਈ ਵਾਰ ਲੈਣ ਦੀ ਲੋੜ ਹੋ ਸਕਦੀ ਹੈ, 15.ai ਹਰ ਵਾਰ ਵੱਖ-ਵੱਖ ਡਿਲੀਵਰੀ ਸਟਾਈਲ ਤਿਆਰ ਕਰਦਾ ਹੈ ਜਦੋਂ ਤੱਕ ਉਪਭੋਗਤਾ ਨੂੰ ਆਪਣੀ ਪਸੰਦ ਦਾ ਆਉਟਪੁੱਟ ਨਹੀਂ ਮਿਲਦਾ।
ਪ੍ਰੋਜੈਕਟ ਵਿੱਚ ਇੱਕ ਵਿਲੱਖਣ ਵਿਸ਼ੇਸ਼ਤਾ ਸ਼ਾਮਲ ਹੈ ਜੋ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਭਾਵਨਾਤਮਕ ਸੰਦਰਭਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਤਿਆਰ ਕੀਤੀ ਲਾਈਨ ਦੀ ਭਾਵਨਾ ਨੂੰ ਹੱਥੀਂ ਬਦਲਣ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ। ਇਹ ਪੈਰਾਮੀਟਰ ਐਮਆਈਟੀ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਉਪਭੋਗਤਾ-ਇਨਪੁਟ ਇਮੋਜੀਸ ਦੀ ਭਾਵਨਾ ਦਾ ਪਤਾ ਲਗਾਉਣ ਦੇ ਯੋਗ ਹਨ DeepMoji ਮਾਡਲ
ਡਿਵੈਲਪਰ ਦੇ ਅਨੁਸਾਰ, 15.ai ਨੂੰ ਹੋਰ ਸਮਾਨ TTS ਪ੍ਰੋਗਰਾਮਾਂ ਤੋਂ ਵੱਖਰਾ ਇਹ ਹੈ ਕਿ ਮਾਡਲ "ਭਾਵਨਾਵਾਂ ਅਤੇ ਸੁਭਾਵਿਕਤਾ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖਦੇ ਹੋਏ" ਆਵਾਜ਼ਾਂ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਕਲੋਨ ਕਰਨ ਲਈ ਬਹੁਤ ਘੱਟ ਡੇਟਾ 'ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ।
15.ai ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ?
ਆਉ 15.ai ਦੇ ਪਿੱਛੇ ਦੀ ਤਕਨਾਲੋਜੀ ਨੂੰ ਵੇਖੀਏ।
ਸਭ ਤੋਂ ਪਹਿਲਾਂ, 15.ai ਦਾ ਮੁੱਖ ਡਿਵੈਲਪਰ ਕਹਿੰਦਾ ਹੈ ਕਿ ਪ੍ਰੋਗਰਾਮ ਵੱਖੋ-ਵੱਖਰੀਆਂ ਭਾਵਨਾਵਾਂ ਦੇ ਨਾਲ ਆਵਾਜ਼ਾਂ ਪੈਦਾ ਕਰਨ ਲਈ ਇੱਕ ਕਸਟਮ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਕਿਉਂਕਿ ਲੇਖਕ ਨੇ ਅਜੇ ਪ੍ਰੋਜੈਕਟ 'ਤੇ ਇੱਕ ਵਿਸਤ੍ਰਿਤ ਪੇਪਰ ਪ੍ਰਕਾਸ਼ਿਤ ਕਰਨਾ ਹੈ, ਅਸੀਂ ਸਿਰਫ ਇਸ ਬਾਰੇ ਵਿਆਪਕ ਧਾਰਨਾਵਾਂ ਬਣਾ ਸਕਦੇ ਹਾਂ ਕਿ ਪਰਦੇ ਦੇ ਪਿੱਛੇ ਕੀ ਹੋ ਰਿਹਾ ਹੈ।
Phonemes ਨੂੰ ਮੁੜ ਪ੍ਰਾਪਤ ਕੀਤਾ ਜਾ ਰਿਹਾ ਹੈ
ਪਹਿਲਾਂ, ਆਓ ਦੇਖੀਏ ਕਿ ਪ੍ਰੋਗਰਾਮ ਇੰਪੁੱਟ ਟੈਕਸਟ ਨੂੰ ਕਿਵੇਂ ਪਾਰਸ ਕਰਦਾ ਹੈ। ਇਸ ਤੋਂ ਪਹਿਲਾਂ ਕਿ ਪ੍ਰੋਗ੍ਰਾਮ ਭਾਸ਼ਣ ਤਿਆਰ ਕਰ ਸਕੇ, ਇਸ ਨੂੰ ਹਰੇਕ ਵਿਅਕਤੀਗਤ ਸ਼ਬਦ ਨੂੰ ਧੁਨੀ ਦੇ ਆਪਣੇ ਸੰਗ੍ਰਹਿ ਵਿੱਚ ਬਦਲਣਾ ਚਾਹੀਦਾ ਹੈ। ਉਦਾਹਰਨ ਲਈ, ਸ਼ਬਦ "ਕੁੱਤਾ" ਤਿੰਨ ਧੁਨੀਆਂ ਤੋਂ ਬਣਿਆ ਹੈ: /d/, /ɒ/, ਅਤੇ /ɡ/।
ਪਰ 15.ai ਕਿਵੇਂ ਜਾਣਦਾ ਹੈ ਕਿ ਹਰੇਕ ਸ਼ਬਦ ਲਈ ਕਿਹੜੇ ਧੁਨੀਆਂ ਦੀ ਵਰਤੋਂ ਕਰਨੀ ਹੈ?
15.ai ਦੇ ਬਾਰੇ ਪੰਨੇ ਦੇ ਅਨੁਸਾਰ, ਪ੍ਰੋਗਰਾਮ ਇੱਕ ਡਿਕਸ਼ਨਰੀ ਲੁੱਕਅਪ ਟੇਬਲ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਸਾਰਣੀ ਸਰੋਤਾਂ ਵਜੋਂ ਔਕਸਫੋਰਡ ਡਿਕਸ਼ਨਰੀਜ਼ API, ਵਿਕਸ਼ਨਰੀ, ਅਤੇ CMU ਉਚਾਰਨ ਸ਼ਬਦਕੋਸ਼ ਦੀ ਵਰਤੋਂ ਕਰਦੀ ਹੈ। 15.ai ਹੋਰ ਵੈੱਬਸਾਈਟਾਂ ਜਿਵੇਂ ਕਿ ਰੈਡਿਟ ਅਤੇ ਅਰਬਨ ਡਿਕਸ਼ਨਰੀ ਦੀ ਵਰਤੋਂ ਨਵੇਂ ਬਣੇ ਸ਼ਬਦਾਂ ਅਤੇ ਵਾਕਾਂਸ਼ਾਂ ਲਈ ਸਰੋਤਾਂ ਵਜੋਂ ਕਰਦੀ ਹੈ।
ਜੇਕਰ ਕੋਈ ਵੀ ਸ਼ਬਦ ਡਿਕਸ਼ਨਰੀ ਵਿੱਚ ਮੌਜੂਦ ਨਹੀਂ ਹੈ, ਤਾਂ ਇਸਦਾ ਉਚਾਰਨ ਧੁਨੀ ਵਿਗਿਆਨਕ ਨਿਯਮਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕੱਢਿਆ ਜਾਂਦਾ ਹੈ ਜੋ ਮਾਡਲ ਦੁਆਰਾ ਸਿੱਖਿਆ ਗਿਆ ਹੈ। LibriTTS ਡਾਟਾਸੈੱਟ। ਇਹ ਡੇਟਾਸੈਟ ਅੰਗ੍ਰੇਜ਼ੀ ਬੋਲਣ ਵਾਲੇ ਲਗਭਗ 585 ਘੰਟੇ ਲੋਕਾਂ ਦੀ ਮੂਲ ਭਾਸ਼ਾ ਜਾਂ ਉਪਭਾਸ਼ਾ ਵਿੱਚ ਲਿਖਤੀ ਜਾਂ ਬੋਲੇ ਗਏ ਸ਼ਬਦਾਂ ਦਾ ਇੱਕ ਡੇਟਾਸੈਟ ਹੈ।
ਜਜ਼ਬਾਤਾਂ ਨੂੰ ਏਮਬੈਡ ਕਰਨਾ
ਡਿਵੈਲਪਰ ਦੇ ਅਨੁਸਾਰ, ਮਾਡਲ ਇਨਪੁਟ ਟੈਕਸਟ ਦੀ ਸਮਝੀ ਭਾਵਨਾ ਦਾ ਅਨੁਮਾਨ ਲਗਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦਾ ਹੈ. ਮਾਡਲ ਇਸ ਕੰਮ ਨੂੰ DeepMoji ਰਾਹੀਂ ਪੂਰਾ ਕਰਦਾ ਹੈ ਭਾਵਨਾ ਵਿਸ਼ਲੇਸ਼ਣ ਮਾਡਲ. ਇਸ ਵਿਸ਼ੇਸ਼ ਮਾਡਲ ਨੂੰ ਇਹ ਸਮਝਣ ਦੇ ਟੀਚੇ ਨਾਲ ਇਮੋਜੀ ਦੇ ਨਾਲ ਅਰਬਾਂ ਟਵੀਟਸ 'ਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਸੀ ਕਿ ਭਾਵਨਾਵਾਂ ਨੂੰ ਪ੍ਰਗਟ ਕਰਨ ਲਈ ਭਾਸ਼ਾ ਦੀ ਵਰਤੋਂ ਕਿਵੇਂ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਮਾਡਲ ਦਾ ਨਤੀਜਾ ਟੀਟੀਐਸ ਮਾਡਲ ਵਿੱਚ ਏਮਬੇਡ ਕੀਤਾ ਗਿਆ ਹੈ ਤਾਂ ਜੋ ਆਉਟਪੁੱਟ ਨੂੰ ਲੋੜੀਂਦੀ ਭਾਵਨਾ ਵੱਲ ਬਦਲਿਆ ਜਾ ਸਕੇ।
ਇੱਕ ਵਾਰ ਇਨਪੁਟ ਟੈਕਸਟ ਤੋਂ ਧੁਨੀਆਂ ਅਤੇ ਭਾਵਨਾਵਾਂ ਨੂੰ ਕੱਢ ਲਿਆ ਗਿਆ ਹੈ, ਹੁਣ ਭਾਸ਼ਣ ਨੂੰ ਸੰਸ਼ਲੇਸ਼ਣ ਕਰਨ ਦਾ ਸਮਾਂ ਆ ਗਿਆ ਹੈ।
ਵੌਇਸ ਕਲੋਨਿੰਗ ਅਤੇ ਸੰਸਲੇਸ਼ਣ
ਟੈਕਸਟ-ਟੂ-ਸਪੀਚ ਮਾਡਲ ਜਿਵੇਂ ਕਿ 15.ai ਨੂੰ ਮਲਟੀ-ਸਪੀਕਰ ਮਾਡਲਾਂ ਵਜੋਂ ਜਾਣਿਆ ਜਾਂਦਾ ਹੈ। ਇਹ ਮਾਡਲ ਵੱਖ-ਵੱਖ ਆਵਾਜ਼ਾਂ ਵਿੱਚ ਬੋਲਣਾ ਸਿੱਖਣ ਦੇ ਯੋਗ ਹੋਣ ਲਈ ਬਣਾਏ ਗਏ ਹਨ। ਸਾਡੇ ਮਾਡਲ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਸਿਖਲਾਈ ਦੇਣ ਲਈ, ਸਾਨੂੰ ਵਿਲੱਖਣ ਵੌਇਸ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨੂੰ ਐਕਸਟਰੈਕਟ ਕਰਨ ਦਾ ਤਰੀਕਾ ਲੱਭਣਾ ਚਾਹੀਦਾ ਹੈ ਅਤੇ ਇਸਨੂੰ ਇਸ ਤਰੀਕੇ ਨਾਲ ਪੇਸ਼ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ ਜਿਸ ਨਾਲ ਇੱਕ ਕੰਪਿਊਟਰ ਸਮਝ ਸਕੇ। ਇਸ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਸਪੀਕਰ ਏਮਬੈਡਿੰਗ ਵਜੋਂ ਜਾਣਿਆ ਜਾਂਦਾ ਹੈ।
ਮੌਜੂਦਾ ਟੈਕਸਟ-ਟੂ-ਸਪੀਚ ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਜਾਂਦੀ ਹੈ ਦਿਮਾਗੀ ਨੈਟਵਰਕ ਅਸਲ ਆਡੀਓ ਆਉਟਪੁੱਟ ਬਣਾਉਣ ਲਈ। ਨਿਊਰਲ ਨੈਟਵਰਕ ਵਿੱਚ ਆਮ ਤੌਰ 'ਤੇ ਦੋ ਮੁੱਖ ਭਾਗ ਹੁੰਦੇ ਹਨ: ਇੱਕ ਏਨਕੋਡਰ ਅਤੇ ਇੱਕ ਡੀਕੋਡਰ।
ਏਨਕੋਡਰ ਵੱਖ-ਵੱਖ ਇਨਪੁਟ ਵੈਕਟਰਾਂ ਦੇ ਅਧਾਰ ਤੇ ਇੱਕ ਸਿੰਗਲ ਸੰਖੇਪ ਵੈਕਟਰ ਬਣਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦਾ ਹੈ। ਆਉਟਪੁੱਟ ਕੀ ਹੋਣੀ ਚਾਹੀਦੀ ਹੈ ਇਸਦੀ ਪ੍ਰਤੀਨਿਧਤਾ ਬਣਾਉਣ ਲਈ ਧੁਨੀ, ਭਾਵਨਾਤਮਕ ਪਹਿਲੂਆਂ, ਅਤੇ ਆਵਾਜ਼ ਦੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਬਾਰੇ ਜਾਣਕਾਰੀ ਏਨਕੋਡਰ ਵਿੱਚ ਰੱਖੀ ਜਾਂਦੀ ਹੈ। ਡੀਕੋਡਰ ਫਿਰ ਇਸ ਪ੍ਰਤੀਨਿਧਤਾ ਨੂੰ ਆਡੀਓ ਵਿੱਚ ਬਦਲਦਾ ਹੈ ਅਤੇ ਇੱਕ ਭਰੋਸੇ ਦਾ ਸਕੋਰ ਆਉਟਪੁੱਟ ਕਰਦਾ ਹੈ।
15.ai ਵੈੱਬ ਐਪਲੀਕੇਸ਼ਨ ਫਿਰ ਸਭ ਤੋਂ ਵਧੀਆ ਆਤਮ-ਵਿਸ਼ਵਾਸ ਸਕੋਰ ਦੇ ਨਾਲ ਚੋਟੀ ਦੇ ਤਿੰਨ ਨਤੀਜੇ ਵਾਪਸ ਕਰਦੀ ਹੈ।
ਮੁੱਦੇ
AI-ਤਿਆਰ ਸਮੱਗਰੀ ਦੇ ਉਭਾਰ ਦੇ ਨਾਲ ਜਿਵੇਂ ਕਿ deepfakes, ਉੱਨਤ AI ਵਿਕਸਿਤ ਕਰਨਾ ਜੋ ਅਸਲ ਲੋਕਾਂ ਦੀ ਨਕਲ ਕਰ ਸਕਦਾ ਹੈ ਇੱਕ ਗੰਭੀਰ ਨੈਤਿਕ ਮੁੱਦਾ ਹੋ ਸਕਦਾ ਹੈ।
ਵਰਤਮਾਨ ਵਿੱਚ, ਤੁਸੀਂ 15.ai ਵੈੱਬ ਐਪਲੀਕੇਸ਼ਨ ਵਿੱਚੋਂ ਜੋ ਆਵਾਜ਼ਾਂ ਚੁਣ ਸਕਦੇ ਹੋ ਉਹ ਸਾਰੇ ਕਾਲਪਨਿਕ ਪਾਤਰ ਹਨ। ਹਾਲਾਂਕਿ, ਇਸਨੇ ਐਪ ਨੂੰ ਔਨਲਾਈਨ ਕੁਝ ਵਿਵਾਦ ਪੈਦਾ ਕਰਨ ਤੋਂ ਨਹੀਂ ਰੋਕਿਆ।
ਕੁਝ ਅਵਾਜ਼ ਅਦਾਕਾਰਾਂ ਨੇ ਵਾਇਸ ਕਲੋਨਿੰਗ ਤਕਨਾਲੋਜੀ ਦੀ ਵਰਤੋਂ ਨੂੰ ਪਿੱਛੇ ਧੱਕ ਦਿੱਤਾ ਹੈ। ਉਹਨਾਂ ਦੀਆਂ ਚਿੰਤਾਵਾਂ ਵਿੱਚ ਨਕਲ, ਅਸ਼ਲੀਲ ਸਮੱਗਰੀ ਵਿੱਚ ਉਹਨਾਂ ਦੀ ਆਵਾਜ਼ ਦੀ ਵਰਤੋਂ, ਅਤੇ ਇਹ ਸੰਭਾਵਨਾ ਸ਼ਾਮਲ ਹੈ ਕਿ ਤਕਨਾਲੋਜੀ ਅਵਾਜ਼ ਅਭਿਨੇਤਾ ਦੀ ਭੂਮਿਕਾ ਨੂੰ ਅਪ੍ਰਚਲਿਤ ਕਰ ਸਕਦੀ ਹੈ।
ਇੱਕ ਹੋਰ ਵਿਵਾਦ 2022 ਦੇ ਸ਼ੁਰੂ ਵਿੱਚ ਹੋਇਆ ਸੀ ਜਦੋਂ ਵੌਇਸਵਰਸ NFT ਨਾਮ ਦੀ ਇੱਕ ਕੰਪਨੀ ਨੂੰ ਆਪਣੀ ਮਾਰਕੀਟਿੰਗ ਮੁਹਿੰਮ ਲਈ ਸਮੱਗਰੀ ਤਿਆਰ ਕਰਨ ਲਈ 15.ai ਦੀ ਵਰਤੋਂ ਕਰਨ ਦੀ ਖੋਜ ਕੀਤੀ ਗਈ ਸੀ।
ਸਿੱਟਾ
ਰੋਜ਼ਾਨਾ ਜੀਵਨ ਵਿੱਚ ਟੈਕਸਟ-ਟੂ-ਸਪੀਚ ਪਹਿਲਾਂ ਹੀ ਕਾਫ਼ੀ ਪ੍ਰਚਲਿਤ ਹੈ। ਵੌਇਸ ਸਹਾਇਕ, GPS ਨੈਵੀਗੇਟਰ। ਅਤੇ ਸਵੈਚਲਿਤ ਫ਼ੋਨ ਕਾਲਾਂ ਪਹਿਲਾਂ ਹੀ ਆਮ ਹੋ ਗਈਆਂ ਹਨ। ਹਾਲਾਂਕਿ, ਇਹ ਐਪਲੀਕੇਸ਼ਨਾਂ ਸਪੱਸ਼ਟ ਤੌਰ 'ਤੇ ਗੈਰ-ਮਨੁੱਖੀ ਹਨ ਕਿ ਅਸੀਂ ਦੱਸ ਸਕਦੇ ਹਾਂ ਕਿ ਉਹ ਮਸ਼ੀਨ ਦੁਆਰਾ ਬਣਾਈ ਗਈ ਬੋਲੀ ਹਨ।
ਕੁਦਰਤੀ ਆਵਾਜ਼ ਅਤੇ ਭਾਵਨਾਤਮਕ TTS ਤਕਨਾਲੋਜੀ ਨਵੀਆਂ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ ਦਰਵਾਜ਼ਾ ਖੋਲ੍ਹ ਸਕਦੀ ਹੈ। ਹਾਲਾਂਕਿ, ਵੌਇਸ ਕਲੋਨਿੰਗ ਦੀ ਨੈਤਿਕਤਾ ਅਜੇ ਵੀ ਸਭ ਤੋਂ ਵਧੀਆ 'ਤੇ ਸ਼ੱਕੀ ਹੈ। ਇਹ ਯਕੀਨੀ ਤੌਰ 'ਤੇ ਸਮਝਦਾਰ ਹੈ ਕਿ ਇਹਨਾਂ ਖੋਜਕਰਤਾਵਾਂ ਵਿੱਚੋਂ ਬਹੁਤ ਸਾਰੇ ਲੋਕਾਂ ਨਾਲ ਐਲਗੋਰਿਦਮ ਨੂੰ ਸਾਂਝਾ ਕਰਨ ਤੋਂ ਕਿਉਂ ਝਿਜਕ ਰਹੇ ਹਨ।
ਕੋਈ ਜਵਾਬ ਛੱਡਣਾ