ਹਾਲ ਹੀ ਦੇ ਸਾਲਾਂ ਵਿੱਚ, ਮਨੁੱਖੀ ਭਾਸ਼ਾ ਨੂੰ ਸਮਝਣ ਵਿੱਚ ਡੂੰਘੇ-ਸਿੱਖਣ ਦੇ ਮਾਡਲ ਵਧੇਰੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਬਣ ਗਏ ਹਨ।
ਵਰਗੇ ਪ੍ਰੋਜੈਕਟਾਂ ਬਾਰੇ ਸੋਚੋ GPT-3, ਜੋ ਹੁਣ ਪੂਰੇ ਲੇਖ ਅਤੇ ਵੈੱਬਸਾਈਟਾਂ ਬਣਾਉਣ ਦੇ ਯੋਗ ਹੈ। GitHub ਨੇ ਹਾਲ ਹੀ ਵਿੱਚ ਪੇਸ਼ ਕੀਤਾ ਹੈ ਗੀਟਹਬ ਕੋਪਿਲੋਟ, ਇੱਕ ਸੇਵਾ ਜੋ ਤੁਹਾਨੂੰ ਲੋੜੀਂਦੇ ਕੋਡ ਦੀ ਕਿਸਮ ਦਾ ਵਰਣਨ ਕਰਕੇ ਪੂਰੇ ਕੋਡ ਸਨਿੱਪਟ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ।
ਓਪਨਏਆਈ, ਫੇਸਬੁੱਕ, ਅਤੇ ਗੂਗਲ ਦੇ ਖੋਜਕਰਤਾ ਇੱਕ ਹੋਰ ਕੰਮ ਨੂੰ ਸੰਭਾਲਣ ਲਈ ਡੂੰਘੀ ਸਿਖਲਾਈ ਦੀ ਵਰਤੋਂ ਕਰਨ ਦੇ ਤਰੀਕਿਆਂ 'ਤੇ ਕੰਮ ਕਰ ਰਹੇ ਹਨ: ਕੈਪਸ਼ਨਿੰਗ ਚਿੱਤਰ। ਲੱਖਾਂ ਐਂਟਰੀਆਂ ਦੇ ਨਾਲ ਇੱਕ ਵੱਡੇ ਡੇਟਾਸੈਟ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ, ਉਹ ਕੁਝ ਦੇ ਨਾਲ ਆਏ ਹਨ ਹੈਰਾਨੀ ਵਾਲੀ ਨਤੀਜੇ.
ਹਾਲ ਹੀ ਵਿੱਚ, ਇਹਨਾਂ ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਉਲਟ ਕੰਮ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ ਹੈ: ਇੱਕ ਸੁਰਖੀ ਤੋਂ ਚਿੱਤਰ ਬਣਾਉਣਾ. ਕੀ ਹੁਣ ਇੱਕ ਵਰਣਨ ਤੋਂ ਇੱਕ ਪੂਰੀ ਤਰ੍ਹਾਂ ਨਵਾਂ ਚਿੱਤਰ ਬਣਾਉਣਾ ਸੰਭਵ ਹੈ?
ਇਹ ਗਾਈਡ ਦੋ ਸਭ ਤੋਂ ਉੱਨਤ ਟੈਕਸਟ-ਟੂ-ਇਮੇਜ ਮਾਡਲਾਂ ਦੀ ਪੜਚੋਲ ਕਰੇਗੀ: OpenAI ਦਾ DALL-E 2 ਅਤੇ Google ਦਾ Imagen AI। ਇਹਨਾਂ ਪ੍ਰੋਜੈਕਟਾਂ ਵਿੱਚੋਂ ਹਰ ਇੱਕ ਨੇ ਬੁਨਿਆਦੀ ਤਰੀਕੇ ਪੇਸ਼ ਕੀਤੇ ਹਨ ਜੋ ਸਮਾਜ ਨੂੰ ਬਦਲ ਸਕਦੇ ਹਨ ਜਿਵੇਂ ਕਿ ਅਸੀਂ ਜਾਣਦੇ ਹਾਂ।
ਪਰ ਪਹਿਲਾਂ, ਆਓ ਸਮਝੀਏ ਕਿ ਟੈਕਸਟ-ਟੂ-ਇਮੇਜ ਜਨਰੇਸ਼ਨ ਤੋਂ ਸਾਡਾ ਕੀ ਮਤਲਬ ਹੈ।
ਟੈਕਸਟ ਤੋਂ ਚਿੱਤਰ ਬਣਾਉਣਾ ਕੀ ਹੈ?
ਟੈਕਸਟ-ਟੂ-ਚਿੱਤਰ ਮਾਡਲ ਕੰਪਿਊਟਰਾਂ ਨੂੰ ਪ੍ਰੋਂਪਟ ਦੇ ਆਧਾਰ 'ਤੇ ਨਵੇਂ ਅਤੇ ਵਿਲੱਖਣ ਚਿੱਤਰ ਬਣਾਉਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦੇ ਹਨ। ਲੋਕ ਹੁਣ ਇੱਕ ਚਿੱਤਰ ਦਾ ਇੱਕ ਟੈਕਸਟ ਵੇਰਵਾ ਪ੍ਰਦਾਨ ਕਰ ਸਕਦੇ ਹਨ ਜੋ ਉਹ ਬਣਾਉਣਾ ਚਾਹੁੰਦੇ ਹਨ, ਅਤੇ ਮਾਡਲ ਇੱਕ ਵਿਜ਼ੂਅਲ ਬਣਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰੇਗਾ ਜੋ ਉਸ ਵਰਣਨ ਨੂੰ ਜਿੰਨਾ ਸੰਭਵ ਹੋ ਸਕੇ ਮੇਲ ਖਾਂਦਾ ਹੈ.
ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਮਾਡਲਾਂ ਨੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਹੋਰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਚਿੱਤਰ-ਸਿਰਲੇਖ ਜੋੜਿਆਂ ਵਾਲੇ ਵੱਡੇ ਡੇਟਾਸੇਟਾਂ ਦੀ ਵਰਤੋਂ ਦਾ ਲਾਭ ਉਠਾਇਆ ਹੈ।
ਜ਼ਿਆਦਾਤਰ ਲਿਖਤ-ਤੋਂ-ਚਿੱਤਰ ਮਾਡਲ ਇੱਕ ਟ੍ਰਾਂਸਫਾਰਮਰ ਭਾਸ਼ਾ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ ਪ੍ਰੋਂਪਟ ਦੀ ਵਿਆਖਿਆ ਕਰਨ ਲਈ। ਇਸ ਕਿਸਮ ਦਾ ਮਾਡਲ ਏ ਨਿਊਰਲ ਨੈਟਵਰਕ ਜੋ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਦੇ ਸੰਦਰਭ ਅਤੇ ਅਰਥਾਂ ਦੇ ਅਰਥਾਂ ਨੂੰ ਸਿੱਖਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦਾ ਹੈ।
ਅੱਗੇ, ਜਨਰੇਟਿਵ ਮਾਡਲ ਜਿਵੇਂ ਕਿ ਫੈਲਾਅ ਮਾਡਲ ਅਤੇ ਜਨਰੇਟਿਵ ਵਿਰੋਧੀ ਨੈੱਟਵਰਕ ਚਿੱਤਰ ਸੰਸਲੇਸ਼ਣ ਲਈ ਵਰਤੇ ਜਾਂਦੇ ਹਨ।
DALLE 2 ਕੀ ਹੈ?
FROM-E 2 ਓਪਨਏਆਈ ਦੁਆਰਾ ਇੱਕ ਕੰਪਿਊਟਰ ਮਾਡਲ ਹੈ ਜੋ ਅਪ੍ਰੈਲ 2022 ਵਿੱਚ ਜਾਰੀ ਕੀਤਾ ਗਿਆ ਸੀ। ਮਾਡਲ ਨੂੰ ਚਿੱਤਰਾਂ ਨਾਲ ਸ਼ਬਦਾਂ ਅਤੇ ਵਾਕਾਂਸ਼ਾਂ ਨੂੰ ਜੋੜਨ ਲਈ ਲੱਖਾਂ ਲੇਬਲ ਵਾਲੀਆਂ ਤਸਵੀਰਾਂ ਦੇ ਡੇਟਾਬੇਸ 'ਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਸੀ।
ਉਪਭੋਗਤਾ ਇੱਕ ਸਧਾਰਨ ਵਾਕੰਸ਼ ਟਾਈਪ ਕਰ ਸਕਦੇ ਹਨ, ਜਿਵੇਂ ਕਿ “ਇੱਕ ਬਿੱਲੀ ਖਾ ਰਹੀ ਲਾਸਗਨਾ”, ਅਤੇ DALL-E 2 ਇਸ ਵਾਕਾਂਸ਼ ਦਾ ਵਰਣਨ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਰਿਹਾ ਹੈ ਦੀ ਆਪਣੀ ਵਿਆਖਿਆ ਤਿਆਰ ਕਰੇਗਾ।
ਸਕ੍ਰੈਚ ਤੋਂ ਚਿੱਤਰ ਬਣਾਉਣ ਤੋਂ ਇਲਾਵਾ, DALL-E 2 ਮੌਜੂਦਾ ਚਿੱਤਰਾਂ ਨੂੰ ਵੀ ਸੰਪਾਦਿਤ ਕਰ ਸਕਦਾ ਹੈ। ਹੇਠਾਂ ਦਿੱਤੀ ਉਦਾਹਰਨ ਵਿੱਚ, DALL-E ਇੱਕ ਵਾਧੂ ਸੋਫੇ ਵਾਲੇ ਕਮਰੇ ਦਾ ਇੱਕ ਸੋਧਿਆ ਚਿੱਤਰ ਬਣਾਉਣ ਦੇ ਯੋਗ ਸੀ।
DALL-E 2 ਓਪਨਏਆਈ ਦੁਆਰਾ ਪਿਛਲੇ ਕੁਝ ਸਾਲਾਂ ਵਿੱਚ ਜਾਰੀ ਕੀਤੇ ਗਏ ਬਹੁਤ ਸਾਰੇ ਸਮਾਨ ਪ੍ਰੋਜੈਕਟਾਂ ਵਿੱਚੋਂ ਇੱਕ ਹੈ। ਓਪਨਏਆਈ ਦਾ ਜੀਪੀਟੀ-3 ਖ਼ਬਰਦਾਰ ਬਣ ਗਿਆ ਜਦੋਂ ਇਹ ਵੱਖੋ ਵੱਖਰੀਆਂ ਸ਼ੈਲੀਆਂ ਦਾ ਟੈਕਸਟ ਤਿਆਰ ਕਰਦਾ ਜਾਪਦਾ ਸੀ।
ਵਰਤਮਾਨ ਵਿੱਚ, DALL-E 2 ਅਜੇ ਵੀ ਬੀਟਾ ਟੈਸਟਿੰਗ ਵਿੱਚ ਹੈ। ਦਿਲਚਸਪੀ ਵਾਲੇ ਉਪਭੋਗਤਾ ਆਪਣੇ ਲਈ ਸਾਈਨ ਅਪ ਕਰ ਸਕਦੇ ਹਨ ਉਡੀਕ ਸੂਚੀ ਅਤੇ ਪਹੁੰਚ ਦੀ ਉਡੀਕ ਕਰੋ।
ਇਹ ਕਿਵੇਂ ਚਲਦਾ ਹੈ?
ਹਾਲਾਂਕਿ DALL-E 2 ਦੇ ਨਤੀਜੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹਨ, ਤੁਸੀਂ ਸ਼ਾਇਦ ਸੋਚ ਰਹੇ ਹੋਵੋਗੇ ਕਿ ਇਹ ਸਭ ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ।
DALL-E 2 ਓਪਨਏਆਈ ਦੇ ਜੀਪੀਟੀ-3 ਪ੍ਰੋਜੈਕਟ ਦੇ ਮਲਟੀਮੋਡਲ ਲਾਗੂ ਕਰਨ ਦੀ ਇੱਕ ਉਦਾਹਰਣ ਹੈ।
ਪਹਿਲਾਂ, ਉਪਭੋਗਤਾ ਦੇ ਟੈਕਸਟ ਪ੍ਰੋਂਪਟ ਨੂੰ ਇੱਕ ਟੈਕਸਟ ਏਨਕੋਡਰ ਵਿੱਚ ਰੱਖਿਆ ਜਾਂਦਾ ਹੈ ਜੋ ਪ੍ਰੋਂਪਟ ਨੂੰ ਇੱਕ ਪ੍ਰਤੀਨਿਧਤਾ ਸਪੇਸ ਵਿੱਚ ਮੈਪ ਕਰਦਾ ਹੈ। DALL-E 2 ਇੱਕ ਹੋਰ ਓਪਨਏਆਈ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ ਜਿਸਨੂੰ CLIP (ਕੰਟਰੈਸਟਿਵ ਲੈਂਗੂਏਜ-ਇਮੇਜ ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ) ਕਿਹਾ ਜਾਂਦਾ ਹੈ ਤਾਂ ਜੋ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਤੋਂ ਅਰਥ ਸੰਬੰਧੀ ਜਾਣਕਾਰੀ ਪ੍ਰਾਪਤ ਕੀਤੀ ਜਾ ਸਕੇ।
ਅੱਗੇ, ਇੱਕ ਮਾਡਲ ਵਜੋਂ ਜਾਣਿਆ ਜਾਂਦਾ ਹੈ ਪੁਰਾਣੇ ਟੈਕਸਟ ਏਨਕੋਡਿੰਗ ਨੂੰ ਚਿੱਤਰ ਏਨਕੋਡਿੰਗ ਵਿੱਚ ਮੈਪ ਕਰਦਾ ਹੈ। ਇਹ ਚਿੱਤਰ ਏਨਕੋਡਿੰਗ ਟੈਕਸਟ ਏਨਕੋਡਿੰਗ ਪੜਾਅ ਵਿੱਚ ਪਾਈ ਗਈ ਅਰਥ ਜਾਣਕਾਰੀ ਨੂੰ ਕੈਪਚਰ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ।
ਅਸਲ ਚਿੱਤਰ ਬਣਾਉਣ ਲਈ, DALL-E 2 ਅਰਥ ਜਾਣਕਾਰੀ ਅਤੇ ਚਿੱਤਰ ਏਨਕੋਡਿੰਗ ਵੇਰਵਿਆਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਵਿਜ਼ੂਅਲ ਬਣਾਉਣ ਲਈ ਇੱਕ ਚਿੱਤਰ ਡੀਕੋਡਰ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਓਪਨਏਆਈ ਦਾ ਇੱਕ ਸੋਧਿਆ ਹੋਇਆ ਸੰਸਕਰਣ ਵਰਤਦਾ ਹੈ ਗਲਾਈਡ ਚਿੱਤਰ ਬਣਾਉਣ ਲਈ ਮਾਡਲ. ਗਲਾਈਡ ਏ 'ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ ਫੈਲਾਅ ਮਾਡਲ ਚਿੱਤਰ ਬਣਾਉਣ ਲਈ.
DALL-E 2 ਮਾਡਲ ਵਿੱਚ ਗਲਾਈਡ ਨੂੰ ਜੋੜਨ ਨਾਲ ਵਧੇਰੇ ਫੋਟੋਰੀਅਲਿਸਟਿਕ ਆਉਟਪੁੱਟ ਨੂੰ ਸਮਰੱਥ ਬਣਾਇਆ ਗਿਆ ਹੈ। ਕਿਉਂਕਿ ਗਲਾਈਡ ਮਾਡਲ ਸਟੋਚੈਸਟਿਕ ਜਾਂ ਬੇਤਰਤੀਬੇ ਤੌਰ 'ਤੇ ਨਿਰਧਾਰਤ ਕੀਤਾ ਗਿਆ ਹੈ, DALL-E 2 ਮਾਡਲ ਮਾਡਲ ਨੂੰ ਬਾਰ ਬਾਰ ਚਲਾ ਕੇ ਆਸਾਨੀ ਨਾਲ ਭਿੰਨਤਾਵਾਂ ਬਣਾ ਸਕਦਾ ਹੈ।
ਇਸਤੇਮਾਲ
DALL-E 2 ਮਾਡਲ ਦੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਨਤੀਜਿਆਂ ਦੇ ਬਾਵਜੂਦ, ਇਹ ਅਜੇ ਵੀ ਕੁਝ ਸੀਮਾਵਾਂ ਦਾ ਸਾਹਮਣਾ ਕਰਦਾ ਹੈ।
ਸਪੈਲਿੰਗ ਟੈਕਸਟ
ਪ੍ਰੋਂਪਟ ਜੋ DALL-E 2 ਨੂੰ ਟੈਕਸਟ ਬਣਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਹਨ ਇਹ ਪ੍ਰਗਟ ਕਰਦੇ ਹਨ ਕਿ ਇਸ ਵਿੱਚ ਸ਼ਬਦਾਂ ਦੇ ਸਪੈਲਿੰਗ ਵਿੱਚ ਮੁਸ਼ਕਲ ਹੈ। ਮਾਹਰ ਮੰਨਦੇ ਹਨ ਕਿ ਅਜਿਹਾ ਇਸ ਲਈ ਹੋ ਸਕਦਾ ਹੈ ਕਿਉਂਕਿ ਸਪੈਲਿੰਗ ਜਾਣਕਾਰੀ ਦਾ ਹਿੱਸਾ ਨਹੀਂ ਹੈ ਸਿਖਲਾਈ ਡੇਟਾਸੈਟ.
ਰਚਨਾਤਮਕ ਤਰਕ
ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਦੇਖਿਆ ਕਿ DALL-E 2 ਨੂੰ ਅਜੇ ਵੀ ਰਚਨਾਤਮਕ ਤਰਕ ਨਾਲ ਕੁਝ ਮੁਸ਼ਕਲ ਹੈ। ਸਧਾਰਨ ਰੂਪ ਵਿੱਚ, ਮਾਡਲ ਇੱਕ ਚਿੱਤਰ ਦੇ ਵਿਅਕਤੀਗਤ ਪਹਿਲੂਆਂ ਨੂੰ ਸਮਝ ਸਕਦਾ ਹੈ ਜਦੋਂ ਕਿ ਅਜੇ ਵੀ ਇਹਨਾਂ ਪਹਿਲੂਆਂ ਵਿਚਕਾਰ ਸਬੰਧਾਂ ਦਾ ਪਤਾ ਲਗਾਉਣ ਵਿੱਚ ਮੁਸ਼ਕਲ ਆਉਂਦੀ ਹੈ।
ਉਦਾਹਰਨ ਲਈ, ਜੇਕਰ "ਨੀਲੇ ਘਣ ਦੇ ਸਿਖਰ 'ਤੇ ਲਾਲ ਘਣ" ਪ੍ਰੋਂਪਟ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ, ਤਾਂ DALL-E ਇੱਕ ਨੀਲੇ ਘਣ ਅਤੇ ਇੱਕ ਲਾਲ ਘਣ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਤਿਆਰ ਕਰੇਗਾ ਪਰ ਉਹਨਾਂ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਰੱਖਣ ਵਿੱਚ ਅਸਫਲ ਰਹੇਗਾ। ਮਾਡਲ ਨੂੰ ਇਹ ਵੀ ਦੇਖਿਆ ਗਿਆ ਹੈ ਕਿ ਪ੍ਰੋਂਪਟਾਂ ਵਿੱਚ ਮੁਸ਼ਕਲ ਆਉਂਦੀ ਹੈ ਜਿਸ ਲਈ ਇੱਕ ਖਾਸ ਗਿਣਤੀ ਦੀਆਂ ਵਸਤੂਆਂ ਨੂੰ ਖਿੱਚਣ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।
ਡੇਟਾਸੈਟ ਵਿੱਚ ਪੱਖਪਾਤ
ਜੇਕਰ ਪ੍ਰੋਂਪਟ ਵਿੱਚ ਕੋਈ ਹੋਰ ਵੇਰਵੇ ਨਹੀਂ ਹਨ, ਤਾਂ DALL-E ਨੂੰ ਗੋਰੇ ਜਾਂ ਪੱਛਮੀ ਲੋਕਾਂ ਅਤੇ ਵਾਤਾਵਰਨ ਨੂੰ ਦਰਸਾਉਣ ਲਈ ਦੇਖਿਆ ਗਿਆ ਹੈ। ਇਹ ਪੇਸ਼ਕਾਰੀ ਪੱਖਪਾਤ ਡੇਟਾਸੈਟ ਵਿੱਚ ਪੱਛਮੀ-ਕੇਂਦ੍ਰਿਤ ਚਿੱਤਰਾਂ ਦੀ ਬਹੁਤਾਤ ਦੇ ਕਾਰਨ ਹੁੰਦਾ ਹੈ।
ਮਾਡਲ ਨੂੰ ਲਿੰਗਕ ਰੂੜ੍ਹੀਆਂ ਦੀ ਪਾਲਣਾ ਕਰਨ ਲਈ ਵੀ ਦੇਖਿਆ ਗਿਆ ਹੈ। ਉਦਾਹਰਨ ਲਈ, "ਫਲਾਈਟ ਅਟੈਂਡੈਂਟ" ਪ੍ਰੋਂਪਟ ਵਿੱਚ ਟਾਈਪ ਕਰਨਾ ਜਿਆਦਾਤਰ ਮਹਿਲਾ ਫਲਾਈਟ ਅਟੈਂਡੈਂਟ ਦੀਆਂ ਤਸਵੀਰਾਂ ਬਣਾਉਂਦਾ ਹੈ।
ਗੂਗਲ ਇਮੇਜੇਨ ਏਆਈ ਕੀ ਹੈ?
ਗੂਗਲ ਦੇ ਚਿੱਤਰ AI ਇੱਕ ਮਾਡਲ ਹੈ ਜਿਸਦਾ ਉਦੇਸ਼ ਇਨਪੁਟ ਟੈਕਸਟ ਤੋਂ ਫੋਟੋਰੀਅਲਿਸਟਿਕ ਚਿੱਤਰ ਬਣਾਉਣਾ ਹੈ। DALL-E ਦੀ ਤਰ੍ਹਾਂ, ਮਾਡਲ ਟੈਕਸਟ ਨੂੰ ਸਮਝਣ ਲਈ ਟ੍ਰਾਂਸਫਾਰਮਰ ਭਾਸ਼ਾ ਦੇ ਮਾਡਲਾਂ ਦੀ ਵੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ ਅਤੇ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੀਆਂ ਤਸਵੀਰਾਂ ਬਣਾਉਣ ਲਈ ਪ੍ਰਸਾਰ ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ 'ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ।
ਇਮੇਜੇਨ ਦੇ ਨਾਲ, ਗੂਗਲ ਨੇ ਟੈਕਸਟ-ਟੂ-ਇਮੇਜ ਮਾਡਲਾਂ ਲਈ ਡਰਾਅਬੈਂਚ ਨਾਮਕ ਬੈਂਚਮਾਰਕ ਵੀ ਜਾਰੀ ਕੀਤਾ ਹੈ। DrawBench ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ, ਉਹ ਇਹ ਦੇਖਣ ਦੇ ਯੋਗ ਸਨ ਕਿ ਮਨੁੱਖੀ ਰੇਟਰਾਂ ਨੇ DALL-E 2 ਸਮੇਤ ਹੋਰ ਮਾਡਲਾਂ ਨਾਲੋਂ ਇਮੇਜਨ ਆਉਟਪੁੱਟ ਨੂੰ ਤਰਜੀਹ ਦਿੱਤੀ।
ਇਹ ਕਿਵੇਂ ਚਲਦਾ ਹੈ?
DALL-E ਦੇ ਸਮਾਨ, ਇਮੇਜੇਨ ਪਹਿਲਾਂ ਯੂਜ਼ਰ ਪ੍ਰੋਂਪਟ ਨੂੰ ਇੱਕ ਫ੍ਰੋਜ਼ਨ ਟੈਕਸਟ ਏਨਕੋਡਰ ਦੁਆਰਾ ਟੈਕਸਟ ਏਮਬੈਡਿੰਗ ਵਿੱਚ ਬਦਲਦਾ ਹੈ।
ਇਮੇਜਨ ਇੱਕ ਪ੍ਰਸਾਰ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ ਜੋ ਇਹ ਸਿੱਖਦਾ ਹੈ ਕਿ ਰੌਲੇ ਦੇ ਪੈਟਰਨ ਨੂੰ ਚਿੱਤਰਾਂ ਵਿੱਚ ਕਿਵੇਂ ਬਦਲਣਾ ਹੈ। ਇਹਨਾਂ ਚਿੱਤਰਾਂ ਦੀ ਸ਼ੁਰੂਆਤੀ ਆਉਟਪੁੱਟ ਘੱਟ ਰੈਜ਼ੋਲਿਊਸ਼ਨ ਹੁੰਦੀ ਹੈ ਅਤੇ ਬਾਅਦ ਵਿੱਚ ਅੰਤਮ ਚਿੱਤਰ ਦੇ ਰੈਜ਼ੋਲਿਊਸ਼ਨ ਨੂੰ ਵਧਾਉਣ ਲਈ ਇੱਕ ਸੁਪਰ-ਰੈਜ਼ੋਲਿਊਸ਼ਨ ਡਿਫਿਊਜ਼ਨ ਮਾਡਲ ਵਜੋਂ ਜਾਣੇ ਜਾਂਦੇ ਇੱਕ ਹੋਰ ਮਾਡਲ ਦੁਆਰਾ ਪਾਸ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਪਹਿਲਾ ਪ੍ਰਸਾਰ ਮਾਡਲ ਇੱਕ 64×64 ਪਿਕਸਲ ਚਿੱਤਰ ਨੂੰ ਆਊਟਪੁੱਟ ਕਰਦਾ ਹੈ ਅਤੇ ਬਾਅਦ ਵਿੱਚ ਇੱਕ ਉੱਚ-ਰੈਜ਼ੋਲੂਸ਼ਨ 1024×1024 ਚਿੱਤਰ ਤੱਕ ਉਡਾਇਆ ਜਾਂਦਾ ਹੈ।
ਇਮੇਜੇਨ ਟੀਮ ਦੀ ਖੋਜ ਦੇ ਅਧਾਰ 'ਤੇ, ਸਿਰਫ ਟੈਕਸਟ ਡੇਟਾ 'ਤੇ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਵੱਡੇ ਫਰੋਜ਼ਨ ਭਾਸ਼ਾ ਮਾਡਲ ਅਜੇ ਵੀ ਟੈਕਸਟ-ਟੂ-ਇਮੇਜ ਬਣਾਉਣ ਲਈ ਬਹੁਤ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਟੈਕਸਟ ਏਨਕੋਡਰ ਹਨ।
ਅਧਿਐਨ ਡਾਇਨਾਮਿਕ ਥ੍ਰੈਸ਼ਹੋਲਡਿੰਗ ਦੀ ਧਾਰਨਾ ਨੂੰ ਵੀ ਪੇਸ਼ ਕਰਦਾ ਹੈ। ਇਹ ਵਿਧੀ ਚਿੱਤਰਾਂ ਨੂੰ ਬਣਾਉਣ ਵੇਲੇ ਮਾਰਗਦਰਸ਼ਨ ਵਜ਼ਨ ਵਧਾ ਕੇ ਚਿੱਤਰਾਂ ਨੂੰ ਵਧੇਰੇ ਫੋਟੋਰੀਅਲਿਸਟਿਕ ਦਿਖਾਈ ਦੇਣ ਦੇ ਯੋਗ ਬਣਾਉਂਦੀ ਹੈ।
DALLE 2 ਬਨਾਮ ਇਮੇਜੇਨ ਦਾ ਪ੍ਰਦਰਸ਼ਨ
ਗੂਗਲ ਦੇ ਬੈਂਚਮਾਰਕ ਤੋਂ ਸ਼ੁਰੂਆਤੀ ਨਤੀਜੇ ਦਰਸਾਉਂਦੇ ਹਨ ਕਿ ਮਨੁੱਖੀ ਉੱਤਰਦਾਤਾ DALL-E 2 ਅਤੇ ਹੋਰ ਟੈਕਸਟ-ਟੂ-ਇਮੇਜ ਮਾਡਲਾਂ ਜਿਵੇਂ ਕਿ ਲੇਟੈਂਟ ਡਿਫਿਊਜ਼ਨ ਅਤੇ VQGAN + CLIP ਨਾਲੋਂ ਇਮੇਜੇਨ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਚਿੱਤਰਾਂ ਨੂੰ ਤਰਜੀਹ ਦਿੰਦੇ ਹਨ।
ਇਮੇਜੇਨ ਟੀਮ ਤੋਂ ਆਉਟਪੁੱਟ ਨੇ ਇਹ ਵੀ ਦਿਖਾਇਆ ਹੈ ਕਿ ਉਹਨਾਂ ਦਾ ਮਾਡਲ ਸਪੈਲਿੰਗ ਟੈਕਸਟ 'ਤੇ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ, DALL-E 2 ਮਾਡਲ ਦੀ ਇੱਕ ਜਾਣੀ ਜਾਂਦੀ ਕਮਜ਼ੋਰੀ।
ਹਾਲਾਂਕਿ, ਕਿਉਂਕਿ ਗੂਗਲ ਨੇ ਅਜੇ ਤੱਕ ਮਾਡਲ ਨੂੰ ਜਨਤਾ ਲਈ ਜਾਰੀ ਨਹੀਂ ਕੀਤਾ ਹੈ, ਇਹ ਅਜੇ ਵੀ ਦੇਖਣਾ ਬਾਕੀ ਹੈ ਕਿ ਗੂਗਲ ਦੇ ਬੈਂਚਮਾਰਕ ਕਿੰਨੇ ਸਹੀ ਹਨ.
ਸਿੱਟਾ
ਫੋਟੋਰੀਅਲਿਸਟਿਕ ਟੈਕਸਟ-ਟੂ-ਇਮੇਜ ਮਾਡਲਾਂ ਦਾ ਉਭਾਰ ਵਿਵਾਦਪੂਰਨ ਹੈ ਕਿਉਂਕਿ ਇਹ ਮਾਡਲ ਅਨੈਤਿਕ ਵਰਤੋਂ ਲਈ ਪੱਕੇ ਹਨ।
ਟੈਕਨਾਲੋਜੀ ਅਸ਼ਲੀਲ ਸਮੱਗਰੀ ਦੀ ਸਿਰਜਣਾ ਜਾਂ ਵਿਗਾੜ ਲਈ ਇੱਕ ਸਾਧਨ ਵਜੋਂ ਅਗਵਾਈ ਕਰ ਸਕਦੀ ਹੈ। ਗੂਗਲ ਅਤੇ ਓਪਨਏਆਈ ਦੋਵਾਂ ਦੇ ਖੋਜਕਰਤਾ ਇਸ ਬਾਰੇ ਜਾਣੂ ਹਨ, ਜਿਸ ਕਾਰਨ ਅੰਸ਼ਕ ਤੌਰ 'ਤੇ ਇਹ ਤਕਨਾਲੋਜੀਆਂ ਅਜੇ ਵੀ ਹਰ ਕਿਸੇ ਲਈ ਪਹੁੰਚਯੋਗ ਨਹੀਂ ਹਨ।
ਟੈਕਸਟ-ਟੂ-ਇਮੇਜ ਮਾਡਲਾਂ ਦੇ ਵੀ ਮਹੱਤਵਪੂਰਨ ਆਰਥਿਕ ਪ੍ਰਭਾਵ ਹੁੰਦੇ ਹਨ। ਕੀ ਮਾਡਲਾਂ, ਫੋਟੋਗ੍ਰਾਫ਼ਰਾਂ ਅਤੇ ਕਲਾਕਾਰਾਂ ਵਰਗੇ ਪੇਸ਼ੇ ਪ੍ਰਭਾਵਿਤ ਹੋਣਗੇ ਜੇਕਰ DALL-E ਵਰਗੇ ਮਾਡਲ ਮੁੱਖ ਧਾਰਾ ਬਣ ਜਾਂਦੇ ਹਨ?
ਇਸ ਸਮੇਂ, ਇਹਨਾਂ ਮਾਡਲਾਂ ਦੀਆਂ ਅਜੇ ਵੀ ਸੀਮਾਵਾਂ ਹਨ. ਕਿਸੇ ਵੀ AI-ਉਤਪੰਨ ਚਿੱਤਰ ਨੂੰ ਜਾਂਚ ਲਈ ਫੜਨਾ ਇਸ ਦੀਆਂ ਕਮੀਆਂ ਨੂੰ ਪ੍ਰਗਟ ਕਰੇਗਾ। ਓਪਨਏਆਈ ਅਤੇ ਗੂਗਲ ਦੋਵਾਂ ਦੇ ਸਭ ਤੋਂ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਮਾਡਲਾਂ ਲਈ ਮੁਕਾਬਲਾ ਕਰਨ ਦੇ ਨਾਲ, ਇੱਕ ਸੱਚਮੁੱਚ ਸੰਪੂਰਨ ਆਉਟਪੁੱਟ ਤਿਆਰ ਹੋਣ ਤੋਂ ਪਹਿਲਾਂ ਇਹ ਸਮੇਂ ਦੀ ਗੱਲ ਹੋ ਸਕਦੀ ਹੈ: ਇੱਕ ਚਿੱਤਰ ਜੋ ਅਸਲ ਚੀਜ਼ ਤੋਂ ਵੱਖ ਨਹੀਂ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ।
ਤੁਸੀਂ ਕੀ ਸੋਚਦੇ ਹੋ ਜਦੋਂ ਤਕਨਾਲੋਜੀ ਇੰਨੀ ਦੂਰ ਜਾਂਦੀ ਹੈ?
ਕੋਈ ਜਵਾਬ ਛੱਡਣਾ