DALL-E 2 ਬਨਾਮ ਚਿੱਤਰ - AI-ਤਿਆਰ ਚਿੱਤਰ ਅਤੇ ਕਲਾ

ਵਿਸ਼ਾ - ਸੂਚੀ[ਛੁਪਾਓ][ਦਿਖਾਓ]

ਟੈਕਸਟ ਤੋਂ ਚਿੱਤਰ ਬਣਾਉਣਾ ਕੀ ਹੈ?
DALLE 2 ਕੀ ਹੈ?+-
- ਇਹ ਕਿਵੇਂ ਚਲਦਾ ਹੈ?
- ਇਸਤੇਮਾਲ
ਗੂਗਲ ਇਮੇਜੇਨ ਏਆਈ ਕੀ ਹੈ?+-
- ਇਹ ਕਿਵੇਂ ਚਲਦਾ ਹੈ?
DALLE 2 ਬਨਾਮ ਇਮੇਜੇਨ ਦਾ ਪ੍ਰਦਰਸ਼ਨ
ਸਿੱਟਾ

ਹਾਲ ਹੀ ਦੇ ਸਾਲਾਂ ਵਿੱਚ, ਮਨੁੱਖੀ ਭਾਸ਼ਾ ਨੂੰ ਸਮਝਣ ਵਿੱਚ ਡੂੰਘੇ-ਸਿੱਖਣ ਦੇ ਮਾਡਲ ਵਧੇਰੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਬਣ ਗਏ ਹਨ।

ਵਰਗੇ ਪ੍ਰੋਜੈਕਟਾਂ ਬਾਰੇ ਸੋਚੋ GPT-3, ਜੋ ਹੁਣ ਪੂਰੇ ਲੇਖ ਅਤੇ ਵੈੱਬਸਾਈਟਾਂ ਬਣਾਉਣ ਦੇ ਯੋਗ ਹੈ। GitHub ਨੇ ਹਾਲ ਹੀ ਵਿੱਚ ਪੇਸ਼ ਕੀਤਾ ਹੈ ਗੀਟਹਬ ਕੋਪਿਲੋਟ, ਇੱਕ ਸੇਵਾ ਜੋ ਤੁਹਾਨੂੰ ਲੋੜੀਂਦੇ ਕੋਡ ਦੀ ਕਿਸਮ ਦਾ ਵਰਣਨ ਕਰਕੇ ਪੂਰੇ ਕੋਡ ਸਨਿੱਪਟ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ।

ਓਪਨਏਆਈ, ਫੇਸਬੁੱਕ, ਅਤੇ ਗੂਗਲ ਦੇ ਖੋਜਕਰਤਾ ਇੱਕ ਹੋਰ ਕੰਮ ਨੂੰ ਸੰਭਾਲਣ ਲਈ ਡੂੰਘੀ ਸਿਖਲਾਈ ਦੀ ਵਰਤੋਂ ਕਰਨ ਦੇ ਤਰੀਕਿਆਂ 'ਤੇ ਕੰਮ ਕਰ ਰਹੇ ਹਨ: ਕੈਪਸ਼ਨਿੰਗ ਚਿੱਤਰ। ਲੱਖਾਂ ਐਂਟਰੀਆਂ ਦੇ ਨਾਲ ਇੱਕ ਵੱਡੇ ਡੇਟਾਸੈਟ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ, ਉਹ ਕੁਝ ਦੇ ਨਾਲ ਆਏ ਹਨ ਹੈਰਾਨੀ ਵਾਲੀ ਨਤੀਜੇ.

ਹਾਲ ਹੀ ਵਿੱਚ, ਇਹਨਾਂ ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਉਲਟ ਕੰਮ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ ਹੈ: ਇੱਕ ਸੁਰਖੀ ਤੋਂ ਚਿੱਤਰ ਬਣਾਉਣਾ. ਕੀ ਹੁਣ ਇੱਕ ਵਰਣਨ ਤੋਂ ਇੱਕ ਪੂਰੀ ਤਰ੍ਹਾਂ ਨਵਾਂ ਚਿੱਤਰ ਬਣਾਉਣਾ ਸੰਭਵ ਹੈ?

ਇਹ ਗਾਈਡ ਦੋ ਸਭ ਤੋਂ ਉੱਨਤ ਟੈਕਸਟ-ਟੂ-ਇਮੇਜ ਮਾਡਲਾਂ ਦੀ ਪੜਚੋਲ ਕਰੇਗੀ: OpenAI ਦਾ DALL-E 2 ਅਤੇ Google ਦਾ Imagen AI। ਇਹਨਾਂ ਪ੍ਰੋਜੈਕਟਾਂ ਵਿੱਚੋਂ ਹਰ ਇੱਕ ਨੇ ਬੁਨਿਆਦੀ ਤਰੀਕੇ ਪੇਸ਼ ਕੀਤੇ ਹਨ ਜੋ ਸਮਾਜ ਨੂੰ ਬਦਲ ਸਕਦੇ ਹਨ ਜਿਵੇਂ ਕਿ ਅਸੀਂ ਜਾਣਦੇ ਹਾਂ।

ਪਰ ਪਹਿਲਾਂ, ਆਓ ਸਮਝੀਏ ਕਿ ਟੈਕਸਟ-ਟੂ-ਇਮੇਜ ਜਨਰੇਸ਼ਨ ਤੋਂ ਸਾਡਾ ਕੀ ਮਤਲਬ ਹੈ।

ਟੈਕਸਟ ਤੋਂ ਚਿੱਤਰ ਬਣਾਉਣਾ ਕੀ ਹੈ?

ਟੈਕਸਟ-ਟੂ-ਚਿੱਤਰ ਮਾਡਲ ਕੰਪਿਊਟਰਾਂ ਨੂੰ ਪ੍ਰੋਂਪਟ ਦੇ ਆਧਾਰ 'ਤੇ ਨਵੇਂ ਅਤੇ ਵਿਲੱਖਣ ਚਿੱਤਰ ਬਣਾਉਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦੇ ਹਨ। ਲੋਕ ਹੁਣ ਇੱਕ ਚਿੱਤਰ ਦਾ ਇੱਕ ਟੈਕਸਟ ਵੇਰਵਾ ਪ੍ਰਦਾਨ ਕਰ ਸਕਦੇ ਹਨ ਜੋ ਉਹ ਬਣਾਉਣਾ ਚਾਹੁੰਦੇ ਹਨ, ਅਤੇ ਮਾਡਲ ਇੱਕ ਵਿਜ਼ੂਅਲ ਬਣਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰੇਗਾ ਜੋ ਉਸ ਵਰਣਨ ਨੂੰ ਜਿੰਨਾ ਸੰਭਵ ਹੋ ਸਕੇ ਮੇਲ ਖਾਂਦਾ ਹੈ.

ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਮਾਡਲਾਂ ਨੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਹੋਰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਚਿੱਤਰ-ਸਿਰਲੇਖ ਜੋੜਿਆਂ ਵਾਲੇ ਵੱਡੇ ਡੇਟਾਸੇਟਾਂ ਦੀ ਵਰਤੋਂ ਦਾ ਲਾਭ ਉਠਾਇਆ ਹੈ।

ਜ਼ਿਆਦਾਤਰ ਲਿਖਤ-ਤੋਂ-ਚਿੱਤਰ ਮਾਡਲ ਇੱਕ ਟ੍ਰਾਂਸਫਾਰਮਰ ਭਾਸ਼ਾ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ ਪ੍ਰੋਂਪਟ ਦੀ ਵਿਆਖਿਆ ਕਰਨ ਲਈ। ਇਸ ਕਿਸਮ ਦਾ ਮਾਡਲ ਏ ਨਿਊਰਲ ਨੈਟਵਰਕ ਜੋ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਦੇ ਸੰਦਰਭ ਅਤੇ ਅਰਥਾਂ ਦੇ ਅਰਥਾਂ ਨੂੰ ਸਿੱਖਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦਾ ਹੈ।

ਅੱਗੇ, ਜਨਰੇਟਿਵ ਮਾਡਲ ਜਿਵੇਂ ਕਿ ਫੈਲਾਅ ਮਾਡਲ ਅਤੇ ਜਨਰੇਟਿਵ ਵਿਰੋਧੀ ਨੈੱਟਵਰਕ ਚਿੱਤਰ ਸੰਸਲੇਸ਼ਣ ਲਈ ਵਰਤੇ ਜਾਂਦੇ ਹਨ।

DALLE 2 ਕੀ ਹੈ?

DALL-E 2 ਯਥਾਰਥਵਾਦੀ ਚਿੱਤਰ ਅਤੇ ਕਲਾ ਬਣਾਉਂਦਾ ਹੈ

FROM-E 2 ਓਪਨਏਆਈ ਦੁਆਰਾ ਇੱਕ ਕੰਪਿਊਟਰ ਮਾਡਲ ਹੈ ਜੋ ਅਪ੍ਰੈਲ 2022 ਵਿੱਚ ਜਾਰੀ ਕੀਤਾ ਗਿਆ ਸੀ। ਮਾਡਲ ਨੂੰ ਚਿੱਤਰਾਂ ਨਾਲ ਸ਼ਬਦਾਂ ਅਤੇ ਵਾਕਾਂਸ਼ਾਂ ਨੂੰ ਜੋੜਨ ਲਈ ਲੱਖਾਂ ਲੇਬਲ ਵਾਲੀਆਂ ਤਸਵੀਰਾਂ ਦੇ ਡੇਟਾਬੇਸ 'ਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਸੀ।

ਉਪਭੋਗਤਾ ਇੱਕ ਸਧਾਰਨ ਵਾਕੰਸ਼ ਟਾਈਪ ਕਰ ਸਕਦੇ ਹਨ, ਜਿਵੇਂ ਕਿ “ਇੱਕ ਬਿੱਲੀ ਖਾ ਰਹੀ ਲਾਸਗਨਾ”, ਅਤੇ DALL-E 2 ਇਸ ਵਾਕਾਂਸ਼ ਦਾ ਵਰਣਨ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਰਿਹਾ ਹੈ ਦੀ ਆਪਣੀ ਵਿਆਖਿਆ ਤਿਆਰ ਕਰੇਗਾ।

ਸਕ੍ਰੈਚ ਤੋਂ ਚਿੱਤਰ ਬਣਾਉਣ ਤੋਂ ਇਲਾਵਾ, DALL-E 2 ਮੌਜੂਦਾ ਚਿੱਤਰਾਂ ਨੂੰ ਵੀ ਸੰਪਾਦਿਤ ਕਰ ਸਕਦਾ ਹੈ। ਹੇਠਾਂ ਦਿੱਤੀ ਉਦਾਹਰਨ ਵਿੱਚ, DALL-E ਇੱਕ ਵਾਧੂ ਸੋਫੇ ਵਾਲੇ ਕਮਰੇ ਦਾ ਇੱਕ ਸੋਧਿਆ ਚਿੱਤਰ ਬਣਾਉਣ ਦੇ ਯੋਗ ਸੀ।

DALL-E 2 ਮੌਜੂਦਾ ਚਿੱਤਰਾਂ ਨੂੰ ਸੰਪਾਦਿਤ ਕਰ ਸਕਦਾ ਹੈ

DALL-E 2 ਓਪਨਏਆਈ ਦੁਆਰਾ ਪਿਛਲੇ ਕੁਝ ਸਾਲਾਂ ਵਿੱਚ ਜਾਰੀ ਕੀਤੇ ਗਏ ਬਹੁਤ ਸਾਰੇ ਸਮਾਨ ਪ੍ਰੋਜੈਕਟਾਂ ਵਿੱਚੋਂ ਇੱਕ ਹੈ। ਓਪਨਏਆਈ ਦਾ ਜੀਪੀਟੀ-3 ਖ਼ਬਰਦਾਰ ਬਣ ਗਿਆ ਜਦੋਂ ਇਹ ਵੱਖੋ ਵੱਖਰੀਆਂ ਸ਼ੈਲੀਆਂ ਦਾ ਟੈਕਸਟ ਤਿਆਰ ਕਰਦਾ ਜਾਪਦਾ ਸੀ।

ਵਰਤਮਾਨ ਵਿੱਚ, DALL-E 2 ਅਜੇ ਵੀ ਬੀਟਾ ਟੈਸਟਿੰਗ ਵਿੱਚ ਹੈ। ਦਿਲਚਸਪੀ ਵਾਲੇ ਉਪਭੋਗਤਾ ਆਪਣੇ ਲਈ ਸਾਈਨ ਅਪ ਕਰ ਸਕਦੇ ਹਨ ਉਡੀਕ ਸੂਚੀ ਅਤੇ ਪਹੁੰਚ ਦੀ ਉਡੀਕ ਕਰੋ।

ਇਹ ਕਿਵੇਂ ਚਲਦਾ ਹੈ?

ਹਾਲਾਂਕਿ DALL-E 2 ਦੇ ਨਤੀਜੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹਨ, ਤੁਸੀਂ ਸ਼ਾਇਦ ਸੋਚ ਰਹੇ ਹੋਵੋਗੇ ਕਿ ਇਹ ਸਭ ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ।

DALL-E 2 ਓਪਨਏਆਈ ਦੇ ਜੀਪੀਟੀ-3 ਪ੍ਰੋਜੈਕਟ ਦੇ ਮਲਟੀਮੋਡਲ ਲਾਗੂ ਕਰਨ ਦੀ ਇੱਕ ਉਦਾਹਰਣ ਹੈ।

DALL-E 2 ਆਰਕੀਟੈਕਚਰ ਦੀ ਸੰਖੇਪ ਜਾਣਕਾਰੀ

ਪਹਿਲਾਂ, ਉਪਭੋਗਤਾ ਦੇ ਟੈਕਸਟ ਪ੍ਰੋਂਪਟ ਨੂੰ ਇੱਕ ਟੈਕਸਟ ਏਨਕੋਡਰ ਵਿੱਚ ਰੱਖਿਆ ਜਾਂਦਾ ਹੈ ਜੋ ਪ੍ਰੋਂਪਟ ਨੂੰ ਇੱਕ ਪ੍ਰਤੀਨਿਧਤਾ ਸਪੇਸ ਵਿੱਚ ਮੈਪ ਕਰਦਾ ਹੈ। DALL-E 2 ਇੱਕ ਹੋਰ ਓਪਨਏਆਈ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ ਜਿਸਨੂੰ CLIP (ਕੰਟਰੈਸਟਿਵ ਲੈਂਗੂਏਜ-ਇਮੇਜ ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ) ਕਿਹਾ ਜਾਂਦਾ ਹੈ ਤਾਂ ਜੋ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਤੋਂ ਅਰਥ ਸੰਬੰਧੀ ਜਾਣਕਾਰੀ ਪ੍ਰਾਪਤ ਕੀਤੀ ਜਾ ਸਕੇ।

ਅੱਗੇ, ਇੱਕ ਮਾਡਲ ਵਜੋਂ ਜਾਣਿਆ ਜਾਂਦਾ ਹੈ ਪੁਰਾਣੇ ਟੈਕਸਟ ਏਨਕੋਡਿੰਗ ਨੂੰ ਚਿੱਤਰ ਏਨਕੋਡਿੰਗ ਵਿੱਚ ਮੈਪ ਕਰਦਾ ਹੈ। ਇਹ ਚਿੱਤਰ ਏਨਕੋਡਿੰਗ ਟੈਕਸਟ ਏਨਕੋਡਿੰਗ ਪੜਾਅ ਵਿੱਚ ਪਾਈ ਗਈ ਅਰਥ ਜਾਣਕਾਰੀ ਨੂੰ ਕੈਪਚਰ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ।

ਅਸਲ ਚਿੱਤਰ ਬਣਾਉਣ ਲਈ, DALL-E 2 ਅਰਥ ਜਾਣਕਾਰੀ ਅਤੇ ਚਿੱਤਰ ਏਨਕੋਡਿੰਗ ਵੇਰਵਿਆਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਵਿਜ਼ੂਅਲ ਬਣਾਉਣ ਲਈ ਇੱਕ ਚਿੱਤਰ ਡੀਕੋਡਰ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਓਪਨਏਆਈ ਦਾ ਇੱਕ ਸੋਧਿਆ ਹੋਇਆ ਸੰਸਕਰਣ ਵਰਤਦਾ ਹੈ ਗਲਾਈਡ ਚਿੱਤਰ ਬਣਾਉਣ ਲਈ ਮਾਡਲ. ਗਲਾਈਡ ਏ 'ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ ਫੈਲਾਅ ਮਾਡਲ ਚਿੱਤਰ ਬਣਾਉਣ ਲਈ.

DALL-E 2 ਮਾਡਲ ਵਿੱਚ ਗਲਾਈਡ ਨੂੰ ਜੋੜਨ ਨਾਲ ਵਧੇਰੇ ਫੋਟੋਰੀਅਲਿਸਟਿਕ ਆਉਟਪੁੱਟ ਨੂੰ ਸਮਰੱਥ ਬਣਾਇਆ ਗਿਆ ਹੈ। ਕਿਉਂਕਿ ਗਲਾਈਡ ਮਾਡਲ ਸਟੋਚੈਸਟਿਕ ਜਾਂ ਬੇਤਰਤੀਬੇ ਤੌਰ 'ਤੇ ਨਿਰਧਾਰਤ ਕੀਤਾ ਗਿਆ ਹੈ, DALL-E 2 ਮਾਡਲ ਮਾਡਲ ਨੂੰ ਬਾਰ ਬਾਰ ਚਲਾ ਕੇ ਆਸਾਨੀ ਨਾਲ ਭਿੰਨਤਾਵਾਂ ਬਣਾ ਸਕਦਾ ਹੈ।

ਇਸਤੇਮਾਲ

DALL-E 2 ਮਾਡਲ ਦੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਨਤੀਜਿਆਂ ਦੇ ਬਾਵਜੂਦ, ਇਹ ਅਜੇ ਵੀ ਕੁਝ ਸੀਮਾਵਾਂ ਦਾ ਸਾਹਮਣਾ ਕਰਦਾ ਹੈ।

ਸਪੈਲਿੰਗ ਟੈਕਸਟ

ਮਾਡਲ ਸੰਕੇਤਾਂ ਵਿੱਚ ਸ਼ਬਦਾਂ ਦੇ ਸਪੈਲਿੰਗ ਨੂੰ ਗੜਬੜ ਕਰਦਾ ਹੈ

ਪ੍ਰੋਂਪਟ ਜੋ DALL-E 2 ਨੂੰ ਟੈਕਸਟ ਬਣਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਹਨ ਇਹ ਪ੍ਰਗਟ ਕਰਦੇ ਹਨ ਕਿ ਇਸ ਵਿੱਚ ਸ਼ਬਦਾਂ ਦੇ ਸਪੈਲਿੰਗ ਵਿੱਚ ਮੁਸ਼ਕਲ ਹੈ। ਮਾਹਰ ਮੰਨਦੇ ਹਨ ਕਿ ਅਜਿਹਾ ਇਸ ਲਈ ਹੋ ਸਕਦਾ ਹੈ ਕਿਉਂਕਿ ਸਪੈਲਿੰਗ ਜਾਣਕਾਰੀ ਦਾ ਹਿੱਸਾ ਨਹੀਂ ਹੈ ਸਿਖਲਾਈ ਡੇਟਾਸੈਟ.

ਰਚਨਾਤਮਕ ਤਰਕ

ਮਾਡਲ ਸਪੇਸ ਵਿੱਚ ਵਸਤੂਆਂ ਰੱਖਣ ਨਾਲ ਸੰਘਰਸ਼ ਕਰਦਾ ਹੈ

ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਦੇਖਿਆ ਕਿ DALL-E 2 ਨੂੰ ਅਜੇ ਵੀ ਰਚਨਾਤਮਕ ਤਰਕ ਨਾਲ ਕੁਝ ਮੁਸ਼ਕਲ ਹੈ। ਸਧਾਰਨ ਰੂਪ ਵਿੱਚ, ਮਾਡਲ ਇੱਕ ਚਿੱਤਰ ਦੇ ਵਿਅਕਤੀਗਤ ਪਹਿਲੂਆਂ ਨੂੰ ਸਮਝ ਸਕਦਾ ਹੈ ਜਦੋਂ ਕਿ ਅਜੇ ਵੀ ਇਹਨਾਂ ਪਹਿਲੂਆਂ ਵਿਚਕਾਰ ਸਬੰਧਾਂ ਦਾ ਪਤਾ ਲਗਾਉਣ ਵਿੱਚ ਮੁਸ਼ਕਲ ਆਉਂਦੀ ਹੈ।

ਉਦਾਹਰਨ ਲਈ, ਜੇਕਰ "ਨੀਲੇ ਘਣ ਦੇ ਸਿਖਰ 'ਤੇ ਲਾਲ ਘਣ" ਪ੍ਰੋਂਪਟ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ, ਤਾਂ DALL-E ਇੱਕ ਨੀਲੇ ਘਣ ਅਤੇ ਇੱਕ ਲਾਲ ਘਣ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਤਿਆਰ ਕਰੇਗਾ ਪਰ ਉਹਨਾਂ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਰੱਖਣ ਵਿੱਚ ਅਸਫਲ ਰਹੇਗਾ। ਮਾਡਲ ਨੂੰ ਇਹ ਵੀ ਦੇਖਿਆ ਗਿਆ ਹੈ ਕਿ ਪ੍ਰੋਂਪਟਾਂ ਵਿੱਚ ਮੁਸ਼ਕਲ ਆਉਂਦੀ ਹੈ ਜਿਸ ਲਈ ਇੱਕ ਖਾਸ ਗਿਣਤੀ ਦੀਆਂ ਵਸਤੂਆਂ ਨੂੰ ਖਿੱਚਣ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।

ਡੇਟਾਸੈਟ ਵਿੱਚ ਪੱਖਪਾਤ

ਜੇਕਰ ਪ੍ਰੋਂਪਟ ਵਿੱਚ ਕੋਈ ਹੋਰ ਵੇਰਵੇ ਨਹੀਂ ਹਨ, ਤਾਂ DALL-E ਨੂੰ ਗੋਰੇ ਜਾਂ ਪੱਛਮੀ ਲੋਕਾਂ ਅਤੇ ਵਾਤਾਵਰਨ ਨੂੰ ਦਰਸਾਉਣ ਲਈ ਦੇਖਿਆ ਗਿਆ ਹੈ। ਇਹ ਪੇਸ਼ਕਾਰੀ ਪੱਖਪਾਤ ਡੇਟਾਸੈਟ ਵਿੱਚ ਪੱਛਮੀ-ਕੇਂਦ੍ਰਿਤ ਚਿੱਤਰਾਂ ਦੀ ਬਹੁਤਾਤ ਦੇ ਕਾਰਨ ਹੁੰਦਾ ਹੈ।

DALL-E 2 ਵਿੱਚ ਲਿੰਗ ਪੱਖਪਾਤ ਹਨ

ਮਾਡਲ ਨੂੰ ਲਿੰਗਕ ਰੂੜ੍ਹੀਆਂ ਦੀ ਪਾਲਣਾ ਕਰਨ ਲਈ ਵੀ ਦੇਖਿਆ ਗਿਆ ਹੈ। ਉਦਾਹਰਨ ਲਈ, "ਫਲਾਈਟ ਅਟੈਂਡੈਂਟ" ਪ੍ਰੋਂਪਟ ਵਿੱਚ ਟਾਈਪ ਕਰਨਾ ਜਿਆਦਾਤਰ ਮਹਿਲਾ ਫਲਾਈਟ ਅਟੈਂਡੈਂਟ ਦੀਆਂ ਤਸਵੀਰਾਂ ਬਣਾਉਂਦਾ ਹੈ।

ਗੂਗਲ ਇਮੇਜੇਨ ਏਆਈ ਕੀ ਹੈ?

DALL-E 2 ਬਨਾਮ ਚਿੱਤਰ - ਸਪੈਲਿੰਗ ਅਤੇ ਰਚਨਾ ਵਿੱਚ ਚਿੱਤਰ ਬਿਹਤਰ ਹੈ

ਗੂਗਲ ਦੇ ਚਿੱਤਰ AI ਇੱਕ ਮਾਡਲ ਹੈ ਜਿਸਦਾ ਉਦੇਸ਼ ਇਨਪੁਟ ਟੈਕਸਟ ਤੋਂ ਫੋਟੋਰੀਅਲਿਸਟਿਕ ਚਿੱਤਰ ਬਣਾਉਣਾ ਹੈ। DALL-E ਦੀ ਤਰ੍ਹਾਂ, ਮਾਡਲ ਟੈਕਸਟ ਨੂੰ ਸਮਝਣ ਲਈ ਟ੍ਰਾਂਸਫਾਰਮਰ ਭਾਸ਼ਾ ਦੇ ਮਾਡਲਾਂ ਦੀ ਵੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ ਅਤੇ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੀਆਂ ਤਸਵੀਰਾਂ ਬਣਾਉਣ ਲਈ ਪ੍ਰਸਾਰ ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ 'ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ।

ਇਮੇਜੇਨ ਦੇ ਨਾਲ, ਗੂਗਲ ਨੇ ਟੈਕਸਟ-ਟੂ-ਇਮੇਜ ਮਾਡਲਾਂ ਲਈ ਡਰਾਅਬੈਂਚ ਨਾਮਕ ਬੈਂਚਮਾਰਕ ਵੀ ਜਾਰੀ ਕੀਤਾ ਹੈ। DrawBench ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ, ਉਹ ਇਹ ਦੇਖਣ ਦੇ ਯੋਗ ਸਨ ਕਿ ਮਨੁੱਖੀ ਰੇਟਰਾਂ ਨੇ DALL-E 2 ਸਮੇਤ ਹੋਰ ਮਾਡਲਾਂ ਨਾਲੋਂ ਇਮੇਜਨ ਆਉਟਪੁੱਟ ਨੂੰ ਤਰਜੀਹ ਦਿੱਤੀ।

ਇਹ ਕਿਵੇਂ ਚਲਦਾ ਹੈ?

ਚਿੱਤਰ ਉੱਚ ਰੈਜ਼ੋਲਿਊਸ਼ਨ ਦੇ ਕੰਮ ਨੂੰ ਤਿਆਰ ਕਰਨ ਲਈ ਇੱਕ ਪ੍ਰਸਾਰ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ

DALL-E ਦੇ ਸਮਾਨ, ਇਮੇਜੇਨ ਪਹਿਲਾਂ ਯੂਜ਼ਰ ਪ੍ਰੋਂਪਟ ਨੂੰ ਇੱਕ ਫ੍ਰੋਜ਼ਨ ਟੈਕਸਟ ਏਨਕੋਡਰ ਦੁਆਰਾ ਟੈਕਸਟ ਏਮਬੈਡਿੰਗ ਵਿੱਚ ਬਦਲਦਾ ਹੈ।

ਇਮੇਜਨ ਇੱਕ ਪ੍ਰਸਾਰ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ ਜੋ ਇਹ ਸਿੱਖਦਾ ਹੈ ਕਿ ਰੌਲੇ ਦੇ ਪੈਟਰਨ ਨੂੰ ਚਿੱਤਰਾਂ ਵਿੱਚ ਕਿਵੇਂ ਬਦਲਣਾ ਹੈ। ਇਹਨਾਂ ਚਿੱਤਰਾਂ ਦੀ ਸ਼ੁਰੂਆਤੀ ਆਉਟਪੁੱਟ ਘੱਟ ਰੈਜ਼ੋਲਿਊਸ਼ਨ ਹੁੰਦੀ ਹੈ ਅਤੇ ਬਾਅਦ ਵਿੱਚ ਅੰਤਮ ਚਿੱਤਰ ਦੇ ਰੈਜ਼ੋਲਿਊਸ਼ਨ ਨੂੰ ਵਧਾਉਣ ਲਈ ਇੱਕ ਸੁਪਰ-ਰੈਜ਼ੋਲਿਊਸ਼ਨ ਡਿਫਿਊਜ਼ਨ ਮਾਡਲ ਵਜੋਂ ਜਾਣੇ ਜਾਂਦੇ ਇੱਕ ਹੋਰ ਮਾਡਲ ਦੁਆਰਾ ਪਾਸ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਪਹਿਲਾ ਪ੍ਰਸਾਰ ਮਾਡਲ ਇੱਕ 64×64 ਪਿਕਸਲ ਚਿੱਤਰ ਨੂੰ ਆਊਟਪੁੱਟ ਕਰਦਾ ਹੈ ਅਤੇ ਬਾਅਦ ਵਿੱਚ ਇੱਕ ਉੱਚ-ਰੈਜ਼ੋਲੂਸ਼ਨ 1024×1024 ਚਿੱਤਰ ਤੱਕ ਉਡਾਇਆ ਜਾਂਦਾ ਹੈ।

ਇਮੇਜੇਨ ਟੀਮ ਦੀ ਖੋਜ ਦੇ ਅਧਾਰ 'ਤੇ, ਸਿਰਫ ਟੈਕਸਟ ਡੇਟਾ 'ਤੇ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਵੱਡੇ ਫਰੋਜ਼ਨ ਭਾਸ਼ਾ ਮਾਡਲ ਅਜੇ ਵੀ ਟੈਕਸਟ-ਟੂ-ਇਮੇਜ ਬਣਾਉਣ ਲਈ ਬਹੁਤ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਟੈਕਸਟ ਏਨਕੋਡਰ ਹਨ।

ਅਧਿਐਨ ਡਾਇਨਾਮਿਕ ਥ੍ਰੈਸ਼ਹੋਲਡਿੰਗ ਦੀ ਧਾਰਨਾ ਨੂੰ ਵੀ ਪੇਸ਼ ਕਰਦਾ ਹੈ। ਇਹ ਵਿਧੀ ਚਿੱਤਰਾਂ ਨੂੰ ਬਣਾਉਣ ਵੇਲੇ ਮਾਰਗਦਰਸ਼ਨ ਵਜ਼ਨ ਵਧਾ ਕੇ ਚਿੱਤਰਾਂ ਨੂੰ ਵਧੇਰੇ ਫੋਟੋਰੀਅਲਿਸਟਿਕ ਦਿਖਾਈ ਦੇਣ ਦੇ ਯੋਗ ਬਣਾਉਂਦੀ ਹੈ।

DALLE 2 ਬਨਾਮ ਇਮੇਜੇਨ ਦਾ ਪ੍ਰਦਰਸ਼ਨ

ਗੂਗਲ ਦੇ ਬੈਂਚਮਾਰਕ ਤੋਂ ਸ਼ੁਰੂਆਤੀ ਨਤੀਜੇ ਦਰਸਾਉਂਦੇ ਹਨ ਕਿ ਮਨੁੱਖੀ ਉੱਤਰਦਾਤਾ DALL-E 2 ਅਤੇ ਹੋਰ ਟੈਕਸਟ-ਟੂ-ਇਮੇਜ ਮਾਡਲਾਂ ਜਿਵੇਂ ਕਿ ਲੇਟੈਂਟ ਡਿਫਿਊਜ਼ਨ ਅਤੇ VQGAN + CLIP ਨਾਲੋਂ ਇਮੇਜੇਨ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਚਿੱਤਰਾਂ ਨੂੰ ਤਰਜੀਹ ਦਿੰਦੇ ਹਨ।

ਗੂਗਲ ਤੋਂ ਡਰਾਅਬੈਂਚ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ DALL-E 2 ਬਨਾਮ ਚਿੱਤਰ ਨਤੀਜੇ

ਇਮੇਜੇਨ ਟੀਮ ਤੋਂ ਆਉਟਪੁੱਟ ਨੇ ਇਹ ਵੀ ਦਿਖਾਇਆ ਹੈ ਕਿ ਉਹਨਾਂ ਦਾ ਮਾਡਲ ਸਪੈਲਿੰਗ ਟੈਕਸਟ 'ਤੇ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ, DALL-E 2 ਮਾਡਲ ਦੀ ਇੱਕ ਜਾਣੀ ਜਾਂਦੀ ਕਮਜ਼ੋਰੀ।

ਹਾਲਾਂਕਿ, ਕਿਉਂਕਿ ਗੂਗਲ ਨੇ ਅਜੇ ਤੱਕ ਮਾਡਲ ਨੂੰ ਜਨਤਾ ਲਈ ਜਾਰੀ ਨਹੀਂ ਕੀਤਾ ਹੈ, ਇਹ ਅਜੇ ਵੀ ਦੇਖਣਾ ਬਾਕੀ ਹੈ ਕਿ ਗੂਗਲ ਦੇ ਬੈਂਚਮਾਰਕ ਕਿੰਨੇ ਸਹੀ ਹਨ.

ਸਿੱਟਾ

ਫੋਟੋਰੀਅਲਿਸਟਿਕ ਟੈਕਸਟ-ਟੂ-ਇਮੇਜ ਮਾਡਲਾਂ ਦਾ ਉਭਾਰ ਵਿਵਾਦਪੂਰਨ ਹੈ ਕਿਉਂਕਿ ਇਹ ਮਾਡਲ ਅਨੈਤਿਕ ਵਰਤੋਂ ਲਈ ਪੱਕੇ ਹਨ।

ਟੈਕਨਾਲੋਜੀ ਅਸ਼ਲੀਲ ਸਮੱਗਰੀ ਦੀ ਸਿਰਜਣਾ ਜਾਂ ਵਿਗਾੜ ਲਈ ਇੱਕ ਸਾਧਨ ਵਜੋਂ ਅਗਵਾਈ ਕਰ ਸਕਦੀ ਹੈ। ਗੂਗਲ ਅਤੇ ਓਪਨਏਆਈ ਦੋਵਾਂ ਦੇ ਖੋਜਕਰਤਾ ਇਸ ਬਾਰੇ ਜਾਣੂ ਹਨ, ਜਿਸ ਕਾਰਨ ਅੰਸ਼ਕ ਤੌਰ 'ਤੇ ਇਹ ਤਕਨਾਲੋਜੀਆਂ ਅਜੇ ਵੀ ਹਰ ਕਿਸੇ ਲਈ ਪਹੁੰਚਯੋਗ ਨਹੀਂ ਹਨ।

ਟੈਕਸਟ-ਟੂ-ਇਮੇਜ ਮਾਡਲਾਂ ਦੇ ਵੀ ਮਹੱਤਵਪੂਰਨ ਆਰਥਿਕ ਪ੍ਰਭਾਵ ਹੁੰਦੇ ਹਨ। ਕੀ ਮਾਡਲਾਂ, ਫੋਟੋਗ੍ਰਾਫ਼ਰਾਂ ਅਤੇ ਕਲਾਕਾਰਾਂ ਵਰਗੇ ਪੇਸ਼ੇ ਪ੍ਰਭਾਵਿਤ ਹੋਣਗੇ ਜੇਕਰ DALL-E ਵਰਗੇ ਮਾਡਲ ਮੁੱਖ ਧਾਰਾ ਬਣ ਜਾਂਦੇ ਹਨ?

ਇਸ ਸਮੇਂ, ਇਹਨਾਂ ਮਾਡਲਾਂ ਦੀਆਂ ਅਜੇ ਵੀ ਸੀਮਾਵਾਂ ਹਨ. ਕਿਸੇ ਵੀ AI-ਉਤਪੰਨ ਚਿੱਤਰ ਨੂੰ ਜਾਂਚ ਲਈ ਫੜਨਾ ਇਸ ਦੀਆਂ ਕਮੀਆਂ ਨੂੰ ਪ੍ਰਗਟ ਕਰੇਗਾ। ਓਪਨਏਆਈ ਅਤੇ ਗੂਗਲ ਦੋਵਾਂ ਦੇ ਸਭ ਤੋਂ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਮਾਡਲਾਂ ਲਈ ਮੁਕਾਬਲਾ ਕਰਨ ਦੇ ਨਾਲ, ਇੱਕ ਸੱਚਮੁੱਚ ਸੰਪੂਰਨ ਆਉਟਪੁੱਟ ਤਿਆਰ ਹੋਣ ਤੋਂ ਪਹਿਲਾਂ ਇਹ ਸਮੇਂ ਦੀ ਗੱਲ ਹੋ ਸਕਦੀ ਹੈ: ਇੱਕ ਚਿੱਤਰ ਜੋ ਅਸਲ ਚੀਜ਼ ਤੋਂ ਵੱਖ ਨਹੀਂ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ।

ਤੁਸੀਂ ਕੀ ਸੋਚਦੇ ਹੋ ਜਦੋਂ ਤਕਨਾਲੋਜੀ ਇੰਨੀ ਦੂਰ ਜਾਂਦੀ ਹੈ?

DALL-E 2 ਬਨਾਮ ਇਮੇਜੇਨ – ਏਆਈ-ਜਨਰੇਟਿਡ ਚਿੱਤਰ ਅਤੇ ਕਲਾ

ਟੈਕਸਟ ਤੋਂ ਚਿੱਤਰ ਬਣਾਉਣਾ ਕੀ ਹੈ?

DALLE 2 ਕੀ ਹੈ?

ਇਹ ਕਿਵੇਂ ਚਲਦਾ ਹੈ?

ਇਸਤੇਮਾਲ

ਗੂਗਲ ਇਮੇਜੇਨ ਏਆਈ ਕੀ ਹੈ?

ਇਹ ਕਿਵੇਂ ਚਲਦਾ ਹੈ?

DALLE 2 ਬਨਾਮ ਇਮੇਜੇਨ ਦਾ ਪ੍ਰਦਰਸ਼ਨ

ਸਿੱਟਾ

ਬਾਰੇ ਡੀਓਨ ਮੇਨਰ

ਹੈਸ਼ਡੋਰਕ 'ਤੇ ਹੋਰ ਲੇਖ:

20 ਚੋਟੀ ਦੇ AI ਸਬੂਤ ਕਰੀਅਰ

ਡੇਟਾ ਡ੍ਰਫਟਸ ਕੀ ਹਨ ਅਤੇ ਉਹ ML ਮਾਡਲਾਂ ਨੂੰ ਕਿਵੇਂ ਪ੍ਰਭਾਵਤ ਕਰਦੇ ਹਨ?

ਤੁਹਾਡੇ ਏਆਈ ਵਿੱਚ ਭਰਮ ਨੂੰ ਕਿਵੇਂ ਘੱਟ ਕਰਨਾ ਹੈ

ਇਹ ਭਵਿੱਖ ਤਕਨੀਕੀ ਨਿਊਜ਼ਲੈਟਰ ਚੂਸਦਾ ਨਹੀਂ ਹੈ

DALL-E 2 ਬਨਾਮ ਇਮੇਜੇਨ – ਏਆਈ-ਜਨਰੇਟਿਡ ਚਿੱਤਰ ਅਤੇ ਕਲਾ

ਟੈਕਸਟ ਤੋਂ ਚਿੱਤਰ ਬਣਾਉਣਾ ਕੀ ਹੈ?

DALLE 2 ਕੀ ਹੈ?

ਇਹ ਕਿਵੇਂ ਚਲਦਾ ਹੈ?

ਇਸਤੇਮਾਲ

ਗੂਗਲ ਇਮੇਜੇਨ ਏਆਈ ਕੀ ਹੈ?

ਇਹ ਕਿਵੇਂ ਚਲਦਾ ਹੈ?

DALLE 2 ਬਨਾਮ ਇਮੇਜੇਨ ਦਾ ਪ੍ਰਦਰਸ਼ਨ

ਸਿੱਟਾ

ਬਾਰੇ ਡੀਓਨ ਮੇਨਰ

ਹੈਸ਼ਡੋਰਕ 'ਤੇ ਹੋਰ ਲੇਖ:

20 ਚੋਟੀ ਦੇ AI ਸਬੂਤ ਕਰੀਅਰ

ਡੇਟਾ ਡ੍ਰਫਟਸ ਕੀ ਹਨ ਅਤੇ ਉਹ ML ਮਾਡਲਾਂ ਨੂੰ ਕਿਵੇਂ ਪ੍ਰਭਾਵਤ ਕਰਦੇ ਹਨ?

ਤੁਹਾਡੇ ਏਆਈ ਵਿੱਚ ਭਰਮ ਨੂੰ ਕਿਵੇਂ ਘੱਟ ਕਰਨਾ ਹੈ

ਸੋਸ਼ਲ ਮੀਡੀਆ ਲਈ 10 ਵਧੀਆ ਏਆਈ ਟੂਲ

ਰੀਡਰ ਗੱਲਬਾਤ

ਕੋਈ ਜਵਾਬ ਛੱਡਣਾ ਜਵਾਬ 'ਰੱਦ

ਇਹ ਭਵਿੱਖ ਤਕਨੀਕੀ ਨਿਊਜ਼ਲੈਟਰ ਚੂਸਦਾ ਨਹੀਂ ਹੈ