ਵਿਸ਼ਾ - ਸੂਚੀ[ਛੁਪਾਓ][ਦਿਖਾਓ]
ਤੁਸੀਂ ਸੰਭਾਵਤ ਤੌਰ 'ਤੇ ਜਾਣਦੇ ਹੋ ਕਿ ਇੱਕ ਕੰਪਿਊਟਰ ਇੱਕ ਤਸਵੀਰ ਦਾ ਵਰਣਨ ਕਰ ਸਕਦਾ ਹੈ।
ਉਦਾਹਰਨ ਲਈ, ਤੁਹਾਡੇ ਬੱਚਿਆਂ ਨਾਲ ਖੇਡ ਰਹੇ ਕੁੱਤੇ ਦੀ ਤਸਵੀਰ ਦਾ ਅਨੁਵਾਦ 'ਬਗੀਚੇ ਵਿੱਚ ਕੁੱਤਾ ਅਤੇ ਬੱਚੇ' ਵਜੋਂ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਪਰ ਕੀ ਤੁਸੀਂ ਜਾਣਦੇ ਹੋ ਕਿ ਇਸਦੇ ਉਲਟ ਤਰੀਕਾ ਹੁਣ ਵੀ ਸੰਭਵ ਹੈ? ਤੁਸੀਂ ਕੁਝ ਸ਼ਬਦ ਟਾਈਪ ਕਰਦੇ ਹੋ, ਅਤੇ ਮਸ਼ੀਨ ਇੱਕ ਨਵੀਂ ਤਸਵੀਰ ਤਿਆਰ ਕਰਦੀ ਹੈ।
ਗੂਗਲ ਸਰਚ ਦੇ ਉਲਟ, ਜੋ ਮੌਜੂਦਾ ਫੋਟੋਆਂ ਦੀ ਖੋਜ ਕਰਦਾ ਹੈ, ਇਹ ਸਭ ਤਾਜ਼ਾ ਹੈ। ਹਾਲ ਹੀ ਦੇ ਸਾਲਾਂ ਵਿੱਚ, ਓਪਨਏਆਈ ਇੱਕ ਪ੍ਰਮੁੱਖ ਸੰਸਥਾਵਾਂ ਵਿੱਚੋਂ ਇੱਕ ਰਹੀ ਹੈ, ਜੋ ਸ਼ਾਨਦਾਰ ਨਤੀਜਿਆਂ ਦੀ ਰਿਪੋਰਟ ਕਰਦੀ ਹੈ।
ਉਹ ਆਪਣੇ ਐਲਗੋਰਿਦਮ ਨੂੰ ਵਿਸ਼ਾਲ ਟੈਕਸਟ ਅਤੇ ਤਸਵੀਰ ਡੇਟਾਬੇਸ 'ਤੇ ਸਿਖਲਾਈ ਦਿੰਦੇ ਹਨ। ਉਨ੍ਹਾਂ ਨੇ ਆਪਣੇ ਗਲਾਈਡ ਚਿੱਤਰ ਮਾਡਲ 'ਤੇ ਇੱਕ ਪੇਪਰ ਪ੍ਰਕਾਸ਼ਿਤ ਕੀਤਾ, ਜਿਸ ਨੂੰ ਲੱਖਾਂ ਫੋਟੋਆਂ 'ਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਸੀ। ਫੋਟੋਰੀਅਲਿਜ਼ਮ ਦੇ ਰੂਪ ਵਿੱਚ, ਇਹ ਉਹਨਾਂ ਦੇ ਪੁਰਾਣੇ 'DALL-E' ਮਾਡਲ ਨੂੰ ਪਛਾੜਦਾ ਹੈ।
ਇਸ ਪੋਸਟ ਵਿੱਚ, ਅਸੀਂ ਓਪਨਏਆਈ ਦੇ ਗਲਾਈਡ ਨੂੰ ਦੇਖਾਂਗੇ, ਟੈਕਸਟ-ਗਾਈਡਿਡ ਡਿਫਿਊਜ਼ਨ ਮਾਡਲਾਂ ਦੇ ਨਾਲ ਫੋਟੋਰੀਅਲਿਸਟਿਕ ਤਸਵੀਰਾਂ ਬਣਾਉਣ ਅਤੇ ਬਦਲਣ ਦੇ ਉਦੇਸ਼ ਨਾਲ ਕਈ ਦਿਲਚਸਪ ਪਹਿਲਕਦਮੀਆਂ ਵਿੱਚੋਂ ਇੱਕ। ਆਓ ਸ਼ੁਰੂ ਕਰੀਏ।
ਕੀ ਹੈ AI ਗਲਾਈਡ ਖੋਲ੍ਹੋ?
ਹਾਲਾਂਕਿ ਜ਼ਿਆਦਾਤਰ ਚਿੱਤਰਾਂ ਨੂੰ ਸ਼ਬਦਾਂ ਵਿੱਚ ਵਰਣਨ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ, ਟੈਕਸਟ ਇਨਪੁਟਸ ਤੋਂ ਚਿੱਤਰ ਬਣਾਉਣ ਲਈ ਵਿਸ਼ੇਸ਼ ਗਿਆਨ ਅਤੇ ਕਾਫ਼ੀ ਸਮੇਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।
ਇੱਕ AI ਏਜੰਟ ਨੂੰ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਦੇ ਪ੍ਰੋਂਪਟਾਂ ਤੋਂ ਫੋਟੋਰਿਅਲਿਸਟਿਕ ਤਸਵੀਰਾਂ ਬਣਾਉਣ ਦੀ ਇਜਾਜ਼ਤ ਦੇਣ ਨਾਲ ਨਾ ਸਿਰਫ਼ ਲੋਕਾਂ ਨੂੰ ਬੇਮਿਸਾਲ ਆਸਾਨੀ ਨਾਲ ਅਮੀਰ ਅਤੇ ਵਿਭਿੰਨ ਵਿਜ਼ੂਅਲ ਸਮੱਗਰੀ ਬਣਾਉਣ ਦੀ ਇਜਾਜ਼ਤ ਮਿਲਦੀ ਹੈ, ਬਲਕਿ ਬਣਾਏ ਗਏ ਚਿੱਤਰਾਂ ਦੇ ਸਰਲ ਦੁਹਰਾਓ ਸੁਧਾਰ ਅਤੇ ਵਧੀਆ ਨਿਯੰਤਰਣ ਦੀ ਵੀ ਆਗਿਆ ਮਿਲਦੀ ਹੈ।
ਗਲਾਈਡ ਦੀ ਵਰਤੋਂ ਨਵੀਆਂ ਵਸਤੂਆਂ ਨੂੰ ਸੰਮਿਲਿਤ ਕਰਨ, ਸ਼ੈਡੋ ਅਤੇ ਪ੍ਰਤੀਬਿੰਬ ਬਣਾਉਣ, ਪ੍ਰਦਰਸ਼ਨ ਕਰਨ ਲਈ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਟੈਕਸਟ ਪ੍ਰੋਂਪਟ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਮੌਜੂਦਾ ਫੋਟੋਆਂ ਨੂੰ ਸੰਪਾਦਿਤ ਕਰਨ ਲਈ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ। ਚਿੱਤਰ ਚਿੱਤਰਕਾਰੀ, ਇਤਆਦਿ.
ਇਹ ਬੁਨਿਆਦੀ ਲਾਈਨ ਡਰਾਇੰਗਾਂ ਨੂੰ ਫੋਟੋਰੀਅਲਿਸਟਿਕ ਤਸਵੀਰਾਂ ਵਿੱਚ ਵੀ ਬਦਲ ਸਕਦਾ ਹੈ, ਅਤੇ ਇਸ ਵਿੱਚ ਗੁੰਝਲਦਾਰ ਸਥਿਤੀਆਂ ਲਈ ਬੇਮਿਸਾਲ ਜ਼ੀਰੋ-ਨਮੂਨਾ ਨਿਰਮਾਣ ਅਤੇ ਮੁਰੰਮਤ ਸਮਰੱਥਾਵਾਂ ਹਨ।
ਹਾਲੀਆ ਖੋਜ ਨੇ ਦਿਖਾਇਆ ਹੈ ਕਿ ਸੰਭਾਵਨਾ-ਅਧਾਰਿਤ ਫੈਲਾਅ ਮਾਡਲ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੇ ਸਿੰਥੈਟਿਕ ਤਸਵੀਰਾਂ ਵੀ ਤਿਆਰ ਕਰ ਸਕਦੇ ਹਨ, ਖਾਸ ਤੌਰ 'ਤੇ ਜਦੋਂ ਇੱਕ ਮਾਰਗਦਰਸ਼ਕ ਪਹੁੰਚ ਨਾਲ ਜੋੜਿਆ ਜਾਂਦਾ ਹੈ ਜੋ ਵਿਭਿੰਨਤਾ ਅਤੇ ਵਫ਼ਾਦਾਰੀ ਨੂੰ ਸੰਤੁਲਿਤ ਕਰਦਾ ਹੈ।
OpenAI ਪ੍ਰਕਾਸ਼ਿਤ ਏ ਨਿਰਦੇਸ਼ਿਤ ਪ੍ਰਸਾਰ ਮਾਡਲ ਮਈ ਵਿੱਚ, ਜੋ ਪ੍ਰਸਾਰ ਮਾਡਲਾਂ ਨੂੰ ਇੱਕ ਵਰਗੀਫਾਇਰ ਦੇ ਲੇਬਲਾਂ 'ਤੇ ਸ਼ਰਤੀਆ ਹੋਣ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ। ਗਲਾਈਡ ਟੈਕਸਟ-ਕੰਡੀਸ਼ਨਲ ਚਿੱਤਰ ਬਣਾਉਣ ਦੀ ਸਮੱਸਿਆ ਲਈ ਗਾਈਡਡ ਫੈਲਾਅ ਲਿਆ ਕੇ ਇਸ ਸਫਲਤਾ ਵਿੱਚ ਸੁਧਾਰ ਕਰਦਾ ਹੈ।
ਇੱਕ 3.5 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ ਗਲਾਈਡ ਡਿਫਿਊਜ਼ਨ ਮਾਡਲ ਦੀ ਸਿਖਲਾਈ ਦੇ ਬਾਅਦ ਇੱਕ ਟੈਕਸਟ ਏਨਕੋਡਰ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਦੇ ਵਰਣਨ ਦੀ ਸਥਿਤੀ ਲਈ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਦੋ ਵਿਕਲਪਿਕ ਮਾਰਗਦਰਸ਼ਕ ਰਣਨੀਤੀਆਂ ਦੀ ਜਾਂਚ ਕੀਤੀ: CLIP ਮਾਰਗਦਰਸ਼ਨ ਅਤੇ ਵਰਗੀਕਰਣ-ਮੁਕਤ ਮਾਰਗਦਰਸ਼ਨ।
CLIP ਟੈਕਸਟ ਅਤੇ ਤਸਵੀਰਾਂ ਦੀ ਸੰਯੁਕਤ ਪ੍ਰਸਤੁਤੀਆਂ ਨੂੰ ਸਿੱਖਣ ਲਈ ਇੱਕ ਮਾਪਯੋਗ ਤਕਨੀਕ ਹੈ ਜੋ ਇੱਕ ਸਕੋਰ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ ਕਿ ਇੱਕ ਚਿੱਤਰ ਇੱਕ ਸੁਰਖੀ ਦੇ ਕਿੰਨੇ ਨੇੜੇ ਹੈ।
ਟੀਮ ਨੇ ਕਲਾਸੀਫਾਇਰ ਨੂੰ ਇੱਕ CLIP ਮਾਡਲ ਨਾਲ ਬਦਲ ਕੇ ਆਪਣੇ ਫੈਲਾਅ ਮਾਡਲਾਂ ਵਿੱਚ ਇਸ ਰਣਨੀਤੀ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਜੋ ਮਾਡਲਾਂ ਨੂੰ "ਗਾਈਡ" ਕਰਦਾ ਹੈ। ਇਸ ਦੌਰਾਨ, ਵਰਗੀਫਾਇਰ-ਮੁਕਤ ਮਾਰਗਦਰਸ਼ਨ ਪ੍ਰਸਾਰ ਮਾਡਲਾਂ ਨੂੰ ਨਿਰਦੇਸ਼ਤ ਕਰਨ ਲਈ ਇੱਕ ਰਣਨੀਤੀ ਹੈ ਜਿਸ ਵਿੱਚ ਇੱਕ ਵੱਖਰੇ ਵਰਗੀਕਰਣ ਦੀ ਸਿਖਲਾਈ ਸ਼ਾਮਲ ਨਹੀਂ ਹੁੰਦੀ ਹੈ।
ਗਲਾਈਡ ਆਰਕੀਟੈਕਚਰ
ਗਲਾਈਡ ਆਰਕੀਟੈਕਚਰ ਵਿੱਚ ਤਿੰਨ ਭਾਗ ਹੁੰਦੇ ਹਨ: ਇੱਕ ਐਬਲੇਟਿਡ ਡਿਫਿਊਜ਼ਨ ਮਾਡਲ (ADM) ਇੱਕ 64 × 64 ਚਿੱਤਰ ਬਣਾਉਣ ਲਈ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ, ਇੱਕ ਟੈਕਸਟ ਮਾਡਲ (ਟ੍ਰਾਂਸਫਾਰਮਰ) ਜੋ ਇੱਕ ਟੈਕਸਟ ਪ੍ਰੋਂਪਟ ਦੁਆਰਾ ਚਿੱਤਰ ਬਣਾਉਣ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਕਰਦਾ ਹੈ, ਅਤੇ ਇੱਕ ਅਪਸੈਪਲਿੰਗ ਮਾਡਲ ਜੋ ਸਾਡੇ ਛੋਟੇ 64 × 64 ਨੂੰ ਬਦਲਦਾ ਹੈ। ਹੋਰ ਵਿਆਖਿਆਯੋਗ 256 x 256 ਪਿਕਸਲ ਤੱਕ ਚਿੱਤਰ।
ਪਹਿਲੇ ਦੋ ਭਾਗ ਤਸਵੀਰ ਬਣਾਉਣ ਦੀ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਨਿਯੰਤਰਿਤ ਕਰਨ ਲਈ ਇਕੱਠੇ ਕੰਮ ਕਰਦੇ ਹਨ ਤਾਂ ਜੋ ਇਹ ਟੈਕਸਟ ਪ੍ਰੋਂਪਟ ਨੂੰ ਉਚਿਤ ਰੂਪ ਵਿੱਚ ਪ੍ਰਤੀਬਿੰਬਤ ਕਰੇ, ਜਦੋਂ ਕਿ ਬਾਅਦ ਵਾਲੇ ਚਿੱਤਰਾਂ ਨੂੰ ਸਮਝਣ ਵਿੱਚ ਅਸਾਨ ਬਣਾਉਣ ਲਈ ਲੋੜੀਂਦੇ ਹਨ। ਗਲਾਈਡ ਪ੍ਰੋਜੈਕਟ ਏ. ਤੋਂ ਪ੍ਰੇਰਿਤ ਸੀ 2021 ਵਿੱਚ ਪ੍ਰਕਾਸ਼ਿਤ ਰਿਪੋਰਟ ਜਿਸ ਨੇ ਦਿਖਾਇਆ ਕਿ ADM ਤਕਨੀਕਾਂ ਨੇ ਤਸਵੀਰ ਦੇ ਨਮੂਨੇ ਦੀ ਗੁਣਵੱਤਾ ਦੇ ਮਾਮਲੇ ਵਿੱਚ ਵਰਤਮਾਨ ਵਿੱਚ ਪ੍ਰਸਿੱਧ, ਅਤਿ-ਆਧੁਨਿਕ ਜਨਰੇਟਿਵ ਮਾਡਲਾਂ ਨੂੰ ਪਛਾੜ ਦਿੱਤਾ ਹੈ।
ਏਡੀਐਮ ਲਈ, ਗਲਾਈਡ ਲੇਖਕਾਂ ਨੇ ਧਾਰੀਵਾਲ ਅਤੇ ਨਿਕੋਲ ਦੇ ਸਮਾਨ ਇਮੇਜਨੈੱਟ 64 x 64 ਮਾਡਲ ਨੂੰ ਨਿਯੁਕਤ ਕੀਤਾ, ਪਰ 512 ਦੀ ਬਜਾਏ 64 ਚੈਨਲਾਂ ਦੇ ਨਾਲ। ਇਸ ਦੇ ਨਤੀਜੇ ਵਜੋਂ ਇਮੇਜਨੈੱਟ ਮਾਡਲ ਵਿੱਚ ਲਗਭਗ 2.3 ਬਿਲੀਅਨ ਮਾਪਦੰਡ ਹਨ।
ਗਲਾਈਡ ਟੀਮ, ਧਾਰੀਵਾਲ ਅਤੇ ਨਿਕੋਲ ਦੇ ਉਲਟ, ਤਸਵੀਰ ਬਣਾਉਣ ਦੀ ਪ੍ਰਕਿਰਿਆ 'ਤੇ ਵਧੇਰੇ ਸਿੱਧਾ ਨਿਯੰਤਰਣ ਰੱਖਣਾ ਚਾਹੁੰਦੀ ਸੀ, ਇਸ ਤਰ੍ਹਾਂ ਉਨ੍ਹਾਂ ਨੇ ਵਿਜ਼ੂਅਲ ਮਾਡਲ ਨੂੰ ਧਿਆਨ ਦੇਣ ਯੋਗ ਟ੍ਰਾਂਸਫਾਰਮਰ ਨਾਲ ਜੋੜਿਆ। ਗਲਾਈਡ ਤੁਹਾਨੂੰ ਟੈਕਸਟ ਇਨਪੁਟ ਪ੍ਰੋਂਪਟ ਦੀ ਪ੍ਰਕਿਰਿਆ ਕਰਕੇ ਤਸਵੀਰ ਬਣਾਉਣ ਵਾਲੀ ਪ੍ਰਕਿਰਿਆ ਆਉਟਪੁੱਟ 'ਤੇ ਕੁਝ ਨਿਯੰਤਰਣ ਦਿੰਦਾ ਹੈ।
ਇਹ ਟਰਾਂਸਫਾਰਮਰ ਮਾਡਲ ਨੂੰ ਫੋਟੋਆਂ ਅਤੇ ਸੁਰਖੀਆਂ ਦੇ ਇੱਕ ਢੁਕਵੇਂ ਵੱਡੇ ਡੇਟਾਸੈੱਟ (DALL-E ਪ੍ਰੋਜੈਕਟ ਵਿੱਚ ਕੰਮ ਕਰਨ ਵਾਲੇ ਸਮਾਨ) 'ਤੇ ਸਿਖਲਾਈ ਦੇ ਕੇ ਪੂਰਾ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।
ਟੈਕਸਟ ਨੂੰ ਸ਼ੁਰੂ ਵਿੱਚ ਇਸ ਨੂੰ ਕੰਡੀਸ਼ਨ ਕਰਨ ਲਈ K ਟੋਕਨਾਂ ਦੀ ਇੱਕ ਲੜੀ ਵਿੱਚ ਏਨਕੋਡ ਕੀਤਾ ਗਿਆ ਹੈ। ਉਸ ਤੋਂ ਬਾਅਦ, ਟੋਕਨਾਂ ਨੂੰ ਟ੍ਰਾਂਸਫਾਰਮਰ ਮਾਡਲ ਵਿੱਚ ਲੋਡ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਟਰਾਂਸਫਾਰਮਰ ਦਾ ਆਉਟਪੁੱਟ ਫਿਰ ਦੋ ਤਰੀਕਿਆਂ ਨਾਲ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ। ADM ਮਾਡਲ ਲਈ, ਕਲਾਸ ਏਮਬੈਡਿੰਗ ਦੀ ਬਜਾਏ ਫਾਈਨਲ ਟੋਕਨ ਏਮਬੈਡਿੰਗ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਜਾਂਦੀ ਹੈ।
ਦੂਜਾ, ਟੋਕਨ ਏਮਬੈਡਿੰਗਜ਼ ਦੀ ਅੰਤਮ ਪਰਤ - ਵਿਸ਼ੇਸ਼ਤਾ ਵੈਕਟਰਾਂ ਦੀ ਇੱਕ ਲੜੀ - ਨੂੰ ADM ਮਾਡਲ ਵਿੱਚ ਹਰੇਕ ਧਿਆਨ ਪਰਤ ਲਈ ਮਾਪਾਂ ਲਈ ਸੁਤੰਤਰ ਤੌਰ 'ਤੇ ਪੇਸ਼ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਅਤੇ ਹਰੇਕ ਧਿਆਨ ਦੇ ਸੰਦਰਭ ਨਾਲ ਜੋੜਿਆ ਜਾਂਦਾ ਹੈ।
ਅਸਲੀਅਤ ਵਿੱਚ, ਇਹ ਏਡੀਐਮ ਮਾਡਲ ਨੂੰ ਇਨਪੁਟਸ ਸ਼ਬਦਾਂ ਅਤੇ ਉਹਨਾਂ ਨਾਲ ਸਬੰਧਤ ਚਿੱਤਰਾਂ ਦੀ ਇਸਦੀ ਸਿੱਖੀ ਸਮਝ ਦੇ ਅਧਾਰ ਤੇ, ਇੱਕ ਵਿਲੱਖਣ ਅਤੇ ਫੋਟੋਰੀਅਲਿਸਟਿਕ ਫੈਸ਼ਨ ਵਿੱਚ ਸਮਾਨ ਟੈਕਸਟ ਟੋਕਨਾਂ ਦੇ ਨਵੇਂ ਸੰਜੋਗਾਂ ਤੋਂ ਇੱਕ ਤਸਵੀਰ ਤਿਆਰ ਕਰਨ ਦੇ ਯੋਗ ਬਣਾਉਂਦਾ ਹੈ। ਇਸ ਟੈਕਸਟ-ਏਨਕੋਡਿੰਗ ਟ੍ਰਾਂਸਫਾਰਮਰ ਵਿੱਚ 1.2 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ ਹਨ ਅਤੇ 24 ਦੀ ਚੌੜਾਈ ਦੇ ਨਾਲ 2048 ਬਚੇ ਹੋਏ ਬਲਾਕਾਂ ਨੂੰ ਨਿਯੁਕਤ ਕੀਤਾ ਗਿਆ ਹੈ।
ਅੰਤ ਵਿੱਚ, ਅੱਪਸੈਂਪਲਰ ਡਿਫਿਊਜ਼ਨ ਮਾਡਲ ਵਿੱਚ ਲਗਭਗ 1.5 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ ਸ਼ਾਮਲ ਹੁੰਦੇ ਹਨ ਅਤੇ ਇਹ ਮੂਲ ਮਾਡਲ ਤੋਂ ਵੱਖਰਾ ਹੁੰਦਾ ਹੈ ਕਿਉਂਕਿ ਇਸਦਾ ਟੈਕਸਟ ਏਨਕੋਡਰ ਬੇਸ ਮਾਡਲ ਦੇ ਮੁਕਾਬਲੇ 1024 ਅਤੇ 384 ਬੇਸ ਚੈਨਲਾਂ ਦੀ ਚੌੜਾਈ ਦੇ ਨਾਲ ਛੋਟਾ ਹੁੰਦਾ ਹੈ। ਇਹ ਮਾਡਲ, ਜਿਵੇਂ ਕਿ ਨਾਮ ਦਰਸਾਉਂਦਾ ਹੈ, ਮਸ਼ੀਨਾਂ ਅਤੇ ਮਨੁੱਖਾਂ ਦੋਵਾਂ ਲਈ ਵਿਆਖਿਆਯੋਗਤਾ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਨਮੂਨੇ ਦੇ ਅੱਪਗਰੇਡ ਵਿੱਚ ਸਹਾਇਤਾ ਕਰਦਾ ਹੈ।
ਫੈਲਾਅ ਮਾਡਲ
ਗਲਾਈਡ ADM ਦੇ ਆਪਣੇ ਸੰਸਕਰਣ (“ਗਾਈਡਡ” ਲਈ ADM-G) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਚਿੱਤਰ ਬਣਾਉਂਦਾ ਹੈ। ADM-G ਮਾਡਲ ਪ੍ਰਸਾਰ U-net ਮਾਡਲ ਦੀ ਇੱਕ ਸੋਧ ਹੈ। ਇੱਕ ਫੈਲਾਅ ਯੂ-ਨੈੱਟ ਮਾਡਲ ਵਧੇਰੇ ਆਮ ਚਿੱਤਰ ਸੰਸਲੇਸ਼ਣ ਤਕਨੀਕਾਂ ਜਿਵੇਂ ਕਿ VAE, GAN, ਅਤੇ ਟ੍ਰਾਂਸਫਾਰਮਰਾਂ ਤੋਂ ਨਾਟਕੀ ਢੰਗ ਨਾਲ ਵੱਖਰਾ ਹੁੰਦਾ ਹੈ।
ਉਹ ਹੌਲੀ-ਹੌਲੀ ਡੇਟਾ ਵਿੱਚ ਬੇਤਰਤੀਬ ਸ਼ੋਰ ਨੂੰ ਇੰਜੈਕਟ ਕਰਨ ਲਈ ਫੈਲਣ ਵਾਲੇ ਕਦਮਾਂ ਦੀ ਇੱਕ ਮਾਰਕੋਵ ਚੇਨ ਬਣਾਉਂਦੇ ਹਨ, ਅਤੇ ਫਿਰ ਫੈਲਣ ਦੀ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਉਲਟਾਉਣਾ ਸਿੱਖਦੇ ਹਨ ਅਤੇ ਸਿਰਫ ਰੌਲੇ ਤੋਂ ਲੋੜੀਂਦੇ ਡੇਟਾ ਦੇ ਨਮੂਨੇ ਦੁਬਾਰਾ ਬਣਾਉਣਾ ਸਿੱਖਦੇ ਹਨ। ਇਹ ਦੋ ਪੜਾਵਾਂ ਵਿੱਚ ਕੰਮ ਕਰਦਾ ਹੈ: ਅੱਗੇ ਅਤੇ ਉਲਟ ਪ੍ਰਸਾਰ।
ਨਮੂਨੇ ਦੀ ਸਹੀ ਵੰਡ ਤੋਂ ਇੱਕ ਡੇਟਾ ਬਿੰਦੂ ਦਿੱਤੇ ਗਏ ਫਾਰਵਰਡ ਡਿਫਿਊਜ਼ਨ ਵਿਧੀ, ਕਦਮਾਂ ਦੀ ਇੱਕ ਪੂਰਵ-ਨਿਰਧਾਰਤ ਲੜੀ ਵਿੱਚ ਨਮੂਨੇ ਵਿੱਚ ਥੋੜ੍ਹੇ ਜਿਹੇ ਰੌਲੇ ਨੂੰ ਜੋੜਦੀ ਹੈ। ਜਿਵੇਂ ਕਿ ਕਦਮ ਆਕਾਰ ਵਿੱਚ ਵਧਦੇ ਹਨ ਅਤੇ ਅਨੰਤਤਾ ਤੱਕ ਪਹੁੰਚਦੇ ਹਨ, ਨਮੂਨਾ ਸਾਰੀਆਂ ਪਛਾਣੀਆਂ ਜਾਣ ਵਾਲੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨੂੰ ਗੁਆ ਦਿੰਦਾ ਹੈ ਅਤੇ ਕ੍ਰਮ ਇੱਕ ਆਈਸੋਟ੍ਰੋਪਿਕ ਗੌਸੀਅਨ ਕਰਵ ਵਰਗਾ ਹੋਣਾ ਸ਼ੁਰੂ ਹੋ ਜਾਂਦਾ ਹੈ।
ਪਿਛਲਾ ਫੈਲਾਅ ਦੌਰਾਨ ਪੜਾਅ, ਫੈਲਾਅ ਮਾਡਲ ਚਿੱਤਰਾਂ 'ਤੇ ਸ਼ਾਮਲ ਕੀਤੇ ਗਏ ਰੌਲੇ ਦੇ ਪ੍ਰਭਾਵ ਨੂੰ ਉਲਟਾਉਣਾ ਸਿੱਖਦਾ ਹੈ ਅਤੇ ਮੂਲ ਇਨਪੁਟ ਨਮੂਨੇ ਦੀ ਵੰਡ ਦੇ ਸਮਾਨ ਬਣਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਕੇ ਉਤਪੰਨ ਚਿੱਤਰ ਨੂੰ ਇਸਦੇ ਅਸਲ ਆਕਾਰ ਵੱਲ ਲੈ ਜਾਂਦਾ ਹੈ।
ਇੱਕ ਪੂਰਾ ਹੋਇਆ ਮਾਡਲ ਇੱਕ ਅਸਲੀ ਗੌਸੀ ਸ਼ੋਰ ਇੰਪੁੱਟ ਅਤੇ ਇੱਕ ਪ੍ਰੋਂਪਟ ਨਾਲ ਅਜਿਹਾ ਕਰ ਸਕਦਾ ਹੈ। ADM-G ਵਿਧੀ ਪਹਿਲਾਂ ਤੋਂ ਵੱਖਰੀ ਹੁੰਦੀ ਹੈ ਜਿਸ ਵਿੱਚ ਇੱਕ ਮਾਡਲ, ਜਾਂ ਤਾਂ CLIP ਜਾਂ ਇੱਕ ਕਸਟਮਾਈਜ਼ਡ ਟ੍ਰਾਂਸਫਾਰਮਰ, ਟੈਕਸਟ ਪ੍ਰੋਂਪਟ ਟੋਕਨਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਬੈਕਵਰਡ ਡਿਫਿਊਜ਼ਨ ਪੜਾਅ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਕਰਦਾ ਹੈ ਜੋ ਇਨਪੁਟ ਕੀਤੇ ਜਾਂਦੇ ਹਨ।
ਗਲਾਈਡ ਸਮਰੱਥਾਵਾਂ
1. ਚਿੱਤਰ ਦੀ ਉਤਪਤੀ
ਗਲਾਈਡ ਦੀ ਸਭ ਤੋਂ ਪ੍ਰਸਿੱਧ ਅਤੇ ਵਿਆਪਕ ਵਰਤੋਂ ਸੰਭਵ ਤੌਰ 'ਤੇ ਚਿੱਤਰ ਸੰਸਲੇਸ਼ਣ ਹੋਵੇਗੀ। ਹਾਲਾਂਕਿ ਤਸਵੀਰਾਂ ਮਾਮੂਲੀ ਹਨ ਅਤੇ ਗਲਾਈਡ ਨੂੰ ਜਾਨਵਰਾਂ/ਮਨੁੱਖੀ ਰੂਪਾਂ ਨਾਲ ਮੁਸ਼ਕਲ ਹੈ, ਇੱਕ-ਸ਼ਾਟ ਚਿੱਤਰ ਉਤਪਾਦਨ ਦੀ ਸੰਭਾਵਨਾ ਲਗਭਗ ਬੇਅੰਤ ਹੈ।
ਇਹ ਜਾਨਵਰਾਂ, ਮਸ਼ਹੂਰ ਹਸਤੀਆਂ, ਲੈਂਡਸਕੇਪਾਂ, ਇਮਾਰਤਾਂ ਅਤੇ ਹੋਰ ਬਹੁਤ ਕੁਝ ਦੀਆਂ ਫੋਟੋਆਂ ਬਣਾ ਸਕਦਾ ਹੈ, ਅਤੇ ਇਹ ਇਸਨੂੰ ਕਈ ਤਰ੍ਹਾਂ ਦੀਆਂ ਕਲਾ ਸ਼ੈਲੀਆਂ ਦੇ ਨਾਲ-ਨਾਲ ਫੋਟੋ-ਯਥਾਰਥਵਾਦੀ ਰੂਪ ਵਿੱਚ ਵੀ ਕਰ ਸਕਦਾ ਹੈ। ਖੋਜਕਰਤਾਵਾਂ ਦੇ ਲੇਖਕਾਂ ਦਾ ਦਾਅਵਾ ਹੈ ਕਿ ਗਲਾਈਡ ਇੱਕ ਵਿਜ਼ੂਅਲ ਫਾਰਮੈਟ ਵਿੱਚ ਟੈਕਸਟੁਅਲ ਇਨਪੁਟਸ ਦੀ ਇੱਕ ਵਿਆਪਕ ਕਿਸਮ ਦੀ ਵਿਆਖਿਆ ਅਤੇ ਅਨੁਕੂਲਿਤ ਕਰਨ ਦੇ ਸਮਰੱਥ ਹੈ, ਜਿਵੇਂ ਕਿ ਹੇਠਾਂ ਨਮੂਨਿਆਂ ਵਿੱਚ ਦੇਖਿਆ ਗਿਆ ਹੈ।
2. ਗਲਾਈਡ ਇਨਪੇਂਟਿੰਗ
ਗਲਾਈਡ ਦੀ ਆਟੋਮੈਟਿਕ ਫੋਟੋ ਇਨਪੇਂਟਿੰਗ ਦਲੀਲ ਨਾਲ ਸਭ ਤੋਂ ਦਿਲਚਸਪ ਵਰਤੋਂ ਹੈ। ਗਲਾਈਡ ਇੱਕ ਮੌਜੂਦਾ ਤਸਵੀਰ ਨੂੰ ਇਨਪੁਟ ਦੇ ਤੌਰ 'ਤੇ ਲੈ ਸਕਦਾ ਹੈ, ਉਹਨਾਂ ਸਥਾਨਾਂ ਲਈ ਟੈਕਸਟ ਪ੍ਰੋਂਪਟ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖ ਕੇ ਪ੍ਰਕਿਰਿਆ ਕਰ ਸਕਦਾ ਹੈ ਜਿਨ੍ਹਾਂ ਨੂੰ ਬਦਲਣ ਦੀ ਜ਼ਰੂਰਤ ਹੈ, ਅਤੇ ਫਿਰ ਉਹਨਾਂ ਹਿੱਸਿਆਂ ਵਿੱਚ ਆਸਾਨੀ ਨਾਲ ਕਿਰਿਆਸ਼ੀਲ ਸੋਧਾਂ ਕਰ ਸਕਦਾ ਹੈ।
ਇਸ ਨੂੰ ਹੋਰ ਵੀ ਵਧੀਆ ਨਤੀਜੇ ਦੇਣ ਲਈ ਇੱਕ ਸੰਪਾਦਨ ਮਾਡਲ, ਜਿਵੇਂ ਕਿ SDEdit, ਦੇ ਨਾਲ ਜੋੜ ਕੇ ਵਰਤਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਭਵਿੱਖ ਵਿੱਚ, ਐਪਸ ਜੋ ਇਹਨਾਂ ਵਰਗੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦਾ ਫਾਇਦਾ ਉਠਾਉਂਦੀਆਂ ਹਨ, ਕੋਡ-ਮੁਕਤ ਤਸਵੀਰ-ਬਦਲਣ ਵਾਲੀਆਂ ਪਹੁੰਚਾਂ ਨੂੰ ਵਿਕਸਤ ਕਰਨ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਹੋ ਸਕਦੀਆਂ ਹਨ।
ਸਿੱਟਾ
ਹੁਣ ਜਦੋਂ ਅਸੀਂ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚੋਂ ਲੰਘ ਚੁੱਕੇ ਹਾਂ, ਤੁਹਾਨੂੰ ਗਲਾਈਡ ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ, ਇਸ ਦੇ ਨਾਲ-ਨਾਲ ਤਸਵੀਰ ਬਣਾਉਣ ਅਤੇ ਚਿੱਤਰ ਵਿੱਚ ਸੋਧ ਕਰਨ ਵਿੱਚ ਇਸ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦੀ ਚੌੜਾਈ ਦੇ ਬੁਨਿਆਦੀ ਤੱਤਾਂ ਨੂੰ ਸਮਝਣਾ ਚਾਹੀਦਾ ਹੈ।
ਕੋਈ ਜਵਾਬ ਛੱਡਣਾ