ਕੀ ਤੁਸੀਂ ਕਦੇ ਇਹ ਇੱਛਾ ਕੀਤੀ ਹੈ ਕਿ ਤੁਸੀਂ ਇੱਕ AI ਨਾਲ ਗੱਲਬਾਤ ਕਰ ਸਕਦੇ ਹੋ ਜੋ ਬੋਲੇ ਗਏ ਅਤੇ ਵਿਜ਼ੂਅਲ ਡੇਟਾ ਦੋਵਾਂ ਨੂੰ ਸਮਝਦਾ ਹੈ? ਮਲਟੀਮੋਡਲ-ਜੀਪੀਟੀ ਪੈਰਾਡਾਈਮ ਭਾਸ਼ਾ ਦੀ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਵਿਜ਼ੂਅਲ ਸਮਝ ਨਾਲ ਜੋੜਦਾ ਹੈ।
ਇਹ ਸਹੀ ਅਤੇ ਵਿਭਿੰਨ ਮਨੁੱਖੀ-ਕੰਪਿਊਟਰ ਆਪਸੀ ਤਾਲਮੇਲ ਦੀ ਸੰਭਾਵਨਾ ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਦਾ ਹੈ। ਮਲਟੀਮੋਡਲ-ਜੀ.ਪੀ.ਟੀ ਵਰਣਨਯੋਗ ਸੁਰਖੀਆਂ ਪ੍ਰਦਾਨ ਕਰ ਸਕਦਾ ਹੈ, ਵਿਅਕਤੀਗਤ ਆਈਟਮਾਂ ਦੀ ਗਿਣਤੀ ਕਰ ਸਕਦਾ ਹੈ, ਅਤੇ ਆਮ ਉਪਭੋਗਤਾ ਸਵਾਲਾਂ ਦਾ ਜਵਾਬ ਦੇ ਸਕਦਾ ਹੈ।
ਪਰ, ਇਹ ਇਹ ਕਿਵੇਂ ਕਰਦਾ ਹੈ? ਅਤੇ, ਤੁਸੀਂ ਮਲਟੀਮੋਡਲ-ਜੀਪੀਟੀ ਨਾਲ ਕੀ ਕਰ ਸਕਦੇ ਹੋ?
ਆਉ ਕਹਾਣੀ ਨੂੰ ਸ਼ੁਰੂ ਵਿੱਚ ਲੈ ਕੇ ਚੱਲੀਏ ਅਤੇ ਸਾਡੇ ਅੱਗੇ ਦੀਆਂ ਸੰਭਾਵਨਾਵਾਂ ਨੂੰ ਸਮਝੀਏ।
GPT-4 ਵਰਗੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਦੇ ਉਭਰਨ ਨਾਲ, ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰੋਸੈਸਿੰਗ ਤਕਨਾਲੋਜੀਆਂ ਇੱਕ ਕ੍ਰਾਂਤੀ ਦੇ ਗਵਾਹ ਹਨ। ChatGPT ਵਰਗੀਆਂ ਨਵੀਨਤਾਵਾਂ ਪਹਿਲਾਂ ਹੀ ਸਾਡੇ ਜੀਵਨ ਵਿੱਚ ਸ਼ਾਮਲ ਕੀਤੀਆਂ ਗਈਆਂ ਹਨ।
ਅਤੇ, ਉਹ ਆਉਂਦੇ ਰਹਿੰਦੇ ਜਾਪਦੇ ਹਨ!
GPT-4 ਅਤੇ ਇਸ ਦੀਆਂ ਸੀਮਾਵਾਂ
ਜੀਪੀਟੀ-4 ਨੇ ਲੋਕਾਂ ਨਾਲ ਮਲਟੀਮੋਡਲ ਗੱਲਬਾਤ ਵਿੱਚ ਅਦਭੁਤ ਮੁਹਾਰਤ ਦਿਖਾਈ ਹੈ। ਅਧਿਐਨਾਂ ਨੇ ਇਸ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਡੁਪਲੀਕੇਟ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ ਹੈ, ਪਰ ਸਟੀਕ ਵਿਜ਼ੂਅਲ ਜਾਣਕਾਰੀ ਵਾਲੇ ਮਾਡਲਾਂ ਸਮੇਤ ਚਿੱਤਰ ਟੋਕਨਾਂ ਦੀ ਸੰਭਾਵੀ ਤੌਰ 'ਤੇ ਉੱਚ ਸੰਖਿਆ ਦੇ ਕਾਰਨ, ਗਣਨਾਤਮਕ ਤੌਰ 'ਤੇ ਮਹਿੰਗਾ ਹੋ ਸਕਦਾ ਹੈ।
ਮੌਜੂਦਾ ਮਾਡਲਾਂ ਵਿੱਚ ਉਹਨਾਂ ਦੇ ਅਧਿਐਨ ਵਿੱਚ ਭਾਸ਼ਾ ਨਿਰਦੇਸ਼ ਟਿਊਨਿੰਗ ਵੀ ਸ਼ਾਮਲ ਨਹੀਂ ਹੈ, ਜੋ ਜ਼ੀਰੋ-ਸ਼ਾਟ ਮਲਟੀਟਰਨ ਚਿੱਤਰ-ਟੈਕਸਟ ਗੱਲਬਾਤ ਵਿੱਚ ਹਿੱਸਾ ਲੈਣ ਦੀ ਉਹਨਾਂ ਦੀ ਯੋਗਤਾ ਨੂੰ ਸੀਮਤ ਕਰਦਾ ਹੈ।
ਫਲੇਮਿੰਗੋ ਫਰੇਮਵਰਕ ਉੱਤੇ ਨਿਰਮਾਣ
ਮਲਟੀਮੋਡਲ-ਜੀਪੀਟੀ ਨਾਮਕ ਇੱਕ ਨਵਾਂ ਮਾਡਲ ਭਾਸ਼ਾਈ ਅਤੇ ਵਿਜ਼ੂਅਲ ਸੰਕੇਤਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਲੋਕਾਂ ਨਾਲ ਸੰਚਾਰ ਨੂੰ ਸਮਰੱਥ ਬਣਾਉਣ ਲਈ ਵਿਕਸਤ ਕੀਤਾ ਗਿਆ ਸੀ।
ਡਿਵੈਲਪਰਾਂ ਨੇ ਇੱਕ ਪ੍ਰੋਗਰਾਮ ਲਗਾਇਆ ਜਿਸ ਨੂੰ ਕਿਹਾ ਜਾਂਦਾ ਹੈ ਫਲੇਮਿੰਗੋ ਫਰੇਮਵਰਕ, ਜਿਸ ਨੂੰ ਇਸ ਨੂੰ ਸੰਭਵ ਬਣਾਉਣ ਲਈ, ਟੈਕਸਟ ਅਤੇ ਵਿਜ਼ੁਅਲ ਦੋਵਾਂ ਨੂੰ ਸਮਝਣ ਲਈ ਪਹਿਲਾਂ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਸੀ।
ਫਲੇਮਿੰਗੋ ਨੂੰ ਕੁਝ ਤਬਦੀਲੀਆਂ ਦੀ ਲੋੜ ਸੀ, ਹਾਲਾਂਕਿ, ਕਿਉਂਕਿ ਇਹ ਟੈਕਸਟ ਅਤੇ ਵਿਜ਼ੂਅਲ ਨੂੰ ਸ਼ਾਮਲ ਕਰਨ ਵਾਲੇ ਵਿਸਤ੍ਰਿਤ ਸੰਵਾਦਾਂ ਵਿੱਚ ਅਸਮਰੱਥ ਸੀ।
ਅੱਪਡੇਟ ਕੀਤਾ ਮਲਟੀਮੋਡਲ-ਜੀਪੀਟੀ ਮਾਡਲ ਤਸਵੀਰਾਂ ਤੋਂ ਡਾਟਾ ਇਕੱਠਾ ਕਰ ਸਕਦਾ ਹੈ ਅਤੇ ਮਨੁੱਖੀ ਹੁਕਮਾਂ ਨੂੰ ਸਮਝਣ ਅਤੇ ਲਾਗੂ ਕਰਨ ਲਈ ਇਸਨੂੰ ਭਾਸ਼ਾ ਦੇ ਨਾਲ ਮਿਲਾ ਸਕਦਾ ਹੈ।
ਮਲਟੀਮੋਡਲ-ਜੀ.ਪੀ.ਟੀ
ਮਲਟੀਮੋਡਲ-ਜੀਪੀਟੀ ਇੱਕ ਕਿਸਮ ਦਾ AI ਮਾਡਲ ਹੈ ਜੋ ਵੱਖ-ਵੱਖ ਮਨੁੱਖੀ ਪੁੱਛਗਿੱਛਾਂ ਜਿਵੇਂ ਕਿ ਵਿਜ਼ੂਅਲ ਦਾ ਵਰਣਨ ਕਰਨਾ, ਆਈਟਮਾਂ ਦੀ ਗਿਣਤੀ ਕਰਨਾ ਅਤੇ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇਣਾ ਹੈ। ਇਹ ਵਿਜ਼ੂਅਲ ਅਤੇ ਮੌਖਿਕ ਡੇਟਾ ਦੇ ਮਿਸ਼ਰਣ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਆਦੇਸ਼ਾਂ ਨੂੰ ਸਮਝਦਾ ਅਤੇ ਪਾਲਣਾ ਕਰਦਾ ਹੈ।
ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਲੋਕਾਂ ਨਾਲ ਗੱਲਬਾਤ ਕਰਨ ਲਈ ਮਲਟੀਮੋਡਲ-ਜੀਪੀਟੀ ਦੀ ਸਮਰੱਥਾ ਨੂੰ ਵਧਾਉਣ ਲਈ ਵਿਜ਼ੂਅਲ ਅਤੇ ਭਾਸ਼ਾ-ਸਿਰਫ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਮਾਡਲ ਨੂੰ ਸਿਖਲਾਈ ਦਿੱਤੀ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਇਸ ਨੇ ਇਸ ਦੇ ਭਾਸ਼ਣ ਦੇ ਤਰੀਕੇ ਵਿਚ ਧਿਆਨ ਦੇਣ ਯੋਗ ਸੁਧਾਰ ਕੀਤਾ। ਇਸ ਦੇ ਨਤੀਜੇ ਵਜੋਂ ਇਸਦੀ ਗੱਲਬਾਤ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਵਿੱਚ ਧਿਆਨ ਦੇਣ ਯੋਗ ਸੁਧਾਰ ਹੋਇਆ ਹੈ।
ਉਹਨਾਂ ਨੇ ਖੋਜ ਕੀਤੀ ਕਿ ਚੰਗੀ ਗੱਲਬਾਤ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਲਈ ਉੱਚ-ਗੁਣਵੱਤਾ ਸਿਖਲਾਈ ਡੇਟਾ ਮਹੱਤਵਪੂਰਨ ਹੈ, ਕਿਉਂਕਿ ਛੋਟੇ ਜਵਾਬਾਂ ਵਾਲਾ ਇੱਕ ਛੋਟਾ ਡੇਟਾਸੈਟ ਮਾਡਲ ਨੂੰ ਕਿਸੇ ਵੀ ਕਮਾਂਡ ਲਈ ਛੋਟੇ ਜਵਾਬ ਬਣਾਉਣ ਦੇ ਯੋਗ ਬਣਾ ਸਕਦਾ ਹੈ।
ਤੁਸੀਂ ਮਲਟੀਮੋਡਲ-ਜੀਪੀਟੀ ਨਾਲ ਕੀ ਕਰ ਸਕਦੇ ਹੋ?
ਗੱਲਬਾਤ ਵਿੱਚ ਸ਼ਾਮਲ ਹੋਣਾ
ਪਹਿਲਾਂ ਆਏ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਦੀ ਤਰ੍ਹਾਂ, ਮਲਟੀਮੋਡਲ-ਜੀਪੀਟੀ ਦੀਆਂ ਮੁੱਖ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਵਿੱਚੋਂ ਇੱਕ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਦੇ ਵਿਚਾਰ-ਵਟਾਂਦਰੇ ਵਿੱਚ ਸ਼ਾਮਲ ਹੋਣ ਦੀ ਸਮਰੱਥਾ ਹੈ। ਇਸਦਾ ਮਤਲਬ ਇਹ ਹੈ ਕਿ ਉਪਭੋਗਤਾ ਮਾਡਲ ਨਾਲ ਉਸੇ ਤਰ੍ਹਾਂ ਜੁੜ ਸਕਦੇ ਹਨ ਜਿਵੇਂ ਉਹ ਇੱਕ ਅਸਲੀ ਵਿਅਕਤੀ ਨਾਲ ਕਰਦੇ ਹਨ।
ਉਦਾਹਰਨ ਲਈ, ਮਲਟੀਮੋਡਲ-ਜੀਪੀਟੀ ਗਾਹਕਾਂ ਨੂੰ ਨੂਡਲਜ਼ ਬਣਾਉਣ ਲਈ ਇੱਕ ਵਿਸਤ੍ਰਿਤ ਵਿਅੰਜਨ ਦੇ ਸਕਦਾ ਹੈ ਜਾਂ ਖਾਣੇ ਲਈ ਸੰਭਾਵਿਤ ਰੈਸਟੋਰੈਂਟ ਦੀ ਸਿਫ਼ਾਰਸ਼ ਕਰ ਸਕਦਾ ਹੈ। ਮਾਡਲ ਉਪਭੋਗਤਾਵਾਂ ਦੇ ਯਾਤਰਾ ਦੇ ਇਰਾਦਿਆਂ ਬਾਰੇ ਆਮ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇਣ ਦੇ ਸਮਰੱਥ ਹੈ.
ਵਸਤੂਆਂ ਦੀ ਪਛਾਣ
ਮਲਟੀਮੋਡਲ-ਜੀਪੀਟੀ ਫੋਟੋਆਂ ਵਿੱਚ ਚੀਜ਼ਾਂ ਨੂੰ ਪਛਾਣ ਸਕਦਾ ਹੈ ਅਤੇ ਉਹਨਾਂ ਬਾਰੇ ਪੁੱਛਗਿੱਛਾਂ ਦਾ ਜਵਾਬ ਦੇ ਸਕਦਾ ਹੈ। ਉਦਾਹਰਨ ਲਈ, ਮਾਡਲ ਇੱਕ ਚਿੱਤਰ ਵਿੱਚ ਫਰੈਡੀ ਮਰਕਰੀ ਨੂੰ ਪਛਾਣ ਸਕਦਾ ਹੈ ਅਤੇ ਉਸਦੇ ਬਾਰੇ ਸਵਾਲਾਂ ਦਾ ਜਵਾਬ ਦੇ ਸਕਦਾ ਹੈ।
ਇਹ ਵਿਅਕਤੀਆਂ ਦੀ ਗਿਣਤੀ ਵੀ ਗਿਣ ਸਕਦਾ ਹੈ ਅਤੇ ਇਹ ਵਿਆਖਿਆ ਕਰ ਸਕਦਾ ਹੈ ਕਿ ਉਹ ਤਸਵੀਰ ਵਿੱਚ ਕੀ ਕਰ ਰਹੇ ਹਨ। ਇਸ ਵਸਤੂ ਪਛਾਣ ਸਮਰੱਥਾ ਵਿੱਚ ਈ-ਕਾਮਰਸ, ਸਿਹਤ ਸੰਭਾਲ, ਅਤੇ ਸੁਰੱਖਿਆ ਸਮੇਤ ਕਈ ਖੇਤਰਾਂ ਵਿੱਚ ਐਪਲੀਕੇਸ਼ਨ ਹਨ।
ਮਲਟੀਮੋਡਲ-ਜੀਪੀਟੀ ਡਿਜੀਟਲ ਤਸਵੀਰਾਂ ਦੇ ਅੰਦਰਲੇ ਟੈਕਸਟ ਨੂੰ ਵੀ ਪਛਾਣ ਸਕਦਾ ਹੈ। ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਮਾਡਲ ਫੋਟੋਆਂ ਵਿੱਚ ਟੈਕਸਟ ਨੂੰ ਪੜ੍ਹ ਸਕਦਾ ਹੈ ਅਤੇ ਉਪਯੋਗੀ ਡੇਟਾ ਐਕਸਟਰੈਕਟ ਕਰ ਸਕਦਾ ਹੈ। ਇਹ, ਉਦਾਹਰਨ ਲਈ, ਇੱਕ ਚਿੱਤਰ ਵਿੱਚ ਅੱਖਰਾਂ ਦਾ ਪਤਾ ਲਗਾ ਸਕਦਾ ਹੈ ਅਤੇ ਇੱਕ ਕਿਤਾਬ ਦੇ ਲੇਖਕ ਦੀ ਪਛਾਣ ਕਰ ਸਕਦਾ ਹੈ।
ਲਈ ਇੱਕ ਬਹੁਤ ਹੀ ਲਾਭਦਾਇਕ ਸੰਦ ਹੈ ਦਸਤਾਵੇਜ਼ ਪ੍ਰਬੰਧਨ, ਡੇਟਾ ਇੰਪੁੱਟ, ਅਤੇ ਸਮੱਗਰੀ ਵਿਸ਼ਲੇਸ਼ਣ।
ਤਰਕ ਅਤੇ ਗਿਆਨ ਦੀ ਉਤਪਤੀ
ਮਲਟੀ-ਮੋਡਲ-ਜੀਪੀਟੀ ਤਰਕ ਕਰ ਸਕਦਾ ਹੈ ਅਤੇ ਸੰਸਾਰ ਬਾਰੇ ਗਿਆਨ ਪੈਦਾ ਕਰ ਸਕਦਾ ਹੈ। ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਇਹ ਤਸਵੀਰਾਂ ਦੀ ਪੂਰੀ ਵਿਆਖਿਆ ਪ੍ਰਦਾਨ ਕਰ ਸਕਦਾ ਹੈ ਅਤੇ ਇਹ ਵੀ ਦੱਸ ਸਕਦਾ ਹੈ ਕਿ ਚਿੱਤਰ ਕਿਸ ਸੀਜ਼ਨ ਵਿੱਚ ਲਿਆ ਗਿਆ ਸੀ।
ਇਹ ਹੁਨਰ ਵਾਤਾਵਰਣ ਦੀ ਨਿਗਰਾਨੀ, ਖੇਤੀਬਾੜੀ, ਅਤੇ ਮੌਸਮ ਵਿਗਿਆਨ ਸਮੇਤ ਕਈ ਵਿਸ਼ਿਆਂ ਵਿੱਚ ਲਾਭਦਾਇਕ ਹੈ। ਮਾਡਲ ਕਵਿਤਾ, ਕਹਾਣੀਆਂ ਅਤੇ ਗੀਤਾਂ ਵਰਗੀਆਂ ਰਚਨਾਤਮਕ ਚੀਜ਼ਾਂ ਵੀ ਤਿਆਰ ਕਰ ਸਕਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਇਹ ਰਚਨਾਤਮਕ ਕਾਰਜਾਂ ਲਈ ਇੱਕ ਵਧੀਆ ਸਾਧਨ ਬਣ ਜਾਂਦਾ ਹੈ।
ਮਲਟੀਮੋਡਲ-ਜੀਪੀਟੀ ਦੇ ਅੰਦਰੂਨੀ ਕਾਰਜ
ਯੂਨੀਫਾਈਡ ਹਦਾਇਤਾਂ ਲਈ ਨਮੂਨਾ
ਟੀਮ ਮਲਟੀਮੋਡਲ-ਜੀਪੀਟੀ ਮਾਡਲ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਯੂਨੀਮੋਡਲ ਭਾਸ਼ਾਈ ਡੇਟਾ ਅਤੇ ਮਲਟੀਮੋਡਲ ਵਿਜ਼ਨ-ਅਤੇ-ਭਾਸ਼ਾ ਡੇਟਾ ਦੇ ਏਕੀਕਰਣ ਲਈ ਇੱਕ ਸਿੰਗਲ ਟੈਪਲੇਟ ਪੇਸ਼ ਕਰਦੀ ਹੈ।
ਇਹ ਸੰਯੁਕਤ ਰਣਨੀਤੀ ਦੋਵਾਂ ਡੇਟਾ ਰੂਪਾਂ ਦੀਆਂ ਪੂਰਕ ਸਮਰੱਥਾਵਾਂ ਦਾ ਸ਼ੋਸ਼ਣ ਕਰਕੇ ਅਤੇ ਅੰਤਰੀਵ ਵਿਚਾਰਾਂ ਦੀ ਡੂੰਘੀ ਸਮਝ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰਕੇ ਵੱਖ-ਵੱਖ ਕਾਰਜਾਂ ਵਿੱਚ ਮਾਡਲ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੀ ਹੈ।
ਡੌਲੀ 15k ਅਤੇ Alpaca GPT4 ਡੇਟਾਸੈਟਾਂ ਦੀ ਵਰਤੋਂ ਟੀਮ ਦੁਆਰਾ ਭਾਸ਼ਾ-ਸਿਰਫ਼ ਹਦਾਇਤਾਂ-ਅਨੁਸਾਰੀ ਯੋਗਤਾਵਾਂ ਨੂੰ ਮਾਪਣ ਲਈ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇਹ ਡੇਟਾਸੈਟ ਇਕਸਾਰ ਹਦਾਇਤ-ਅਨੁਸਾਰਿਤ ਫਾਰਮੈਟ ਦੀ ਗਾਰੰਟੀ ਦੇਣ ਲਈ ਡੇਟਾਸੇਟ ਇਨਪੁਟ ਦੀ ਸੰਰਚਨਾ ਕਰਨ ਲਈ ਇੱਕ ਪ੍ਰੋਂਪਟ ਟੈਂਪਲੇਟ ਵਜੋਂ ਕੰਮ ਕਰਦੇ ਹਨ।
ਚਿੱਤਰ: Doly 15k ਡੇਟਾਸੈਟ ਦੀ ਸੰਖੇਪ ਜਾਣਕਾਰੀ
ਮਾਡਲ ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ?
ਤਿੰਨ ਮੁੱਖ ਭਾਗ ਮਲਟੀਮੋਡਲ-ਜੀਪੀਟੀ ਮਾਡਲ ਬਣਾਉਂਦੇ ਹਨ: ਇੱਕ ਭਾਸ਼ਾ ਡੀਕੋਡਰ, ਇੱਕ ਪਰਸੀਵਰ ਰੀਸੈਮਪਲਰ, ਅਤੇ ਇੱਕ ਵਿਜ਼ਨ ਏਨਕੋਡਰ। ਚਿੱਤਰ ਨੂੰ ਵਿਜ਼ਨ ਏਨਕੋਡਰ ਦੁਆਰਾ ਲਿਆ ਜਾਂਦਾ ਹੈ, ਜੋ ਫਿਰ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਦਾ ਇੱਕ ਸੰਗ੍ਰਹਿ ਤਿਆਰ ਕਰਦਾ ਹੈ ਜੋ ਇਸਨੂੰ ਵਿਸ਼ੇਸ਼ਤਾ ਦਿੰਦੇ ਹਨ।
ਭਾਸ਼ਾ ਡੀਕੋਡਰ ਵਿਜ਼ਨ ਏਨਕੋਡਰ ਤੋਂ ਜਾਣਕਾਰੀ ਦੀ ਵਰਤੋਂ ਟੈਕਸਟ ਬਣਾਉਣ ਲਈ ਕਰਦਾ ਹੈ ਜੋ ਪਰਸੀਵਰ ਰੀਸੈਮਪਲਰ ਦੀ ਸਹਾਇਤਾ ਨਾਲ ਚਿੱਤਰ ਦਾ ਵਰਣਨ ਕਰਦਾ ਹੈ।
ਮਾਡਲ ਦਾ ਹਿੱਸਾ ਜੋ ਭਾਸ਼ਾ ਨੂੰ ਸਮਝਦਾ ਹੈ ਅਤੇ ਟੈਕਸਟ ਦਾ ਉਤਪਾਦਨ ਕਰਦਾ ਹੈ ਭਾਸ਼ਾ ਡੀਕੋਡਰ ਹੈ। ਇੱਕ ਵਾਕੰਸ਼ ਵਿੱਚ ਨਿਮਨਲਿਖਤ ਸ਼ਬਦ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਲਈ, ਮਾਡਲ ਨੂੰ ਭਾਸ਼ਾ-ਸਿਰਫ਼ ਅਤੇ ਦ੍ਰਿਸ਼ਟੀ-ਪਲੱਸ ਭਾਸ਼ਾ ਨਿਰਦੇਸ਼-ਅਨੁਸਾਰਿਤ ਡੇਟਾ ਦੋਵਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ।
ਇਹ ਮਾਡਲ ਨੂੰ ਸਿਖਾਉਂਦਾ ਹੈ ਕਿ ਮਨੁੱਖਾਂ ਦੇ ਹੁਕਮਾਂ 'ਤੇ ਕਿਵੇਂ ਪ੍ਰਤੀਕਿਰਿਆ ਕਰਨੀ ਹੈ ਅਤੇ ਤਸਵੀਰ ਦੇ ਵਰਣਨ ਲਈ ਸਵੀਕਾਰਯੋਗ ਟੈਕਸਟ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।
ਪਿੱਛੇ ਟੀਮ
ਮਲਟੀਮੋਡਲ-ਜੀਪੀਟੀ ਨੂੰ ਮਾਈਕ੍ਰੋਸਾਫਟ ਰਿਸਰਚ ਏਸ਼ੀਆ ਖੋਜਕਰਤਾਵਾਂ ਅਤੇ ਇੰਜਨੀਅਰਾਂ ਦੀ ਇੱਕ ਟੀਮ ਦੁਆਰਾ ਬਣਾਇਆ ਗਿਆ ਸੀ ਜਿਸ ਦੀ ਅਗਵਾਈ ਤਾਓ ਗੌਂਗ, ਚੇਂਗਕੀ ਲਿਊ, ਅਤੇ ਸ਼ਿਲੋਂਗ ਝਾਂਗ ਕਰ ਰਹੇ ਸਨ। ਯੁਡੋਂਗ ਵੈਂਗ, ਮੀਆਓ ਜ਼ੇਂਗ, ਕਿਆਨ ਝਾਓ, ਕੁਈਕੁਨ ਲਿਊ, ਵੇਨਵੇਈ ਝਾਂਗ, ਪਿੰਗ ਲੁਓ ਅਤੇ ਕਾਈ ਚੇਨ ਨੇ ਮਾਡਲ ਦੇ ਅਧਿਐਨ ਅਤੇ ਵਿਕਾਸ ਵਿੱਚ ਯੋਗਦਾਨ ਪਾਇਆ।
ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰੋਸੈਸਿੰਗ, ਕੰਪਿਊਟਰ ਦ੍ਰਿਸ਼ਟੀ, ਅਤੇ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਟੀਮ ਲਈ ਯੋਗਤਾ ਦੇ ਸਾਰੇ ਖੇਤਰ ਹਨ। ਉਹਨਾਂ ਕੋਲ ਉੱਚ-ਪੱਧਰੀ ਕਾਨਫਰੰਸਾਂ ਅਤੇ ਪ੍ਰਕਾਸ਼ਨਾਂ ਵਿੱਚ ਪ੍ਰਕਾਸ਼ਿਤ ਕਈ ਲੇਖ ਹਨ, ਨਾਲ ਹੀ ਉਹਨਾਂ ਦੇ ਵਿਗਿਆਨਕ ਯਤਨਾਂ ਲਈ ਕਈ ਸਨਮਾਨ ਅਤੇ ਪ੍ਰਸ਼ੰਸਾ ਵੀ।
ਟੀਮ ਦੀ ਖੋਜ ਮਨੁੱਖਾਂ ਅਤੇ ਤਕਨਾਲੋਜੀ ਵਿਚਕਾਰ ਵਧੇਰੇ ਕੁਦਰਤੀ ਅਤੇ ਬੁੱਧੀਮਾਨ ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਨੂੰ ਸਮਰੱਥ ਬਣਾਉਣ ਲਈ ਆਧੁਨਿਕ ਮਾਡਲਾਂ ਅਤੇ ਪਹੁੰਚਾਂ ਦੇ ਵਿਕਾਸ 'ਤੇ ਕੇਂਦ੍ਰਤ ਹੈ।
ਮਲਟੀ-ਮੋਡਲ-ਜੀਪੀਟੀ ਵਿਕਾਸ ਖੇਤਰ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਪ੍ਰਾਪਤੀ ਹੈ ਕਿਉਂਕਿ ਇਹ ਬਹੁ-ਪੱਖੀ ਚਰਚਾ ਲਈ ਇੱਕ ਸਿੰਗਲ ਫਰੇਮਵਰਕ ਵਿੱਚ ਦ੍ਰਿਸ਼ਟੀ ਅਤੇ ਭਾਸ਼ਾ ਨੂੰ ਜੋੜਨ ਵਾਲੇ ਪਹਿਲੇ ਮਾਡਲਾਂ ਵਿੱਚੋਂ ਇੱਕ ਹੈ।
ਮਲਟੀਮੋਡਲ-ਜੀਪੀਟੀ ਖੋਜ ਅਤੇ ਵਿਕਾਸ ਵਿੱਚ ਟੀਮ ਦੇ ਯੋਗਦਾਨ ਵਿੱਚ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰੋਸੈਸਿੰਗ ਅਤੇ ਮਨੁੱਖੀ-ਮਸ਼ੀਨ ਦੇ ਆਪਸੀ ਤਾਲਮੇਲ ਦੇ ਭਵਿੱਖ ਉੱਤੇ ਕਾਫ਼ੀ ਪ੍ਰਭਾਵ ਪਾਉਣ ਦੀ ਸਮਰੱਥਾ ਹੈ।
ਮਲਟੀਮੋਡਲ-ਜੀਪੀਟੀ ਦੀ ਵਰਤੋਂ ਕਿਵੇਂ ਕਰੀਏ
ਸ਼ੁਰੂਆਤ ਕਰਨ ਵਾਲਿਆਂ ਲਈ, ਮਲਟੀਮੋਡਲ-ਜੀਪੀਟੀ ਟੂਲ ਦੀ ਵਰਤੋਂ ਕਰਨਾ ਸਧਾਰਨ ਹੈ। ਬਸ 'ਤੇ ਜਾਓ https://mmgpt.openmmlab.org.cn/ ਅਤੇ "ਅੱਪਲੋਡ ਚਿੱਤਰ" ਬਟਨ ਨੂੰ ਦਬਾਓ।
ਅਪਲੋਡ ਕਰਨ ਲਈ ਤਸਵੀਰ ਫਾਈਲ ਚੁਣੋ, ਅਤੇ ਫਿਰ ਟੈਕਸਟ ਖੇਤਰ ਵਿੱਚ ਟੈਕਸਟ ਪ੍ਰੋਂਪਟ ਟਾਈਪ ਕਰੋ। ਮਾਡਲ ਤੋਂ ਜਵਾਬ ਬਣਾਉਣ ਲਈ, "ਸਬਮਿਟ" ਬਟਨ 'ਤੇ ਕਲਿੱਕ ਕਰੋ, ਜੋ ਟੈਕਸਟ ਖੇਤਰ ਦੇ ਹੇਠਾਂ ਦਿਖਾਈ ਦੇਵੇਗਾ।
ਤੁਸੀਂ ਮਾਡਲ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਬਾਰੇ ਹੋਰ ਜਾਣਨ ਲਈ ਵੱਖ-ਵੱਖ ਫੋਟੋਆਂ ਅਤੇ ਨਿਰਦੇਸ਼ਾਂ ਨਾਲ ਪ੍ਰਯੋਗ ਕਰ ਸਕਦੇ ਹੋ।
ਇੰਸਟਾਲ
ਮਲਟੀਮੋਡਲ-ਜੀਪੀਟੀ ਪੈਕੇਜ ਨੂੰ ਸਥਾਪਿਤ ਕਰਨ ਲਈ, ਗਿਟਹਬ ਤੋਂ ਰਿਪੋਜ਼ਟਰੀ ਨੂੰ ਕਲੋਨ ਕਰਨ ਲਈ ਟਰਮੀਨਲ ਕਮਾਂਡ “git clone https://github.com/open-mmlab/Multimodal-GPT.git” ਦੀ ਵਰਤੋਂ ਕਰੋ। ਤੁਸੀਂ ਬਸ ਇਹਨਾਂ ਕਦਮਾਂ ਦੀ ਪਾਲਣਾ ਕਰ ਸਕਦੇ ਹੋ:
git clone https://github.com/open-mmlab/Multimodal-GPT.git
cd Multimodal-GPT
pip install -r requirements.txt
pip install -v -e .
ਵਿਕਲਪਕ ਤੌਰ 'ਤੇ, ਵਰਤੋਂ conda env create -f environment.yml
ਇੱਕ ਨਵਾਂ ਕੰਡਾ ਵਾਤਾਵਰਣ ਸਥਾਪਤ ਕਰਨ ਲਈ. ਤੁਸੀਂ ਪੂਰਵ-ਸਿਖਿਅਤ ਵਜ਼ਨਾਂ ਨੂੰ ਡਾਉਨਲੋਡ ਕਰਕੇ ਅਤੇ ਉਹਨਾਂ ਨੂੰ ਚੈੱਕਪੁਆਇੰਟ ਫੋਲਡਰ ਵਿੱਚ ਸਟੋਰ ਕਰਕੇ ਇਸਨੂੰ ਸਥਾਪਿਤ ਕਰਨ ਤੋਂ ਬਾਅਦ ਸਥਾਨਕ ਤੌਰ 'ਤੇ ਡੈਮੋ ਚਲਾ ਸਕਦੇ ਹੋ।
ਗ੍ਰੇਡੀਓ ਡੈਮੋ ਨੂੰ ਫਿਰ "python app.py" ਕਮਾਂਡ ਚਲਾ ਕੇ ਲਾਂਚ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ।
ਸੰਭਾਵੀ ਕਮੀਆਂ
ਮਲਟੀਮੋਡਲ-ਜੀਪੀਟੀ ਮਾਡਲ ਵਿੱਚ ਇਸਦੇ ਸ਼ਾਨਦਾਰ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਬਾਵਜੂਦ ਅਜੇ ਵੀ ਖਾਮੀਆਂ ਅਤੇ ਵਿਕਾਸ ਲਈ ਥਾਂ ਹੈ।
ਉਦਾਹਰਨ ਲਈ, ਜਦੋਂ ਗੁੰਝਲਦਾਰ ਜਾਂ ਅਸਪਸ਼ਟ ਵਿਜ਼ੂਅਲ ਇਨਪੁਟਸ ਨਾਲ ਕੰਮ ਕਰਦੇ ਹੋ, ਤਾਂ ਹੋ ਸਕਦਾ ਹੈ ਕਿ ਮਾਡਲ ਹਮੇਸ਼ਾ ਇੰਪੁੱਟ ਦੇ ਸੰਦਰਭ ਨੂੰ ਪਛਾਣਨ ਅਤੇ ਸਮਝਣ ਦੇ ਯੋਗ ਨਾ ਹੋਵੇ। ਇਸ ਦੇ ਨਤੀਜੇ ਵਜੋਂ ਮਾਡਲ ਤੋਂ ਗਲਤ ਪੂਰਵ-ਅਨੁਮਾਨਾਂ ਜਾਂ ਪ੍ਰਤੀਕਰਮ ਹੋ ਸਕਦੇ ਹਨ।
ਇਸ ਤੋਂ ਇਲਾਵਾ, ਖਾਸ ਤੌਰ 'ਤੇ ਜਦੋਂ ਇੰਪੁੱਟ ਗੁੰਝਲਦਾਰ ਜਾਂ ਖੁੱਲ੍ਹੇ-ਡੁੱਲ੍ਹੇ ਹੁੰਦੇ ਹਨ, ਤਾਂ ਹੋ ਸਕਦਾ ਹੈ ਕਿ ਮਾਡਲ ਹਮੇਸ਼ਾ ਵਧੀਆ ਪ੍ਰਤੀਕਿਰਿਆ ਜਾਂ ਨਤੀਜਾ ਪੈਦਾ ਨਾ ਕਰੇ। ਉਦਾਹਰਨ ਲਈ, ਮਾਡਲ ਦਾ ਜਵਾਬ ਇਸ ਗੱਲ ਤੋਂ ਪ੍ਰਭਾਵਿਤ ਹੋ ਸਕਦਾ ਹੈ ਕਿ ਕਿਤਾਬ ਦੇ ਕਵਰ ਦੀ ਗਲਤ ਪਛਾਣ ਦੇ ਮਾਮਲੇ ਵਿੱਚ ਦੋ ਕਿਤਾਬਾਂ ਦੇ ਕਵਰ ਕਿੰਨੇ ਸਮਾਨ ਦਿਖਾਈ ਦਿੰਦੇ ਹਨ।
ਸਿੱਟਾ
ਕੁੱਲ ਮਿਲਾ ਕੇ, ਮਲਟੀਮੋਡਲ-ਜੀਪੀਟੀ ਮਾਡਲ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰੋਸੈਸਿੰਗ ਅਤੇ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਵਿੱਚ ਇੱਕ ਵੱਡੇ ਕਦਮ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। ਅਤੇ, ਇਸਦੀ ਵਰਤੋਂ ਕਰਨਾ ਅਤੇ ਇਸ ਨਾਲ ਪ੍ਰਯੋਗ ਕਰਨਾ ਬਹੁਤ ਦਿਲਚਸਪ ਹੈ. ਇਸ ਲਈ, ਤੁਹਾਨੂੰ ਇਸ ਨੂੰ ਜਾਂ ਤਾਂ ਕੋਸ਼ਿਸ਼ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ!
ਹਾਲਾਂਕਿ, ਇਸ ਦੀਆਂ ਸੀਮਾਵਾਂ ਹਨ, ਜਿਵੇਂ ਕਿ ਸਾਰੇ ਮਾਡਲ ਕਰਦੇ ਹਨ, ਅਤੇ ਵੱਖ-ਵੱਖ ਐਪਲੀਕੇਸ਼ਨਾਂ ਅਤੇ ਡੋਮੇਨਾਂ ਵਿੱਚ ਵੱਧ ਤੋਂ ਵੱਧ ਪ੍ਰਦਰਸ਼ਨ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਵਾਧੂ ਸੁਧਾਰ ਅਤੇ ਸੁਧਾਰ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।
ਕੋਈ ਜਵਾਬ ਛੱਡਣਾ