ਵੱਡੇ ਤੰਤੂ ਨੈਟਵਰਕ ਜਿਨ੍ਹਾਂ ਨੂੰ ਭਾਸ਼ਾ ਦੀ ਪਛਾਣ ਅਤੇ ਪੀੜ੍ਹੀ ਲਈ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਹੈ, ਨੇ ਹਾਲ ਹੀ ਦੇ ਸਾਲਾਂ ਵਿੱਚ ਕਈ ਤਰ੍ਹਾਂ ਦੇ ਕੰਮਾਂ ਵਿੱਚ ਸ਼ਾਨਦਾਰ ਨਤੀਜੇ ਪ੍ਰਦਰਸ਼ਿਤ ਕੀਤੇ ਹਨ। GPT-3 ਨੇ ਸਾਬਤ ਕੀਤਾ ਕਿ ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ (LLMs) ਨੂੰ ਕੁਝ-ਸ਼ਾਟ ਸਿੱਖਣ ਲਈ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ ਅਤੇ ਵਿਆਪਕ ਕਾਰਜ-ਵਿਸ਼ੇਸ਼ ਡੇਟਾ ਜਾਂ ਮਾਡਲ ਪੈਰਾਮੀਟਰਾਂ ਨੂੰ ਬਦਲਣ ਦੀ ਲੋੜ ਤੋਂ ਬਿਨਾਂ ਸ਼ਾਨਦਾਰ ਨਤੀਜੇ ਪ੍ਰਾਪਤ ਕੀਤੇ ਜਾ ਸਕਦੇ ਹਨ।
ਗੂਗਲ, ਸਿਲੀਕਾਨ ਵੈਲੀ ਟੈਕ ਬੀਹੇਮਥ, ਨੇ ਅਗਲੀ ਪੀੜ੍ਹੀ ਦੇ AI-ਭਾਸ਼ਾ ਮਾਡਲ ਵਜੋਂ ਵਿਸ਼ਵਵਿਆਪੀ ਤਕਨੀਕੀ ਉਦਯੋਗ ਲਈ PaLM, ਜਾਂ ਪਾਥਵੇਜ਼ ਲੈਂਗੂਏਜ ਮਾਡਲ ਪੇਸ਼ ਕੀਤਾ ਹੈ। ਗੂਗਲ ਨੇ ਇੱਕ ਨਵਾਂ ਸ਼ਾਮਲ ਕੀਤਾ ਹੈ ਬਣਾਵਟੀ ਗਿਆਨ AI-ਭਾਸ਼ਾ ਮਾਡਲ ਦੀ ਗੁਣਵੱਤਾ ਵਿੱਚ ਸੁਧਾਰ ਕਰਨ ਦੇ ਰਣਨੀਤਕ ਉਦੇਸ਼ਾਂ ਨਾਲ PaLM ਵਿੱਚ ਆਰਕੀਟੈਕਚਰ।
ਇਸ ਪੋਸਟ ਵਿੱਚ, ਅਸੀਂ ਪਾਮ ਐਲਗੋਰਿਦਮ ਦੀ ਵਿਸਤਾਰ ਵਿੱਚ ਜਾਂਚ ਕਰਾਂਗੇ, ਜਿਸ ਵਿੱਚ ਇਸਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਵਰਤੇ ਜਾਣ ਵਾਲੇ ਮਾਪਦੰਡ, ਇਸ ਦੁਆਰਾ ਹੱਲ ਕੀਤੇ ਜਾਣ ਵਾਲੇ ਮੁੱਦੇ ਅਤੇ ਹੋਰ ਬਹੁਤ ਕੁਝ ਸ਼ਾਮਲ ਹੈ।
ਕੀ ਹੈ Google ਦਾ PaLM ਐਲਗੋਰਿਦਮ?
ਪਾਥਵੇਜ਼ ਭਾਸ਼ਾ ਮਾਡਲ ਕੀ ਹੈ ਪੀਏਐਲਐਮ ਲਈ ਖੜ੍ਹਾ ਹੈ. ਇਹ ਪਾਥਵੇਜ਼ ਏਆਈ ਆਰਕੀਟੈਕਚਰ ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਨ ਲਈ ਗੂਗਲ ਦੁਆਰਾ ਵਿਕਸਤ ਇੱਕ ਨਵਾਂ ਐਲਗੋਰਿਦਮ ਹੈ। ਢਾਂਚੇ ਦਾ ਮੁੱਖ ਟੀਚਾ ਇੱਕੋ ਵਾਰ ਵਿੱਚ ਇੱਕ ਮਿਲੀਅਨ ਵੱਖਰੀਆਂ ਗਤੀਵਿਧੀਆਂ ਕਰਨਾ ਹੈ।
ਇਹਨਾਂ ਵਿੱਚ ਗੁੰਝਲਦਾਰ ਡੇਟਾ ਨੂੰ ਸਮਝਣ ਤੋਂ ਲੈ ਕੇ ਕਟੌਤੀਯੋਗ ਤਰਕ ਤੱਕ ਸਭ ਕੁਝ ਸ਼ਾਮਲ ਹੈ। PaLM ਕੋਲ ਭਾਸ਼ਾ ਅਤੇ ਤਰਕ ਦੇ ਕੰਮਾਂ ਵਿੱਚ ਮੌਜੂਦਾ AI ਅਤਿ-ਆਧੁਨਿਕ ਅਤੇ ਨਾਲ ਹੀ ਮਨੁੱਖਾਂ ਨੂੰ ਪਿੱਛੇ ਛੱਡਣ ਦੀ ਸਮਰੱਥਾ ਹੈ।
ਇਸ ਵਿੱਚ ਕੁਝ-ਸ਼ੌਟ ਲਰਨਿੰਗ ਸ਼ਾਮਲ ਹੈ, ਜੋ ਕਿ ਨਕਲ ਕਰਦੀ ਹੈ ਕਿ ਕਿਵੇਂ ਮਨੁੱਖ ਨਵੀਆਂ ਚੀਜ਼ਾਂ ਸਿੱਖਦੇ ਹਨ ਅਤੇ ਨਵੀਆਂ ਚੁਣੌਤੀਆਂ ਨਾਲ ਨਜਿੱਠਣ ਲਈ ਗਿਆਨ ਦੇ ਵਿਭਿੰਨ ਬਿੱਟਾਂ ਨੂੰ ਜੋੜਦੇ ਹਨ ਜੋ ਪਹਿਲਾਂ ਕਦੇ ਨਹੀਂ ਵੇਖੀਆਂ ਗਈਆਂ ਸਨ, ਇੱਕ ਮਸ਼ੀਨ ਦੇ ਲਾਭ ਨਾਲ ਜੋ ਨਵੀਆਂ ਚੁਣੌਤੀਆਂ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਆਪਣੇ ਸਾਰੇ ਗਿਆਨ ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੀ ਹੈ; PaLM ਵਿੱਚ ਇਸ ਹੁਨਰ ਦੀ ਇੱਕ ਉਦਾਹਰਨ ਇਸਦੀ ਇੱਕ ਚੁਟਕਲੇ ਨੂੰ ਸਮਝਾਉਣ ਦੀ ਯੋਗਤਾ ਹੈ ਜੋ ਇਸਨੇ ਪਹਿਲਾਂ ਕਦੇ ਨਹੀਂ ਸੁਣਿਆ ਹੈ।
PaLM ਨੇ ਕਈ ਤਰ੍ਹਾਂ ਦੇ ਚੁਣੌਤੀਪੂਰਨ ਕਾਰਜਾਂ 'ਤੇ ਬਹੁਤ ਸਾਰੇ ਸਫਲਤਾਪੂਰਵਕ ਹੁਨਰਾਂ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ, ਜਿਸ ਵਿੱਚ ਭਾਸ਼ਾ ਦੀ ਸਮਝ ਅਤੇ ਰਚਨਾ, ਮਲਟੀਸਟੈਪ ਅੰਕਗਣਿਤ ਕੋਡ-ਸਬੰਧਤ ਗਤੀਵਿਧੀਆਂ, ਆਮ ਸਮਝ ਤਰਕ, ਅਨੁਵਾਦ ਅਤੇ ਹੋਰ ਬਹੁਤ ਸਾਰੇ ਸ਼ਾਮਲ ਹਨ।
ਇਸ ਨੇ ਬਹੁ-ਭਾਸ਼ਾਈ NLP ਸੈੱਟਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਗੁੰਝਲਦਾਰ ਮੁੱਦਿਆਂ ਨੂੰ ਹੱਲ ਕਰਨ ਦੀ ਆਪਣੀ ਯੋਗਤਾ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ ਹੈ। PaLM ਦੀ ਵਰਤੋਂ ਵਿਸ਼ਵਵਿਆਪੀ ਤਕਨੀਕੀ ਮਾਰਕੀਟ ਦੁਆਰਾ ਕਾਰਨ ਅਤੇ ਪ੍ਰਭਾਵ, ਸੰਕਲਪਿਕ ਸੰਜੋਗਾਂ, ਵੱਖਰੀਆਂ ਖੇਡਾਂ, ਅਤੇ ਹੋਰ ਬਹੁਤ ਸਾਰੀਆਂ ਚੀਜ਼ਾਂ ਨੂੰ ਵੱਖ ਕਰਨ ਲਈ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ।
ਇਹ ਮਲਟੀਸਟੈਪ ਲਾਜ਼ੀਕਲ ਇਨਫਰੈਂਸ, ਡੂੰਘੀ ਭਾਸ਼ਾ, ਗਲੋਬਲ ਗਿਆਨ, ਅਤੇ ਹੋਰ ਤਕਨੀਕਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਕਈ ਪ੍ਰਸੰਗਾਂ ਲਈ ਡੂੰਘਾਈ ਨਾਲ ਵਿਆਖਿਆ ਵੀ ਤਿਆਰ ਕਰ ਸਕਦਾ ਹੈ।
ਗੂਗਲ ਨੇ PaLM ਐਲਗੋਰਿਦਮ ਕਿਵੇਂ ਵਿਕਸਿਤ ਕੀਤਾ?
PaLM ਵਿੱਚ Google ਦੇ ਸਫਲਤਾਪੂਰਵਕ ਪ੍ਰਦਰਸ਼ਨ ਲਈ, ਪਾਥਵੇਅ 540 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰਾਂ ਤੱਕ ਸਕੇਲ ਕਰਨ ਲਈ ਨਿਯਤ ਕੀਤੇ ਗਏ ਹਨ। ਇਹ ਇੱਕ ਅਜਿਹੇ ਮਾਡਲ ਵਜੋਂ ਜਾਣਿਆ ਜਾਂਦਾ ਹੈ ਜੋ ਬਹੁਤ ਸਾਰੇ ਡੋਮੇਨਾਂ ਵਿੱਚ ਕੁਸ਼ਲਤਾ ਅਤੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਸਧਾਰਣ ਕਰ ਸਕਦਾ ਹੈ। Google 'ਤੇ ਪਾਥਵੇਜ਼ ਐਕਸਲੇਟਰਾਂ ਲਈ ਡਿਸਟ੍ਰੀਬਿਊਟਿਡ ਕੰਪਿਊਟਿੰਗ ਨੂੰ ਵਿਕਸਤ ਕਰਨ ਲਈ ਸਮਰਪਿਤ ਹੈ।
PaLM ਇੱਕ ਡੀਕੋਡਰ-ਸਿਰਫ ਟ੍ਰਾਂਸਫਾਰਮਰ ਮਾਡਲ ਹੈ ਜਿਸਨੂੰ ਪਾਥਵੇਅ ਸਿਸਟਮ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਹੈ। ਗੂਗਲ ਦੇ ਅਨੁਸਾਰ, PaLM ਨੇ ਸਫਲਤਾਪੂਰਵਕ ਕਈ ਵਰਕਲੋਡਾਂ ਵਿੱਚ ਅਤਿ-ਆਧੁਨਿਕ ਕੁਝ-ਸ਼ਾਟ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਪ੍ਰਾਪਤ ਕੀਤਾ ਹੈ। PaLM ਨੇ ਸਭ ਤੋਂ ਵੱਡੀ TPU-ਅਧਾਰਿਤ ਸਿਸਟਮ ਸੰਰਚਨਾ, ਜਿਸ ਨੂੰ ਪਹਿਲੀ ਵਾਰ 6144 ਚਿਪਸ ਵਜੋਂ ਜਾਣਿਆ ਜਾਂਦਾ ਹੈ, ਲਈ ਸਿਖਲਾਈ ਦਾ ਵਿਸਤਾਰ ਕਰਨ ਲਈ ਪਾਥਵੇਅ ਸਿਸਟਮ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਹੈ।
ਏਆਈ-ਭਾਸ਼ਾ ਮਾਡਲ ਲਈ ਇੱਕ ਸਿਖਲਾਈ ਡੇਟਾਸੈਟ ਅੰਗਰੇਜ਼ੀ ਅਤੇ ਹੋਰ ਬਹੁ-ਭਾਸ਼ਾਈ ਡੇਟਾਸੈਟਾਂ ਦੇ ਮਿਸ਼ਰਣ ਨਾਲ ਬਣਿਆ ਹੈ। "ਨੁਕਸਾਨ ਰਹਿਤ" ਸ਼ਬਦਾਵਲੀ ਦੇ ਨਾਲ, ਇਸ ਵਿੱਚ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੀ ਵੈੱਬ ਸਮੱਗਰੀ, ਚਰਚਾਵਾਂ, ਕਿਤਾਬਾਂ, GitHub ਕੋਡ, ਵਿਕੀਪੀਡੀਆ, ਅਤੇ ਹੋਰ ਬਹੁਤ ਕੁਝ ਸ਼ਾਮਲ ਹੈ। ਘਾਟ ਰਹਿਤ ਸ਼ਬਦਾਵਲੀ ਨੂੰ ਵ੍ਹਾਈਟਸਪੇਸ ਬਰਕਰਾਰ ਰੱਖਣ ਅਤੇ ਯੂਨੀਕੋਡ ਅੱਖਰਾਂ ਨੂੰ ਬਾਈਟ ਵਿੱਚ ਤੋੜਨ ਲਈ ਮਾਨਤਾ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ ਜੋ ਸ਼ਬਦਾਵਲੀ ਵਿੱਚ ਨਹੀਂ ਹਨ।
PaLM ਨੂੰ Google ਅਤੇ Pathways ਦੁਆਰਾ ਇੱਕ ਮਿਆਰੀ ਟ੍ਰਾਂਸਫਾਰਮਰ ਮਾਡਲ ਆਰਕੀਟੈਕਚਰ ਅਤੇ ਇੱਕ ਡੀਕੋਡਰ ਕੌਂਫਿਗਰੇਸ਼ਨ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਵਿਕਸਤ ਕੀਤਾ ਗਿਆ ਸੀ ਜਿਸ ਵਿੱਚ SwiGLU ਐਕਟੀਵੇਸ਼ਨ, ਸਮਾਨਾਂਤਰ ਲੇਅਰਾਂ, RoPE ਏਮਬੈਡਿੰਗਸ, ਸ਼ੇਅਰਡ ਇਨਪੁਟ-ਆਉਟਪੁੱਟ ਏਮਬੈਡਿੰਗ, ਮਲਟੀ-ਕਵੇਰੀ ਧਿਆਨ, ਅਤੇ ਕੋਈ ਪੱਖਪਾਤ ਜਾਂ ਸ਼ਬਦਾਵਲੀ ਸ਼ਾਮਲ ਨਹੀਂ ਸੀ। ਦੂਜੇ ਪਾਸੇ, PaLM, Google ਅਤੇ Pathways ਦੇ AI- ਭਾਸ਼ਾ ਮਾਡਲ ਲਈ ਇੱਕ ਠੋਸ ਆਧਾਰ ਪ੍ਰਦਾਨ ਕਰਨ ਲਈ ਤਿਆਰ ਹੈ।
ਪੈਰਾਮੀਟਰ PaLM ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਵਰਤੇ ਜਾਂਦੇ ਹਨ
ਪਿਛਲੇ ਸਾਲ, ਗੂਗਲ ਨੇ ਪਾਥਵੇਜ਼ ਲਾਂਚ ਕੀਤਾ, ਇੱਕ ਸਿੰਗਲ ਮਾਡਲ ਜਿਸ ਨੂੰ ਹਜ਼ਾਰਾਂ ਨਹੀਂ ਤਾਂ ਲੱਖਾਂ ਚੀਜ਼ਾਂ ਨੂੰ ਕਰਨ ਲਈ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾ ਸਕਦੀ ਹੈ - "ਅਗਲੀ ਪੀੜ੍ਹੀ ਦੇ AI ਆਰਕੀਟੈਕਚਰ" ਨੂੰ ਡੱਬ ਕੀਤਾ ਗਿਆ ਹੈ ਕਿਉਂਕਿ ਇਹ ਸਿਰਫ ਇੱਕ ਕੰਮ ਕਰਨ ਲਈ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਮੌਜੂਦਾ ਮਾਡਲਾਂ ਦੀਆਂ ਸੀਮਾਵਾਂ ਨੂੰ ਦੂਰ ਕਰ ਸਕਦਾ ਹੈ। . ਮੌਜੂਦਾ ਮਾਡਲਾਂ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਵਧਾਉਣ ਦੀ ਬਜਾਏ, ਨਵੇਂ ਮਾਡਲ ਅਕਸਰ ਇੱਕ ਕੰਮ ਨੂੰ ਪੂਰਾ ਕਰਨ ਲਈ ਹੇਠਾਂ ਤੋਂ ਉੱਪਰ ਬਣਾਏ ਜਾਂਦੇ ਹਨ।
ਨਤੀਜੇ ਵਜੋਂ, ਉਨ੍ਹਾਂ ਨੇ ਹਜ਼ਾਰਾਂ ਵੱਖ-ਵੱਖ ਗਤੀਵਿਧੀਆਂ ਲਈ ਹਜ਼ਾਰਾਂ ਮਾਡਲ ਬਣਾਏ ਹਨ। ਇਹ ਸਮਾਂ ਬਰਬਾਦ ਕਰਨ ਵਾਲਾ ਅਤੇ ਸਰੋਤ-ਸੰਬੰਧੀ ਕੰਮ ਹੈ।
Google ਨੇ ਪਾਥਵੇਅਜ਼ ਰਾਹੀਂ ਸਾਬਤ ਕੀਤਾ ਹੈ ਕਿ ਇੱਕ ਸਿੰਗਲ ਮਾਡਲ ਕਈ ਤਰ੍ਹਾਂ ਦੀਆਂ ਗਤੀਵਿਧੀਆਂ ਨੂੰ ਸੰਭਾਲ ਸਕਦਾ ਹੈ ਅਤੇ ਨਵੇਂ ਕੰਮਾਂ ਨੂੰ ਤੇਜ਼ੀ ਅਤੇ ਕੁਸ਼ਲਤਾ ਨਾਲ ਸਿੱਖਣ ਲਈ ਮੌਜੂਦਾ ਪ੍ਰਤਿਭਾਵਾਂ ਨੂੰ ਖਿੱਚ ਸਕਦਾ ਹੈ ਅਤੇ ਜੋੜ ਸਕਦਾ ਹੈ।
ਮਲਟੀਮੋਡਲ ਮਾਡਲ ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਦ੍ਰਿਸ਼ਟੀ, ਭਾਸ਼ਾਈ ਸਮਝ, ਅਤੇ ਆਡੀਟੋਰੀ ਪ੍ਰੋਸੈਸਿੰਗ ਇੱਕੋ ਸਮੇਂ ਸ਼ਾਮਲ ਹੁੰਦੀ ਹੈ, ਮਾਰਗਾਂ ਰਾਹੀਂ ਸਮਰੱਥ ਹੋ ਸਕਦੇ ਹਨ। ਪਾਥਵੇਜ਼ ਲੈਂਗੂਏਜ ਮਾਡਲ (PaLM) ਇਸਦੇ 4 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ ਮਾਡਲ ਦੀ ਬਦੌਲਤ ਬਹੁਤ ਸਾਰੇ TPU v540 Pods ਵਿੱਚ ਇੱਕ ਸਿੰਗਲ ਮਾਡਲ ਦੀ ਸਿਖਲਾਈ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ।
PaLM, ਇੱਕ ਸੰਘਣਾ ਡੀਕੋਡਰ-ਸਿਰਫ ਟ੍ਰਾਂਸਫਾਰਮਰ ਮਾਡਲ, ਵਰਕਲੋਡ ਦੀ ਇੱਕ ਵਿਸ਼ਾਲ ਸ਼੍ਰੇਣੀ ਵਿੱਚ ਅਤਿ-ਆਧੁਨਿਕ ਕੁਝ-ਸ਼ਾਟ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਪਛਾੜਦਾ ਹੈ। PaLM ਨੂੰ ਦੋ TPU v4 Pods 'ਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾ ਰਹੀ ਹੈ ਜੋ ਇੱਕ ਡਾਟਾ ਸੈਂਟਰ ਨੈੱਟਵਰਕ (DCN) ਰਾਹੀਂ ਜੁੜੇ ਹੋਏ ਹਨ।
ਇਹ ਮਾਡਲ ਅਤੇ ਡੇਟਾ ਸਮਾਨਤਾ ਦੋਵਾਂ ਦਾ ਲਾਭ ਲੈਂਦਾ ਹੈ। ਖੋਜਕਰਤਾਵਾਂ ਨੇ PaLM ਲਈ ਹਰੇਕ Pod ਵਿੱਚ 3072 TPU v4 ਪ੍ਰੋਸੈਸਰ ਲਗਾਏ, ਜੋ ਕਿ 768 ਹੋਸਟਾਂ ਨਾਲ ਜੁੜੇ ਹੋਏ ਸਨ। ਖੋਜਕਰਤਾਵਾਂ ਦੇ ਅਨੁਸਾਰ, ਇਹ ਅਜੇ ਤੱਕ ਖੁਲਾਸਾ ਕੀਤਾ ਗਿਆ ਸਭ ਤੋਂ ਵੱਡਾ TPU ਸੰਰਚਨਾ ਹੈ, ਜੋ ਉਹਨਾਂ ਨੂੰ ਪਾਈਪਲਾਈਨ ਸਮਾਨਤਾ ਨੂੰ ਰੁਜ਼ਗਾਰ ਦਿੱਤੇ ਬਿਨਾਂ ਸਿਖਲਾਈ ਨੂੰ ਸਕੇਲ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ।
ਪਾਈਪ ਲਾਈਨਿੰਗ ਆਮ ਤੌਰ 'ਤੇ ਪਾਈਪਲਾਈਨ ਰਾਹੀਂ CPU ਤੋਂ ਨਿਰਦੇਸ਼ਾਂ ਨੂੰ ਇਕੱਠਾ ਕਰਨ ਦੀ ਪ੍ਰਕਿਰਿਆ ਹੈ। ਮਾਡਲ ਦੀਆਂ ਪਰਤਾਂ ਨੂੰ ਪੜਾਵਾਂ ਵਿੱਚ ਵੰਡਿਆ ਗਿਆ ਹੈ ਜੋ ਪਾਈਪਲਾਈਨ ਮਾਡਲ ਸਮਾਨਾਂਤਰ (ਜਾਂ ਪਾਈਪਲਾਈਨ ਸਮਾਨਤਾ) ਦੁਆਰਾ ਸਮਾਨਾਂਤਰ ਵਿੱਚ ਪ੍ਰਕਿਰਿਆ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ।
ਐਕਟੀਵੇਸ਼ਨ ਮੈਮੋਰੀ ਨੂੰ ਅਗਲੇ ਪੜਾਅ 'ਤੇ ਭੇਜਿਆ ਜਾਂਦਾ ਹੈ ਜਦੋਂ ਇੱਕ ਪੜਾਅ ਮਾਈਕ੍ਰੋ-ਬੈਚ ਲਈ ਫਾਰਵਰਡ ਪਾਸ ਨੂੰ ਪੂਰਾ ਕਰਦਾ ਹੈ। ਗਰੇਡੀਐਂਟ ਫਿਰ ਪਿੱਛੇ ਵੱਲ ਭੇਜੇ ਜਾਂਦੇ ਹਨ ਜਦੋਂ ਹੇਠਲਾ ਪੜਾਅ ਇਸ ਦਾ ਪਿਛਲਾ ਪ੍ਰਸਾਰ ਪੂਰਾ ਕਰਦਾ ਹੈ।
PaLM ਬ੍ਰੇਕਥਰੂ ਸਮਰੱਥਾਵਾਂ
PaLM ਮੁਸ਼ਕਲ ਕਾਰਜਾਂ ਦੀ ਇੱਕ ਸੀਮਾ ਵਿੱਚ ਜ਼ਮੀਨ-ਤੋੜ ਯੋਗਤਾਵਾਂ ਨੂੰ ਪ੍ਰਦਰਸ਼ਿਤ ਕਰਦਾ ਹੈ। ਇੱਥੇ ਕਈ ਉਦਾਹਰਣਾਂ ਹਨ:
1. ਭਾਸ਼ਾ ਦੀ ਰਚਨਾ ਅਤੇ ਸਮਝ
PaLM ਨੂੰ ਅੰਗਰੇਜ਼ੀ ਵਿੱਚ 29 ਵੱਖ-ਵੱਖ NLP ਕਾਰਜਾਂ 'ਤੇ ਟੈਸਟ ਕੀਤਾ ਗਿਆ ਸੀ।
ਕੁਝ-ਸ਼ਾਟ ਦੇ ਆਧਾਰ 'ਤੇ, PaLM 540B ਨੇ 3 ਵਿੱਚੋਂ 28 ਕਾਰਜਾਂ ਵਿੱਚ GLaM, GPT-29, Megatron-Turing NLG, Gopher, Chinchilla, ਅਤੇ LaMDA ਵਰਗੇ ਪਿਛਲੇ ਵੱਡੇ ਮਾਡਲਾਂ ਨੂੰ ਪਛਾੜ ਦਿੱਤਾ, ਜਿਸ ਵਿੱਚ ਓਪਨ-ਡੋਮੇਨ ਬੰਦ-ਬੁੱਕ ਵੇਰੀਐਂਟ ਪ੍ਰਸ਼ਨ-ਉੱਤਰ ਕਾਰਜ ਸ਼ਾਮਲ ਹਨ। , ਕਲੋਜ਼ ਅਤੇ ਵਾਕ-ਪੂਰਾ ਕਾਰਜ, ਵਿਨੋਗਰਾਡ-ਸ਼ੈਲੀ ਦੇ ਕਾਰਜ, ਸੰਦਰਭ ਵਿੱਚ ਪੜ੍ਹਨ ਦੀ ਸਮਝ ਦੇ ਕਾਰਜ, ਕਾਮਨ ਸੈਂਸ ਤਰਕ ਕਾਰਜ, ਸੁਪਰਗਲੂ ਟਾਸਕ, ਅਤੇ ਕੁਦਰਤੀ ਅਨੁਮਾਨ।
ਕਈ ਵੱਡੇ-ਬੈਂਚ ਕਾਰਜਾਂ 'ਤੇ, PaLM ਸ਼ਾਨਦਾਰ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਦੀ ਵਿਆਖਿਆ ਅਤੇ ਪੀੜ੍ਹੀ ਦੇ ਹੁਨਰ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ। ਉਦਾਹਰਨ ਲਈ, ਮਾਡਲ ਕਾਰਨ ਅਤੇ ਪ੍ਰਭਾਵ ਵਿਚਕਾਰ ਫਰਕ ਕਰ ਸਕਦਾ ਹੈ, ਕੁਝ ਸਥਿਤੀਆਂ ਵਿੱਚ ਸੰਕਲਪਿਕ ਸੰਜੋਗਾਂ ਨੂੰ ਸਮਝ ਸਕਦਾ ਹੈ, ਅਤੇ ਇਮੋਜੀ ਤੋਂ ਫਿਲਮ ਦਾ ਅੰਦਾਜ਼ਾ ਵੀ ਲਗਾ ਸਕਦਾ ਹੈ। ਭਾਵੇਂ ਕਿ ਸਿਖਲਾਈ ਕਾਰਪਸ ਦਾ ਸਿਰਫ਼ 22% ਗੈਰ-ਅੰਗਰੇਜ਼ੀ ਹੈ, PaLM ਅੰਗਰੇਜ਼ੀ NLP ਕਾਰਜਾਂ ਤੋਂ ਇਲਾਵਾ ਅਨੁਵਾਦ ਸਮੇਤ ਬਹੁ-ਭਾਸ਼ਾਈ NLP ਬੈਂਚਮਾਰਕਾਂ 'ਤੇ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ।
2. ਤਰਕ
PaLM ਮਾਡਲ ਸਾਈਜ਼ ਨੂੰ ਚੇਨ-ਆਫ-ਥੌਟ ਦੇ ਨਾਲ ਮਿਲਾਉਂਦਾ ਹੈ ਜੋ ਕਿ ਬਹੁ-ਕਦਮੀ ਅੰਕਗਣਿਤ ਜਾਂ ਕਾਮਨਸੈਂਸ ਤਰਕ ਦੀ ਲੋੜ ਵਾਲੇ ਤਰਕ ਚੁਣੌਤੀਆਂ 'ਤੇ ਸਫਲਤਾ ਦੇ ਹੁਨਰ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨ ਲਈ ਪ੍ਰੇਰਦਾ ਹੈ।
ਪਿਛਲੇ LLM, ਜਿਵੇਂ ਕਿ ਗੋਫਰ, ਨੂੰ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਵਧਾਉਣ ਦੇ ਮਾਮਲੇ ਵਿੱਚ ਮਾਡਲ ਆਕਾਰ ਤੋਂ ਘੱਟ ਲਾਭ ਹੋਇਆ। ਚੇਨ-ਆਫ-ਥੌਟ ਪ੍ਰੋਂਪਟਿੰਗ ਦੇ ਨਾਲ PaLM 540B ਨੇ ਤਿੰਨ ਅੰਕਗਣਿਤ ਅਤੇ ਦੋ ਕਾਮਨਸੈਂਸ ਸੋਚ ਵਾਲੇ ਡੇਟਾਸੇਟਾਂ 'ਤੇ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ।
PaLM 55% ਦੇ ਪਿਛਲੇ ਸਰਵੋਤਮ ਸਕੋਰ ਨੂੰ ਪਛਾੜਦਾ ਹੈ, ਜੋ GPT-3 175B ਮਾਡਲ ਨੂੰ 7500 ਸਮੱਸਿਆਵਾਂ ਦੇ ਸਿਖਲਾਈ ਸੈੱਟ ਦੇ ਨਾਲ ਫਾਈਨ-ਟਿਊਨ ਕਰਕੇ ਅਤੇ GSM58K ਵਿੱਚ 8 ਪ੍ਰਤੀਸ਼ਤ ਮੁੱਦਿਆਂ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਇੱਕ ਬਾਹਰੀ ਕੈਲਕੁਲੇਟਰ ਅਤੇ ਵੈਰੀਫਾਇਰ ਨਾਲ ਜੋੜ ਕੇ ਪ੍ਰਾਪਤ ਕੀਤਾ ਗਿਆ ਸੀ, ਇੱਕ 8-ਸ਼ਾਟ ਪ੍ਰੋਂਪਟਿੰਗ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਹਜ਼ਾਰਾਂ ਮੁਸ਼ਕਲ ਗ੍ਰੇਡ ਸਕੂਲ ਪੱਧਰ ਦੇ ਗਣਿਤ ਦੇ ਪ੍ਰਸ਼ਨਾਂ ਦਾ ਬੈਂਚਮਾਰਕ।
ਇਹ ਨਵਾਂ ਸਕੋਰ ਵਿਸ਼ੇਸ਼ ਤੌਰ 'ਤੇ ਧਿਆਨ ਦੇਣ ਯੋਗ ਹੈ ਕਿਉਂਕਿ ਇਹ 60-9-ਸਾਲ ਦੇ ਬੱਚਿਆਂ ਦੁਆਰਾ ਅਨੁਭਵ ਕੀਤੀਆਂ ਔਸਤ ਰੁਕਾਵਟਾਂ ਦੇ 12% ਤੱਕ ਪਹੁੰਚਦਾ ਹੈ। ਇਹ ਉਹਨਾਂ ਮੂਲ ਚੁਟਕਲਿਆਂ ਦਾ ਜਵਾਬ ਵੀ ਦੇ ਸਕਦਾ ਹੈ ਜੋ ਇੰਟਰਨੈੱਟ 'ਤੇ ਉਪਲਬਧ ਨਹੀਂ ਹਨ।
3. ਕੋਡ ਜਨਰੇਸ਼ਨ
ਐਲਐਲਐਮ ਨੂੰ ਕੋਡਿੰਗ ਕਾਰਜਾਂ ਵਿੱਚ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨ ਲਈ ਵੀ ਦਿਖਾਇਆ ਗਿਆ ਹੈ, ਜਿਸ ਵਿੱਚ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਦੇ ਵਰਣਨ (ਟੈਕਸਟ-ਟੂ-ਕੋਡ) ਤੋਂ ਕੋਡ ਬਣਾਉਣਾ, ਭਾਸ਼ਾਵਾਂ ਵਿਚਕਾਰ ਕੋਡ ਦਾ ਅਨੁਵਾਦ ਕਰਨਾ, ਅਤੇ ਸੰਕਲਨ ਦੀਆਂ ਗਲਤੀਆਂ ਨੂੰ ਹੱਲ ਕਰਨਾ ਸ਼ਾਮਲ ਹੈ। ਪੂਰਵ-ਸਿਖਲਾਈ ਡੇਟਾਸੈਟ ਵਿੱਚ ਸਿਰਫ 5% ਕੋਡ ਹੋਣ ਦੇ ਬਾਵਜੂਦ, PaLM 540B ਇੱਕ ਸਿੰਗਲ ਮਾਡਲ ਵਿੱਚ ਕੋਡਿੰਗ ਅਤੇ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਦੋਵਾਂ ਕੰਮਾਂ ਵਿੱਚ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ।
ਇਸਦਾ ਕੁਝ-ਸ਼ਾਟ ਪ੍ਰਦਰਸ਼ਨ ਸ਼ਾਨਦਾਰ ਹੈ, ਕਿਉਂਕਿ ਇਹ 12 ਗੁਣਾ ਘੱਟ ਪਾਈਥਨ ਕੋਡ ਨਾਲ ਸਿਖਲਾਈ ਦੇ ਦੌਰਾਨ ਵਧੀਆ-ਟਿਊਨਡ ਕੋਡੈਕਸ 50B ਨਾਲ ਮੇਲ ਖਾਂਦਾ ਹੈ। ਇਹ ਖੋਜ ਪਿਛਲੇ ਖੋਜਾਂ ਦੇ ਨਾਲ ਪਿੱਛੇ ਹਟਦੀ ਹੈ ਕਿ ਵੱਡੇ ਮਾਡਲ ਛੋਟੇ ਮਾਡਲਾਂ ਨਾਲੋਂ ਵਧੇਰੇ ਨਮੂਨਾ ਕੁਸ਼ਲ ਹੋ ਸਕਦੇ ਹਨ ਕਿਉਂਕਿ ਉਹ ਕਈਆਂ ਤੋਂ ਸਿੱਖਣ ਨੂੰ ਵਧੇਰੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਟ੍ਰਾਂਸਫਰ ਕਰ ਸਕਦੇ ਹਨ। ਪ੍ਰੋਗਰਾਮਿੰਗ ਭਾਸ਼ਾਵਾਂ ਅਤੇ ਸਧਾਰਨ ਭਾਸ਼ਾ ਡੇਟਾ।
ਸਿੱਟਾ
PaLM ਇੱਕ ਸੰਘਣੇ ਡੀਕੋਡਰ-ਸਿਰਫ ਟ੍ਰਾਂਸਫਾਰਮਰ ਮਾਡਲ ਦੀ ਇੱਕ ਚੰਗੀ-ਅਧਿਐਨ ਕੀਤੀ, ਚੰਗੀ ਤਰ੍ਹਾਂ ਸਥਾਪਿਤ ਵਿਅੰਜਨ ਦੇ ਨਾਲ ਇੱਕ 4-ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ ਮਾਡਲ ਨੂੰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਸਿਖਲਾਈ ਦੇ ਕੇ ਦੋ TPU v540 ਪੌਡਾਂ ਉੱਤੇ ਹਜ਼ਾਰਾਂ ਐਕਸਲੇਟਰ ਪ੍ਰੋਸੈਸਰਾਂ ਤੱਕ ਸਕੇਲ ਕਰਨ ਲਈ ਪਾਥਵੇਜ਼ ਸਿਸਟਮ ਦੀ ਸਮਰੱਥਾ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ।
ਇਹ ਮਾਡਲ ਪੈਮਾਨੇ ਦੀਆਂ ਸੀਮਾਵਾਂ ਨੂੰ ਅੱਗੇ ਵਧਾ ਕੇ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਦੀ ਪ੍ਰਕਿਰਿਆ, ਤਰਕ ਅਤੇ ਕੋਡਿੰਗ ਚੁਣੌਤੀਆਂ ਦੀ ਇੱਕ ਸੀਮਾ ਵਿੱਚ ਕੁਝ-ਸ਼ਾਟ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ।
ਕੋਈ ਜਵਾਬ ਛੱਡਣਾ