ਡਾਟਾ ਪਲੇਟਫਾਰਮਾਂ ਬਾਰੇ ਸੋਚਦੇ ਸਮੇਂ ਸਾਰੀਆਂ ਉਪਲਬਧ ਸੇਵਾਵਾਂ ਅਤੇ ਆਰਕੀਟੈਕਚਰਲ ਵਿਕਲਪਾਂ 'ਤੇ ਵਿਚਾਰ ਕਰਨਾ ਥੋੜਾ ਮੁਸ਼ਕਲ ਹੋ ਸਕਦਾ ਹੈ।
ਇੱਕ ਐਂਟਰਪ੍ਰਾਈਜ਼ ਡੇਟਾ ਪਲੇਟਫਾਰਮ ਵਿੱਚ ਅਕਸਰ ਡੇਟਾ ਵੇਅਰਹਾਊਸ, ਡੇਟਾ ਮਾਡਲ, ਡੇਟਾ ਝੀਲਾਂ, ਅਤੇ ਰਿਪੋਰਟਾਂ ਸ਼ਾਮਲ ਹੁੰਦੀਆਂ ਹਨ, ਹਰੇਕ ਇੱਕ ਖਾਸ ਉਦੇਸ਼ ਅਤੇ ਲੋੜੀਂਦੇ ਹੁਨਰਾਂ ਦੇ ਸਮੂਹ ਨਾਲ। ਇਸ ਦੇ ਉਲਟ, ਪਿਛਲੇ ਕੁਝ ਸਾਲਾਂ ਦੌਰਾਨ ਡੇਟਾ ਲੇਕਹਾਊਸ ਨਾਮਕ ਇੱਕ ਨਵਾਂ ਡਿਜ਼ਾਈਨ ਸਾਹਮਣੇ ਆਇਆ ਹੈ।
ਡੇਟਾ ਝੀਲਾਂ ਅਤੇ ਡੇਟਾ ਵੇਅਰਹਾਊਸ ਡੇਟਾ ਪ੍ਰਬੰਧਨ ਦੀ ਬਹੁਪੱਖਤਾ ਨੂੰ ਇੱਕ ਕ੍ਰਾਂਤੀਕਾਰੀ ਡੇਟਾ ਸਟੋਰੇਜ ਆਰਕੀਟੈਕਚਰ ਵਿੱਚ ਜੋੜਿਆ ਜਾਂਦਾ ਹੈ ਜਿਸਨੂੰ "ਡੇਟਾ ਲੇਕਹਾਊਸ" ਕਿਹਾ ਜਾਂਦਾ ਹੈ।
ਅਸੀਂ ਇਸ ਪੋਸਟ ਵਿੱਚ ਡੈਟਾ ਲੇਕਹਾਊਸ ਦੀ ਡੂੰਘਾਈ ਨਾਲ ਜਾਂਚ ਕਰਾਂਗੇ, ਇਸਦੇ ਭਾਗਾਂ, ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ, ਆਰਕੀਟੈਕਚਰ ਅਤੇ ਹੋਰ ਪਹਿਲੂਆਂ ਸਮੇਤ।
ਡਾਟਾ ਲੇਕਹਾਊਸ ਕੀ ਹੈ?
ਜਿਵੇਂ ਕਿ ਨਾਮ ਤੋਂ ਭਾਵ ਹੈ, ਇੱਕ ਡੇਟਾ ਲੇਕਹਾਊਸ ਇੱਕ ਨਵੀਂ ਕਿਸਮ ਦਾ ਡੇਟਾ ਆਰਕੀਟੈਕਚਰ ਹੈ ਜੋ ਹਰੇਕ ਦੀਆਂ ਕਮੀਆਂ ਨੂੰ ਵੱਖਰੇ ਤੌਰ 'ਤੇ ਹੱਲ ਕਰਨ ਲਈ ਡੇਟਾ ਵੇਅਰਹਾਊਸ ਦੇ ਨਾਲ ਇੱਕ ਡੇਟਾ ਝੀਲ ਨੂੰ ਜੋੜਦਾ ਹੈ।
ਸੰਖੇਪ ਰੂਪ ਵਿੱਚ, ਲੇਕਹਾਊਸ ਸਿਸਟਮ ਡਾਟਾ ਝੀਲਾਂ ਵਾਂਗ, ਉਹਨਾਂ ਦੇ ਅਸਲ ਰੂਪਾਂ ਵਿੱਚ ਭਾਰੀ ਮਾਤਰਾ ਵਿੱਚ ਡੇਟਾ ਨੂੰ ਕਾਇਮ ਰੱਖਣ ਲਈ ਸਸਤੀ ਸਟੋਰੇਜ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਸਟੋਰ ਦੇ ਸਿਖਰ 'ਤੇ ਮੈਟਾਡੇਟਾ ਪਰਤ ਨੂੰ ਜੋੜਨਾ ਡਾਟਾ ਢਾਂਚਾ ਵੀ ਦਿੰਦਾ ਹੈ ਅਤੇ ਡਾਟਾ ਵੇਅਰਹਾਊਸਾਂ ਵਿੱਚ ਪਾਏ ਜਾਣ ਵਾਲੇ ਡੇਟਾ ਪ੍ਰਬੰਧਨ ਟੂਲਾਂ ਨੂੰ ਸ਼ਕਤੀ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।
ਇਹ ਸੰਗਠਿਤ, ਅਰਧ-ਸੰਰਚਨਾਬੱਧ, ਅਤੇ ਗੈਰ-ਸੰਰਚਨਾ ਵਾਲੇ ਡੇਟਾ ਦੀ ਵਿਸ਼ਾਲ ਮਾਤਰਾ ਨੂੰ ਸਟੋਰ ਕਰਦਾ ਹੈ ਜੋ ਉਹਨਾਂ ਨੂੰ ਉਹਨਾਂ ਦੇ ਸੰਗਠਨ ਵਿੱਚ ਵਰਤੇ ਗਏ ਵੱਖ-ਵੱਖ ਕਾਰੋਬਾਰੀ ਐਪਲੀਕੇਸ਼ਨਾਂ, ਪ੍ਰਣਾਲੀਆਂ ਅਤੇ ਗੈਜੇਟਸ ਤੋਂ ਪ੍ਰਾਪਤ ਹੁੰਦਾ ਹੈ।
ਜ਼ਿਆਦਾਤਰ ਸਮਾਂ, ਡੇਟਾ ਝੀਲਾਂ ਖੁੱਲ੍ਹੇ, ਆਮ ਫਾਈਲ ਫਾਰਮੈਟਾਂ ਵਿੱਚ ਡੇਟਾ ਸਟੋਰ ਕਰਨ ਲਈ ਇੱਕ ਫਾਈਲ ਐਪਲੀਕੇਸ਼ਨ ਪ੍ਰੋਗਰਾਮਿੰਗ ਇੰਟਰਫੇਸ (API) ਦੇ ਨਾਲ ਘੱਟ ਲਾਗਤ ਵਾਲੇ ਸਟੋਰੇਜ ਬੁਨਿਆਦੀ ਢਾਂਚੇ ਦੀ ਵਰਤੋਂ ਕਰਦੀਆਂ ਹਨ।
ਇਹ ਬਹੁਤ ਸਾਰੀਆਂ ਟੀਮਾਂ ਲਈ ਕਈ ਤਰ੍ਹਾਂ ਦੀਆਂ ਪਹਿਲਕਦਮੀਆਂ, ਜਿਵੇਂ ਕਿ ਡੇਟਾ ਸਾਇੰਸ, ਲਈ ਇੱਕ ਸਿਸਟਮ ਦੁਆਰਾ ਕੰਪਨੀ ਦੇ ਸਾਰੇ ਡੇਟਾ ਤੱਕ ਪਹੁੰਚ ਕਰਨਾ ਸੰਭਵ ਬਣਾਉਂਦਾ ਹੈ। ਮਸ਼ੀਨ ਸਿਖਲਾਈ, ਅਤੇ ਕਾਰੋਬਾਰੀ ਖੁਫੀਆ ਜਾਣਕਾਰੀ।
ਫੀਚਰ
- ਘੱਟ ਕੀਮਤ ਵਾਲੀ ਸਟੋਰੇਜ। ਇੱਕ ਡੇਟਾ ਲੇਕਹਾਊਸ ਨੂੰ ਸਸਤੀ ਵਸਤੂ ਸਟੋਰੇਜ ਵਿੱਚ ਡੇਟਾ ਸਟੋਰ ਕਰਨ ਦੇ ਯੋਗ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਗੂਗਲ ਕ੍ਲਾਉਡ ਸਟੋਰੇਜ, ਅਜ਼ੂਰ ਬਲੌਬ ਸਟੋਰੇਜ, ਐਮਾਜ਼ਾਨ ਸਧਾਰਨ ਸਟੋਰੇਜ ਸੇਵਾ, ਜਾਂ ਮੂਲ ਰੂਪ ਵਿੱਚ ORC ਜਾਂ Parquet ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ।
- ਡੇਟਾ ਓਪਟੀਮਾਈਜੇਸ਼ਨ ਲਈ ਸਮਰੱਥਾ: ਡੇਟਾ ਲੇਆਉਟ ਓਪਟੀਮਾਈਜੇਸ਼ਨ, ਕੈਚਿੰਗ ਅਤੇ ਇੰਡੈਕਸਿੰਗ ਕੁਝ ਉਦਾਹਰਣਾਂ ਹਨ ਕਿ ਕਿਵੇਂ ਇੱਕ ਡੇਟਾ ਲੇਕਹਾਊਸ ਡੇਟਾ ਦੇ ਅਸਲ ਫਾਰਮੈਟ ਨੂੰ ਕਾਇਮ ਰੱਖਦੇ ਹੋਏ ਡੇਟਾ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਣ ਦੇ ਯੋਗ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ।
- ਟ੍ਰਾਂਜੈਕਸ਼ਨਲ ਮੈਟਾਡੇਟਾ ਦੀ ਇੱਕ ਪਰਤ: ਜ਼ਰੂਰੀ ਘੱਟ ਲਾਗਤ ਸਟੋਰੇਜ ਦੇ ਸਿਖਰ 'ਤੇ, ਇਹ ਡੇਟਾ ਵੇਅਰਹਾਊਸ ਪ੍ਰਦਰਸ਼ਨ ਲਈ ਮਹੱਤਵਪੂਰਨ ਡੇਟਾ ਪ੍ਰਬੰਧਨ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਸਮਰੱਥ ਬਣਾਉਂਦਾ ਹੈ।
- ਘੋਸ਼ਣਾਤਮਕ ਡੇਟਾਫ੍ਰੇਮ API ਲਈ ਸਮਰਥਨ: ਜ਼ਿਆਦਾਤਰ AI ਟੂਲ ਕੱਚੇ ਆਬਜੈਕਟ ਸਟੋਰ ਡੇਟਾ ਨੂੰ ਮੁੜ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਡੇਟਾਫ੍ਰੇਮ ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੇ ਹਨ। ਘੋਸ਼ਣਾਤਮਕ ਡੇਟਾਫ੍ਰੇਮ API ਲਈ ਸਮਰਥਨ ਖਾਸ ਡੇਟਾ ਵਿਗਿਆਨ ਜਾਂ AI ਟਾਸਕ ਦੇ ਜਵਾਬ ਵਿੱਚ ਡੇਟਾ ਦੀ ਪੇਸ਼ਕਾਰੀ ਅਤੇ ਢਾਂਚੇ ਨੂੰ ਗਤੀਸ਼ੀਲ ਰੂਪ ਵਿੱਚ ਬਿਹਤਰ ਬਣਾਉਣ ਦੀ ਸਮਰੱਥਾ ਨੂੰ ਵਧਾਉਂਦਾ ਹੈ।
- ACID ਟ੍ਰਾਂਜੈਕਸ਼ਨਾਂ ਲਈ ਸਮਰਥਨ: ਸੰਖੇਪ ACID, ਜੋ ਪਰਮਾਣੂ, ਇਕਸਾਰਤਾ, ਅਲੱਗ-ਥਲੱਗਤਾ ਅਤੇ ਟਿਕਾਊਤਾ ਲਈ ਖੜ੍ਹਾ ਹੈ, ਇੱਕ ਲੈਣ-ਦੇਣ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰਨ ਅਤੇ ਡੇਟਾ ਦੀ ਇਕਸਾਰਤਾ ਅਤੇ ਭਰੋਸੇਯੋਗਤਾ ਨੂੰ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਹਿੱਸਾ ਹੈ। ਅਜਿਹੇ ਲੈਣ-ਦੇਣ ਪਹਿਲਾਂ ਸਿਰਫ ਡੇਟਾ ਵੇਅਰਹਾਊਸਾਂ ਵਿੱਚ ਸੰਭਵ ਸਨ, ਪਰ lakehouse ਡਾਟਾ ਝੀਲਾਂ ਨਾਲ ਉਹਨਾਂ ਦੀ ਵਰਤੋਂ ਕਰਨ ਦਾ ਵਿਕਲਪ ਪੇਸ਼ ਕਰਦਾ ਹੈ ਦੇ ਨਾਲ ਨਾਲ. ਕਈ ਡਾਟਾ ਪਾਈਪਲਾਈਨਾਂ ਸਮੇਤ ਸਮਕਾਲੀ ਡੇਟਾ ਰੀਡ ਅਤੇ ਰਾਈਟਸ ਦੇ ਨਾਲ, ਇਹ ਬਾਅਦ ਵਾਲੇ ਡੇਟਾ ਦੀ ਘੱਟ ਗੁਣਵੱਤਾ ਦੀ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰਦਾ ਹੈ।
ਡਾਟਾ ਲੇਕਹਾਊਸ ਦੇ ਤੱਤ
ਡਾਟਾ ਲੇਕਹਾਊਸ ਦੀ ਆਰਕੀਟੈਕਚਰ ਨੂੰ ਉੱਚ ਪੱਧਰ 'ਤੇ ਦੋ ਮੁੱਖ ਪੱਧਰਾਂ ਵਿੱਚ ਵੰਡਿਆ ਗਿਆ ਹੈ। ਸਟੋਰੇਜ਼ ਲੇਅਰ ਦੇ ਡੇਟਾ ਇਨਟੇਕ ਨੂੰ ਲੇਕਹਾਊਸ ਪਲੇਟਫਾਰਮ (ਭਾਵ, ਡੇਟਾ ਲੇਕ) ਦੁਆਰਾ ਨਿਯੰਤਰਿਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।
ਡੇਟਾ ਨੂੰ ਇੱਕ ਡੇਟਾ ਵੇਅਰਹਾਊਸ ਵਿੱਚ ਲੋਡ ਕਰਨ ਜਾਂ ਇਸਨੂੰ ਇੱਕ ਮਲਕੀਅਤ ਫਾਰਮੈਟ ਵਿੱਚ ਬਦਲਣ ਦੀ ਲੋੜ ਤੋਂ ਬਿਨਾਂ, ਪ੍ਰੋਸੈਸਿੰਗ ਲੇਅਰ ਫਿਰ ਸਟੋਰੇਜ ਲੇਅਰ ਵਿੱਚ ਡੇਟਾ ਨੂੰ ਸਿੱਧੇ ਤੌਰ 'ਤੇ ਸਾਧਨਾਂ ਦੀ ਇੱਕ ਰੇਂਜ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਪੁੱਛਗਿੱਛ ਕਰਨ ਦੇ ਯੋਗ ਹੁੰਦੀ ਹੈ।
ਫਿਰ, BI ਐਪਸ, ਨਾਲ ਹੀ AI ਅਤੇ ML ਤਕਨਾਲੋਜੀਆਂ, ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੀਆਂ ਹਨ। ਇੱਕ ਡੇਟਾ ਝੀਲ ਦਾ ਅਰਥ ਸ਼ਾਸਤਰ ਇਸ ਡਿਜ਼ਾਈਨ ਦੁਆਰਾ ਪ੍ਰਦਾਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਪਰ ਕਿਉਂਕਿ ਕੋਈ ਵੀ ਪ੍ਰੋਸੈਸਿੰਗ ਇੰਜਣ ਇਸ ਡੇਟਾ ਨੂੰ ਪੜ੍ਹ ਸਕਦਾ ਹੈ, ਕਾਰੋਬਾਰਾਂ ਕੋਲ ਕਈ ਪ੍ਰਣਾਲੀਆਂ ਦੁਆਰਾ ਵਿਸ਼ਲੇਸ਼ਣ ਲਈ ਤਿਆਰ ਡੇਟਾ ਨੂੰ ਪਹੁੰਚਯੋਗ ਬਣਾਉਣ ਦੀ ਆਜ਼ਾਦੀ ਹੈ। ਪ੍ਰੋਸੈਸਰ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਅਤੇ ਲਾਗਤ ਦੋਵਾਂ ਨੂੰ ਪ੍ਰੋਸੈਸਿੰਗ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ ਲਈ ਇਸ ਵਿਧੀ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਸੁਧਾਰਿਆ ਜਾ ਸਕਦਾ ਹੈ।
ਡੇਟਾਬੇਸ ਟ੍ਰਾਂਜੈਕਸ਼ਨਾਂ ਲਈ ਇਸਦੇ ਸਮਰਥਨ ਦੇ ਕਾਰਨ ਜੋ ਹੇਠਾਂ ਦਿੱਤੇ ACID (ਪਰਮਾਣੂ, ਇਕਸਾਰਤਾ, ਅਲੱਗ-ਥਲੱਗਤਾ, ਅਤੇ ਟਿਕਾਊਤਾ) ਮਾਪਦੰਡਾਂ ਦੀ ਪਾਲਣਾ ਕਰਦੇ ਹਨ, ਆਰਕੀਟੈਕਚਰ ਬਹੁਤ ਸਾਰੀਆਂ ਪਾਰਟੀਆਂ ਨੂੰ ਸਿਸਟਮ ਦੇ ਅੰਦਰ ਇੱਕੋ ਸਮੇਂ ਡੇਟਾ ਤੱਕ ਪਹੁੰਚ ਕਰਨ ਅਤੇ ਲਿਖਣ ਦੇ ਯੋਗ ਬਣਾਉਂਦਾ ਹੈ:
- ਪਰਮਾਣੂ ਇਸ ਤੱਥ ਦਾ ਹਵਾਲਾ ਦਿੰਦਾ ਹੈ ਕਿ ਜਾਂ ਤਾਂ ਪੂਰਾ ਲੈਣ-ਦੇਣ ਜਾਂ ਇਸ ਵਿੱਚੋਂ ਕੋਈ ਵੀ ਨਹੀਂ, ਇੱਕ ਲੈਣ-ਦੇਣ ਨੂੰ ਪੂਰਾ ਕਰਨ ਦੌਰਾਨ ਸਫਲ ਹੁੰਦਾ ਹੈ। ਕਿਸੇ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਵਿਘਨ ਪੈਣ ਦੀ ਸਥਿਤੀ ਵਿੱਚ, ਇਹ ਡੇਟਾ ਦੇ ਨੁਕਸਾਨ ਜਾਂ ਭ੍ਰਿਸ਼ਟਾਚਾਰ ਤੋਂ ਬਚਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ।
- ਇਕਸਾਰਤਾ ਗਾਰੰਟੀ ਦਿੰਦਾ ਹੈ ਕਿ ਲੈਣ-ਦੇਣ ਇੱਕ ਅਨੁਮਾਨਯੋਗ, ਇਕਸਾਰ ਤਰੀਕੇ ਨਾਲ ਹੁੰਦੇ ਹਨ। ਇਹ ਇਹ ਯਕੀਨੀ ਬਣਾ ਕੇ ਡੇਟਾ ਦੀ ਇਕਸਾਰਤਾ ਨੂੰ ਕਾਇਮ ਰੱਖਦਾ ਹੈ ਕਿ ਹਰੇਕ ਡੇਟਾ ਪੂਰਵ-ਨਿਰਧਾਰਤ ਨਿਯਮਾਂ ਦੇ ਅਨੁਸਾਰ ਜਾਇਜ਼ ਹੈ।
- ਇਨਸੂਲੇਸ਼ਨ ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ ਕਿ, ਜਦੋਂ ਤੱਕ ਇਹ ਪੂਰਾ ਨਹੀਂ ਹੋ ਜਾਂਦਾ, ਸਿਸਟਮ ਦੇ ਅੰਦਰ ਕਿਸੇ ਹੋਰ ਲੈਣ-ਦੇਣ ਦੁਆਰਾ ਕੋਈ ਲੈਣ-ਦੇਣ ਪ੍ਰਭਾਵਿਤ ਨਹੀਂ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਇਹ ਬਹੁਤ ਸਾਰੀਆਂ ਪਾਰਟੀਆਂ ਨੂੰ ਇੱਕ ਦੂਜੇ ਨਾਲ ਦਖਲ ਕੀਤੇ ਬਿਨਾਂ ਇੱਕੋ ਸਿਸਟਮ ਤੋਂ ਇੱਕੋ ਸਮੇਂ ਪੜ੍ਹਨ ਅਤੇ ਲਿਖਣ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ।
- ਮਿਆਦ ਗਾਰੰਟੀ ਦਿੰਦਾ ਹੈ ਕਿ ਇੱਕ ਸਿਸਟਮ ਵਿੱਚ ਡੇਟਾ ਵਿੱਚ ਤਬਦੀਲੀਆਂ ਇੱਕ ਟ੍ਰਾਂਜੈਕਸ਼ਨ ਖਤਮ ਹੋਣ ਤੋਂ ਬਾਅਦ ਵੀ ਮੌਜੂਦ ਰਹਿੰਦੀਆਂ ਹਨ, ਭਾਵੇਂ ਸਿਸਟਮ ਅਸਫਲ ਹੋਣ ਦੀ ਸਥਿਤੀ ਵਿੱਚ ਵੀ। ਟ੍ਰਾਂਜੈਕਸ਼ਨ ਦੁਆਰਾ ਕੀਤੇ ਗਏ ਕੋਈ ਵੀ ਬਦਲਾਅ ਹਮੇਸ਼ਾ ਲਈ ਫਾਈਲ 'ਤੇ ਰੱਖੇ ਜਾਂਦੇ ਹਨ।
ਡਾਟਾ ਲੇਕਹਾਊਸ ਆਰਕੀਟੈਕਚਰ
ਡੇਟਾਬ੍ਰਿਕਸ (ਉਨ੍ਹਾਂ ਦੇ ਡੈਲਟਾ ਲੇਕ ਸੰਕਲਪ ਦੇ ਨਵੀਨਤਾਕਾਰੀ ਅਤੇ ਡਿਜ਼ਾਈਨਰ) ਅਤੇ AWS ਇੱਕ ਡੇਟਾ ਲੇਕਹਾਊਸ ਦੀ ਧਾਰਨਾ ਦੇ ਦੋ ਮੁੱਖ ਵਕੀਲ ਹਨ। ਇਸ ਤਰ੍ਹਾਂ ਅਸੀਂ ਝੀਲਾਂ ਦੇ ਆਰਕੀਟੈਕਚਰਲ ਲੇਆਉਟ ਦਾ ਵਰਣਨ ਕਰਨ ਲਈ ਉਨ੍ਹਾਂ ਦੇ ਗਿਆਨ ਅਤੇ ਸੂਝ 'ਤੇ ਭਰੋਸਾ ਕਰਾਂਗੇ।
ਇੱਕ ਡੇਟਾ ਲੇਕਹਾਊਸ ਸਿਸਟਮ ਵਿੱਚ ਆਮ ਤੌਰ 'ਤੇ ਪੰਜ ਪਰਤਾਂ ਹੁੰਦੀਆਂ ਹਨ:
- ਇੰਜੈਸ਼ਨ ਪਰਤ
- ਸਟੋਰੇਜ ਪਰਤ
- ਮੈਟਾਡੇਟਾ ਪਰਤ
- API ਪਰਤ
- ਖਪਤ ਪਰਤ
ਇੰਜੈਸ਼ਨ ਪਰਤ
ਸਿਸਟਮ ਦੀ ਪਹਿਲੀ ਪਰਤ ਵੱਖ-ਵੱਖ ਸਰੋਤਾਂ ਤੋਂ ਡੇਟਾ ਇਕੱਠਾ ਕਰਨ ਅਤੇ ਇਸਨੂੰ ਸਟੋਰੇਜ ਲੇਅਰ ਵਿੱਚ ਭੇਜਣ ਦਾ ਇੰਚਾਰਜ ਹੈ। ਪਰਤ ਕਈ ਅੰਦਰੂਨੀ ਅਤੇ ਬਾਹਰੀ ਸਰੋਤਾਂ ਨਾਲ ਜੁੜਨ ਲਈ ਕਈ ਪ੍ਰੋਟੋਕੋਲ ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੀ ਹੈ, ਜਿਸ ਵਿੱਚ ਬੈਚ ਅਤੇ ਸਟ੍ਰੀਮਿੰਗ ਡੇਟਾ ਪ੍ਰੋਸੈਸਿੰਗ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਜੋੜਨਾ ਸ਼ਾਮਲ ਹੈ, ਜਿਵੇਂ ਕਿ
- NoSQL ਡੇਟਾਬੇਸ,
- ਫਾਈਲ ਸ਼ੇਅਰ
- CRM ਐਪਲੀਕੇਸ਼ਨ,
- ਵੈੱਬਸਾਈਟਾਂ,
- IoT ਸੈਂਸਰ,
- ਸੋਸ਼ਲ ਮੀਡੀਆ,
- ਇੱਕ ਸੇਵਾ ਦੇ ਤੌਰ ਤੇ ਸਾਫਟਵੇਅਰ (SaaS) ਐਪਲੀਕੇਸ਼ਨ, ਅਤੇ
- ਰਿਲੇਸ਼ਨਲ ਡਾਟਾਬੇਸ ਪ੍ਰਬੰਧਨ ਸਿਸਟਮ, ਆਦਿ.
ਇਸ ਸਮੇਂ, RDBMSs ਅਤੇ NoSQL ਡੇਟਾਬੇਸ ਤੋਂ ਡੇਟਾ ਆਯਾਤ ਕਰਨ ਲਈ ਡੇਟਾ ਸਟ੍ਰੀਮਿੰਗ ਲਈ ਅਪਾਚੇ ਕਾਫਕਾ ਅਤੇ ਐਮਾਜ਼ਾਨ ਡੇਟਾ ਮਾਈਗ੍ਰੇਸ਼ਨ ਸਰਵਿਸ (ਐਮਾਜ਼ਾਨ ਡੀਐਮਐਸ) ਵਰਗੇ ਭਾਗਾਂ ਨੂੰ ਨਿਯੁਕਤ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ।
ਸਟੋਰੇਜ ਪਰਤ
ਲੇਕਹਾਊਸ ਆਰਕੀਟੈਕਚਰ ਦਾ ਮਤਲਬ ਸਸਤੇ ਆਬਜੈਕਟ ਸਟੋਰਾਂ, ਜਿਵੇਂ ਕਿ AWS S3 ਵਿੱਚ ਵਸਤੂਆਂ ਦੇ ਰੂਪ ਵਿੱਚ ਵੱਖ-ਵੱਖ ਕਿਸਮਾਂ ਦੇ ਡੇਟਾ ਦੇ ਸਟੋਰੇਜ ਨੂੰ ਸਮਰੱਥ ਬਣਾਉਣ ਲਈ ਹੈ। ਓਪਨ ਫਾਈਲ ਫਾਰਮੈਟਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ, ਕਲਾਇੰਟ ਟੂਲ ਇਹਨਾਂ ਆਈਟਮਾਂ ਨੂੰ ਸਟੋਰ ਤੋਂ ਸਿੱਧਾ ਪੜ੍ਹ ਸਕਦੇ ਹਨ।
ਇਹ ਬਹੁਤ ਸਾਰੇ API ਅਤੇ ਖਪਤ ਲੇਅਰ ਕੰਪੋਨੈਂਟਸ ਲਈ ਇੱਕੋ ਡੇਟਾ ਤੱਕ ਪਹੁੰਚ ਅਤੇ ਵਰਤੋਂ ਕਰਨਾ ਸੰਭਵ ਬਣਾਉਂਦਾ ਹੈ। ਮੈਟਾਡੇਟਾ ਲੇਅਰ ਸਟ੍ਰਕਚਰਡ ਅਤੇ ਅਰਧ-ਸੰਰਚਨਾ ਵਾਲੇ ਡੇਟਾਸੈਟਾਂ ਲਈ ਸਕੀਮਾਂ ਨੂੰ ਸਟੋਰ ਕਰਦੀ ਹੈ ਤਾਂ ਜੋ ਹਿੱਸੇ ਉਹਨਾਂ ਨੂੰ ਡੇਟਾ 'ਤੇ ਲਾਗੂ ਕਰ ਸਕਣ ਜਿਵੇਂ ਉਹ ਇਸਨੂੰ ਪੜ੍ਹਦੇ ਹਨ।
Hadoop ਡਿਸਟ੍ਰੀਬਿਊਟਡ ਫਾਈਲ ਸਿਸਟਮ (HDFS) ਪਲੇਟਫਾਰਮ, ਉਦਾਹਰਨ ਲਈ, ਕਲਾਉਡ ਰਿਪੋਜ਼ਟਰੀ ਸੇਵਾਵਾਂ ਨੂੰ ਬਣਾਉਣ ਲਈ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ ਜੋ ਕੰਪਿਊਟਿੰਗ ਅਤੇ ਸਟੋਰੇਜ ਆਨ-ਪ੍ਰੀਮਿਸਸ ਨੂੰ ਵੰਡਦਾ ਹੈ। ਲੇਕਹਾਊਸ ਇਹਨਾਂ ਸੇਵਾਵਾਂ ਲਈ ਆਦਰਸ਼ ਰੂਪ ਵਿੱਚ ਅਨੁਕੂਲ ਹੈ।
ਮੈਟਾਡੇਟਾ ਪਰਤ
ਮੈਟਾਡੇਟਾ ਪਰਤ ਇੱਕ ਡੇਟਾ ਲੇਕਹਾਊਸ ਦਾ ਬੁਨਿਆਦੀ ਹਿੱਸਾ ਹੈ ਜੋ ਇਸ ਡਿਜ਼ਾਈਨ ਨੂੰ ਵੱਖਰਾ ਕਰਦਾ ਹੈ। ਇਹ ਇੱਕ ਸਿੰਗਲ ਕੈਟਾਲਾਗ ਹੈ ਜੋ ਝੀਲ ਵਿੱਚ ਸਟੋਰ ਕੀਤੀਆਂ ਸਾਰੀਆਂ ਚੀਜ਼ਾਂ ਲਈ ਮੈਟਾਡੇਟਾ (ਦੂਜੇ ਡੇਟਾ ਦੇ ਟੁਕੜਿਆਂ ਬਾਰੇ ਜਾਣਕਾਰੀ) ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਦਾ ਹੈ ਅਤੇ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਪ੍ਰਸ਼ਾਸਨ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਰੁਜ਼ਗਾਰ ਦੇਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ ਜਿਵੇਂ ਕਿ:
- ਏਸੀਆਈਡੀ ਟ੍ਰਾਂਜੈਕਸ਼ਨਾਂ ਦੇ ਕਾਰਨ ਸਮਕਾਲੀ ਟ੍ਰਾਂਜੈਕਸ਼ਨਾਂ ਦੁਆਰਾ ਡੇਟਾਬੇਸ ਦਾ ਇਕਸਾਰ ਸੰਸਕਰਣ ਦੇਖਿਆ ਜਾਂਦਾ ਹੈ;
- ਕਲਾਉਡ ਆਬਜੈਕਟ ਸਟੋਰ ਫਾਈਲਾਂ ਨੂੰ ਸੁਰੱਖਿਅਤ ਕਰਨ ਲਈ ਕੈਸ਼ਿੰਗ;
- ਪੁੱਛਗਿੱਛ ਪ੍ਰੋਸੈਸਿੰਗ ਨੂੰ ਤੇਜ਼ ਕਰਨ ਲਈ ਇੰਡੈਕਸਿੰਗ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਡਾਟਾ ਬਣਤਰ ਸੂਚਕਾਂਕ ਜੋੜਨਾ;
- ਡੁਪਲੀਕੇਟ ਡਾਟਾ ਆਬਜੈਕਟ ਲਈ ਜ਼ੀਰੋ-ਕਾਪੀ ਕਲੋਨਿੰਗ ਦੀ ਵਰਤੋਂ ਕਰਨਾ; ਅਤੇ
- ਡੇਟਾ ਦੇ ਕੁਝ ਸੰਸਕਰਣਾਂ ਨੂੰ ਸਟੋਰ ਕਰਨ ਲਈ, ਆਦਿ, ਡੇਟਾ ਸੰਸਕਰਣ ਦੀ ਵਰਤੋਂ ਕਰੋ।
ਇਸ ਤੋਂ ਇਲਾਵਾ, ਮੈਟਾਡੇਟਾ ਲੇਅਰ ਸਕੀਮਾ ਪ੍ਰਬੰਧਨ ਨੂੰ ਲਾਗੂ ਕਰਨ, ਸਟਾਰ/ਸਨੋਫਲੇਕ ਸਕੀਮਾ ਵਰਗੀਆਂ DW ਸਕੀਮਾ ਟੋਪੋਲੋਜੀਜ਼ ਦੀ ਵਰਤੋਂ, ਅਤੇ ਡਾਟਾ ਲੇਕ 'ਤੇ ਸਿੱਧੇ ਤੌਰ 'ਤੇ ਡਾਟਾ ਗਵਰਨੈਂਸ ਅਤੇ ਆਡਿਟਿੰਗ ਸਮਰੱਥਾ ਦੇ ਪ੍ਰਬੰਧ ਨੂੰ ਸਮਰੱਥ ਬਣਾਉਂਦੀ ਹੈ, ਪੂਰੀ ਡਾਟਾ ਪਾਈਪਲਾਈਨ ਦੀ ਇਕਸਾਰਤਾ ਨੂੰ ਵਧਾਉਂਦੀ ਹੈ।
ਸਕੀਮਾ ਵਿਕਾਸ ਅਤੇ ਲਾਗੂ ਕਰਨ ਦੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਸਕੀਮਾ ਪ੍ਰਬੰਧਨ ਵਿੱਚ ਸ਼ਾਮਲ ਕੀਤੀਆਂ ਗਈਆਂ ਹਨ। ਕਿਸੇ ਵੀ ਲਿਖਤ ਨੂੰ ਅਸਵੀਕਾਰ ਕਰਕੇ ਜੋ ਟੇਬਲ ਦੀ ਸਕੀਮਾ ਨੂੰ ਪੂਰਾ ਨਹੀਂ ਕਰਦੇ, ਸਕੀਮਾ ਲਾਗੂ ਕਰਨ ਨਾਲ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਡੇਟਾ ਦੀ ਇਕਸਾਰਤਾ ਅਤੇ ਗੁਣਵੱਤਾ ਬਰਕਰਾਰ ਰੱਖਣ ਦੇ ਯੋਗ ਬਣਾਉਂਦਾ ਹੈ।
ਸਕੀਮਾ ਵਿਕਾਸ ਸਾਰਣੀ ਦੀ ਮੌਜੂਦਾ ਸਕੀਮਾ ਨੂੰ ਬਦਲਣ ਵਾਲੇ ਡੇਟਾ ਨੂੰ ਅਨੁਕੂਲ ਕਰਨ ਲਈ ਸੋਧਣ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ। ਡੇਟਾ ਲੇਕ ਦੇ ਸਿਖਰ 'ਤੇ ਇੱਕ ਸਿੰਗਲ ਪ੍ਰਸ਼ਾਸਨ ਇੰਟਰਫੇਸ ਦੇ ਕਾਰਨ, ਪਹੁੰਚ ਨਿਯੰਤਰਣ ਅਤੇ ਆਡਿਟਿੰਗ ਸੰਭਾਵਨਾਵਾਂ ਵੀ ਹਨ.
API ਪਰਤ
ਆਰਕੀਟੈਕਚਰ ਦੀ ਇੱਕ ਹੋਰ ਮਹੱਤਵਪੂਰਨ ਪਰਤ ਹੁਣ ਮੌਜੂਦ ਹੈ, ਬਹੁਤ ਸਾਰੇ API ਦੀ ਮੇਜ਼ਬਾਨੀ ਕਰ ਰਹੀ ਹੈ ਜਿਸਦੀ ਵਰਤੋਂ ਸਾਰੇ ਅੰਤਮ ਉਪਭੋਗਤਾ ਨੌਕਰੀਆਂ ਨੂੰ ਹੋਰ ਤੇਜ਼ੀ ਨਾਲ ਕਰਨ ਅਤੇ ਵਧੇਰੇ ਵਧੀਆ ਅੰਕੜੇ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਕਰ ਸਕਦੇ ਹਨ।
ਮੈਟਾਡੇਟਾ APIs ਦੀ ਵਰਤੋਂ ਕਿਸੇ ਦਿੱਤੇ ਐਪਲੀਕੇਸ਼ਨ ਲਈ ਲੋੜੀਂਦੀਆਂ ਡੇਟਾ ਆਈਟਮਾਂ ਦੀ ਪਛਾਣ ਕਰਨਾ ਅਤੇ ਉਹਨਾਂ ਤੱਕ ਪਹੁੰਚ ਕਰਨਾ ਆਸਾਨ ਬਣਾਉਂਦੀ ਹੈ।
ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਲਾਇਬ੍ਰੇਰੀਆਂ ਦੇ ਸੰਦਰਭ ਵਿੱਚ, ਉਹਨਾਂ ਵਿੱਚੋਂ ਕੁਝ, ਜਿਵੇਂ ਕਿ ਟੈਂਸਰਫਲੋ ਅਤੇ ਸਪਾਰਕ ਐਮਐਲਲਿਬ, ਓਪਨ ਫਾਈਲ ਫਾਰਮੈਟ ਜਿਵੇਂ ਕਿ Parquet ਪੜ੍ਹ ਸਕਦੇ ਹਨ ਅਤੇ ਮੈਟਾਡੇਟਾ ਲੇਅਰ ਤੱਕ ਸਿੱਧੇ ਪਹੁੰਚ ਕਰ ਸਕਦੇ ਹਨ।
ਉਸੇ ਸਮੇਂ, DataFrame APIs ਓਪਟੀਮਾਈਜੇਸ਼ਨ ਲਈ ਵਧੇਰੇ ਮੌਕੇ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ, ਪ੍ਰੋਗਰਾਮਰਾਂ ਨੂੰ ਖਿੰਡੇ ਹੋਏ ਡੇਟਾ ਨੂੰ ਸੰਗਠਿਤ ਕਰਨ ਅਤੇ ਬਦਲਣ ਦੇ ਯੋਗ ਬਣਾਉਂਦੇ ਹਨ।
ਖਪਤ ਪਰਤ
ਪਾਵਰ BI, ਝਾਂਕੀ, ਅਤੇ ਹੋਰ ਟੂਲ ਅਤੇ ਐਪਸ ਖਪਤ ਪਰਤ ਦੇ ਅਧੀਨ ਹੋਸਟ ਕੀਤੇ ਗਏ ਹਨ। ਲੇਕਹਾਊਸ ਡਿਜ਼ਾਈਨ ਦੇ ਨਾਲ, ਸਾਰਾ ਮੈਟਾਡੇਟਾ ਅਤੇ ਝੀਲ ਵਿੱਚ ਰੱਖਿਆ ਗਿਆ ਸਾਰਾ ਡਾਟਾ ਕਲਾਇੰਟ ਐਪਸ ਲਈ ਪਹੁੰਚਯੋਗ ਹੈ।
ਲੇਕਹਾਊਸ ਦੀ ਵਰਤੋਂ ਕੰਪਨੀ ਦੇ ਅੰਦਰ ਸਾਰੇ ਉਪਭੋਗਤਾਵਾਂ ਦੁਆਰਾ ਹਰ ਕਿਸਮ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਲਈ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ ਵਿਸ਼ਲੇਸ਼ਣ ਕਾਰਜ, ਜਿਸ ਵਿੱਚ ਬਿਜ਼ਨਸ ਇੰਟੈਲੀਜੈਂਸ ਡੈਸ਼ਬੋਰਡ ਬਣਾਉਣਾ ਅਤੇ SQL ਪੁੱਛਗਿੱਛਾਂ ਅਤੇ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਕਾਰਜਾਂ ਨੂੰ ਚਲਾਉਣਾ ਸ਼ਾਮਲ ਹੈ।
ਡਾਟਾ ਲੇਕਹਾਊਸ ਦੇ ਫਾਇਦੇ
ਸੰਸਥਾਵਾਂ ਆਪਣੇ ਮੌਜੂਦਾ ਡੇਟਾ ਪਲੇਟਫਾਰਮ ਨੂੰ ਇਕਜੁੱਟ ਕਰਨ ਅਤੇ ਆਪਣੀ ਪੂਰੀ ਡੇਟਾ ਪ੍ਰਬੰਧਨ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਣ ਲਈ ਇੱਕ ਡੇਟਾ ਲੇਕਹਾਊਸ ਬਣਾ ਸਕਦੀਆਂ ਹਨ। ਵੱਖ-ਵੱਖ ਸਰੋਤਾਂ ਨੂੰ ਜੋੜਨ ਵਾਲੀਆਂ ਸਿਲੋ ਰੁਕਾਵਟਾਂ ਨੂੰ ਖਤਮ ਕਰਕੇ, ਇੱਕ ਡੇਟਾ ਲੇਕਹਾਊਸ ਵੱਖਰੇ ਹੱਲਾਂ ਦੀ ਜ਼ਰੂਰਤ ਨੂੰ ਬਦਲ ਸਕਦਾ ਹੈ।
ਕਿਉਰੇਟ ਕੀਤੇ ਡੇਟਾ ਸਰੋਤਾਂ ਦੀ ਤੁਲਨਾ ਵਿੱਚ, ਇਹ ਏਕੀਕਰਣ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਤੌਰ 'ਤੇ ਵਧੇਰੇ ਪ੍ਰਭਾਵੀ ਅੰਤ-ਤੋਂ-ਅੰਤ ਪ੍ਰਕਿਰਿਆ ਪੈਦਾ ਕਰਦਾ ਹੈ। ਇਸ ਦੇ ਕਈ ਫਾਇਦੇ ਹਨ:
- ਘੱਟ ਪ੍ਰਸ਼ਾਸਨ: ਕੱਚੇ ਡੇਟਾ ਤੋਂ ਡੇਟਾ ਐਕਸਟਰੈਕਟ ਕਰਨ ਅਤੇ ਇਸਨੂੰ ਡੇਟਾ ਵੇਅਰਹਾਊਸ ਦੇ ਅੰਦਰ ਵਰਤੋਂ ਲਈ ਤਿਆਰ ਕਰਨ ਦੀ ਬਜਾਏ, ਇੱਕ ਡੇਟਾ ਲੇਕਹਾਊਸ ਇਸ ਨਾਲ ਜੁੜੇ ਕਿਸੇ ਵੀ ਸਰੋਤ ਨੂੰ ਉਹਨਾਂ ਦਾ ਡੇਟਾ ਉਪਲਬਧ ਅਤੇ ਉਪਯੋਗਤਾ ਲਈ ਸੰਗਠਿਤ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ।
- ਵਧੀ ਹੋਈ ਲਾਗਤ-ਪ੍ਰਭਾਵਸ਼ਾਲੀ: ਡਾਟਾ ਲੇਕਹਾਊਸ ਸਮਕਾਲੀ ਬੁਨਿਆਦੀ ਢਾਂਚੇ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਬਣਾਏ ਜਾਂਦੇ ਹਨ ਜੋ ਗਣਨਾ ਅਤੇ ਸਟੋਰੇਜ ਨੂੰ ਵੰਡਦੇ ਹਨ, ਜਿਸ ਨਾਲ ਗਣਨਾ ਸ਼ਕਤੀ ਨੂੰ ਵਧਾਏ ਬਿਨਾਂ ਸਟੋਰੇਜ ਨੂੰ ਵਧਾਉਣਾ ਆਸਾਨ ਹੋ ਜਾਂਦਾ ਹੈ। ਸਿਰਫ਼ ਸਸਤੇ ਡੇਟਾ ਸਟੋਰੇਜ ਦੀ ਵਰਤੋਂ ਦੇ ਨਤੀਜੇ ਵਜੋਂ ਸਕੇਲੇਬਿਲਟੀ ਜੋ ਕਿ ਲਾਗਤ-ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੈ।
- ਬਿਹਤਰ ਡਾਟਾ ਗਵਰਨੈਂਸ: ਡਾਟਾ ਲੇਕਹਾਊਸ ਮਿਆਰੀ ਓਪਨ ਆਰਕੀਟੈਕਚਰ ਨਾਲ ਬਣਾਏ ਗਏ ਹਨ, ਸੁਰੱਖਿਆ, ਮੈਟ੍ਰਿਕਸ, ਰੋਲ-ਅਧਾਰਿਤ ਪਹੁੰਚ, ਅਤੇ ਹੋਰ ਮਹੱਤਵਪੂਰਨ ਪ੍ਰਬੰਧਨ ਭਾਗਾਂ 'ਤੇ ਵਧੇਰੇ ਨਿਯੰਤਰਣ ਦੀ ਆਗਿਆ ਦਿੰਦੇ ਹੋਏ। ਸਰੋਤਾਂ ਅਤੇ ਡੇਟਾ ਸਰੋਤਾਂ ਨੂੰ ਇਕਜੁੱਟ ਕਰਕੇ, ਉਹ ਸ਼ਾਸਨ ਨੂੰ ਸਰਲ ਅਤੇ ਵਧਾਉਂਦੇ ਹਨ।
- ਸਰਲ ਮਾਪਦੰਡ: ਕਿਉਂਕਿ 1980 ਦੇ ਦਹਾਕੇ ਵਿੱਚ ਕੁਨੈਕਸ਼ਨ ਬਹੁਤ ਜ਼ਿਆਦਾ ਸੀਮਤ ਸੀ, ਜਦੋਂ ਡੇਟਾ ਵੇਅਰਹਾਊਸ ਪਹਿਲੀ ਵਾਰ ਵਿਕਸਤ ਕੀਤੇ ਗਏ ਸਨ, ਸਥਾਨਕ ਸਕੀਮਾ ਮਿਆਰ ਅਕਸਰ ਕਾਰੋਬਾਰਾਂ, ਇੱਥੋਂ ਤੱਕ ਕਿ ਵਿਭਾਗਾਂ ਵਿੱਚ ਵੀ ਵਿਕਸਤ ਕੀਤੇ ਜਾਂਦੇ ਸਨ। ਡੇਟਾ ਲੇਕਹਾਊਸ ਇਸ ਤੱਥ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ ਕਿ ਪ੍ਰਕਿਰਿਆਵਾਂ ਨੂੰ ਸੁਚਾਰੂ ਬਣਾਉਣ ਲਈ ਓਵਰਲੈਪਿੰਗ ਯੂਨੀਫਾਰਮ ਸਕੀਮਾ ਦੇ ਨਾਲ ਬਹੁਤ ਸਾਰੇ ਡੇਟਾ ਸਰੋਤਾਂ ਨੂੰ ਗ੍ਰਹਿਣ ਕਰਕੇ ਕਈ ਕਿਸਮਾਂ ਦੇ ਡੇਟਾ ਵਿੱਚ ਹੁਣ ਸਕੀਮਾ ਲਈ ਖੁੱਲੇ ਮਾਪਦੰਡ ਹਨ।
ਡਾਟਾ ਲੇਕਹਾਊਸ ਦੇ ਨੁਕਸਾਨ
ਡੇਟਾ ਲੇਕਹਾਊਸਾਂ ਦੇ ਆਲੇ ਦੁਆਲੇ ਦੇ ਸਾਰੇ ਹੂਪਲਾ ਦੇ ਬਾਵਜੂਦ, ਇਹ ਧਿਆਨ ਵਿੱਚ ਰੱਖਣਾ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿ ਇਹ ਵਿਚਾਰ ਅਜੇ ਵੀ ਬਹੁਤ ਨਵਾਂ ਹੈ। ਇਸ ਨਵੇਂ ਡਿਜ਼ਾਈਨ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਨਾਲ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਨੁਕਸਾਨਾਂ ਨੂੰ ਤੋਲਣਾ ਯਕੀਨੀ ਬਣਾਓ।
- ਮੋਨੋਲਿਥਿਕ ਬਣਤਰ: ਇੱਕ ਝੀਲ ਦਾ ਸਭ-ਸੰਮਿਲਿਤ ਡਿਜ਼ਾਈਨ ਕਈ ਫਾਇਦੇ ਪੇਸ਼ ਕਰਦਾ ਹੈ, ਪਰ ਇਹ ਕੁਝ ਸਮੱਸਿਆਵਾਂ ਵੀ ਪੈਦਾ ਕਰਦਾ ਹੈ। ਮੋਨੋਲਿਥਿਕ ਆਰਕੀਟੈਕਚਰ ਅਕਸਰ ਸਾਰੇ ਉਪਭੋਗਤਾਵਾਂ ਲਈ ਮਾੜੀ ਸੇਵਾ ਵੱਲ ਲੈ ਜਾਂਦਾ ਹੈ ਅਤੇ ਸਖ਼ਤ ਅਤੇ ਕਾਇਮ ਰੱਖਣਾ ਮੁਸ਼ਕਲ ਹੋ ਸਕਦਾ ਹੈ। ਆਮ ਤੌਰ 'ਤੇ, ਆਰਕੀਟੈਕਟ ਅਤੇ ਡਿਜ਼ਾਈਨਰ ਵਧੇਰੇ ਮਾਡਯੂਲਰ ਆਰਕੀਟੈਕਚਰ ਨੂੰ ਪਸੰਦ ਕਰਦੇ ਹਨ ਜਿਸ ਨੂੰ ਉਹ ਵੱਖ-ਵੱਖ ਵਰਤੋਂ ਦੇ ਮਾਮਲਿਆਂ ਲਈ ਅਨੁਕੂਲਿਤ ਕਰ ਸਕਦੇ ਹਨ।
- ਤਕਨਾਲੋਜੀ ਅਜੇ ਪੂਰੀ ਤਰ੍ਹਾਂ ਨਹੀਂ ਹੈ: ਅੰਤਮ ਟੀਚਾ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਅਤੇ ਨਕਲੀ ਬੁੱਧੀ ਦੀ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਮਾਤਰਾ ਨੂੰ ਸ਼ਾਮਲ ਕਰਦਾ ਹੈ। ਇਸ ਤੋਂ ਪਹਿਲਾਂ ਕਿ ਲੇਕਹਾਊਸ ਕਲਪਨਾ ਦੇ ਅਨੁਸਾਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰ ਸਕਣ, ਇਹਨਾਂ ਤਕਨਾਲੋਜੀਆਂ ਨੂੰ ਹੋਰ ਵਿਕਸਤ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ।
- ਮੌਜੂਦਾ ਢਾਂਚਿਆਂ ਨਾਲੋਂ ਕੋਈ ਮਹੱਤਵਪੂਰਨ ਤਰੱਕੀ ਨਹੀਂ ਹੈ: ਇਸ ਗੱਲ 'ਤੇ ਅਜੇ ਵੀ ਕਾਫ਼ੀ ਸੰਦੇਹ ਹੈ ਕਿ ਝੀਲਾਂ ਦੇ ਘਰ ਅਸਲ ਵਿੱਚ ਕਿੰਨਾ ਯੋਗਦਾਨ ਪਾਉਣਗੇ। ਕੁਝ ਵਿਰੋਧੀ ਦਲੀਲ ਦਿੰਦੇ ਹਨ ਕਿ ਢੁਕਵੇਂ ਆਟੋਮੇਟਿਡ ਉਪਕਰਨਾਂ ਨਾਲ ਜੋੜਿਆ ਗਿਆ ਇੱਕ ਝੀਲ-ਵੇਅਰਹਾਊਸ ਡਿਜ਼ਾਈਨ ਤੁਲਨਾਤਮਕ ਕੁਸ਼ਲਤਾ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦਾ ਹੈ।
ਡਾਟਾ ਲੇਕਹਾਊਸ ਦੀਆਂ ਚੁਣੌਤੀਆਂ
ਡਾਟਾ ਲੇਕਹਾਊਸ ਤਕਨੀਕ ਨੂੰ ਅਪਣਾਉਣਾ ਮੁਸ਼ਕਲ ਹੋ ਸਕਦਾ ਹੈ। ਇਸਦੇ ਕੰਪੋਨੈਂਟ ਟੁਕੜਿਆਂ ਦੀ ਗੁੰਝਲਦਾਰਤਾ ਦੇ ਕਾਰਨ, ਡੇਟਾ ਲੇਕਹਾਊਸ ਨੂੰ ਇੱਕ ਸਰਬ-ਸਮਰੱਥ ਆਦਰਸ਼ ਢਾਂਚੇ ਜਾਂ "ਹਰ ਚੀਜ਼ ਲਈ ਇੱਕ ਪਲੇਟਫਾਰਮ" ਦੇ ਰੂਪ ਵਿੱਚ ਦੇਖਣਾ ਗਲਤ ਹੈ।
ਇਸ ਤੋਂ ਇਲਾਵਾ, ਡੇਟਾ ਝੀਲਾਂ ਦੀ ਵੱਧ ਰਹੀ ਗੋਦ ਲੈਣ ਦੇ ਕਾਰਨ, ਕਾਰੋਬਾਰਾਂ ਨੂੰ ਆਪਣੇ ਮੌਜੂਦਾ ਡੇਟਾ ਵੇਅਰਹਾਉਸਾਂ ਨੂੰ ਉਹਨਾਂ ਵਿੱਚ ਤਬਦੀਲ ਕਰਨਾ ਪਏਗਾ, ਸਿਰਫ ਸਫਲਤਾ ਦੇ ਵਾਅਦੇ 'ਤੇ ਨਿਰਭਰ ਕਰਦਿਆਂ, ਬਿਨਾਂ ਕਿਸੇ ਪ੍ਰਦਰਸ਼ਿਤ ਆਰਥਿਕ ਲਾਭ ਦੇ.
ਜੇਕਰ ਟ੍ਰਾਂਸਫਰ ਪ੍ਰਕਿਰਿਆ ਦੌਰਾਨ ਕੋਈ ਲੇਟੈਂਸੀ ਸਮੱਸਿਆਵਾਂ ਜਾਂ ਆਊਟੇਜ ਹਨ, ਤਾਂ ਇਹ ਮਹਿੰਗਾ, ਸਮਾਂ ਬਰਬਾਦ ਕਰਨ ਵਾਲਾ, ਅਤੇ ਸ਼ਾਇਦ ਅਸੁਰੱਖਿਅਤ ਹੋ ਸਕਦਾ ਹੈ।
ਕੁਝ ਵਿਕਰੇਤਾਵਾਂ ਦੇ ਅਨੁਸਾਰ, ਵਪਾਰਕ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਉੱਚ ਵਿਸ਼ੇਸ਼ ਤਕਨੀਕਾਂ ਨੂੰ ਅਪਣਾਉਣਾ ਚਾਹੀਦਾ ਹੈ ਜੋ ਡੇਟਾ ਲੇਕਹਾਊਸ ਦੇ ਰੂਪ ਵਿੱਚ ਸਪਸ਼ਟ ਜਾਂ ਸਪਸ਼ਟ ਤੌਰ 'ਤੇ ਮਾਰਕੀਟ ਹੱਲ ਕਰਦੇ ਹਨ। ਇਹ ਸਮੱਸਿਆ ਨੂੰ ਜੋੜਦੇ ਹੋਏ, ਸਿਸਟਮ ਦੇ ਕੇਂਦਰ ਵਿੱਚ ਡੇਟਾ ਲੇਕ ਨਾਲ ਜੁੜੇ ਹੋਰ ਸਾਧਨਾਂ ਨਾਲ ਹਮੇਸ਼ਾ ਕੰਮ ਨਹੀਂ ਕਰ ਸਕਦੇ ਹਨ।
ਇਸ ਤੋਂ ਇਲਾਵਾ, ਕਾਰੋਬਾਰੀ-ਨਾਜ਼ੁਕ ਵਰਕਲੋਡਾਂ ਨੂੰ ਚਲਾਉਂਦੇ ਹੋਏ 24/7 ਵਿਸ਼ਲੇਸ਼ਣ ਦੀ ਸਪਲਾਈ ਕਰਨਾ ਮੁਸ਼ਕਲ ਹੋ ਸਕਦਾ ਹੈ, ਜੋ ਲਾਗਤ-ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਸਕੇਲੇਬਿਲਟੀ ਵਾਲੇ ਬੁਨਿਆਦੀ ਢਾਂਚੇ ਦੀ ਮੰਗ ਕਰਦਾ ਹੈ।
ਸਿੱਟਾ
ਹਾਲ ਹੀ ਦੇ ਸਾਲਾਂ ਵਿੱਚ ਡਾਟਾ ਸੈਂਟਰਾਂ ਦੀ ਸਭ ਤੋਂ ਨਵੀਂ ਕਿਸਮ ਡਾਟਾ ਲੇਕਹਾਊਸ ਹੈ. ਇਹ ਕਈ ਤਰ੍ਹਾਂ ਦੇ ਖੇਤਰਾਂ ਨੂੰ ਏਕੀਕ੍ਰਿਤ ਕਰਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਸੂਚਨਾ ਤਕਨਾਲੋਜੀ, ਓਪਨ-ਸੋਰਸ ਸੌਫਟਵੇਅਰ, ਬੱਦਲ ਕੰਪਿਊਟਿੰਗ, ਅਤੇ ਵੰਡੇ ਸਟੋਰੇਜ ਪ੍ਰੋਟੋਕੋਲ।
ਇਹ ਕਾਰੋਬਾਰਾਂ ਨੂੰ ਕਿਸੇ ਵੀ ਸਥਾਨ ਤੋਂ ਸਾਰੇ ਡੇਟਾ ਕਿਸਮਾਂ ਨੂੰ ਕੇਂਦਰੀ ਤੌਰ 'ਤੇ ਸਟੋਰ ਕਰਨ ਦੇ ਯੋਗ ਬਣਾਉਂਦਾ ਹੈ, ਪ੍ਰਬੰਧਨ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ ਨੂੰ ਸਰਲ ਬਣਾਉਂਦਾ ਹੈ। ਡੇਟਾ ਲੇਕਹਾਊਸ ਇੱਕ ਬਹੁਤ ਹੀ ਦਿਲਚਸਪ ਸੰਕਲਪ ਹੈ.
ਕਿਸੇ ਵੀ ਫਰਮ ਕੋਲ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਪ੍ਰਤੀਯੋਗੀ ਕਿਨਾਰਾ ਹੁੰਦਾ ਹੈ ਜੇਕਰ ਉਸ ਕੋਲ ਇੱਕ ਆਲ-ਇਨ-ਵਨ ਡੇਟਾ ਪਲੇਟਫਾਰਮ ਤੱਕ ਪਹੁੰਚ ਹੁੰਦੀ ਹੈ ਜੋ ਇੱਕ ਡੇਟਾ ਵੇਅਰਹਾਊਸ ਜਿੰਨਾ ਤੇਜ਼ ਅਤੇ ਕੁਸ਼ਲ ਸੀ ਜਦੋਂ ਕਿ ਇੱਕ ਡੇਟਾ ਝੀਲ ਵਾਂਗ ਲਚਕਦਾਰ ਵੀ ਹੁੰਦਾ ਹੈ।
ਇਹ ਵਿਚਾਰ ਅਜੇ ਵੀ ਵਿਕਸਤ ਹੋ ਰਿਹਾ ਹੈ ਅਤੇ ਮੁਕਾਬਲਤਨ ਨਵਾਂ ਬਣਿਆ ਹੋਇਆ ਹੈ। ਨਤੀਜੇ ਵਜੋਂ, ਇਹ ਨਿਰਧਾਰਤ ਕਰਨ ਵਿੱਚ ਕੁਝ ਸਮਾਂ ਲੱਗ ਸਕਦਾ ਹੈ ਕਿ ਕੋਈ ਚੀਜ਼ ਵਿਆਪਕ ਹੋ ਸਕਦੀ ਹੈ ਜਾਂ ਨਹੀਂ।
ਸਾਨੂੰ ਸਾਰਿਆਂ ਨੂੰ ਉਸ ਦਿਸ਼ਾ ਬਾਰੇ ਉਤਸੁਕ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ ਜਿਸ ਵੱਲ ਲੇਕਹਾਊਸ ਆਰਕੀਟੈਕਚਰ ਜਾ ਰਿਹਾ ਹੈ।
ਕੋਈ ਜਵਾਬ ਛੱਡਣਾ