डेटा प्लेटफ़ॉर्म के बारे में सोचते समय सभी उपलब्ध सेवाओं और वास्तुशिल्प विकल्पों पर विचार करना थोड़ा मुश्किल हो सकता है।
एक एंटरप्राइज़ डेटा प्लेटफ़ॉर्म में अक्सर डेटा वेयरहाउस, डेटा मॉडल, डेटा लेक और रिपोर्ट होते हैं, प्रत्येक का एक विशिष्ट उद्देश्य और आवश्यक कौशल का सेट होता है। इसके विपरीत, पिछले कुछ वर्षों के दौरान डेटा लेकहाउस नामक एक नया डिज़ाइन सामने आया है।
डेटा लेक और डेटा वेयरहाउस डेटा प्रबंधन की बहुमुखी प्रतिभा को एक क्रांतिकारी डेटा स्टोरेज आर्किटेक्चर में संयोजित किया गया है जिसे "डेटा लेकहाउस" कहा जाता है।
हम इस पोस्ट में डेटा लेकहाउस की गहराई से जांच करेंगे, जिसमें इसके घटक, विशेषताएं, वास्तुकला और अन्य पहलू शामिल हैं।
डेटा लेकहाउस क्या है?
जैसा कि नाम से पता चलता है, डेटा लेकहाउस एक नए प्रकार का डेटा आर्किटेक्चर है जो प्रत्येक की कमियों को अलग-अलग हल करने के लिए डेटा वेयरहाउस के साथ डेटा लेक को जोड़ता है।
संक्षेप में, लेकहाउस प्रणाली डेटा झीलों की तरह, अपने मूल रूपों में भारी मात्रा में डेटा को बनाए रखने के लिए सस्ते भंडारण का उपयोग करती है। स्टोर के शीर्ष पर मेटाडेटा परत जोड़ने से डेटा संरचना भी मिलती है और डेटा वेयरहाउस में पाए जाने वाले डेटा प्रबंधन टूल को सशक्त बनाता है।
यह संगठित, अर्ध-संरचित और असंरचित डेटा की विशाल मात्रा को संग्रहीत करता है जो वे अपने संगठन में उपयोग किए जाने वाले विभिन्न व्यावसायिक अनुप्रयोगों, प्रणालियों और गैजेट्स से प्राप्त करते हैं।
अधिकांश समय, डेटा लेक खुले, सामान्य फ़ाइल स्वरूपों में डेटा संग्रहीत करने के लिए फ़ाइल एप्लिकेशन प्रोग्रामिंग इंटरफ़ेस (एपीआई) के साथ कम लागत वाले भंडारण बुनियादी ढांचे का उपयोग करते हैं।
इससे कई टीमों के लिए डेटा विज्ञान जैसी विभिन्न पहलों के लिए एक ही प्रणाली के माध्यम से कंपनी के सभी डेटा तक पहुंच संभव हो जाती है। यंत्र अधिगम, और व्यावसायिक बुद्धिमत्ता।
विशेषताएं
- कम लागत वाला भंडारण. एक डेटा लेकहाउस को सस्ते ऑब्जेक्ट स्टोरेज में डेटा संग्रहीत करने में सक्षम होना चाहिए, जैसे कि Google मेघ स्टोरेज, एज़्योर ब्लॉब स्टोरेज, अमेज़ॅन सिंपल स्टोरेज सर्विस, या मूल रूप से ORC या Parquet का उपयोग करना।
- डेटा अनुकूलन की क्षमता: डेटा लेआउट अनुकूलन, कैशिंग और इंडेक्सिंग कुछ उदाहरण हैं कि कैसे डेटा लेकहाउस को डेटा के मूल प्रारूप को बनाए रखते हुए डेटा को अनुकूलित करने में सक्षम होना चाहिए।
- लेन-देन संबंधी मेटाडेटा की एक परत: आवश्यक कम लागत वाले भंडारण के शीर्ष पर, यह डेटा वेयरहाउस प्रदर्शन के लिए महत्वपूर्ण डेटा प्रबंधन क्षमताओं को सक्षम बनाता है।
- घोषणात्मक डेटाफ़्रेम एपीआई के लिए समर्थन: अधिकांश एआई उपकरण कच्चे ऑब्जेक्ट स्टोर डेटा को पुनः प्राप्त करने के लिए डेटाफ़्रेम का उपयोग कर सकते हैं। घोषणात्मक डेटाफ़्रेम एपीआई के लिए समर्थन विशेष डेटा विज्ञान या एआई कार्य के जवाब में डेटा की प्रस्तुति और संरचना को गतिशील रूप से बेहतर बनाने की क्षमता बढ़ाता है।
- ACID लेनदेन के लिए समर्थन: संक्षिप्त नाम ACID, जो परमाणुता, स्थिरता, अलगाव और स्थायित्व के लिए है, लेनदेन को परिभाषित करने और डेटा की स्थिरता और निर्भरता सुनिश्चित करने में एक महत्वपूर्ण घटक है। इस तरह के लेनदेन पहले केवल डेटा वेयरहाउस में ही संभव थे, लेकिन लेकहाउस उन्हें डेटा लेक के साथ उपयोग करने का विकल्प प्रदान करता है भी। समवर्ती डेटा पढ़ने और लिखने सहित कई डेटा पाइपलाइनों के साथ, यह बाद की कम डेटा गुणवत्ता की समस्या का समाधान करता है।
डेटा लेकहाउस के तत्व
डेटा लेकहाउस की वास्तुकला को उच्च स्तर पर दो मुख्य स्तरों में विभाजित किया गया है। भंडारण परत का डेटा सेवन लेकहाउस प्लेटफ़ॉर्म (यानी, डेटा लेक) द्वारा नियंत्रित किया जाता है।
डेटा को डेटा वेयरहाउस में लोड करने या इसे मालिकाना प्रारूप में परिवर्तित करने की आवश्यकता के बिना, प्रसंस्करण परत उपकरणों की एक श्रृंखला का उपयोग करके सीधे भंडारण परत में डेटा को क्वेरी करने में सक्षम होती है।
फिर, बीआई ऐप्स, साथ ही एआई और एमएल प्रौद्योगिकियां, डेटा का उपयोग कर सकती हैं। डेटा लेक का अर्थशास्त्र इस डिज़ाइन द्वारा प्रदान किया जाता है, लेकिन क्योंकि कोई भी प्रसंस्करण इंजन इस डेटा को पढ़ सकता है, व्यवसायों को तैयार किए गए डेटा को कई प्रणालियों द्वारा विश्लेषण के लिए सुलभ बनाने की स्वतंत्रता है। प्रसंस्करण और विश्लेषण के लिए इस पद्धति का उपयोग करके प्रोसेसर के प्रदर्शन और लागत दोनों में सुधार किया जा सकता है।
निम्नलिखित ACID (परमाणुता, स्थिरता, अलगाव और स्थायित्व) मानदंडों का पालन करने वाले डेटाबेस लेनदेन के लिए इसके समर्थन के कारण, आर्किटेक्चर कई पार्टियों को सिस्टम के भीतर एक साथ डेटा तक पहुंचने और लिखने में सक्षम बनाता है:
- atomicity इस तथ्य को संदर्भित करता है कि लेन-देन पूरा करते समय या तो पूरा लेन-देन सफल होता है या इसमें से कोई भी सफल नहीं होता है। किसी प्रक्रिया के बाधित होने की स्थिति में, इससे डेटा हानि या भ्रष्टाचार से बचने में मदद मिलती है।
- कंसिस्टेंसी (Consistency) गारंटी देता है कि लेन-देन पूर्वानुमानित, सुसंगत तरीके से होता है। यह यह सुनिश्चित करके डेटा की अखंडता को बनाए रखता है कि प्रत्येक डेटा पूर्व निर्धारित नियमों के अनुसार वैध है।
- अलगाव यह सुनिश्चित करता है कि, जब तक यह समाप्त न हो जाए, कोई भी लेनदेन सिस्टम के भीतर किसी अन्य लेनदेन से प्रभावित नहीं हो सकता है। यह कई पक्षों को एक-दूसरे के साथ हस्तक्षेप किए बिना एक ही सिस्टम से एक साथ पढ़ने और लिखने की अनुमति देता है।
- स्थायित्व यह गारंटी देता है कि सिस्टम में डेटा में परिवर्तन लेनदेन समाप्त होने के बाद भी मौजूद रहता है, यहां तक कि सिस्टम विफलता की स्थिति में भी। लेन-देन द्वारा किए गए किसी भी परिवर्तन को हमेशा के लिए फ़ाइल में रखा जाता है।
डेटा लेकहाउस आर्किटेक्चर
डेटाब्रिक्स (उनके डेल्टा लेक अवधारणा के प्रर्वतक और डिजाइनर) और एडब्ल्यूएस डेटा लेकहाउस की अवधारणा के दो मुख्य समर्थक हैं। इस प्रकार हम झील के घरों के वास्तुशिल्प लेआउट का वर्णन करने के लिए उनके ज्ञान और अंतर्दृष्टि पर भरोसा करेंगे।
डेटा लेकहाउस सिस्टम में आम तौर पर पांच परतें होंगी:
- अंतर्ग्रहण परत
- भंडारण परत
- मेटाडेटा परत
- एपीआई परत
- खपत परत
अंतर्ग्रहण परत
सिस्टम की पहली परत विभिन्न स्रोतों से डेटा एकत्र करने और उसे भंडारण परत पर भेजने का प्रभारी है। परत कई आंतरिक और बाहरी स्रोतों से जुड़ने के लिए कई प्रोटोकॉल का उपयोग कर सकती है, जिसमें बैच और स्ट्रीमिंग डेटा प्रोसेसिंग क्षमताओं का संयोजन शामिल है
- नोएसक्यूएल डेटाबेस,
- फ़ाइल शेयर
- सीआरएम अनुप्रयोग,
- वेबसाइटों,
- IoT सेंसर,
- सोशल मीडिया,
- एक सेवा के रूप में सॉफ़्टवेयर (SaaS) अनुप्रयोग, और
- संबंधपरक डेटाबेस प्रबंधन प्रणाली, आदि।
इस बिंदु पर, डेटा स्ट्रीमिंग के लिए अपाचे काफ्का और आरडीबीएमएस और नोएसक्यूएल डेटाबेस से डेटा आयात करने के लिए अमेज़ॅन डेटा माइग्रेशन सर्विस (अमेज़ॅन डीएमएस) जैसे घटकों को नियोजित किया जा सकता है।
भंडारण परत
लेकहाउस आर्किटेक्चर का उद्देश्य AWS S3 जैसे सस्ते ऑब्जेक्ट स्टोर्स में ऑब्जेक्ट के रूप में विभिन्न प्रकार के डेटा के भंडारण को सक्षम करना है। खुले फ़ाइल स्वरूपों का उपयोग करके, क्लाइंट टूल इन आइटमों को सीधे स्टोर से पढ़ सकते हैं।
यह कई एपीआई और उपभोग परत घटकों के लिए समान डेटा तक पहुंच और उपयोग करना संभव बनाता है। मेटाडेटा परत संरचित और अर्ध-संरचित डेटासेट के लिए स्कीमा संग्रहीत करती है ताकि घटक इसे पढ़ते समय डेटा पर लागू कर सकें।
उदाहरण के लिए, Hadoop डिस्ट्रिब्यूटेड फ़ाइल सिस्टम (HDFS) प्लेटफ़ॉर्म का उपयोग क्लाउड रिपॉजिटरी सेवाओं के निर्माण के लिए किया जा सकता है जो कंप्यूटिंग और स्टोरेज को ऑन-प्रिमाइसेस में विभाजित करती हैं। लेकहाउस इन सेवाओं के लिए आदर्श रूप से उपयुक्त है।
मेटाडेटा परत
मेटाडेटा परत डेटा लेकहाउस का मूलभूत घटक है जो इस डिज़ाइन को अलग करता है। यह एक एकल कैटलॉग है जो झील में संग्रहीत सभी वस्तुओं के लिए मेटाडेटा (अन्य डेटा टुकड़ों के बारे में जानकारी) प्रदान करता है और उपयोगकर्ताओं को प्रशासन क्षमताओं को नियोजित करने की अनुमति देता है:
- ACID लेनदेन के कारण समवर्ती लेनदेन द्वारा डेटाबेस का एक सुसंगत संस्करण देखा जाता है;
- क्लाउड ऑब्जेक्ट स्टोर फ़ाइलों को सहेजने के लिए कैशिंग;
- क्वेरी प्रोसेसिंग को तेज़ करने के लिए इंडेक्सिंग का उपयोग करके डेटा संरचना इंडेक्स जोड़ना;
- डुप्लिकेट डेटा ऑब्जेक्ट्स के लिए शून्य-कॉपी क्लोनिंग का उपयोग करना; और
- डेटा आदि के कुछ संस्करणों को संग्रहीत करने के लिए डेटा वर्जनिंग का उपयोग करें।
इसके अतिरिक्त, मेटाडेटा परत स्कीमा प्रबंधन के कार्यान्वयन, स्टार/स्नोफ्लेक स्कीमा जैसे डीडब्ल्यू स्कीमा टोपोलॉजी के उपयोग और डेटा लेक पर सीधे डेटा गवर्नेंस और ऑडिटिंग क्षमता के प्रावधान को सक्षम बनाती है, जिससे संपूर्ण डेटा पाइपलाइन की अखंडता में वृद्धि होती है।
स्कीमा विकास और प्रवर्तन की सुविधाएँ स्कीमा प्रबंधन में शामिल हैं। तालिका की स्कीमा को पूरा नहीं करने वाले किसी भी लेखन को अस्वीकार करके, स्कीमा प्रवर्तन उपयोगकर्ताओं को डेटा अखंडता और गुणवत्ता बनाए रखने में सक्षम बनाता है।
स्कीमा विकास बदलते डेटा को समायोजित करने के लिए तालिका की वर्तमान स्कीमा को संशोधित करने की अनुमति देता है। डेटा लेक के शीर्ष पर एकल प्रशासन इंटरफ़ेस के कारण, पहुंच नियंत्रण और ऑडिटिंग संभावनाएं भी हैं।
एपीआई परत
आर्किटेक्चर की एक और महत्वपूर्ण परत अब मौजूद है, जो कई एपीआई की मेजबानी कर रही है, जिनका उपयोग सभी अंतिम उपयोगकर्ता अधिक तेज़ी से कार्य करने और अधिक परिष्कृत आँकड़े प्राप्त करने के लिए कर सकते हैं।
मेटाडेटा एपीआई के उपयोग से किसी दिए गए एप्लिकेशन के लिए आवश्यक डेटा आइटम की पहचान करना और उन तक पहुंचना आसान हो जाता है।
मशीन लर्निंग लाइब्रेरी के संदर्भ में, उनमें से कुछ, जैसे कि टेन्सरफ्लो और स्पार्क एमएललिब, पारक्वेट जैसे खुले फ़ाइल प्रारूपों को पढ़ सकते हैं और सीधे मेटाडेटा परत तक पहुंच सकते हैं।
साथ ही, डेटाफ़्रेम एपीआई अनुकूलन के लिए अधिक अवसर प्रदान करते हैं, जिससे प्रोग्रामर बिखरे हुए डेटा को व्यवस्थित करने और बदलने में सक्षम होते हैं।
खपत परत
Power BI, Tableau, और अन्य उपकरण और ऐप्स उपभोग परत के अंतर्गत होस्ट किए जाते हैं। लेकहाउस डिज़ाइन के साथ, सभी मेटाडेटा और झील में रखे गए सभी डेटा क्लाइंट ऐप्स के लिए पहुंच योग्य हैं।
लेकहाउस का उपयोग किसी कंपनी के सभी उपयोगकर्ताओं द्वारा सभी प्रकार के कार्य करने के लिए किया जा सकता है विश्लेषिकी संचालन, जिसमें बिजनेस इंटेलिजेंस डैशबोर्ड बनाना और SQL क्वेरीज़ और मशीन लर्निंग कार्य चलाना शामिल है।
डेटा लेकहाउस के लाभ
संगठन अपने वर्तमान डेटा प्लेटफ़ॉर्म को एकीकृत करने और अपनी संपूर्ण डेटा प्रबंधन प्रक्रिया को अनुकूलित करने के लिए एक डेटा लेकहाउस बना सकते हैं। विभिन्न स्रोतों को जोड़ने वाली साइलो बाधाओं को दूर करके, एक डेटा लेकहाउस विशिष्ट समाधानों की आवश्यकता को प्रतिस्थापित कर सकता है।
क्यूरेटेड डेटा स्रोतों की तुलना में, यह एकीकरण काफी अधिक प्रभावी एंड-टू-एंड प्रक्रिया उत्पन्न करता है। इसके कई फायदे हैं:
- कम प्रशासन: कच्चे डेटा से डेटा निकालने और इसे डेटा वेयरहाउस के भीतर उपयोग के लिए तैयार करने के बजाय, डेटा लेकहाउस इससे जुड़े किसी भी स्रोत को अपना डेटा उपलब्ध कराने और उपयोग के लिए व्यवस्थित करने की अनुमति देता है।
- लागत-प्रभावशीलता में वृद्धि: डेटा लेकहाउस का निर्माण समकालीन बुनियादी ढांचे का उपयोग करके किया जाता है जो गणना और भंडारण को विभाजित करता है, जिससे गणना शक्ति को बढ़ाए बिना भंडारण का विस्तार करना आसान हो जाता है। केवल सस्ते डेटा भंडारण के उपयोग से स्केलेबिलिटी प्राप्त होती है जो लागत प्रभावी होती है।
- बेहतर डेटा प्रशासन: डेटा लेकहाउस का निर्माण मानकीकृत खुली वास्तुकला के साथ किया जाता है, जो सुरक्षा, मेट्रिक्स, भूमिका-आधारित पहुंच और अन्य महत्वपूर्ण प्रबंधन घटकों पर अधिक नियंत्रण की अनुमति देता है। संसाधनों और डेटा स्रोतों को एकीकृत करके, वे शासन को सरल और बढ़ाते हैं।
- सरलीकृत मानक: चूंकि 1980 के दशक में कनेक्शन अत्यधिक प्रतिबंधित था, जब डेटा वेयरहाउस पहली बार विकसित किए गए थे, स्थानीय स्कीमा मानक अक्सर व्यवसायों, यहां तक कि विभागों के अंदर भी विकसित किए गए थे। डेटा लेकहाउस इस तथ्य का उपयोग करते हैं कि कई प्रकार के डेटा में अब प्रक्रियाओं को सुव्यवस्थित करने के लिए ओवरलैपिंग यूनिफॉर्म स्कीमा के साथ कई डेटा स्रोतों को शामिल करके स्कीमा के लिए खुले मानक हैं।
डेटा लेकहाउस के नुकसान
डेटा लेकहाउस को लेकर तमाम हंगामे के बावजूद, यह ध्यान रखना ज़रूरी है कि यह विचार अभी भी बहुत नया है। इस नए डिज़ाइन पर पूरी तरह से काम करने से पहले कमियों पर ध्यान देना सुनिश्चित करें।
- अखंड संरचना: एक लेकहाउस का सर्व-समावेशी डिज़ाइन कई फायदे प्रदान करता है, लेकिन यह कुछ समस्याएं भी पैदा करता है। अखंड वास्तुकला अक्सर सभी उपयोगकर्ताओं के लिए खराब सेवा का कारण बनती है और इसे बनाए रखना कठोर और कठिन हो सकता है। आमतौर पर, आर्किटेक्ट और डिज़ाइनर अधिक मॉड्यूलर आर्किटेक्चर को पसंद करते हैं जिसे वे विभिन्न उपयोग के मामलों के लिए अनुकूलित कर सकते हैं।
- तकनीक अभी तक पूरी तरह विकसित नहीं हुई है: अंतिम लक्ष्य में महत्वपूर्ण मात्रा में मशीन लर्निंग और कृत्रिम बुद्धिमत्ता शामिल है। इससे पहले कि लेकहाउस कल्पना के अनुरूप प्रदर्शन कर सकें, इन तकनीकों को और विकसित करना होगा।
- मौजूदा संरचनाओं की तुलना में कोई महत्वपूर्ण प्रगति नहीं: इस बात पर अभी भी काफी संदेह है कि लेकहाउस वास्तव में कितना अधिक मूल्य योगदान देंगे। कुछ विरोधियों का तर्क है कि उपयुक्त स्वचालित उपकरणों के साथ जोड़ा गया एक झील-गोदाम डिज़ाइन तुलनीय दक्षता प्राप्त कर सकता है।
डेटा लेकहाउस की चुनौतियाँ
डेटा लेकहाउस तकनीक को अपनाना कठिन हो सकता है। इसके घटक टुकड़ों की जटिलता के कारण, डेटा लेकहाउस को एक सर्वव्यापी आदर्श संरचना या "हर चीज के लिए एक मंच" के रूप में देखना गलत है।
इसके अतिरिक्त, डेटा लेक की बढ़ती स्वीकार्यता के कारण, व्यवसायों को अपने वर्तमान डेटा वेयरहाउस को उनके पास स्थानांतरित करना होगा, केवल बिना किसी प्रत्यक्ष आर्थिक लाभ के सफलता के वादे पर निर्भर रहना होगा।
यदि स्थानांतरण प्रक्रिया के दौरान कोई विलंबता समस्या या रुकावट होती है, तो यह महंगा, समय लेने वाला और शायद असुरक्षित हो सकता है।
कुछ विक्रेताओं के अनुसार, व्यावसायिक उपयोगकर्ताओं को अत्यधिक विशिष्ट तकनीकों को अपनाना चाहिए, जो स्पष्ट रूप से या परोक्ष रूप से डेटा लेकहाउस के रूप में समाधानों का विपणन करते हैं। ये हमेशा सिस्टम के केंद्र में डेटा लेक से जुड़े अन्य उपकरणों के साथ काम नहीं कर सकते हैं, जिससे समस्याएं बढ़ जाती हैं।
इसके अतिरिक्त, व्यवसाय-महत्वपूर्ण कार्यभार चलाते समय 24/7 एनालिटिक्स की आपूर्ति करना मुश्किल हो सकता है, जिसके लिए लागत प्रभावी स्केलेबिलिटी के साथ बुनियादी ढांचे की आवश्यकता होती है।
निष्कर्ष
हाल के वर्षों में डेटा केंद्रों की नवीनतम किस्म डेटा लेकहाउस है. यह विभिन्न प्रकार के क्षेत्रों को एकीकृत करता है, जैसे सूचना प्रौद्योगिकी, ओपन-सोर्स सॉफ़्टवेयर, बादल कंप्यूटिंग, और वितरित भंडारण प्रोटोकॉल।
यह व्यवसायों को प्रबंधन और विश्लेषण को सरल बनाते हुए किसी भी स्थान से सभी प्रकार के डेटा को केंद्रीय रूप से संग्रहीत करने में सक्षम बनाता है। डेटा लेकहाउस एक बहुत ही दिलचस्प अवधारणा है।
किसी भी फर्म के पास महत्वपूर्ण प्रतिस्पर्धात्मक बढ़त होगी यदि उसके पास एक ऑल-इन-वन डेटा प्लेटफ़ॉर्म तक पहुंच हो जो डेटा वेयरहाउस जितना तेज़ और कुशल हो और साथ ही डेटा लेक जितना लचीला हो।
यह विचार अभी भी विकसित हो रहा है और अपेक्षाकृत नया बना हुआ है। परिणामस्वरूप, यह निर्धारित करने में कुछ समय लग सकता है कि कोई चीज़ व्यापक हो सकती है या नहीं।
हम सभी को इस बात को लेकर उत्सुक होना चाहिए कि लेकहाउस वास्तुकला किस दिशा में जा रही है।
एक जवाब लिखें