डेटा प्लॅटफॉर्मबद्दल विचार करताना सर्व उपलब्ध सेवा आणि आर्किटेक्चरल पर्यायांचा विचार करणे थोडे कठीण असू शकते.
एंटरप्राइझ डेटा प्लॅटफॉर्ममध्ये अनेकदा डेटा वेअरहाऊस, डेटा मॉडेल्स, डेटा लेक आणि अहवाल असतात, प्रत्येक विशिष्ट उद्देश आणि आवश्यक कौशल्यांचा संच असतो. याउलट, डेटा लेकहाऊस नावाची नवीन रचना गेल्या काही वर्षांत उदयास आली आहे.
डेटा लेक आणि डेटा वेअरहाऊस डेटा मॅनेजमेंटची अष्टपैलुता एका क्रांतिकारी डेटा स्टोरेज आर्किटेक्चरमध्ये एकत्रित केली जाते ज्याला "डेटा लेकहाउस" असे नाव दिले जाते.
आम्ही या पोस्टमध्ये डेटा लेकहाउसचे घटक, वैशिष्ट्ये, आर्किटेक्चर आणि इतर पैलूंसह सखोलपणे तपासू.
डेटा लेकहाउस म्हणजे काय?
नावाप्रमाणेच, डेटा लेकहाऊस हा डेटा आर्किटेक्चरचा एक नवीन प्रकार आहे जो डेटा वेअरहाऊससह डेटा लेक एकत्र करून प्रत्येकाच्या उणीवा स्वतंत्रपणे सोडवतो.
थोडक्यात, लेकहाऊस सिस्टम डेटा तलावांप्रमाणेच त्यांच्या मूळ स्वरूपात मोठ्या प्रमाणात डेटा राखण्यासाठी स्वस्त स्टोरेज वापरते. स्टोअरच्या शीर्षस्थानी मेटाडेटा स्तर जोडल्याने डेटा संरचना देखील मिळते आणि डेटा वेअरहाऊसमध्ये सापडलेल्या डेटा व्यवस्थापन साधनांना सक्षम बनवते.
हे संघटित, अर्ध-संरचित आणि असंरचित डेटाचे प्रचंड प्रमाण संग्रहित करते जे त्यांना त्यांच्या संपूर्ण संस्थेमध्ये वापरल्या जाणार्या विविध व्यवसाय अनुप्रयोग, सिस्टम आणि गॅझेट्समधून मिळते.
बहुतेक वेळा, डेटा लेक हे खुल्या, जेनेरिक फाइल फॉरमॅटमध्ये डेटा साठवण्यासाठी फाइल अॅप्लिकेशन प्रोग्रामिंग इंटरफेस (API) सह कमी किमतीच्या स्टोरेज इन्फ्रास्ट्रक्चरचा वापर करतात.
यामुळे अनेक संघांना डेटा सायन्स सारख्या विविध उपक्रमांसाठी एकाच प्रणालीद्वारे कंपनीच्या सर्व डेटामध्ये प्रवेश करणे शक्य होते. मशीन शिक्षण, आणि व्यवसाय बुद्धिमत्ता.
वैशिष्ट्ये
- कमी किमतीचे स्टोरेज. डेटा लेकहाऊस स्वस्त ऑब्जेक्ट स्टोरेजमध्ये डेटा संचयित करण्यास सक्षम असणे आवश्यक आहे, जसे की Google मेघ स्टोरेज, Azure ब्लॉब स्टोरेज, Amazon सिंपल स्टोरेज सर्व्हिस, किंवा मूळपणे ORC किंवा Parquet वापरून.
- डेटा ऑप्टिमायझेशनची क्षमता: डेटा लेआउट ऑप्टिमायझेशन, कॅशिंग आणि इंडेक्सिंग ही काही उदाहरणे आहेत की डेटा लेकहाऊस डेटाचे मूळ स्वरूप राखून डेटा कसे ऑप्टिमाइझ करण्यास सक्षम असणे आवश्यक आहे.
- ट्रान्झॅक्शनल मेटाडेटाचा एक स्तर: आवश्यक कमी किमतीच्या स्टोरेजच्या वर, हे डेटा वेअरहाऊस कार्यक्षमतेसाठी महत्त्वपूर्ण डेटा व्यवस्थापन क्षमता सक्षम करते.
- घोषणात्मक डेटाफ्रेम API साठी समर्थन: बहुसंख्य AI टूल्स रॉ ऑब्जेक्ट स्टोअर डेटा पुनर्प्राप्त करण्यासाठी डेटाफ्रेम वापरू शकतात. Declarative DataFrame API साठी सपोर्ट विशिष्ट डेटा सायन्स किंवा AI टास्कच्या प्रतिसादात डेटाचे सादरीकरण आणि संरचना गतिशीलपणे सुधारण्याची क्षमता वाढवते.
- ACID व्यवहारांसाठी समर्थन: ACID हे संक्षिप्त रूप, ज्याचा अर्थ अणु, सातत्य, अलगाव आणि टिकाऊपणा आहे, व्यवहार परिभाषित करण्यासाठी आणि डेटाची सुसंगतता आणि विश्वासार्हता सुनिश्चित करण्यासाठी एक महत्त्वपूर्ण घटक आहे. असे व्यवहार पूर्वी केवळ डेटा वेअरहाऊसमध्ये शक्य होते, परंतु लेकहाउस डेटा लेकसह त्यांचा वापर करण्याचा पर्याय देते सुद्धा. समवर्ती डेटा वाचणे आणि लिहिणे यासह अनेक डेटा पाइपलाइनसह, हे नंतरच्या डेटाच्या कमी गुणवत्तेची समस्या सोडवते.
डेटा लेकहाऊसचे घटक
डेटा लेकहाऊसचे आर्किटेक्चर उच्च स्तरावर दोन मुख्य स्तरांमध्ये विभागलेले आहे. स्टोरेज लेयरच्या डेटाचे सेवन लेकहाउस प्लॅटफॉर्मद्वारे (म्हणजे डेटा लेक) नियंत्रित केले जाते.
डेटा वेअरहाऊसमध्ये डेटा लोड न करता किंवा प्रोप्रायटरी फॉरमॅटमध्ये रूपांतरित न करता, प्रोसेसिंग लेयर नंतर स्टोरेज लेयरमधील डेटाची थेट श्रेणी टूल्स वापरून क्वेरी करू शकतो.
त्यानंतर, BI अॅप्स, तसेच AI आणि ML तंत्रज्ञान, डेटा वापरू शकतात. डेटा लेकचे अर्थशास्त्र या डिझाईनद्वारे प्रदान केले जाते, परंतु कोणतेही प्रोसेसिंग इंजिन हा डेटा वाचू शकत असल्यामुळे, व्यवसायांना तयार केलेला डेटा विविध प्रणालींद्वारे विश्लेषणासाठी उपलब्ध करून देण्याचे स्वातंत्र्य आहे. प्रक्रिया आणि विश्लेषणासाठी या पद्धतीचा वापर करून प्रोसेसर कार्यप्रदर्शन आणि खर्च दोन्ही सुधारले जाऊ शकतात.
खालील ACID (परमाणू, सुसंगतता, अलगाव आणि टिकाऊपणा) निकषांचे पालन करणार्या डेटाबेस व्यवहारांच्या समर्थनामुळे, आर्किटेक्चर अनेक पक्षांना सिस्टममध्ये एकाच वेळी डेटा ऍक्सेस आणि लिहिण्यास सक्षम करते:
- आण्विकता व्यवहार पूर्ण करताना एकतर पूर्ण व्यवहार किंवा त्यापैकी काहीही यशस्वी होत नाही या वस्तुस्थितीचा संदर्भ देते. प्रक्रियेत व्यत्यय आल्यास, हे डेटा गमावणे किंवा भ्रष्टाचार टाळण्यास मदत करते.
- सातत्य अंदाजानुसार, सातत्यपूर्ण रीतीने व्यवहार होण्याची हमी देते. प्रत्येक डेटा पूर्वनिर्धारित नियमांनुसार वैध आहे याची खात्री करून ते डेटाची अखंडता राखते.
- अलगाव हे सुनिश्चित करते की, ते पूर्ण होईपर्यंत, सिस्टममधील इतर कोणत्याही व्यवहारामुळे कोणताही व्यवहार प्रभावित होणार नाही. हे असंख्य पक्षांना एकमेकांमध्ये हस्तक्षेप न करता एकाच प्रणालीतून एकाच वेळी वाचू आणि लिहू देते.
- टिकाऊपणा हमी देते की सिस्टीममधील डेटामधील बदल व्यवहार पूर्ण झाल्यानंतर, सिस्टम अयशस्वी झाल्यास देखील अस्तित्वात राहतात. व्यवहारामुळे होणारे कोणतेही बदल कायमचे फाइलवर ठेवले जातात.
डेटा लेकहाउस आर्किटेक्चर
डेटाब्रिक्स (त्यांच्या डेल्टा लेक संकल्पनेचे नवोदित आणि डिझाइनर) आणि AWS हे डेटा लेकहाऊसच्या संकल्पनेचे दोन मुख्य समर्थक आहेत. अशा प्रकारे आम्ही तलावाच्या वास्तुशास्त्रीय मांडणीचे वर्णन करण्यासाठी त्यांच्या ज्ञानावर आणि अंतर्दृष्टीवर अवलंबून राहू.
डेटा लेकहाउस सिस्टममध्ये सामान्यत: पाच स्तर असतात:
- अंतर्ग्रहण थर
- स्टोरेज स्तर
- मेटाडेटा स्तर
- API स्तर
- उपभोग स्तर
अंतर्ग्रहण थर
सिस्टीमचा पहिला स्तर विविध स्त्रोतांकडून डेटा संकलित करून स्टोरेज स्तरावर पाठविण्याचा प्रभारी आहे. बॅच आणि स्ट्रीमिंग डेटा प्रोसेसिंग क्षमता एकत्र करणे यासह असंख्य अंतर्गत आणि बाह्य स्त्रोतांशी कनेक्ट होण्यासाठी स्तर अनेक प्रोटोकॉलचा वापर करू शकतो, जसे की
- NoSQL डेटाबेस,
- फाइल शेअर्स
- CRM अर्ज,
- वेबसाइट्स,
- IoT सेन्सर्स,
- सोशल मीडिया,
- सेवा म्हणून सॉफ्टवेअर (सास) अनुप्रयोग, आणि
- रिलेशनल डेटाबेस मॅनेजमेंट सिस्टम इ.
या टप्प्यावर, डेटा स्ट्रीमिंगसाठी Apache Kafka आणि RDBMSs आणि NoSQL डेटाबेसमधून डेटा आयात करण्यासाठी Amazon Data Migration Service (Amazon DMS) सारखे घटक वापरले जाऊ शकतात.
स्टोरेज स्तर
लेकहाऊस आर्किटेक्चर हे AWS S3 सारख्या स्वस्त ऑब्जेक्ट स्टोअर्समध्ये विविध प्रकारच्या डेटाचे ऑब्जेक्ट्स म्हणून स्टोरेज सक्षम करण्यासाठी आहे. ओपन फाइल फॉरमॅटचा वापर करून, क्लायंट टूल्स या आयटम्स थेट स्टोअरमधून वाचू शकतात.
हे अनेक API आणि उपभोग स्तर घटकांना समान डेटामध्ये प्रवेश करणे आणि वापरणे शक्य करते. मेटाडेटा स्तर संरचित आणि अर्ध-संरचित डेटासेटसाठी स्कीमा संचयित करते जेणेकरून घटक डेटा वाचत असताना ते त्यांना लागू करू शकतील.
हडूप डिस्ट्रिब्युटेड फाइल सिस्टम (HDFS) प्लॅटफॉर्म, उदाहरणार्थ, क्लाउड रिपॉझिटरी सेवा तयार करण्यासाठी वापरला जाऊ शकतो ज्यामध्ये कॉम्प्युटिंग आणि स्टोरेज ऑन-प्रिमाइसेस विभाजित होते. लेकहाऊस या सेवांसाठी आदर्श आहे.
मेटाडेटा स्तर
मेटाडेटा लेयर हा डेटा लेकहाऊसचा मूलभूत घटक आहे जो या डिझाइनमध्ये फरक करतो. हा एकच कॅटलॉग आहे जो तलावात साठवलेल्या सर्व वस्तूंसाठी मेटाडेटा (इतर डेटा तुकड्यांबद्दल माहिती) ऑफर करतो आणि वापरकर्त्यांना प्रशासन क्षमता वापरण्याची परवानगी देतो जसे की:
- डेटाबेसची एक सुसंगत आवृत्ती ACID व्यवहारांमुळे समवर्ती व्यवहारांद्वारे दिसून येते;
- क्लाउड ऑब्जेक्ट स्टोअर फायली जतन करण्यासाठी कॅशिंग;
- क्वेरी प्रक्रियेला गती देण्यासाठी अनुक्रमणिका वापरून डेटा संरचना निर्देशांक जोडणे;
- डेटा ऑब्जेक्ट्स डुप्लिकेट करण्यासाठी शून्य-कॉपी क्लोनिंग वापरणे; आणि
- डेटाच्या काही आवृत्त्या संग्रहित करण्यासाठी, इ. डेटा आवृत्ती वापरा.
याव्यतिरिक्त, मेटाडेटा स्तर स्कीमा व्यवस्थापनाची अंमलबजावणी, स्टार/स्नोफ्लेक स्कीमा सारख्या DW स्कीमा टोपोलॉजीजचा वापर आणि डेटा लेकवर थेट डेटा गव्हर्नन्स आणि ऑडिटिंग क्षमतेची तरतूद, संपूर्ण डेटा पाइपलाइनची अखंडता वाढविण्यास सक्षम करते.
स्कीमा व्यवस्थापनामध्ये स्कीमा उत्क्रांती आणि अंमलबजावणीची वैशिष्ट्ये समाविष्ट केली आहेत. टेबलच्या स्कीमाची पूर्तता न करणारे कोणतेही लेखन नाकारून, स्कीमा अंमलबजावणी वापरकर्त्यांना डेटा अखंडता आणि गुणवत्ता राखण्यास सक्षम करते.
स्कीमा उत्क्रांती बदलत्या डेटाला सामावून घेण्यासाठी टेबलच्या सध्याच्या स्कीमामध्ये बदल करण्यास अनुमती देते. डेटा लेकच्या शीर्षस्थानी एकल प्रशासन इंटरफेसमुळे, प्रवेश नियंत्रण आणि ऑडिटिंगच्या शक्यता देखील आहेत.
API स्तर
आर्किटेक्चरचा आणखी एक महत्त्वाचा स्तर आता उपस्थित आहे, ज्यामध्ये अनेक APIs होस्ट केले आहेत ज्याचा वापर सर्व अंतिम वापरकर्ते अधिक जलद कार्य करण्यासाठी आणि अधिक अत्याधुनिक आकडेवारी मिळवण्यासाठी करू शकतात.
मेटाडेटा API चा वापर दिलेल्या अनुप्रयोगासाठी आवश्यक डेटा आयटम ओळखणे आणि त्यात प्रवेश करणे सोपे करते.
मशीन लर्निंग लायब्ररींच्या बाबतीत, त्यांपैकी काही, जसे की TensorFlow आणि Spark MLlib, Parquet सारखे ओपन फाइल फॉरमॅट वाचू शकतात आणि मेटाडेटा लेयरमध्ये थेट प्रवेश करू शकतात.
त्याच वेळी, DataFrame API ऑप्टिमायझेशनसाठी अधिक संधी देतात, ज्यामुळे प्रोग्रामरला विखुरलेला डेटा व्यवस्थित आणि बदलता येतो.
उपभोग स्तर
Power BI, Tableau आणि इतर साधने आणि अॅप्स उपभोग स्तराखाली होस्ट केले जातात. लेकहाऊस डिझाइनसह, सर्व मेटाडेटा आणि तलावामध्ये ठेवलेला सर्व डेटा क्लायंट अॅप्ससाठी प्रवेशयोग्य आहे.
लेकहाऊसचा वापर कंपनीमधील सर्व वापरकर्त्यांद्वारे सर्व प्रकारचे कार्य करण्यासाठी केला जाऊ शकतो विश्लेषण ऑपरेशन्स, बिझनेस इंटेलिजन्स डॅशबोर्ड तयार करणे आणि SQL क्वेरी आणि मशीन लर्निंग टास्क चालवणे यासह.
डेटा लेकहाऊसचे फायदे
संस्था त्यांचे वर्तमान डेटा प्लॅटफॉर्म एकत्रित करण्यासाठी आणि त्यांची संपूर्ण डेटा व्यवस्थापन प्रक्रिया ऑप्टिमाइझ करण्यासाठी डेटा लेकहाउस तयार करू शकतात. विविध स्त्रोतांना जोडणारे सायलो अडथळे दूर करून, डेटा लेकहाऊस वेगळ्या उपायांची आवश्यकता बदलू शकते.
क्युरेट केलेल्या डेटा स्रोतांच्या तुलनेत, हे एकत्रीकरण लक्षणीयरीत्या अधिक प्रभावी एंड-टू-एंड प्रक्रिया तयार करते. याचे अनेक फायदे आहेत:
- कमी प्रशासन: कच्च्या डेटामधून डेटा काढण्याऐवजी आणि डेटा वेअरहाऊसमध्ये वापरण्यासाठी तयार करण्याऐवजी, डेटा लेकहाऊस त्याच्याशी जोडलेल्या कोणत्याही स्त्रोतांना त्यांचा डेटा उपलब्ध आणि वापरासाठी व्यवस्थित ठेवण्याची परवानगी देतो.
- वाढलेली खर्च-प्रभावीता: डेटा लेकहाऊस हे समकालीन पायाभूत सुविधांचा वापर करून बांधले जातात जे गणना आणि स्टोरेज विभाजित करतात, ज्यामुळे गणना शक्ती न वाढवता स्टोरेज वाढवणे सोपे होते. केवळ स्वस्त डेटा स्टोरेजचा वापर केल्याने स्केलेबिलिटी मिळते जी किफायतशीर असते.
- उत्तम डेटा प्रशासन: डेटा लेकहाऊस प्रमाणित खुल्या आर्किटेक्चरसह बांधले जातात, ज्यामुळे सुरक्षा, मेट्रिक्स, भूमिका-आधारित प्रवेश आणि इतर महत्त्वाच्या व्यवस्थापन घटकांवर अधिक नियंत्रण ठेवता येते. संसाधने आणि डेटा स्रोत एकत्र करून, ते प्रशासन सुलभ करतात आणि वर्धित करतात.
- सरलीकृत मानके: 1980 च्या दशकात कनेक्शन अत्यंत प्रतिबंधित असल्याने, जेव्हा प्रथम डेटा वेअरहाऊस विकसित केले गेले, तेव्हा स्थानिकीकृत स्कीमा मानके व्यवसायांमध्ये, अगदी विभागांमध्ये वारंवार विकसित केली गेली. डेटा लेकहाऊस या वस्तुस्थितीचा वापर करतात की अनेक प्रकारच्या डेटामध्ये आता स्कीमासाठी खुले मानक आहेत आणि प्रक्रिया सुव्यवस्थित करण्यासाठी एकसमान स्कीमासह असंख्य डेटा स्रोत अंतर्भूत करून.
डेटा लेकहाऊसचे तोटे
डेटा लेकहाऊसच्या आजूबाजूच्या सर्व हुपला असूनही, हे लक्षात ठेवणे महत्त्वाचे आहे की ही कल्पना अजूनही नवीन आहे. या नवीन डिझाईनसाठी पूर्णपणे वचनबद्ध होण्यापूर्वी तोटे निश्चित करा.
- मोनोलिथिक रचना: लेकहाऊसचे सर्वसमावेशक डिझाइन अनेक फायदे देते, परंतु ते काही समस्या देखील वाढवते. मोनोलिथिक आर्किटेक्चर बहुतेक वेळा सर्व वापरकर्त्यांसाठी खराब सेवा देते आणि कठोर आणि देखरेख करणे कठीण असू शकते. सामान्यतः, वास्तुविशारद आणि डिझाइनरना अधिक मॉड्यूलर आर्किटेक्चर आवडते जे ते विविध वापराच्या प्रकरणांसाठी सानुकूलित करू शकतात.
- तंत्रज्ञान अजून आलेले नाही: अंतिम ध्येयामध्ये मशीन लर्निंग आणि आर्टिफिशियल इंटेलिजन्सची महत्त्वपूर्ण रक्कम समाविष्ट आहे. लेकहाऊस कल्पना केल्याप्रमाणे कार्य करू शकण्यापूर्वी, या तंत्रज्ञानाचा आणखी विकास होणे आवश्यक आहे.
- विद्यमान संरचनांपेक्षा लक्षणीय प्रगती नाही: लेकहाऊस प्रत्यक्षात किती मोलाचे योगदान देतील याविषयी अजूनही बरीच साशंकता आहे. काही आंदोलकांचे म्हणणे आहे की योग्य स्वयंचलित उपकरणांसह लेक-वेअरहाऊस डिझाइन तुलनात्मक कार्यक्षमता प्राप्त करू शकते.
डेटा लेकहाऊसची आव्हाने
डेटा लेकहाऊस तंत्राचा अवलंब करणे कठीण होऊ शकते. त्याच्या घटक तुकड्यांच्या गुंतागुंतीमुळे, डेटा लेकहाऊसला सर्वसमावेशक आदर्श रचना किंवा “प्रत्येक गोष्टीसाठी एक व्यासपीठ” म्हणून पाहणे चुकीचे आहे.
याव्यतिरिक्त, डेटा तलावांच्या वाढत्या दत्तकतेमुळे, व्यवसायांना त्यांचे वर्तमान डेटा गोदाम त्यांच्याकडे हलवावे लागतील, केवळ यशाच्या आश्वासनावर अवलंबून राहून, कोणत्याही स्पष्ट आर्थिक लाभाशिवाय.
हस्तांतरण प्रक्रियेदरम्यान काही विलंब समस्या किंवा आउटेज असल्यास, हे महाग, वेळ घेणारे आणि कदाचित असुरक्षित असू शकते.
विशिष्ट विक्रेत्यांनुसार व्यवसाय वापरकर्त्यांनी उच्च विशिष्ट तंत्रज्ञान स्वीकारले पाहिजे जे डेटा लेकहाऊस म्हणून स्पष्टपणे किंवा स्पष्टपणे मार्केट सोल्यूशन्स देतात. सिस्टमच्या मध्यभागी असलेल्या डेटा लेकशी जोडलेल्या इतर साधनांसह हे नेहमी कार्य करत नाहीत, ज्यामुळे समस्या वाढतात.
याव्यतिरिक्त, व्यवसाय-गंभीर वर्कलोड चालवताना 24/7 विश्लेषणे पुरवणे कठीण होऊ शकते, ज्यासाठी किफायतशीर स्केलेबिलिटीसह पायाभूत सुविधांची आवश्यकता असते.
निष्कर्ष
अलिकडच्या वर्षांत डेटा केंद्रांची सर्वात नवीन विविधता म्हणजे डेटा लेकहाउस. हे माहिती तंत्रज्ञान, मुक्त-स्रोत सॉफ्टवेअर, यांसारख्या विविध क्षेत्रांना एकत्रित करते. मेघ गणना, आणि वितरित स्टोरेज प्रोटोकॉल.
हे व्यवसायांना व्यवस्थापन आणि विश्लेषण सुलभ करून, कोणत्याही ठिकाणाहून सर्व डेटा प्रकार केंद्रीत संचयित करण्यास सक्षम करते. डेटा लेकहाउस ही एक अतिशय मनोरंजक संकल्पना आहे.
डेटा वेअरहाऊस सारखे जलद आणि कार्यक्षम आणि डेटा लेक सारखे लवचिक असणा-या ऑल-इन-वन डेटा प्लॅटफॉर्मवर प्रवेश असल्यास कोणत्याही फर्मला लक्षणीय स्पर्धात्मक धार असेल.
कल्पना अजूनही विकसित होत आहे आणि तुलनेने नवीन आहे. परिणामी, काहीतरी व्यापक होऊ शकते की नाही हे निर्धारित करण्यासाठी थोडा वेळ लागू शकतो.
लेकहाऊस आर्किटेक्चर कोणत्या दिशेने जात आहे याबद्दल आपण सर्वांनी उत्सुक असले पाहिजे.
प्रत्युत्तर द्या