Деректер платформалары туралы ойлаған кезде барлық қолжетімді қызметтер мен архитектуралық опцияларды қарастыру сәл қиын болуы мүмкін.
Кәсіпорынның деректер платформасы көбінесе деректер қоймаларынан, деректер үлгілерінен, деректер көлдерінен және есептерден тұрады, олардың әрқайсысының нақты мақсаты мен қажетті дағдылар жиынтығы бар. Керісінше, соңғы бірнеше жылда data lakehouse деп аталатын жаңа дизайн пайда болды.
Деректер көлдерінің әмбебаптығы және деректер қоймасының деректерін басқару «деректер көлі қоймасы» деп аталатын революциялық деректерді сақтау архитектурасында біріктірілген.
Біз осы постта Лейкхаус деректерін, оның ішінде оның құрамдас бөліктерін, мүмкіндіктерін, архитектурасын және басқа аспектілерін егжей-тегжейлі қарастырамыз.
Data Lakehouse дегеніміз не?
Аты айтып тұрғандай, деректер көлі қоймасы - әрқайсысының кемшіліктерін бөлек шешу үшін деректер көлін деректер қоймасымен біріктіретін деректер архитектурасының жаңа түрі.
Негізінде, lakehouse жүйесі деректер көлдері сияқты деректердің үлкен көлемін бастапқы пішіндерінде сақтау үшін қымбат емес сақтауды пайдаланады. Дүкеннің жоғарғы жағындағы метадеректер қабатын қосу деректер құрылымын береді және деректер қоймаларында табылғандар сияқты деректерді басқару құралдарын кеңейтеді.
Ол ұйымда қолданылатын әртүрлі іскери қолданбалардан, жүйелерден және гаджеттерден алатын ұйымдастырылған, жартылай құрылымдалған және құрылымдалмаған деректердің үлкен көлемін сақтайды.
Көбінесе деректер көлдері деректерді ашық, жалпы файл пішімінде сақтау үшін файлдық қолданбалы бағдарламалау интерфейсі (API) бар арзан сақтау инфрақұрылымын пайдаланады.
Бұл көптеген командаларға әртүрлі бастамалар үшін бір жүйе арқылы компанияның барлық деректеріне қол жеткізуге мүмкіндік береді, мысалы, деректер туралы ғылым, машина оқыту, және іскерлік интеллект.
Мүмкіндіктер
- Төмен шығынды сақтау. Деректер көлі қоймасы деректерді арзан нысан қоймасында сақтай алуы керек, мысалы Google Cloud Storage, Azure Blob Storage, Amazon Simple Storage Service немесе ORC немесе Parket пайдалану арқылы.
- Деректерді оңтайландыру мүмкіндігі: Деректер орналасуын оңтайландыру, кэштеу және индекстеу деректердің бастапқы пішімін сақтай отырып, деректер көлі қоймасының деректерді оңтайландыру мүмкіндігінің бірнеше мысалдары болып табылады.
- Транзакциялық метадеректер қабаты: маңызды арзан сақтаудың үстіне бұл деректер қоймасының өнімділігі үшін маңызды деректерді басқару мүмкіндіктерін қосады.
- Декларативті DataFrame API қолдауы: AI құралдарының көпшілігі шикізат қоймасының деректерін алу үшін DataFrames пайдалана алады. Декларативті DataFrame API қолдауы белгілі бір деректер ғылымына немесе AI тапсырмасына жауап ретінде деректердің көрсетілімі мен құрылымын динамикалық түрде жақсарту мүмкіндігін арттырады.
- ACID транзакцияларына қолдау көрсету: Атомдықты, консистенцияны, оқшаулауды және ұзақ мерзімділікті білдіретін ACID аббревиатурасы транзакцияны анықтауда және деректердің дәйектілігі мен сенімділігін қамтамасыз етуде маңызды құрамдас болып табылады. Мұндай транзакциялар бұрын тек деректер қоймаларында мүмкін болатын, бірақ lakehouse оларды деректер көлдерімен пайдалану мүмкіндігін ұсынады сондай-ақ. Бір мезгілде деректерді оқу және жазуды қоса, бірнеше деректер құбырларымен бұл соңғы деректердің төмен сапасы мәселесін шешеді.
Data Lakehouse элементтері
Data lakehouse архитектурасы жоғары деңгейде екі негізгі деңгейге бөлінген. Сақтау қабатының деректерді қабылдауын Lakehouse платформасы (яғни, деректер көлі) басқарады.
Деректерді деректер қоймасына жүктеуді немесе оны меншікті пішімге түрлендіруді қажет етпей, өңдеу қабаты көптеген құралдарды пайдалана отырып, сақтау деңгейіндегі деректерді тікелей сұрауға қабілетті.
Содан кейін BI қолданбалары, сондай-ақ AI және ML технологиялары деректерді пайдалана алады. Деректер көлінің экономикасы осы дизайнмен қамтамасыз етілген, бірақ кез келген өңдеу қозғалтқышы бұл деректерді оқи алатындықтан, кәсіпорындар дайындалған деректерді әртүрлі жүйелер арқылы талдау үшін қолжетімді ету еркіндігіне ие. Өңдеу және талдау үшін осы әдісті пайдалану арқылы процессор өнімділігі мен құнын жақсартуға болады.
Төмендегі ACID (атомдылық, консистенциясы, оқшаулану және ұзақ мерзімділік) критерийлеріне сәйкес келетін дерекқор транзакцияларын қолдауының арқасында архитектура сонымен қатар көптеген тараптарға жүйеде бір уақытта деректерге қол жеткізуге және жазуға мүмкіндік береді:
- Атомия транзакцияны аяқтау кезінде толық транзакция немесе оның ешқайсысы сәтті болмайтынын білдіреді. Процесс үзілген жағдайда, бұл деректердің жоғалуын немесе бүлінуін болдырмауға көмектеседі.
- Сәйкестік транзакциялардың болжамды, дәйекті түрде жүзеге асуына кепілдік береді. Ол әрбір деректердің алдын ала анықталған ережелерге сәйкес заңды болуын қамтамасыз ету арқылы деректердің тұтастығын сақтайды.
- оқшаулау ол аяқталғанға дейін жүйедегі кез келген басқа транзакцияның ешбір транзакцияға әсер етпеуін қамтамасыз етеді. Бұл көптеген тараптарға бір жүйеден бір уақытта бір-біріне кедергі жасамай оқуға және жазуға мүмкіндік береді.
- төзімділік Жүйедегі деректерге өзгертулер транзакция аяқталғаннан кейін, тіпті жүйе істен шыққан жағдайда да бар болуына кепілдік береді. Мәміле арқылы жасалған кез келген өзгерістер файлда мәңгі сақталады.
Data Lakehouse архитектурасы
Databricks (олардың Delta Lake концепциясының инноваторы және дизайнері) және AWS деректер көлі концепциясының екі негізгі жақтаушысы болып табылады. Осылайша, біз көлдердің архитектуралық орналасуын сипаттау үшін олардың білімі мен түсінігіне сүйенеміз.
Деректер көлі жүйесі әдетте бес қабаттан тұрады:
- Қабылдау қабаты
- Сақтау қабаты
- Метадеректер қабаты
- API қабаты
- Тұтыну қабаты
Қабылдау қабаты
Жүйенің бірінші қабаты әртүрлі көздерден деректерді жинауға және оны сақтау деңгейіне жіберуге жауапты. Қабат көптеген ішкі және сыртқы көздерге қосылу үшін бірнеше протоколдарды пайдалана алады, соның ішінде пакеттік және ағындық деректерді өңдеу мүмкіндіктерін біріктіреді, мысалы
- NoSQL дерекқорлары,
- файлдарды бөлісу
- CRM қолданбалары,
- веб-сайттар,
- IoT сенсорлары,
- әлеуметтік медиа,
- Бағдарламалық жасақтама қызмет ретінде (SaaS) қолданбалары және
- реляциялық мәліметтер базасын басқару жүйелері және т.б.
Осы кезде деректер ағынына арналған Apache Kafka және RDBMS және NoSQL дерекқорларынан деректерді импорттау үшін Amazon Data Migration Service (Amazon DMS) сияқты компоненттерді пайдалануға болады.
Сақтау қабаты
Лейкхаус архитектурасы AWS S3 сияқты қымбат емес нысандар дүкендерінде нысандар ретінде әртүрлі деректер түрлерін сақтауға мүмкіндік береді. Ашық файл пішімдерін пайдалана отырып, клиент құралдары осы элементтерді дүкеннен тікелей оқи алады.
Бұл көптеген API интерфейстері мен тұтыну деңгейі құрамдастарына бірдей деректерге қол жеткізуге және пайдалануға мүмкіндік береді. Метадеректер деңгейі құрылымдық және жартылай құрылымдық деректер жиындарына арналған схемаларды сақтайды, осылайша құрамдас бөліктер оларды оқу кезінде деректерге қолдана алады.
Мысалы, Hadoop Distributed File System (HDFS) платформасын жергілікті есептеулер мен сақтауды бөлетін бұлттық репозиторий қызметтерін құру үшін пайдалануға болады. Lakehouse осы қызметтер үшін өте қолайлы.
Метадеректер қабаты
Метадеректер деңгейі осы дизайнды ерекшелендіретін деректер көлінің негізгі құрамдас бөлігі болып табылады. Бұл көлде сақталған барлық элементтер үшін метадеректерді (басқа деректер бөліктері туралы ақпарат) ұсынатын және пайдаланушыларға басқару мүмкіндіктерін пайдалануға мүмкіндік беретін бірыңғай каталог:
- Дерекқордың дәйекті нұсқасы ACID транзакцияларының арқасында бір мезгілде орындалатын транзакциялар арқылы көрінеді;
- бұлттық объектілер қоймасының файлдарын сақтау үшін кэштеу;
- сұрауды өңдеуді жылдамдату үшін индекстеуді пайдалана отырып, деректер құрылымының индекстерін қосу;
- деректер объектілерін қайталау үшін нөлдік көшірме клондауды пайдалану; және
- деректердің белгілі бір нұсқаларын сақтау үшін және т.б. деректер нұсқаларын пайдалану.
Сонымен қатар, метадеректер деңгейі схемаларды басқаруды жүзеге асыруға, жұлдыз/снежинка схемалары сияқты DW схема топологияларын пайдалануға және деректер көлінде тікелей деректерді басқару мен аудит мүмкіндігін қамтамасыз етуге, бүкіл деректер құбырының тұтастығын жақсартуға мүмкіндік береді.
Схема эволюциясы мен орындау мүмкіндіктері схеманы басқаруға кіреді. Кесте схемасына сәйкес келмейтін кез келген жазуларды қабылдамау арқылы схеманы орындау пайдаланушыларға деректер тұтастығы мен сапасын сақтауға мүмкіндік береді.
Схема эволюциясы кестенің ағымдағы схемасын өзгеретін деректерді орналастыру үшін өзгертуге мүмкіндік береді. Деректер көлінің жоғарғы жағындағы бір әкімшілік интерфейсінің арқасында қол жеткізуді басқару және тексеру мүмкіндіктері де бар.
API қабаты
Архитектураның тағы бір маңызды қабаты қазір бар, ол барлық соңғы пайдаланушылар тапсырмаларды тезірек орындау және күрделі статистиканы алу үшін пайдалана алатын бірқатар API интерфейстерін қамтиды.
Метадеректер API интерфейсін пайдалану берілген қолданбаға қажетті деректер элементтерін анықтауды және оларға қол жеткізуді жеңілдетеді.
Машиналық оқыту кітапханаларына келетін болсақ, олардың кейбіреулері, мысалы, TensorFlow және Spark MLlib, Parquet сияқты ашық файл пішімдерін оқи алады және метадеректер деңгейіне тікелей қол жеткізе алады.
Сонымен қатар, DataFrame API интерфейстері бағдарламашыларға дисперсті деректерді ұйымдастыруға және өзгертуге мүмкіндік беретін оңтайландырудың үлкен мүмкіндіктерін ұсынады.
Тұтыну қабаты
Power BI, Tableau және басқа құралдар мен қолданбалар тұтыну деңгейінде орналастырылған. Lakehouse дизайнымен барлық метадеректер мен көлде сақталған барлық деректер клиенттік қолданбаларға қол жетімді.
Лейкхаусты компанияның барлық пайдаланушылары барлық түрлерін орындау үшін пайдалана алады аналитикалық операциялар, соның ішінде іскери интеллект бақылау тақталарын жасау және SQL сұраулары мен машиналық оқыту тапсырмаларын орындау.
Data Lakehouse артықшылықтары
Ұйымдар өздерінің ағымдағы деректер платформасын біріктіру және бүкіл деректерді басқару процесін оңтайландыру үшін деректер көлі үйін жасай алады. Түрлі көздерді байланыстыратын силос тосқауылдарын бөлшектеу арқылы деректер көлі үйі нақты шешімдерге деген қажеттілікті алмастыра алады.
Таңдалған деректер көздерімен салыстырғанда, бұл біріктіру түбегейлі тиімдірек процедураны жасайды. Бұл бірнеше артықшылықтарға ие:
- Аз әкімшілік: Деректерді өңделмеген деректерден алу және оны деректер қоймасында пайдалануға дайындаудың орнына, деректер көлі қоймасы онымен байланыстырылған кез келген көздерге деректерінің қолжетімді болуына және пайдалану үшін ұйымдастырылуына мүмкіндік береді.
- Экономикалық тиімділікті арттыру: Деректер көлі қоймалары есептеу мен сақтауды бөлетін заманауи инфрақұрылымды пайдаланып салынған, бұл есептеу қуатын арттырмай жадты кеңейтуді жеңілдетеді. Тек қымбат емес деректерді сақтауды пайдалану үнемді масштабтауға әкеледі.
- Деректерді басқаруды жақсарту: Деректер қоймалары стандартталған ашық архитектурамен салынған, бұл қауіпсіздікті, көрсеткіштерді, рөлге негізделген қол жеткізуді және басқа да маңызды басқару құрамдастарын көбірек бақылауға мүмкіндік береді. Ресурстар мен деректер көздерін біріктіру арқылы олар басқаруды жеңілдетеді және жақсартады.
- Жеңілдетілген стандарттар: Деректер қоймалары алғаш рет жасалған 1980 жылдары байланыс қатты шектелгендіктен, локализацияланған схема стандарттары бизнесте, тіпті бөлімдерде жиі әзірленетін. Деректер көлі қоймалары қазір деректердің көптеген түрлерінде процедураларды оңтайландыру үшін қабаттасатын біркелкі схемасы бар көптеген деректер көздерін қабылдау арқылы схемаға арналған ашық стандарттар бар екенін пайдаланады.
Data Lakehouse кемшіліктері
Деректер көлі үйлерінің айналасындағы барлық хооплаларға қарамастан, бұл идея әлі де өте жаңа екенін есте ұстаған жөн. Осы жаңа дизайнға толығымен кіріспес бұрын кемшіліктерді өлшеп алыңыз.
- Монолитті құрылым: Лейкхаустың барлығын қамтитын дизайны бірнеше артықшылықтарды ұсынады, бірақ сонымен бірге кейбір проблемаларды тудырады. Монолитті архитектура жиі барлық пайдаланушылар үшін нашар қызмет көрсетуге әкеледі және қатаң және оны ұстау қиын болуы мүмкін. Әдетте, сәулетшілер мен дизайнерлер әртүрлі пайдалану жағдайлары үшін теңшеуге болатын модульдік архитектураны ұнатады.
- Технология әлі жетілмеген: түпкілікті мақсат машиналық оқыту мен жасанды интеллекттің айтарлықтай көлемін талап етеді. Көл үйлері ойлағандай жұмыс істей алмас бұрын, бұл технологиялар одан әрі дамуы керек.
- Қолданыстағы құрылымдармен салыстырғанда айтарлықтай ілгерілеу емес: Көлдік үйлердің қаншалықты құнды болатынына әлі де үлкен күмән бар. Кейбір қарсылықтар сәйкес автоматтандырылған жабдықпен біріктірілген көл қоймасының дизайны салыстырмалы тиімділікке қол жеткізе алады деп санайды.
Data Lakehouse қиындықтары
Data lakehouse техникасын қабылдау қиын болуы мүмкін. Оның құрамдас бөліктерінің күрделілігіне байланысты деректер көлін толық қамтитын идеалды құрылым немесе біреуі үшін «барлығы үшін бір платформа» ретінде қарау дұрыс емес.
Сонымен қатар, деректер көлдерін қолданудың артуына байланысты бизнеске экономикалық пайдасыз табысқа жету туралы уәдеге ғана сүйеніп, ағымдағы деректер қоймаларын оларға көшіруге тура келеді.
Тасымалдау процесінде кідіріс мәселесі немесе үзіліс болса, бұл қымбат, уақытты қажет ететін және қауіпті болуы мүмкін.
Шешімдерді нақты немесе жанама түрде деректер көлі қоймасы ретінде сататын белгілі бір жеткізушілерге сәйкес бизнес пайдаланушылар жоғары мамандандырылған технологияларды қабылдауы керек. Олар жүйенің орталығындағы деректер көлімен байланыстырылған басқа құралдармен әрқашан жұмыс істемеуі мүмкін, бұл мәселелерді қосады.
Оған қоса, экономикалық тұрғыдан тиімді ауқымдылығы бар инфрақұрылымды қажет ететін бизнес үшін маңызды жұмыс жүктемелерін орындау кезінде тәулік бойы талдауды қамтамасыз ету қиын болуы мүмкін.
қорытынды
Соңғы жылдардағы ең жаңа деректер орталықтары - бұл деректер көлі. Ол ақпараттық технологиялар, ашық бастапқы бағдарламалық қамтамасыз ету, бұлтты есептеу, және таратылған сақтау протоколдары.
Ол бизнеске басқару мен талдауды жеңілдете отырып, барлық деректер түрлерін орталықтандырылған түрде кез келген жерден сақтауға мүмкіндік береді. Data Lakehouse - бұл өте қызықты тұжырымдама.
Кез келген фирма деректер қоймасы сияқты жылдам және тиімді, сонымен қатар деректер көлі сияқты икемді болатын барлығы бір деректер платформасына қол жеткізе алатын болса, айтарлықтай бәсекелестік артықшылығына ие болар еді.
Идея әлі де дамып келеді және салыстырмалы түрде жаңа болып қала береді. Нәтижесінде, бір нәрсенің кең тарауы мүмкін бе, жоқ па анықтау үшін біраз уақыт қажет болуы мүмкін.
Біз барлығымыз Лейкхаус сәулетінің бағытына қызығушылық танытуымыз керек.
пікір қалдыру