Пры разважанні аб платформах перадачы дадзеных можа быць крыху складана ўлічыць усе даступныя сэрвісы і архітэктурныя варыянты.
Карпаратыўная платформа даных часта складаецца з сховішчаў даных, мадэляў даных, азёр даных і справаздач, кожнае з якіх мае пэўную мэту і набор неабходных навыкаў. Наадварот, за апошнія некалькі гадоў з'явіўся новы дызайн пад назвай data lakehouse.
Універсальнасць азёр даных і кіраванне дадзенымі сховішча даных аб'ядноўваюцца ў рэвалюцыйную архітэктуру захоўвання даных, якая атрымала назву «возера даных».
У гэтай публікацыі мы падрабязна разгледзім data lakehouse, уключаючы яго кампаненты, асаблівасці, архітэктуру і іншыя аспекты.
Што такое Data Lakehouse?
Як вынікае з назвы, возера даных - гэта новы тып архітэктуры даных, які аб'ядноўвае возера даных і сховішча даных, каб вырашыць недахопы кожнага паасобку.
Па сутнасці, сістэма Lakehouse выкарыстоўвае недарагое сховішча для падтрымання велізарных аб'ёмаў даных у іх зыходнай форме, падобна да азёр даных. Даданне ўзроўню метададзеных у верхнюю частку сховішчы таксама стварае структуру даных і пашырае магчымасці інструментаў кіравання дадзенымі, падобных да тых, што знаходзяцца ў сховішчах даных.
Ён захоўвае велізарныя аб'ёмы арганізаваных, паўструктураваных і неструктураваных даных, якія яны атрымліваюць з розных бізнес-праграм, сістэм і гаджэтаў, якія выкарыстоўваюцца ў іх арганізацыі.
Большую частку часу возера даных выкарыстоўваюць недарагую інфраструктуру захоўвання дадзеных з праграмным інтэрфейсам файлавых прыкладанняў (API) для захоўвання даных у адкрытых агульных фарматах файлаў.
Гэта дазваляе многім камандам атрымліваць доступ да ўсіх даных кампаніі праз адзіную сістэму для розных ініцыятыў, такіх як навука аб дадзеных, навучанне з дапамогай машыны, і бізнес-аналітыка.
Асаблівасці
- Недарагое захоўванне. Лакехаус дадзеных павінен мець магчымасць захоўваць дадзеныя ў недарагім сховішчы аб'ектаў, напрыклад Google Cloud Сховішча, Azure Blob Storage, Amazon Simple Storage Service або ўласнае выкарыстанне ORC або Parquet.
- Магчымасць аптымізацыі даных: аптымізацыя макета даных, кэшаванне і індэксаванне - гэта некалькі прыкладаў таго, як канцэрн даных павінен мець магчымасць аптымізаваць даныя, захоўваючы зыходны фармат даных.
- Узровень транзакцыйных метададзеных: у дадатак да важнага недарагога захоўвання, гэта дазваляе выкарыстоўваць магчымасці кіравання данымі, якія маюць вырашальнае значэнне для прадукцыйнасці сховішча даных.
- Падтрымка API дэкларатыўнага DataFrame: большасць інструментаў штучнага інтэлекту могуць выкарыстоўваць DataFrames для атрымання неапрацаваных даных аб'ектнага сховішча. Падтрымка Declarative DataFrame API павялічвае магчымасць дынамічна паляпшаць прадстаўленне і структуру даных у адказ на канкрэтныя задачы навукі аб даных або штучнага інтэлекту.
- Падтрымка транзакцый ACID: абрэвіятура ACID, якая расшыфроўваецца як атамарнасць, кансістэнцыя, ізаляванасць і трываласць, з'яўляецца найважнейшым кампанентам у вызначэнні транзакцыі і забеспячэнні паслядоўнасці і надзейнасці даных. Такія транзакцыі раней былі магчымыя толькі ў сховішчах дадзеных, але lakehouse прапануе магчымасць выкарыстоўваць іх з азёрамі даных таксама. З некалькімі канвеерамі даных, уключаючы адначасовае чытанне і запіс даных, гэта вырашае праблему нізкай якасці апошніх даных.
Элементы Data Lakehouse
Архітэктура базы дадзеных падзелена на два асноўныя ўзроўні на высокім узроўні. Прыём дадзеных узроўнем захоўвання кантралюецца платформай Lakehouse (г.зн. возерам даных).
Без неабходнасці загружаць дадзеныя ў сховішча дадзеных або пераўтвараць іх у прапрыетарны фармат, узровень апрацоўкі можа запытваць дадзеныя на ўзроўні захоўвання непасрэдна з дапамогай шэрагу інструментаў.
Затым даныя могуць выкарыстоўваць прыкладанні BI, а таксама тэхналогіі AI і ML. Эканоміка возера даных забяспечваецца гэтай канструкцыяй, але паколькі любы механізм апрацоўкі можа счытваць гэтыя даныя, прадпрыемствы маюць свабоду рабіць падрыхтаваныя даныя даступнымі для аналізу ў шэрагу сістэм. Прадукцыйнасць працэсара і кошт можна палепшыць, выкарыстоўваючы гэты метад апрацоўкі і аналізу.
Дзякуючы падтрымцы транзакцый базы дадзеных, якія адпавядаюць наступным крытэрыям ACID (атамарнасць, кансістэнцыя, ізаляцыя і трываласць), архітэктура таксама дазваляе многім бакам атрымліваць доступ і запісваць даныя адначасова ў сістэме:
- Атамнасць адносіцца да таго факту, што падчас завяршэння транзакцыі ўдаецца або поўная транзакцыя, або ніводная з яе. У выпадку, калі працэс перапынены, гэта дапамагае пазбегнуць страты або пашкоджання даных.
- Ўзгодненасць гарантуе, што транзакцыі адбываюцца прадказальным, паслядоўным чынам. Ён падтрымлівае цэласнасць даных, гарантуючы, што ўсе даныя законныя ў адпаведнасці з загадзя вызначанымі правіламі.
- Ізаляцыя гарантуе, што, пакуль яна не будзе завершана, ніякая іншая транзакцыя ў сістэме не можа паўплываць ні на адну транзакцыю. Гэта дазваляе шматлікім удзельнікам чытаць і пісаць з адной сістэмы адначасова, не перашкаджаючы адзін аднаму.
- даўгавечнасць гарантуе, што змены ў дадзеных у сістэме працягваюць існаваць пасля завяршэння транзакцыі, нават у выпадку збою сістэмы. Любыя змены, выкліканыя транзакцыяй, захоўваюцца ў файле назаўжды.
Data Lakehouse Architecture
Databricks (наватар і дызайнер іх канцэпцыі Delta Lake) і AWS з'яўляюцца двума асноўнымі прыхільнікамі канцэпцыі data lakehouse. Такім чынам, мы будзем абапірацца на іх веды і разуменне, каб апісаць архітэктурную планіроўку азёрных дамоў.
Сістэма возера дадзеных звычайна мае пяць узроўняў:
- Праглынальны пласт
- Слой захоўвання
- Узровень метададзеных
- Узровень API
- Пласт спажывання
Праглынальны пласт
Першы ўзровень сістэмы адказвае за збор даных з розных крыніц і адпраўку іх на ўзровень захоўвання. Узровень можа выкарыстоўваць некалькі пратаколаў для злучэння са шматлікімі ўнутранымі і знешнімі крыніцамі, у тым ліку аб'ядноўваючы магчымасці пакетнай і струменевай апрацоўкі дадзеных, такія як
- базы дадзеных NoSQL,
- файлаабменнікі
- Прыкладанні CRM,
- вэб-сайты,
- датчыкі IoT,
- сацыяльныя медыя,
- Праграмнае забеспячэнне як паслуга (SaaS) і прыкладанні
- сістэмы кіравання рэляцыйнымі базамі дадзеных і інш.
На дадзены момант могуць быць выкарыстаны такія кампаненты, як Apache Kafka для струменевай перадачы даных і Amazon Data Migration Service (Amazon DMS) для імпарту даных з RDBMS і баз дадзеных NoSQL.
Слой захоўвання
Архітэктура Lakehouse прызначана для захоўвання розных тыпаў даных у выглядзе аб'ектаў у недарагіх сховішчах аб'ектаў, такіх як AWS S3. Выкарыстоўваючы адкрытыя фарматы файлаў, кліенцкія інструменты могуць потым чытаць гэтыя элементы непасрэдна з крамы.
Гэта дазваляе многім API і кампанентам ўзроўню спажывання атрымліваць доступ да адных і тых жа даных і выкарыстоўваць іх. Узровень метададзеных захоўвае схемы для структураваных і паўструктураваных набораў даных, каб кампаненты маглі прымяняць іх да дадзеных падчас іх чытання.
Платформа размеркаванай файлавай сістэмы Hadoop (HDFS), напрыклад, можа быць выкарыстана для стварэння службаў воблачных сховішчаў, якія падзяляюць вылічэнні і захоўванне на месцы. Lakehouse ідэальна падыходзіць для гэтых паслуг.
Узровень метададзеных
Узровень метададзеных з'яўляецца фундаментальным кампанентам базы дадзеных, які адрознівае гэты дызайн. Гэта адзіны каталог, які прапануе метададзеныя (інфармацыю аб іншых фрагментах дадзеных) для ўсіх элементаў, якія захоўваюцца ў возеры, і дазваляе карыстальнікам выкарыстоўваць такія магчымасці адміністравання, як:
- Узгодненая версія базы дадзеных бачная ў адначасовых транзакцыях дзякуючы транзакцыям ACID;
- кэшаванне для захавання файлаў сховішча воблачных аб'ектаў;
- даданне індэксаў структуры дадзеных з дапамогай індэксацыі для паскарэння апрацоўкі запытаў;
- выкарыстанне кланавання без капіравання для дублявання аб'ектаў дадзеных; і
- для захоўвання пэўных версій даных і г.д., выкарыстоўваць кіраванне версіямі даных.
Акрамя таго, узровень метададзеных забяспечвае рэалізацыю кіравання схемамі, выкарыстанне тапалогій схемы DW, такіх як схемы зорка/сняжынка, і забеспячэнне магчымасці кіравання данымі і аўдыту непасрэдна ў возеры даных, павышаючы цэласнасць усяго канвеера даных.
Функцыі для эвалюцыі схемы і забеспячэння выканання ўключаны ў кіраванне схемамі. Адхіляючы любыя запісы, якія не адпавядаюць схеме табліцы, прымяненне схемы дазваляе карыстальнікам падтрымліваць цэласнасць і якасць даных.
Эвалюцыя схемы дазваляе мадыфікаваць бягучую схему табліцы з улікам зменлівых даных. Дзякуючы адзінаму інтэрфейсу адміністравання на вяршыні возера даных, ёсць таксама магчымасці кантролю доступу і аўдыту.
Узровень API
Цяпер прысутнічае яшчэ адзін важны ўзровень архітэктуры, які змяшчае шэраг API, якія ўсе канечныя карыстальнікі могуць выкарыстоўваць для больш хуткага выканання задач і атрымання больш складанай статыстыкі.
Выкарыстанне метаданых API палягчае ідэнтыфікацыю і доступ да элементаў дадзеных, неабходных для дадзенага прыкладання.
З пункту гледжання бібліятэк машыннага навучання, некаторыя з іх, такія як TensorFlow і Spark MLlib, могуць чытаць адкрытыя фарматы файлаў, такія як Parquet, і атрымліваць прамы доступ да ўзроўню метададзеных.
У той жа час API DataFrame прапануюць больш шанцаў для аптымізацыі, дазваляючы праграмістам арганізоўваць і змяняць разрозненыя даныя.
Пласт спажывання
Power BI, Tableau і іншыя інструменты і прыкладанні размешчаны на ўзроўні спажывання. Дзякуючы дызайну возера, усе метададзеныя і ўсе даныя, якія захоўваюцца ў возеры, даступныя кліенцкім праграмам.
Lakehouse можа выкарыстоўвацца ўсімі карыстальнікамі ў кампаніі для выканання ўсіх відаў аналітычныя аперацыі, уключаючы стварэнне прыборных панэляў бізнес-аналітыкі і выкананне запытаў SQL і задач машыннага навучання.
Перавагі Data Lakehouse
Арганізацыі могуць стварыць базу даных, каб уніфікаваць сваю бягучую платформу даных і аптымізаваць увесь працэс кіравання данымі. Дэмантуючы бар'еры сіласу, якія злучаюць розныя крыніцы, возера дадзеных можа замяніць неабходнасць у розных рашэннях.
У параўнанні з падабранымі крыніцамі даных гэтая інтэграцыя стварае значна больш эфектыўную скразную працэдуру. Гэта мае некалькі пераваг:
- Менш адміністравання: Замест таго, каб здабываць даныя з неапрацаваных даных і рыхтаваць іх для выкарыстання ў сховішчы даных, азерца даных дазваляе любым крыніцам, звязаным з ім, мець свае даныя даступнымі і арганізаванымі для выкарыстання.
- Павышэнне эканамічнай эфектыўнасці: Лакехаусы даных пабудаваны з выкарыстаннем сучаснай інфраструктуры, якая падзяляе вылічэнні і захоўванне, што дазваляе лёгка пашыраць сховішча без павелічэння вылічальнай магутнасці. Простае выкарыстанне недарагіх сховішчаў даных дае маштабаванасць, якая з'яўляецца эканамічна эфектыўнай.
- Лепшае кіраванне дадзенымі: Базы дадзеных пабудаваны са стандартызаванай адкрытай архітэктурай, якая дазваляе больш кантраляваць бяспеку, паказчыкі, ролевы доступ і іншыя важныя кампаненты кіравання. Аб'ядноўваючы рэсурсы і крыніцы даных, яны спрашчаюць і паляпшаюць кіраванне.
- Спрошчаныя стандарты: Паколькі злучэнне было моцна абмежавана ў 1980-х гадах, калі ўпершыню былі распрацаваны сховішчы дадзеных, лакалізаваныя стандарты схем часта распрацоўваліся ўнутры прадпрыемстваў, нават аддзелаў. Дадзеныя азёры выкарыстоўваюць той факт, што многія тыпы даных цяпер маюць адкрытыя стандарты для схемы, паглынаючы шматлікія крыніцы даных з перакрываючай адзінай схемай, каб спрасціць працэдуры.
Недахопы Data Lakehouse
Нягледзячы на ўсю шуміху вакол даных, важна мець на ўвазе, што гэтая ідэя ўсё яшчэ вельмі новая. Не забудзьцеся ўзважыць недахопы, перш чым цалкам прысвяціць гэтаму новаму дызайну.
- Маналітная канструкцыя: Дызайн «усё ўключана» ў дамах на возеры дае некалькі пераваг, але таксама выклікае некаторыя праблемы. Маналітная архітэктура часта прыводзіць да дрэннага абслугоўвання для ўсіх карыстальнікаў і можа быць жорсткай і складанай у абслугоўванні. Як правіла, архітэктарам і дызайнерам падабаецца больш модульная архітэктура, якую яны могуць наладзіць для розных выпадкаў выкарыстання.
- Тэхналогія яшчэ не зусім там: канчатковая мэта цягне за сабой значную колькасць машыннага навучання і штучнага інтэлекту. Перш чым Lakehouses змогуць працаваць, як задумана, гэтыя тэхналогіі павінны развівацца далей.
- Не істотны прагрэс у параўнанні з існуючымі структурамі: Па-ранейшаму існуе значны скептыцызм наконт таго, наколькі большую каштоўнасць насамрэч дадуць азёрныя дамы. Некаторыя нядобразычліўцы сцвярджаюць, што канструкцыя возера-склада ў спалучэнні з адпаведным аўтаматызаваным абсталяваннем можа дасягнуць параўнальнай эфектыўнасці.
Праблемы Data Lakehouse
Можа быць цяжка прыняць тэхніку data lakehouse. З-за складанасці яго складовых частак няправільна разглядаць даныя Lakehouse як усеабдымную ідэальную структуру або, напрыклад, як «адну платформу для ўсяго».
Акрамя таго, у сувязі з усё большым распаўсюджваннем азёр даных кампаніям давядзецца перанесці ў іх свае цяперашнія сховішчы даных, разлічваючы толькі на абяцанне поспеху без відавочнай эканамічнай выгады.
Калі падчас працэсу перадачы ўзнікаюць праблемы з затрымкай або збоі, гэта можа апынуцца дарагім, працаёмкім і, магчыма, небяспечным.
Бізнэс-карыстальнікі павінны ахопліваць вузкаспецыялізаваныя тэхналогіі, згодна з пэўнымі пастаўшчыкамі, якія прама ці ўскосна прадаюць рашэнні як базы дадзеных. Яны не заўсёды могуць працаваць з іншымі інструментамі, звязанымі з возерам даных у цэнтры сістэмы, што ўзмацняе праблемы.
Акрамя таго, можа быць цяжка забяспечыць кругласутачную аналітыку падчас выканання крытычна важных для бізнесу працоўных нагрузак, што патрабуе інфраструктуры з эканамічна эфектыўнай маштабаванасцю.
заключэнне
Самая новая разнавіднасць цэнтраў апрацоўкі дадзеных за апошнія гады - data lakehouse. Ён аб'ядноўвае розныя вобласці, такія як інфармацыйныя тэхналогіі, праграмнае забеспячэнне з адкрытым зыходным кодам, хмарных вылічэнняў, і пратаколы размеркаванага захоўвання.
Гэта дазваляе прадпрыемствам цэнтралізавана захоўваць усе тыпы даных з любога месца, што спрашчае кіраванне і аналіз. Data Lakehouse - даволі інтрыгуючая канцэпцыя.
Любая фірма атрымала б значную канкурэнтную перавагу, калі б мела доступ да комплекснай платформы даных, якая была б такой жа хуткай і эфектыўнай, як сховішча даных, а таксама такой жа гнуткай, як возера даных.
Ідэя ўсё яшчэ развіваецца і застаецца адносна новай. У выніку можа спатрэбіцца некаторы час, каб вызначыць, ці можа нешта стаць шырока распаўсюджаным.
Нам усім павінна быць цікава, у якім кірунку рухаецца архітэктура Lakehouse.
Пакінуць каментар