Data lakehouses аб'ядноўваюць канцэпцыі сховішча даных і возера даных для бізнесу.
Гэтыя інструменты дазваляюць ствараць эканамічна эфектыўныя рашэнні для захоўвання даных, аб'ядноўваючы магчымасці кіравання азёрамі даных з архітэктурай даных у сховішчах даных.
Акрамя таго, адбываецца скарачэнне міграцыі і рэзервавання даных, менш часу траціцца на адміністраванне, а больш кароткія схемы і працэдуры кіравання дадзенымі фактычна становяцца рэальнасцю.
Адна база дадзеных мае шмат пераваг у параўнанні з сістэмай захоўвання з некалькімі рашэннямі.
Гэтыя інструменты па-ранейшаму выкарыстоўваюцца навукоўцамі апрацоўкі дадзеных для паляпшэння іх разумення працэдур бізнес-аналітыкі і машыннага навучання.
У гэтым артыкуле будзе зроблены кароткі агляд Data Lakehouse, яго магчымасцяў і даступных інструментаў.
Уводзіны ў Data Lakehouse
Новы тып архітэктуры дадзеных, які называецца "дадзеныя Lakehouse” аб'ядноўвае возера даных і сховішча даных для ліквідацыі недахопаў кожнага з іх незалежна.
Сістэма Lakehouse, як і возера даных, выкарыстоўвае недарагое сховішча для захавання велізарных аб'ёмаў даных у першапачатковым выглядзе.
Даданне ўзроўню метададзеных у верхняй частцы сховішчы таксама забяспечвае структуру даных і пашырае магчымасці інструментаў кіравання данымі, падобных да тых, што ёсць у сховішчах даных.
Ён змяшчае велізарную колькасць структураваных, паўструктураваных і неструктураваных даных, атрыманых з розных бізнес-прыкладанняў, сістэм і прылад, якія выкарыстоўваюцца на прадпрыемстве.
У выніку, у адрозненне ад азёр даных, сістэма Lakehouse можа кіраваць і аптымізаваць гэтыя даныя для прадукцыйнасці SQL.
Ён таксама мае магчымасць захоўваць і апрацоўваць вялікія аб'ёмы разнастайных даных па меншай цане, чым сховішчы даных.
Data lakehouse спатрэбіцца, калі вам трэба выканаць любы доступ да дадзеных або аналітыку супраць якіх-небудзь даных, але вы не ўпэўненыя ў даных або рэкамендаванай аналітыцы.
Архітэктура Lakehouse будзе працаваць даволі добра, калі прадукцыйнасць не з'яўляецца асноўнай праблемай.
Гэта не азначае, што вы павінны засноўваць усю сваю структуру на азёрным доме.
Больш падрабязную інфармацыю пра тое, як выбраць возера даных, азёрны дом, сховішча даных або спецыялізаваную аналітычную базу дадзеных для кожнага выпадку выкарыстання, можна знайсці. тут.
Асаблівасці Data Lakehouse
- Адначасовае чытанне і запіс дадзеных
- Адаптыўнасць і маштабаванасць
- Дапамога па схеме з інструментамі кіравання дадзенымі
- Адначасовае чытанне і запіс дадзеных
- Даступнае сховішча
- Падтрымліваюцца ўсе тыпы дадзеных і фарматы файлаў.
- Аптымізаваны доступ да інструментаў навукі аб даных і машыннага навучання
- Вашы групы апрацоўкі дадзеных выйграюць ад доступу толькі да адной сістэмы для больш хуткай і дакладнай перадачы працоўных нагрузак праз яе.
- Магчымасці ў рэжыме рэальнага часу для ініцыятыў у галіне навукі аб даных, машыннага навучання і аналітыкі
5 лепшых інструментаў Data Lakehouse
Збор дадзеных
Databricks, які быў заснаваны чалавекам, які першым распрацаваў і зрабіў Apache Spark з адкрытым зыходным кодам, забяспечвае кіраваны сэрвіс Apache Spark і пазіцыянуецца як платформа для азёр даных.
Кампаненты data lake, delta lake і delta engine архітэктуры Databricks lakehouse дазваляюць выкарыстоўваць бізнес-аналітыку, навуку аб даных і машыннае навучанне.
Возера даных - гэта публічнае воблачнае сховішча.
З падтрымкай кіравання метададзенымі, пакетнай і паточнай апрацоўкі даных для шматструктураваных набораў даных, выяўлення даных, кантролю бяспечнага доступу і аналітыкі SQL.
Databricks прапануе большасць функцый сховішча даных, якія можна чакаць у платформе Data Lakehouse.
Кампанія Databricks нядаўна прадставіла свой Auto Loader, які аўтаматызуе ETL і ўвод даных і выкарыстоўвае выбарку даных для высновы схемы для розных тыпаў даных, каб забяспечыць асноўныя кампаненты стратэгіі захоўвання возера даных.
У якасці альтэрнатывы карыстальнікі могуць будаваць канвееры ETL паміж сваім публічным воблачным возерам дадзеных і Delta Lake з дапамогай Delta Live Tables.
На паперы здаецца, што Databricks мае ўсе перавагі, але наладжванне рашэння і стварэнне канвеераў дадзеных патрабуе шмат чалавечай працы ад кваліфікаваных распрацоўшчыкаў.
У маштабе адказ таксама становіцца больш складаным. Гэта больш складана, чым здаецца.
Ахана
Возера даных - гэта адзінае цэнтральнае месца, дзе вы можаце захоўваць любы тып даных, якія вы выбіраеце, у тым ліку неструктураваныя і структураваныя даныя. AWS S3, Microsoft Azure і Google Cloud Storage - гэта тры агульныя возера даных.
Азёры даных неверагодна папулярныя, таму што яны вельмі даступныя і простыя ў выкарыстанні; па сутнасці, вы можаце захоўваць колькі заўгодна тыпаў даных за вельмі невялікія грошы.
Але возера даных не прапануе ўбудаваных інструментаў, такіх як аналітыка, запыты і г.д.
Вам патрэбны механізм запытаў і каталог даных на верхняй частцы возера даных (куды ўваходзіць Ahana Cloud), каб запытваць вашы даныя і выкарыстоўваць іх.
З дапамогай найлепшага з Data Warehouse і Data Lake распрацаваны новы дызайн data lakehouse.
Гэта сведчыць аб тым, што ён празрысты, адаптаваны, мае добрыя суадносіны кошт/прадукцыйнасць, маштабуецца, як возера даных, падтрымлівае транзакцыі, і мае высокі ўзровень бяспекі, параўнальны са сховішчам даных.
Ваш высокапрадукцыйны механізм запытаў SQL - гэта мозг Data Lakehouse. Дзякуючы гэтаму вы можаце выконваць высокапрадукцыйную аналітыку даных вашага возера даных.
Ahana Cloud for Presto - гэта SaaS для Presto на AWS, што дазваляе неверагодна проста пачаць выкарыстоўваць Presto у воблаку.
Для вашага возера даных на базе S3 у Ahana ўжо ёсць убудаваны каталог даных і кэшаванне. Ahana дае вам функцыі Presto, не патрабуючы ад вас апрацоўкі накладных выдаткаў, таму што яна робіць гэта ўнутрана.
AWS Lake Formation, Apache Hudi і Delta Lake - гэта толькі некаторыя з менеджэраў транзакцый, якія з'яўляюцца часткай стэка і інтэгруюцца з ім.
Дрэміё
Арганізацыі імкнуцца хутка, проста і эфектыўна ацэньваць велізарныя аб'ёмы даных, якія хутка растуць.
Dremio лічыць, што адкрытыя азёры даных спалучаюць у сабе перавагі азёр даных і сховішчаў даных на адкрытай аснове - лепшы падыход для дасягнення гэтай мэты.
Платформа Lakehouse Dremio забяспечвае вопыт, які працуе для ўсіх, з простым інтэрфейсам, які дазваляе карыстальнікам выконваць аналізы за долю часу.
Dremio Cloud, цалкам кіраваная платформа даных lakehouse, і запуск дзвюх новых службаў: Dremio Sonar, механізм запытаў lakehouse, і Dremio Arctic, інтэлектуальны мегамагазін для Apache Iceberg, які забяспечвае унікальны вопыт, падобны на Git для lakehouse.
Усе працоўныя нагрузкі SQL арганізацыі могуць быць выкананы на бясконца маштабаванай платформе Dremio Cloud без трэння, якая таксама аўтаматызуе задачы па кіраванні дадзенымі.
Ён створаны для SQL, прапануе вопыт, падобны на Git, з адкрытым зыходным кодам і заўсёды бясплатны.
Яны стварылі яго як платформу Lakehouse, якую любяць каманды апрацоўкі дадзеных.
Выкарыстоўваючы фарматы табліц і файлаў з адкрытым зыходным кодам, такія як Apache Iceberg і Apache Parquet, вашы дадзеныя захоўваюцца ў вашым уласным сховішчы возера дадзеных пры выкарыстанні Dremio Cloud.
Будучыя інавацыі могуць быць лёгка пераняты, і правільны рухавік можа быць абраны ў залежнасці ад вашай працоўнай нагрузкі.
Сняжынка
Snowflake - гэта воблачная платформа для даных і аналітыкі, якая можа задаволіць патрэбы азёр даных і сховішчаў.
Яна пачалася як сістэма сховішча дадзеных, пабудаваная на воблачнай інфраструктуры.
Платформа складаецца з цэнтралізаванага сховішча, якое размяшчаецца паверх публічнага воблачнага сховішча ад AWS, Microsoft Azure або Google Cloud Platform (GCP).
Пасля гэтага ідзе шматкластарны ўзровень вылічэнняў, дзе карыстальнікі могуць запускаць віртуальнае сховішча даных і выконваць SQL-запыты да сваіх сховішчаў даных.
Архітэктура дазваляе раз'яднаць сховішча і вылічальныя рэсурсы, што дазваляе арганізацыям самастойна маштабаваць абодва па меры неабходнасці.
Нарэшце, Snowflake забяспечвае ўзровень абслугоўвання з катэгарызацыі метададзеных, кіраваннем рэсурсамі, кіраваннем дадзенымі, транзакцыямі і іншымі функцыямі.
Злучальнікі інструментаў BI, кіраванне метададзенымі, кантроль доступу і запыты SQL - гэта толькі некаторыя з функцый сховішча даных, якія выдатна прапануе платформа.
Snowflake, аднак, абмежаваны адным рэляцыйным механізмам запытаў на аснове SQL.
У выніку гэта становіцца прасцей у адміністраванні, але менш адаптыўным, і бачанне шматмадэльнага возера даных не рэалізавана.
Акрамя таго, перад пошукам або аналізам дадзеных у воблачным сховішчы Snowflake патрабуе, каб прадпрыемствы загрузілі іх у цэнтралізаваны ўзровень захоўвання.
Працэдура канвеернай перадачы дадзеных уручную патрабуе папярэдняга ETL, забеспячэння і фарматавання даных, перш чым іх можна будзе праверыць. Пашырэнне гэтых ручных працэсаў выклікае расчараванне.
Іншы варыянт, які здаецца добрым на паперы, але насамрэч адхіляецца ад прынцыпу простага ўводу дадзеных возера даных, - гэта возера дадзеных Сняжынкі.
Аракул
Сучасная адкрытая архітэктура, вядомая як «возера даных», дазваляе захоўваць, разумець і аналізаваць усе вашы даныя.
Шырыня і гібкасць самых папулярных рашэнняў для возера даных з адкрытым зыходным кодам спалучаюцца з магутнасцю і глыбінёй сховішчаў даных.
Найноўшыя структуры штучнага інтэлекту і ўжо створаныя сэрвісы штучнага інтэлекту могуць выкарыстоўвацца з базай дадзеных на Oracle Cloud Infrastructure (OCI).
Пры выкарыстанні возера дадзеных з адкрытым зыходным кодам можна працаваць з дадатковымі тыпамі даных. Але час і намаганні, неабходныя для кіравання, могуць быць пастаянным недахопам.
OCI прапануе цалкам кіраваныя паслугі Lakehouse з адкрытым зыходным кодам па больш нізкіх тарыфах і з меншым кіраваннем, што дазваляе вам прадбачыць меншыя аперацыйныя выдаткі, лепшую маштабаванасць і бяспеку, а таксама магчымасць кансалідаваць усе існуючыя даныя ў адным месцы.
База дадзеных павялічыць каштоўнасць сховішчаў дадзеных і вітрын, якія неабходныя для паспяховых прадпрыемстваў.
Дадзеныя можна атрымаць з дапамогай Lakehouse з некалькіх месцаў з дапамогай усяго аднаго запыту SQL.
Існуючыя праграмы і інструменты атрымліваюць празрысты доступ да ўсіх дадзеных без неабходнасці карэкціроўкі або атрымання новых навыкаў.
заключэнне
Укараненне рашэнняў data lakehouse з'яўляецца адлюстраваннем больш шырокай тэндэнцыі ў галіне вялікіх даных, якая заключаецца ў інтэграцыі аналітыкі і захоўвання даных ва ўніфікаваных платформах даных для максімальнай выгады ад даных для бізнесу пры адначасовым зніжэнні часу, выдаткаў і складанасці вымання каштоўнасці.
Платформы, у тым ліку Databricks, Snowflake, Ahana, Dremio і Oracle, былі звязаны з ідэяй «возера даных», але кожная з іх мае унікальны набор функцый і тэндэнцыю працаваць больш як сховішча даных, чым як сапраўднае возера даных. у цэлым.
Калі рашэнне прадаецца як «сховішча даных», прадпрыемствы павінны асцерагацца таго, што гэта насамрэч азначае.
Прадпрыемствам трэба выйсці за межы маркетынгавага жаргону, напрыклад, "памяшканне даных", а замест гэтага вывучыць асаблівасці кожнай платформы, каб выбраць лепшую платформу перадачы дадзеных, якая будзе пашырацца разам з іх бізнесам у будучыні.
Пакінуць каментар