Data Lakehouse - Vše, co potřebujete vědět

Obsah[Skrýt][Ukázat]

Co je Data Lakehouse?
Funkce
Prvky Data Lakehouse
Architektura Data Lakehouse+-
Výhody Data Lakehouse
Nevýhody Data Lakehouse
Výzvy Data Lakehouse
Proč investovat do čističky vzduchu?

Při přemýšlení o datových platformách může být trochu obtížné zvážit všechny dostupné služby a architektonické možnosti.

Podniková datová platforma se často skládá z datových skladů, datových modelů, datových jezer a sestav, z nichž každý má specifický účel a sadu potřebných dovedností. Naproti tomu se během posledních několika let objevil nový design nazvaný data lakehouse.

Všestrannost datových jezer a správy datových skladů se snoubí v revoluční architektuře ukládání dat nazývané „data lakehouse“.

V tomto příspěvku prozkoumáme data lakehouse do hloubky, včetně jeho součástí, funkcí, architektury a dalších aspektů.

Co je Data Lakehouse?

Jak název napovídá, data lakehouse je nový typ datové architektury, která kombinuje datové jezero s datovým skladem, aby se vyřešily nedostatky každého zvlášť.

Systém Lakehouse v podstatě využívá levné úložiště k uchování obrovského množství dat v jejich původních formách, podobně jako datová jezera. Přidání vrstvy metadat nad úložiště také poskytuje datovou strukturu a posiluje nástroje pro správu dat, jako jsou ty, které se nacházejí v datových skladech.

Data Lakehouse

Uchovává obrovské objemy organizovaných, polostrukturovaných a nestrukturovaných dat, která získávají z různých podnikových aplikací, systémů a gadgetů používaných v celé jejich organizaci.

Většinu času datová jezera používají nízkonákladovou infrastrukturu úložiště s rozhraním pro programování souborů (API) k ukládání dat v otevřených obecných formátech souborů.

To umožňuje mnoha týmům přistupovat ke všem firemním datům prostřednictvím jediného systému pro různé iniciativy, jako je datová věda, strojové učenía business intelligence.

Funkce

Nízkonákladové úložiště. Data lakehouse musí být schopen ukládat data v nenákladném objektovém úložišti, jako je např Google Cloud Storage, Azure Blob Storage, Amazon Simple Storage Service nebo nativně pomocí ORC nebo Parquet.
Schopnost optimalizace dat: Optimalizace rozvržení dat, ukládání do mezipaměti a indexování je několik příkladů toho, jak musí být společnost Data Lakehouse schopna optimalizovat data při zachování původního formátu dat.
Vrstva transakčních metadat: Kromě základního levného úložiště to umožňuje funkce správy dat, které jsou klíčové pro výkon datového skladu.
Podpora rozhraní Declarative DataFrame API: Většina nástrojů AI může používat DataFrames k načítání nezpracovaných dat úložiště objektů. Podpora pro deklarativní DataFrame API zvyšuje schopnost dynamicky vylepšovat prezentaci a strukturu dat v reakci na konkrétní datovou vědu nebo úlohu AI.
Podpora transakcí ACID: Zkratka ACID, která znamená atomicitu, konzistenci, izolaci a trvanlivost, je kritickou součástí při definování transakce a zajištění konzistence a spolehlivosti dat. Takové transakce byly dříve možné pouze v datových skladech, ale lakehouse nabízí možnost jejich využití s datovými jezery také. S několika datovými kanály včetně souběžného čtení a zápisu dat to řeší problém nízké kvality dat.

Prvky Data Lakehouse

Architektura data lakehouse je rozdělena do dvou hlavních vrstev na vysoké úrovni. Příjem dat úložné vrstvy je řízen platformou Lakehouse (tj. datovým jezerem).

Bez nutnosti načítat data do datového skladu nebo je převádět do proprietárního formátu je pak vrstva zpracování schopna dotazovat se na data ve vrstvě úložiště přímo pomocí řady nástrojů.

Data pak mohou využívat aplikace BI, stejně jako technologie AI a ML. Ekonomika datového jezera je zajištěna tímto návrhem, ale protože jakýkoli zpracovatelský stroj může tato data číst, podniky mají svobodu zpřístupnit připravená data pro analýzu řadou systémů. Použitím této metody pro zpracování a analýzu lze zlepšit výkon i cenu procesoru.

Díky podpoře databázových transakcí, které splňují následující kritéria ACID (atomicita, konzistence, izolace a trvanlivost), architektura také umožňuje mnoha stranám přistupovat a zapisovat data současně v rámci systému:

Atomicita odkazuje na skutečnost, že buď celá transakce, nebo žádná z ní, při dokončení transakce uspěje. V případě, že je proces přerušen, pomáhá to předejít ztrátě nebo poškození dat.
Konzistence zaručuje, že transakce probíhají předvídatelným a konzistentním způsobem. Zachovává integritu dat tím, že zajišťuje, že všechna data jsou legitimní v souladu s předem stanovenými pravidly.
Izolace zajišťuje, že až do dokončení nemůže být žádná transakce ovlivněna žádnou jinou transakcí v systému. To umožňuje mnoha stranám číst a zapisovat ze stejného systému současně, aniž by se navzájem rušily.
Trvanlivost zaručuje, že změny v datech v systému budou existovat i po dokončení transakce, a to i v případě selhání systému. Jakékoli změny způsobené transakcí jsou uchovávány navždy.

Architektura Data Lakehouse

Databricks (inovátor a návrhář jejich konceptu Delta Lake) a AWS jsou dva hlavní zastánci konceptu datového jezera. Budeme se tedy spoléhat na jejich znalosti a vhled při popisu architektonického uspořádání jezerních domů.

Systém datového jezera bude mít obvykle pět vrstev:

Vrstva požití
Úložná vrstva
Metadatová vrstva
vrstva API
Spotřební vrstva

Architektura Data Lakehouse

Vrstva požití

První vrstva systému má na starosti sběr dat z různých zdrojů a jejich odesílání do vrstvy úložiště. Vrstva může využívat několik protokolů pro připojení k mnoha interním a externím zdrojům, včetně kombinace dávkového a streamingového zpracování dat, jako je např.

NoSQL databáze,
sdílení souborů
CRM aplikace,
webové stránky,
IoT senzory,
sociální média,
Aplikace Software jako služba (SaaS) a
systémy pro správu relačních databází atd.

V tomto okamžiku lze použít komponenty jako Apache Kafka pro streamování dat a Amazon Data Migration Service (Amazon DMS) pro import dat z databází RDBMS a NoSQL.

Úložná vrstva

Architektura lakehouse má umožnit ukládání různých typů dat jako objektů v levných objektových úložištích, jako je AWS S3. Pomocí otevřených formátů souborů mohou klientské nástroje číst tyto položky přímo z úložiště.

To umožňuje mnoha rozhraním API a komponentám spotřební vrstvy přistupovat a využívat stejná data. Vrstva metadat ukládá schémata pro strukturované a polostrukturované datové sady, aby je komponenty mohly aplikovat na data, když je čtou.

Platformu Hadoop Distributed File System (HDFS) lze například použít ke konstrukci služeb cloudového úložiště, které rozděluje výpočetní a místní úložiště. Lakehouse se pro tyto služby ideálně hodí.

Metadatová vrstva

Vrstva metadat je základní složkou datového jezera, která tento design odlišuje. Jedná se o jediný katalog, který nabízí metadata (informace o dalších datových částech) pro všechny položky uložené v jezeře a umožňuje uživatelům využívat funkce správy, jako jsou:

Konzistentní verze databáze je viděna souběžnými transakcemi díky ACID transakcím;
ukládání do mezipaměti pro ukládání souborů úložiště cloudových objektů;
přidání indexů datové struktury pomocí indexování pro urychlení zpracování dotazů;
použití klonování s nulovou kopií k duplikování datových objektů; a
pro uložení určitých verzí dat atd. použijte verzování dat.

Vrstva metadat navíc umožňuje implementaci správy schémat, použití topologií DW schémat, jako jsou schémata hvězda/sněhová vločka, a poskytování možností správy dat a auditu přímo v datovém jezeře, čímž se zvyšuje integrita celého datového kanálu.

Funkce pro vývoj a vynucení schématu jsou součástí správy schématu. Odmítnutím všech zápisů, které nesplňují schéma tabulky, umožňuje vynucení schématu uživatelům zachovat integritu a kvalitu dat.

Vývoj schématu umožňuje upravit současné schéma tabulky tak, aby vyhovovalo měnícím se datům. Díky jedinému administračnímu rozhraní na vrcholu datového jezera existují také možnosti řízení přístupu a auditu.

vrstva API

Nyní je přítomna další klíčová vrstva architektury, která hostí řadu rozhraní API, která mohou všichni koncoví uživatelé používat k rychlejšímu provádění úloh a získávání sofistikovanějších statistik.

Použití metadatových API usnadňuje identifikaci a přístup k datovým položkám potřebným pro danou aplikaci.

Pokud jde o knihovny strojového učení, některé z nich, například TensorFlow a Spark MLlib, mohou číst otevřené formáty souborů, jako je Parquet, a přímo přistupovat k vrstvě metadat.

DataFrame API zároveň nabízejí větší šance na optimalizaci a umožňují programátorům organizovat a měnit rozptýlená data.

Spotřební vrstva

Power BI, Tableau a další nástroje a aplikace jsou hostovány pod vrstvou spotřeby. Díky designu lakehouse jsou všechna metadata a všechna data uložená v jezeře přístupná klientským aplikacím.

Lakehouse mohou využívat všichni uživatelé v rámci společnosti k provádění všech druhů analytické operace, včetně vytváření řídicích panelů business intelligence a spouštění SQL dotazů a úloh strojového učení.

Výhody Data Lakehouse

Organizace mohou vytvořit datové jezero, aby sjednotily svou současnou datovou platformu a optimalizovaly celý proces správy dat. Odstraněním bariér sila spojujících různé zdroje může datové jezero nahradit potřebu odlišných řešení.

V porovnání s kurátorskými datovými zdroji tato integrace vytváří výrazně efektivnější end-to-end proceduru. To má několik výhod:

Méně administrativy: Namísto extrahování dat z nezpracovaných dat a jejich přípravy pro použití v datovém skladu umožňuje datové jezero všem zdrojům, které jsou k němu připojeny, mít svá data dostupná a organizovaná pro využití.
Zvýšená nákladová efektivita: Data lakehouse jsou konstruována pomocí současné infrastruktury, která rozděluje výpočet a úložiště, což usnadňuje rozšíření úložiště bez zvýšení výpočetního výkonu. Už jen použití levného úložiště dat má za následek škálovatelnost, která je nákladově efektivní.
Lepší správa dat: Data lakehouse jsou konstruována se standardizovanou otevřenou architekturou, která umožňuje větší kontrolu nad zabezpečením, metrikami, přístupem na základě rolí a dalšími důležitými komponentami správy. Sjednocením zdrojů a datových zdrojů zjednodušují a zlepšují správu.
Zjednodušené standardy: Vzhledem k tomu, že připojení bylo v 1980. letech XNUMX. století, kdy byly datové sklady poprvé vyvinuty, značně omezeno, byly standardy lokalizovaných schémat často vyvíjeny uvnitř podniků, dokonce i oddělení. Data lakehouse využívají skutečnosti, že mnoho typů dat má nyní otevřené standardy pro schéma tím, že ingestuje četné zdroje dat s překrývajícím se jednotným schématem, aby se zjednodušily postupy.

Nevýhody Data Lakehouse

Navzdory všemu humbuku kolem datových jezerních domů je důležité mít na paměti, že myšlenka je stále velmi nová. Než se plně pustíte do tohoto nového designu, nezapomeňte zvážit nevýhody.

Monolitická struktura: All-inclusive design domu u jezera nabízí několik výhod, ale také přináší některé problémy. Monolitická architektura často vede ke špatným službám pro všechny uživatele a může být nepružná a náročná na údržbu. Architekti a designéři mají obvykle rádi modulárnější architekturu, kterou mohou přizpůsobit pro různé případy použití.
Technologie ještě není úplně tam: konečný cíl zahrnuje značné množství strojového učení a umělé inteligence. Než budou jezerní domy fungovat podle představ, musí se tyto technologie dále rozvíjet.
Nejedná se o významný pokrok oproti stávajícím strukturám: Stále panuje značná skepse ohledně toho, jakou větší hodnotu přispějí domy u jezera. Někteří kritici tvrdí, že konstrukce jezerního skladu ve spojení s příslušným automatizovaným zařízením může dosáhnout srovnatelné účinnosti.

Výzvy Data Lakehouse

Může být obtížné přijmout techniku datového jezera. Vzhledem ke složitosti jeho součástí je nesprávné pohlížet na datové jezero jako na všezahrnující ideální strukturu nebo „jedna platforma pro všechno“.

Navíc kvůli rostoucímu přijímání datových jezer budou muset podniky přesunout své současné datové sklady do nich a spoléhat se pouze na příslib úspěchu bez prokazatelného ekonomického přínosu.

Pokud se během procesu přenosu vyskytnou nějaké problémy s latencí nebo výpadky, může to být drahé, časově náročné a možná i nebezpečné.

Firemní uživatelé si musí osvojit vysoce specializované technologie, podle některých prodejců, kteří výslovně nebo implicitně prodávají řešení jako datová jezera. Ty nemusí vždy fungovat s jinými nástroji spojenými s datovým jezerem v centru systému, což ještě zvyšuje problémy.

Kromě toho může být obtížné poskytovat analýzy 24 hodin denně 7 dní v týdnu při provozování kritických pracovních zátěží, což vyžaduje infrastrukturu s nákladově efektivní škálovatelností.

Proč investovat do čističky vzduchu?

Nejnovější variantou datových center posledních let je data lakehouse. Integruje různé oblasti, jako jsou informační technologie, open-source software, cloud computinga protokoly distribuovaného úložiště.

Umožňuje podnikům centrálně ukládat všechny druhy dat z libovolného místa, což zjednodušuje správu a analýzu. Data Lakehouse je docela zajímavý koncept.

Každá firma by měla významnou konkurenční výhodu, pokud by měla přístup k datové platformě vše v jednom, která by byla rychlá a efektivní jako datový sklad a zároveň by byla flexibilní jako datové jezero.

Myšlenka se stále vyvíjí a zůstává relativně nová. V důsledku toho může nějakou dobu trvat, než se zjistí, zda se něco může rozšířit nebo ne.

Všichni bychom měli být zvědaví na směr, kterým se architektura Lakehouse ubírá.

Data Lakehouse Vše, co potřebujete vědět

Data Lakehouse – Vše, co potřebujete vědět

Co je Data Lakehouse?

Funkce

Prvky Data Lakehouse