Data lakehouse kombinují koncepty datového skladu a datového jezera pro podniky.
Tyto nástroje vám umožňují vytvářet nákladově efektivní řešení pro ukládání dat kombinací možností správy datových jezer s datovou architekturou v datových skladech.
Navíc dochází ke snížení migrace dat a redundance, méně času stráveného správou a kratší schémata a procedury správy dat se ve skutečnosti stávají realitou.
Jeden datový lakehouse má mnoho výhod ve srovnání s úložným systémem s několika řešeními.
Tyto nástroje stále používají datoví vědci, aby zlepšili své chápání business intelligence a postupů strojového učení.
Tento článek se rychle podívá na data lakehouse, jeho možnosti a dostupné nástroje.
Úvod do Data Lakehouse
Nový druh datové architektury nazývaný „datový jezerní dům” kombinuje datové jezero a datový sklad k řešení slabých stránek každého z nich nezávisle.
Systém Lakehouse, stejně jako datová jezera, využívá levné úložiště k uchování obrovského množství dat v původní podobě.
Přidání metadatové vrstvy nad úložiště také poskytuje datovou strukturu a posiluje nástroje pro správu dat podobné těm, které se nacházejí v datových skladech.
Obsahuje obrovské množství strukturovaných, polostrukturovaných a nestrukturovaných dat získaných z různých podnikových aplikací, systémů a zařízení používaných v celém podniku.
Výsledkem je, že na rozdíl od datových jezer může systém lakehouse spravovat a optimalizovat tato data pro výkon SQL.
Má také schopnost ukládat a zpracovávat velké množství různorodých dat za nižší náklady než datové sklady.
Data lakehouse se hodí, když potřebujete provést jakýkoli přístup k datům nebo analýzu s jakýmikoli daty, ale nejste si jisti daty nebo doporučenou analýzou.
Architektura Lakehouse bude fungovat docela dobře, pokud výkon není primárním zájmem.
To neznamená, že byste měli celou svou stavbu založit na domku u jezera.
Více informací o tom, jak vybrat datové jezero, jezero, datový sklad nebo specializovanou analytickou databázi pro každý případ použití, naleznete zde.
Vlastnosti Data Lakehouse
- Souběžné čtení a zápis dat
- Adaptabilita a škálovatelnost
- Pomoc se schématy s nástroji pro správu dat
- Souběžné čtení a zápis dat
- Cenově dostupné úložiště
- Podporovány jsou všechny datové typy a formáty souborů.
- Optimalizovaný přístup k nástrojům pro datovou vědu a strojové učení
- Vaše datové týmy budou těžit z toho, že budou mít přístup pouze k jednomu systému, který jim umožní přenášet pracovní zátěže rychleji a přesněji.
- Možnosti v reálném čase pro iniciativy v oblasti datové vědy, strojového učení a analytiky
Top 5 nástrojů Data Lakehouse
Databricky
Databricks, kterou založil člověk, který jako první vyvinul Apache Spark a vyrobil jej open source, poskytuje spravovanou službu Apache Spark a je umístěn jako platforma pro datová jezera.
Komponenty datového jezera, delta jezera a motoru delta architektury Databricks lakehouse umožňují případy použití business intelligence, datové vědy a strojového učení.
Datové jezero je veřejné cloudové úložiště.
S podporou správy metadat, dávkového a streamového zpracování dat pro vícestrukturované datové sady, zjišťování dat, řízení bezpečného přístupu a analýzy SQL.
Databricks nabízí většinu funkcí datového skladu, které lze očekávat na platformě Data Lakehouse.
Společnost Databricks nedávno představila svůj Auto Loader, který automatizuje ETL a vkládání dat a využívá vzorkování dat k odvození schématu pro různé typy dat, aby bylo možné zajistit základní součásti strategie ukládání datového jezera.
Alternativně mohou uživatelé budovat ETL potrubí mezi jejich veřejným cloudovým datovým jezerem a Delta Lake pomocí Delta Live Tables.
Na papíře se zdá, že Databricks má všechny výhody, ale nastavení řešení a vytvoření jeho datových kanálů vyžaduje hodně lidské práce od zkušených vývojářů.
V měřítku se odpověď také stává složitější. Je to složitější, než se zdá.
Ahana
Datové jezero je jediné centrální místo, kde můžete ve velkém ukládat jakýkoli typ dat, který si vyberete, včetně nestrukturovaných a strukturovaných dat. AWS S3, Microsoft Azure a Google Cloud Storage jsou tři běžná datová jezera.
Datová jezera jsou neuvěřitelně oblíbená, protože jsou velmi cenově dostupná a snadno se používají; můžete v podstatě uložit tolik dat, kolik chcete, za velmi málo peněz.
Datové jezero však nenabízí vestavěné nástroje, jako je analytika, dotaz atd.
Potřebujete dotazovací stroj a datový katalog na vrcholu datového jezera (kam přichází Ahana Cloud), abyste mohli dotazovat svá data a používat je.
Díky tomu nejlepšímu z datového skladu a datového jezera byl vyvinut nový design datového jezera.
To naznačuje, že je transparentní, adaptabilní, má dobrý poměr cena/výkon, škáluje se jako datové jezero podporuje transakce a má vysokou úroveň zabezpečení srovnatelnou s datovým skladem.
Váš vysoce výkonný SQL dotazovací stroj je mozkem za Data Lakehouse. Díky tomu můžete provádět vysoce výkonnou analýzu dat datového jezera.
Ahana Cloud for Presto je SaaS pro Presto na AWS, takže je neuvěřitelně snadné začít používat Presto v cloudu.
Pro vaše datové jezero založené na S3 má Ahana již vestavěný katalog dat a ukládání do mezipaměti. Ahana vám poskytuje funkce Presto, aniž byste museli řešit režii, protože to dělá interně.
AWS Lake Formation, Apache Hudi a Delta Lake jsou jen některé z manažerů transakcí, kteří jsou součástí zásobníku a integrují se s ním.
Dremio
Organizace se snaží rychle, jednoduše a efektivně vyhodnocovat obrovské množství rychle rostoucích dat.
Dremio věří, že open data lakehouse spojuje výhody datových jezer a datových skladů na otevřené bázi, je nejlepším přístupem, jak toho dosáhnout.
Platforma Lakehouse Dremio poskytuje zážitek, který funguje pro každého, se snadným uživatelským rozhraním, které uživatelům umožňuje dokončit analýzy za zlomek času.
Dremio Cloud, plně spravovaná platforma pro data lakehouse, a spuštění dvou nových služeb: Dremio Sonar, dotazovací modul lakehouse, a Dremio Arctic, inteligentní megaobchod pro Apache Iceberg, který poskytuje jedinečný zážitek podobný Gitu pro lakehouse.
Všechny pracovní zátěže SQL organizace lze provozovat na bezproblémové, nekonečně škálovatelné platformě Dremio Cloud, která také automatizuje úlohy správy dat.
Je vytvořen pro SQL, nabízí zkušenosti jako Git, je open source a je vždy zdarma.
Vytvořili ji jako platformu Lakehouse, kterou datové týmy zbožňují.
Díky využití open source tabulek a formátů souborů, jako je Apache Iceberg a Apache Parquet, jsou vaše data při používání Dremio Cloud trvalá ve vašem vlastním datovém jezeře.
Budoucí inovace lze snadno přijmout a na základě vaší pracovní zátěže lze vybrat správný motor.
Sněhová vločka
Snowflake je cloudová datová a analytická platforma, která dokáže splnit potřeby datových jezer a skladů.
Začalo to jako systém datového skladu postavený na cloudové infrastruktuře.
Platforma se skládá z centralizovaného úložiště úložiště, které je umístěno nad veřejným cloudovým úložištěm od AWS, Microsoft Azure nebo Google Cloud Platform (GCP).
Následuje výpočetní vrstva s více clustery, kde uživatelé mohou spustit virtuální datový sklad a provádět dotazy SQL na jejich datovém úložišti.
Architektura umožňuje oddělit úložiště a výpočetní zdroje, což organizacím umožňuje škálovat tyto dva nezávisle podle potřeby.
Nakonec Snowflake poskytuje vrstvu služeb s kategorizací metadat, správou zdrojů, správou dat, transakcemi a dalšími funkcemi.
Konektory nástrojů BI, správa metadat, řízení přístupu a dotazy SQL jsou jen některé z funkcí datového skladu, které platforma nabízí.
Snowflake je však omezen na jeden relační dotazovací stroj založený na SQL.
Výsledkem je jednodušší správa, ale méně adaptabilní a vize datového jezera z více modelů není realizována.
Než bude možné data z cloudového úložiště vyhledávat nebo analyzovat, Snowflake navíc vyžaduje, aby je podniky nahrály do centralizované vrstvy úložiště.
Procedura ručního zřetězení dat vyžaduje předchozí ETL, zajišťování a formátování dat, než je lze prozkoumat. Rozšiřování těchto manuálních procesů je činí frustrujícími.
Další možností, která se na papíře jeví jako vhodná, ale ve skutečnosti se odchyluje od principu jednoduchého zadávání dat datového jezera, je Snowflake's data lakehouse.
Věštec
Moderní otevřená architektura známá jako „data lakehouse“ umožňuje ukládat, porozumět a analyzovat všechna vaše data.
Šířka a flexibilita nejoblíbenějších open source řešení datových jezer jsou kombinovány se silou a hloubkou datových skladů.
Nejnovější rámce umělé inteligence a předpřipravené služby umělé inteligence lze používat s datovým lakem na Oracle Cloud Infrastructure (OCI).
Je možné pracovat s dalšími typy dat při použití open-source datového jezera. Ale čas a úsilí potřebné k jeho správě mohou být přetrvávající nevýhodou.
OCI nabízí plně spravované open source služby lakehouse za nižší sazby a s menší správou, což vám umožňuje předvídat nižší provozní náklady, lepší škálovatelnost a zabezpečení a kapacitu konsolidovat všechna vaše stávající data na jednom místě.
Data lakehouse zvýší hodnotu datových skladů a obchodů, které jsou nezbytné pro úspěšné podniky.
Data lze načíst pomocí Lakehouse z několika míst pomocí jediného SQL dotazu.
Stávající programy a nástroje mají transparentní přístup ke všem datům bez nutnosti úprav nebo získávání nových dovedností.
Proč investovat do čističky vzduchu?
Zavedení řešení data lakehouse je odrazem většího trendu v oblasti velkých dat, což je integrace analytiky a ukládání dat do sjednocených datových platforem s cílem maximalizovat obchodní hodnotu z dat a zároveň snížit čas, náklady a složitost získávání hodnoty.
Platformy včetně Databricks, Snowflake, Ahana, Dremio a Oracle byly všechny spojeny s myšlenkou „data lakehouse“, ale každá z nich má jedinečnou sadu funkcí a tendenci fungovat spíše jako datový sklad než skutečné datové jezero. jako celek.
Když je řešení uváděno na trh jako „data lakehouse“, podniky by si měly dávat pozor, co to vlastně znamená.
Podniky se musí dívat za hranice marketingového žargonu, jako je „data lakehouse“, a místo toho zkoumat funkce každé platformy, aby si vybraly nejlepší datovou platformu, která se v budoucnu rozšíří s jejich podnikáním.
Napsat komentář