Data Lakehouses łączą koncepcje hurtowni danych i jeziora danych dla firm.
Narzędzia te umożliwiają tworzenie opłacalnych rozwiązań do przechowywania danych, łącząc możliwości zarządzania jeziorami danych z architekturą danych dostępną w hurtowniach danych.
Ponadto następuje zmniejszenie migracji i nadmiarowości danych, mniej czasu poświęca się na administrowanie, a krótsze procedury zarządzania schematami i danymi stają się rzeczywistością.
Jeden Data Lakehouse ma wiele zalet w porównaniu z systemem pamięci masowej z kilkoma rozwiązaniami.
Narzędzia te są nadal używane przez naukowców zajmujących się danymi w celu lepszego zrozumienia procedur analizy biznesowej i uczenia maszynowego.
W tym artykule przyjrzymy się pokrótce Data Lakehouse, jego możliwościom i dostępnym narzędziom.
Wprowadzenie do Data Lakehouse
Nowy rodzaj architektury danych o nazwie „Lakehouse danych” łączy jezioro danych i hurtownię danych, aby niezależnie rozwiązać słabe strony każdego z nich.
System Lakehouse, podobnie jak Data Lakes, wykorzystuje tanią pamięć masową do przechowywania ogromnych ilości danych w ich oryginalnej formie.
Dodanie warstwy metadanych na górze sklepu zapewnia również strukturę danych i udostępnia narzędzia do zarządzania danymi podobne do tych, które można znaleźć w hurtowniach danych.
Zawiera ogromne ilości ustrukturyzowanych, częściowo ustrukturyzowanych i nieustrukturyzowanych danych uzyskanych z różnych aplikacji biznesowych, systemów i urządzeń wykorzystywanych w całym przedsiębiorstwie.
W rezultacie, w przeciwieństwie do jezior danych, system Lakehouse może zarządzać tymi danymi i optymalizować je pod kątem wydajności SQL.
Ma również możliwość przechowywania i przetwarzania dużych ilości różnorodnych danych po niższych kosztach niż hurtownie danych.
Data Lakehouse przydaje się, gdy musisz wykonać dowolny dostęp do danych lub przeprowadzić analizę na dowolnych danych, ale nie masz pewności co do danych lub zalecanej analizy.
Architektura domku nad jeziorem będzie działać całkiem dobrze, jeśli wydajność nie jest głównym problemem.
Nie oznacza to, że powinieneś oprzeć całą konstrukcję na domku nad jeziorem.
Więcej informacji o tym, jak wybrać jezioro danych, dom nad jeziorem, hurtownię danych lub specjalistyczną bazę danych analitycznych dla każdego przypadku użycia można znaleźć tutaj.
Funkcje Data Lakehouse
- Jednoczesne odczytywanie i zapisywanie danych
- Adaptacyjność i skalowalność
- Pomoc w zakresie schematów z narzędziami do zarządzania danymi
- Jednoczesne odczytywanie i zapisywanie danych
- Przechowywanie w przystępnej cenie
- Obsługiwane są wszystkie typy danych i formaty plików.
- Dostęp do zoptymalizowanych narzędzi do nauki o danych i uczenia maszynowego
- Twoje zespoły danych skorzystają na dostępie tylko do jednego systemu, aby szybciej i dokładniej przenosić obciążenia przez niego.
- Możliwości w czasie rzeczywistym dla inicjatyw z zakresu nauki o danych, uczenia maszynowego i analityki
5 najlepszych narzędzi Data Lakehouse
Pamięci danych
Databricks, który został założony przez osobę, która jako pierwsza opracowała Apache Spark i stworzyła go open source, udostępnia zarządzaną usługę Apache Spark i jest pozycjonowana jako platforma dla jezior danych.
Składniki Data Lake, Delta Lake i Delta Engine architektury Databricks Lakehouse umożliwiają wykorzystanie analizy biznesowej, analizy danych i uczenia maszynowego.
Jezioro danych to publiczne repozytorium przechowywania w chmurze.
Z obsługą zarządzania metadanymi, przetwarzania wsadowego i strumieniowego danych dla wielostrukturalnych zestawów danych, wykrywania danych, bezpiecznej kontroli dostępu i analizy SQL.
Databricks oferuje większość funkcji hurtowni danych, jakich można oczekiwać od platformy Data Lakehouse.
Firma Databricks niedawno zaprezentowała swój program Auto Loader, który automatyzuje ETL i wprowadzanie danych oraz wykorzystuje próbkowanie danych do wywnioskowania schematu dla różnych typów danych, aby zapewnić podstawowe elementy strategii przechowywania danych w jeziorze danych.
Alternatywnie, użytkownicy mogą budować potoki ETL między swoim publicznym jeziorem danych w chmurze a Delta Lake za pomocą Delta Live Tables.
Na papierze Databricks wydaje się mieć wszystkie zalety, ale skonfigurowanie rozwiązania i stworzenie jego potoków danych wymaga dużo pracy ludzkiej ze strony wykwalifikowanych programistów.
W skali odpowiedź również staje się bardziej złożona. To bardziej skomplikowane niż się wydaje.
Ahana
Data Lake to pojedyncza, centralna lokalizacja, w której możesz przechowywać dowolny typ danych na dużą skalę, w tym dane nieustrukturyzowane i ustrukturyzowane. AWS S3, Microsoft Azure i Google Cloud Storage to trzy popularne jeziora danych.
Jeziora danych są niezwykle lubiane, ponieważ są bardzo przystępne cenowo i proste w użyciu; zasadniczo możesz przechowywać tyle danych, ile chcesz, za bardzo małe pieniądze.
Ale jezioro danych nie oferuje wbudowanych narzędzi, takich jak analityka, zapytania itp.
Potrzebujesz silnika zapytań i katalogu danych nad jeziorem danych (gdzie wchodzi Ahana Cloud), aby wysyłać zapytania do danych i ich używać.
Dzięki najlepszym zaletom zarówno hurtowni danych, jak i jeziora danych opracowano nowy projekt Data Lakehouse.
Oznacza to, że jest przejrzysty, elastyczny, ma dobry stosunek ceny do wydajności, skaluje się tak, jak jezioro danych obsługuje transakcje i ma wysoki poziom bezpieczeństwa porównywalny z hurtownią danych.
Mózgiem Data Lakehouse jest wysokowydajny aparat zapytań SQL. Z tego powodu możesz wykonywać wysokowydajne analizy danych z jeziora danych.
Ahana Cloud for Presto to SaaS dla Presto na AWS, dzięki czemu rozpoczęcie korzystania z Presto w chmurze jest niezwykle proste.
W przypadku jeziora danych opartego na S3 Ahana ma już wbudowany katalog danych i pamięć podręczną. Ahana udostępnia funkcje Presto bez konieczności radzenia sobie z kosztami ogólnymi, ponieważ robi to wewnętrznie.
AWS Lake Formation, Apache Hudi i Delta Lake to tylko niektóre z menedżerów transakcji, które są częścią stosu i integrują się z nim.
Dremio
Organizacje starają się szybko, prosto i wydajnie oceniać ogromne ilości szybko rosnących danych.
Dremio wierzy, że otwarty serwer danych łączy w sobie zalety jezior danych i hurtowni danych na zasadzie otwartej, co jest najlepszym podejściem do osiągnięcia tego celu.
Platforma Lakehouse firmy Dremio zapewnia doświadczenie, które działa dla każdego, z łatwym interfejsem użytkownika, który pozwala użytkownikom wykonywać analizy w ułamku czasu.
Dremio Cloud, w pełni zarządzana platforma Data Lakehouse, oraz uruchomienie dwóch nowych usług: Dremio Sonar, silnika zapytań Lakehouse oraz Dremio Arctic, inteligentnego megastore dla Apache Iceberg, który zapewnia unikalne doświadczenie podobne do Git dla Lakehouse.
Wszystkie obciążenia SQL organizacji mogą być uruchamiane na bezproblemowej, nieskończenie skalowalnej platformie Dremio Cloud, która automatyzuje również zadania związane z zarządzaniem danymi.
Jest zbudowany dla SQL, oferuje środowisko podobne do Git, jest open source i zawsze jest bezpłatny.
Stworzyli ją jako platformę Lakehouse, którą uwielbiają zespoły danych.
Wykorzystując formaty tabel i plików typu open source, takie jak Apache Iceberg i Apache Parquet, Twoje dane są trwałe we własnej pamięci Data Lake podczas korzystania z Dremio Cloud.
Przyszłe innowacje można łatwo wdrożyć, a odpowiedni silnik można wybrać w oparciu o obciążenie pracą.
Snowflake
Snowflake to platforma do przetwarzania danych i analiz w chmurze, która może zaspokoić potrzeby jezior danych i hurtowni.
Zaczęło się jako system hurtowni danych zbudowany na infrastrukturze chmurowej.
Platforma składa się ze scentralizowanego repozytorium pamięci masowej, które znajduje się nad pamięcią masową w chmurze publicznej z AWS, Microsoft Azure lub Google Cloud Platform (GCP).
Dalej następuje wieloklastrowa warstwa obliczeniowa, w której użytkownicy mogą uruchamiać wirtualną hurtownię danych i przeprowadzać zapytania SQL dotyczące ich przechowywania danych.
Architektura pozwala na oddzielenie zasobów pamięci masowej i obliczeniowej, umożliwiając organizacjom niezależne skalowanie tych dwóch w razie potrzeby.
Wreszcie, Snowflake zapewnia warstwę usług z kategoryzacją metadanych, zarządzaniem zasobami, zarządzaniem danymi, transakcjami i innymi funkcjami.
Łączniki narzędzi BI, zarządzanie metadanymi, kontrola dostępu i zapytania SQL to tylko niektóre z funkcji hurtowni danych, które oferuje platforma.
Snowflake jest jednak ograniczony do pojedynczego relacyjnego silnika zapytań opartego na SQL.
W rezultacie administracja staje się prostsza, ale mniej elastyczna, a wizja wielomodelowego jeziora danych nie jest realizowana.
Dodatkowo, zanim dane z pamięci masowej w chmurze będą mogły zostać przeszukane lub przeanalizowane, Snowflake wymaga od firm załadowania ich do scentralizowanej warstwy pamięci masowej.
Procedura ręcznego potokowania danych wymaga wcześniejszego ETL, udostępniania i formatowania danych przed ich zbadaniem. Skalowanie tych ręcznych procesów sprawia, że stają się frustrujące.
Inną opcją, która wydaje się dobrze pasować na papierze, ale w rzeczywistości odbiega od zasady prostego wprowadzania danych, jest Data Lakehouse firmy Snowflake.
wyrocznia
Nowoczesna, otwarta architektura znana jako „data lakehouse” umożliwia przechowywanie, rozumienie i analizowanie wszystkich danych.
Rozległość i elastyczność najbardziej lubianych rozwiązań typu open source w zakresie jezior danych łączy się z siłą i głębokością hurtowni danych.
Najnowsze frameworki AI i gotowe usługi AI mogą być używane z Data Lakehouse w Oracle Cloud Infrastructure (OCI).
Praca z dodatkowymi typami danych jest możliwa podczas korzystania z jeziora danych o otwartym kodzie źródłowym. Ale czas i wysiłek wymagany do zarządzania nim mogą być uporczywą wadą.
OCI oferuje w pełni zarządzane usługi typu open source lakehouse po niższych stawkach i przy mniejszym zakresie zarządzania, co pozwala przewidywać niższe koszty operacyjne, lepszą skalowalność i bezpieczeństwo oraz możliwość konsolidacji wszystkich istniejących danych w jednej lokalizacji.
Data Lakehouse zwiększy wartość hurtowni danych i baz danych, które są niezbędne dla odnoszących sukcesy przedsiębiorstw.
Dane można pobierać za pomocą Lakehouse z kilku lokalizacji za pomocą tylko jednego zapytania SQL.
Istniejące programy i narzędzia uzyskują przejrzysty dostęp do wszystkich danych bez konieczności dostosowywania lub nabywania nowych umiejętności.
Wnioski
Wprowadzenie rozwiązań Data Lakehouse jest odzwierciedleniem większego trendu w dużych zbiorach danych, który polega na integracji analityki i przechowywania danych w ujednoliconych platformach danych w celu maksymalizacji wartości biznesowej z danych przy jednoczesnym skróceniu czasu, kosztów i złożoności ekstrakcji wartości.
Platformy, w tym Databricks, Snowflake, Ahana, Dremio i Oracle, zostały powiązane z ideą „domu nad jeziorem danych”, ale każda z nich ma unikalny zestaw funkcji i tendencję do działania bardziej jak hurtownia danych niż prawdziwe jezioro danych jako całość.
Gdy rozwiązanie jest reklamowane jako „data lakehouse”, firmy powinny uważać na to, co to właściwie oznacza.
Przedsiębiorstwa muszą wyjść poza żargon marketingowy, taki jak „data lakehouse”, i zamiast tego przyjrzeć się funkcjom każdej platformy, aby wybrać najlepszą platformę danych, która będzie rozwijać się wraz z ich firmami w przyszłości.
Dodaj komentarz