Inhaltsverzeichnis[Ausblenden][Zeigen]
Data Lakehouses kombinieren die Data Warehouse- und Data Lake-Konzepte für Unternehmen.
Mit diesen Tools können Sie kostengünstige Datenspeicherlösungen erstellen, indem Sie die Verwaltungsfunktionen von Data Lakes mit der Datenarchitektur von Data Warehouses kombinieren.
Darüber hinaus werden Datenmigration und -redundanz reduziert, es wird weniger Zeit für die Verwaltung aufgewendet und kürzere Schema- und Data-Governance-Verfahren werden tatsächlich Realität.
Ein Data Lakehouse hat viele Vorteile gegenüber einem Speichersystem mit mehreren Lösungen.
Diese Tools werden immer noch von Datenwissenschaftlern verwendet, um ihr Verständnis von Business Intelligence und maschinellen Lernverfahren zu verbessern.
Dieser Artikel wirft einen kurzen Blick auf Data Lakehouse, seine Funktionen und die verfügbaren Tools.
Einführung in Data Lakehouse
Eine neue Art von Datenarchitektur namens „Daten Lakehouse“ kombiniert einen Data Lake und ein Data Warehouse, um die Schwächen von jedem unabhängig zu beheben.
Das Lakehouse-System verwendet wie Data Lakes kostengünstigen Speicher, um riesige Datenmengen in ihrer ursprünglichen Form zu halten.
Das Hinzufügen einer Metadatenschicht über dem Speicher bietet auch eine Datenstruktur und ermöglicht Datenverwaltungstools, die denen in Data Warehouses ähneln.
Es enthält riesige Mengen an strukturierten, halbstrukturierten und unstrukturierten Daten, die aus den verschiedenen Geschäftsanwendungen, Systemen und Geräten stammen, die im gesamten Unternehmen verwendet werden.
Im Gegensatz zu Data Lakes kann das Lakehouse-System diese Daten daher verwalten und für die SQL-Leistung optimieren.
Es ist auch in der Lage, große Mengen unterschiedlicher Daten zu geringeren Kosten als Data Warehouses zu speichern und zu verarbeiten.
Ein Data Lakehouse ist praktisch, wenn Sie Datenzugriffe oder Analysen für beliebige Daten durchführen müssen, sich aber bezüglich der Daten oder der empfohlenen Analysen nicht sicher sind.
Eine Lakehouse-Architektur wird ganz gut funktionieren, wenn die Leistung nicht im Vordergrund steht.
Das bedeutet nicht, dass Sie Ihre gesamte Struktur auf einem Seehaus aufbauen sollten.
Weitere Informationen zur Auswahl eines Data Lake, Lakehouse, Data Warehouse oder einer spezialisierten Analysedatenbank für jeden Anwendungsfall finden Sie hier hier.
Merkmale von Data Lakehouse
- Gleichzeitiges Lesen und Schreiben von Daten
- Anpassungsfähigkeit und Skalierbarkeit
- Schemaunterstützung mit Data-Governance-Tools
- Gleichzeitiges Lesen und Schreiben von Daten
- Speicher, der erschwinglich ist
- Alle Datentypen und Dateiformate werden unterstützt.
- Zugriff auf optimierte Tools für Data Science und maschinelles Lernen
- Ihre Datenteams profitieren vom Zugriff auf nur ein System, um Workloads schneller und genauer zu übertragen.
- Echtzeitfunktionen für Initiativen in den Bereichen Data Science, maschinelles Lernen und Analytik
Die 5 besten Data Lakehouse-Tools
Databricks
Databricks, das von der Person gegründet wurde, die Apache Spark zuerst entwickelt und hergestellt hat Open-Source-, bietet einen verwalteten Apache Spark-Dienst und ist als Plattform für Data Lakes positioniert.
Die Data Lake-, Delta Lake- und Delta-Engine-Komponenten der Databricks Lakehouse-Architektur ermöglichen Anwendungsfälle für Business Intelligence, Data Science und maschinelles Lernen.
Der Data Lake ist ein öffentliches Cloud-Speicher-Repository.
Mit Unterstützung für Metadatenverwaltung, Batch- und Stream-Datenverarbeitung für Datensätze mit mehreren Strukturen, Datenerkennung, sichere Zugriffskontrollen und SQL-Analysen.
Databricks bietet die meisten Data Warehousing-Funktionen, die man von einer Data Lakehouse-Plattform erwarten kann.
Databricks hat kürzlich seinen Auto Loader vorgestellt, der ETL und Dateneingabe automatisiert und Daten-Sampling nutzt, um das Schema für eine Vielzahl von Datentypen abzuleiten, um die wesentlichen Komponenten der Data-Lake-Speicherstrategie zu liefern.
Alternativ können Benutzer mithilfe von Delta Live Tables ETL-Pipelines zwischen ihrem Public Cloud Data Lake und Delta Lake erstellen.
Auf dem Papier scheint Databricks alle Vorteile zu haben, aber das Einrichten der Lösung und das Erstellen ihrer Datenpipelines erfordert viel menschliche Arbeit von erfahrenen Entwicklern.
Im Maßstab wird die Antwort auch komplexer. Es ist komplizierter als es scheint.
Ahana
Ein Data Lake ist ein einzelner, zentraler Ort, an dem Sie beliebige Datentypen in großem Umfang speichern können, einschließlich unstrukturierter und strukturierter Daten. AWS S3, Microsoft Azure und Google Cloud Storage sind drei gängige Data Lakes.
Data Lakes sind unglaublich beliebt, weil sie sehr erschwinglich und einfach zu bedienen sind. Sie können im Wesentlichen so viele Daten jeder Art für sehr wenig Geld speichern, wie Sie möchten.
Der Data Lake bietet jedoch keine integrierten Tools wie Analysen, Abfragen usw.
Sie benötigen eine Abfrage-Engine und einen Datenkatalog auf dem Data Lake (wo Ahana Cloud ins Spiel kommt), um Ihre Daten abzufragen und zu verwenden.
Mit dem Besten aus Data Warehouse und Data Lake wurde ein neues Data-Lakehouse-Design entwickelt.
Dies weist darauf hin, dass es transparent, anpassungsfähig ist, ein gutes Preis-Leistungs-Verhältnis aufweist, wie ein Data Lake Transaktionen skaliert und ein hohes Maß an Sicherheit aufweist, das mit einem Data Warehouse vergleichbar ist.
Ihre leistungsstarke SQL-Abfrage-Engine ist das Gehirn hinter Data Lakehouse. Aus diesem Grund können Sie Hochleistungsanalysen für Ihre Data Lake-Daten durchführen.
Ahana Cloud for Presto ist SaaS für Presto auf AWS, wodurch es unglaublich einfach ist, mit der Verwendung von Presto in der Cloud zu beginnen.
Für Ihren S3-basierten Data Lake hat Ahana bereits einen integrierten Datenkatalog und Caching. Ahana bietet Ihnen die Funktionen von Presto, ohne dass Sie sich um den Overhead kümmern müssen, da es dies intern erledigt.
AWS Lake Formation, Apache Hudi und Delta Lake sind nur einige der Transaktionsmanager, die Teil des Stacks sind und sich darin integrieren.
Dremio
Organisationen streben danach, große Mengen schnell wachsender Daten schnell, einfach und effizient auszuwerten.
Dremio glaubt, dass ein Open Data Lakehouse, das die Vorteile von Data Lakes und Data Warehouses auf offener Basis kombiniert, der beste Ansatz ist, um dies zu erreichen.
Die Lakehouse-Plattform von Dremio bietet eine Erfahrung, die für alle funktioniert, mit einer einfachen Benutzeroberfläche, die es Benutzern ermöglicht, Analysen in einem Bruchteil der Zeit abzuschließen.
Dremio Cloud, eine vollständig verwaltete Lakehouse-Datenplattform, und die Einführung von zwei neuen Diensten: Dremio Sonar, eine Lakehouse-Abfrage-Engine, und Dremio Arctic, ein intelligenter Megastore für Apache Iceberg, der ein einzigartiges Git-ähnliches Erlebnis für das Lakehouse bietet.
Alle SQL-Arbeitslasten eines Unternehmens können auf der reibungslosen, endlos skalierbaren Dremio Cloud-Plattform ausgeführt werden, die auch Datenverwaltungsaufgaben automatisiert.
Es wurde für SQL entwickelt, bietet ein Git-ähnliches Erlebnis, ist Open Source und immer kostenlos.
Sie haben es als die Lakehouse-Plattform geschaffen, die Datenteams lieben.
Durch die Verwendung von Open-Source-Tabellen- und Dateiformaten wie Apache Iceberg und Apache Parquet sind Ihre Daten bei Verwendung von Dremio Cloud in Ihrem eigenen Data Lake-Speicher persistent.
Zukünftige Innovationen können problemlos übernommen werden, und die richtige Engine kann basierend auf Ihrer Arbeitsbelastung ausgewählt werden.
Schneeflocke
Snowflake ist eine Cloud-Daten- und Analyseplattform, die die Anforderungen von Data Lakes und Warehouses erfüllen kann.
Es begann als Data-Warehouse-System, das auf einer Cloud-Infrastruktur aufbaute.
Die Plattform besteht aus einem zentralisierten Speicher-Repository, das auf öffentlichem Cloud-Speicher von AWS, Microsoft Azure oder Google Cloud Platform (GCP) aufsetzt.
Darauf folgt eine Multi-Cluster-Berechnungsschicht, in der Benutzer ein virtuelles Data Warehouse starten und SQL-Abfragen für ihren Datenspeicher durchführen können.
Die Architektur ermöglicht die Entkopplung von Speicher- und Rechenressourcen, sodass Unternehmen beide nach Bedarf unabhängig voneinander skalieren können.
Schließlich bietet Snowflake eine Dienstebene mit Metadatenkategorisierung, Ressourcenverwaltung, Datenverwaltung, Transaktionen und anderen Funktionen.
BI-Tool-Konnektoren, Metadatenverwaltung, Zugriffskontrollen und SQL-Abfragen sind nur einige der Data-Warehouse-Funktionen, die die Plattform hervorragend bietet.
Snowflake ist jedoch auf eine einzige relationale SQL-basierte Abfrage-Engine beschränkt.
Infolgedessen wird es einfacher zu verwalten, aber weniger anpassungsfähig, und die Data Lake-Vision mit mehreren Modellen wird nicht verwirklicht.
Bevor Daten aus Cloud-Speichern durchsucht oder analysiert werden können, verlangt Snowflake außerdem, dass Unternehmen sie in eine zentrale Speicherebene laden.
Das manuelle Datenpipelining-Verfahren erfordert eine vorherige ETL, Bereitstellung und Datenformatierung, bevor sie untersucht werden können. Die Skalierung dieser manuellen Prozesse macht sie frustrierend.
Eine weitere Option, die auf dem Papier gut zu passen scheint, aber tatsächlich vom Data Lake-Prinzip der einfachen Dateneingabe abweicht, ist das Data Lakehouse von Snowflake.
Oracle
Eine moderne, offene Architektur, bekannt als „Data Lakehouse“, ermöglicht es, alle Ihre Daten zu speichern, zu verstehen und zu analysieren.
Die Breite und Flexibilität der beliebtesten Open-Source-Data-Lake-Lösungen werden mit der Stärke und Tiefe von Data Warehouses kombiniert.
Die neuesten KI-Frameworks und vorgefertigten KI-Services können mit einem Data Lakehouse auf Oracle Cloud Infrastructure (OCI) verwendet werden.
Es ist möglich, mit zusätzlichen Datentypen zu arbeiten, während ein Open-Source-Data Lake verwendet wird. Aber der Zeit- und Arbeitsaufwand, der für die Verwaltung erforderlich ist, könnte ein dauerhafter Nachteil sein.
OCI bietet vollständig verwaltete Open-Source-Lakehouse-Services zu niedrigeren Preisen und mit weniger Verwaltungsaufwand, sodass Sie mit geringeren Betriebskosten, besserer Skalierbarkeit und Sicherheit sowie der Möglichkeit, alle Ihre vorhandenen Daten an einem Ort zu konsolidieren, rechnen können.
Ein Data Lakehouse erhöht den Wert von Data Warehouses und Marts, die für erfolgreiche Unternehmen unerlässlich sind.
Mit einem Lakehouse können Daten von mehreren Standorten mit nur einer SQL-Abfrage abgerufen werden.
Vorhandene Programme und Tools erhalten transparenten Zugriff auf alle Daten, ohne dass Anpassungen erforderlich sind oder neue Fähigkeiten erworben werden müssen.
Zusammenfassung
Die Einführung von Data Lakehouse-Lösungen spiegelt einen größeren Trend bei Big Data wider, nämlich die Integration von Analysen und Datenspeicherung in einheitliche Datenplattformen, um den Geschäftswert aus Daten zu maximieren und gleichzeitig Zeit, Kosten und Komplexität der Wertextraktion zu senken.
Plattformen wie Databricks, Snowflake, Ahana, Dremio und Oracle wurden alle mit der Idee eines „Data Lakehouse“ in Verbindung gebracht, aber sie haben jeweils einzigartige Funktionen und tendieren dazu, eher wie ein Data Warehouse als wie ein echter Data Lake zu funktionieren als Ganzes.
Wenn eine Lösung als „Data Lakehouse“ vermarktet wird, sollten Unternehmen vorsichtig sein, was das eigentlich bedeutet.
Unternehmen müssen über den Marketing-Jargon wie „Data Lakehouse“ hinausblicken und sich stattdessen mit den Funktionen jeder Plattform befassen, um die beste Datenplattform auszuwählen, die in Zukunft mit ihren Unternehmen wachsen wird.
Hinterlassen Sie uns einen Kommentar