Inhoudsopgave[Zich verstoppen][Laten zien]
Data lakehouses combineren de datawarehouse- en data lake-concepten voor bedrijven.
Met deze tools kunt u kosteneffectieve oplossingen voor gegevensopslag bouwen door de beheermogelijkheden van datameren te combineren met de data-architectuur in datawarehouses.
Bovendien is er een vermindering van gegevensmigratie en -redundantie, wordt er minder tijd besteed aan het beheer en worden kortere schema- en gegevensbeheerprocedures werkelijkheid.
Eén data lakehouse heeft veel voordelen ten opzichte van een opslagsysteem met meerdere oplossingen.
Deze tools worden nog steeds gebruikt door datawetenschappers om hun begrip van business intelligence en machine learning-procedures te verbeteren.
Dit artikel gaat kort in op data lakehouse, de mogelijkheden en de beschikbare tools.
Inleiding tot Data Lakehouse
Een nieuw soort data-architectuur genaamd een “gegevens meerhuis” combineert een datameer en een datawarehouse om de zwakke punten van elk afzonderlijk aan te pakken.
Het lakehouse-systeem gebruikt, net als datameren, goedkope opslag om enorme hoeveelheden gegevens in hun oorspronkelijke vorm te houden.
De toevoeging van een metadatalaag bovenop de winkel biedt ook datastructuur en maakt databeheertools mogelijk die vergelijkbaar zijn met die in datawarehouses.
Het bevat enorme hoeveelheden gestructureerde, semi-gestructureerde en ongestructureerde gegevens die zijn verkregen uit de verschillende zakelijke toepassingen, systemen en apparaten die door de hele onderneming worden gebruikt.
Als gevolg hiervan kan het lakehouse-systeem, in tegenstelling tot datameren, die gegevens beheren en optimaliseren voor SQL-prestaties.
Het heeft ook de mogelijkheid om grote hoeveelheden uiteenlopende gegevens op te slaan en te verwerken tegen lagere kosten dan datawarehouses.
Een data lakehouse is handig wanneer u gegevenstoegang of analyses op gegevens moet uitvoeren, maar niet zeker bent van de gegevens of de aanbevolen analyses.
Een Lakehouse-architectuur zal redelijk goed functioneren als prestaties niet een eerste zorg zijn.
Dat betekent niet dat je je hele structuur op een meerhuis moet baseren.
Meer informatie over het selecteren van een data lake, lakehouse, datawarehouse of gespecialiseerde analysedatabase voor elke use case is te vinden hier.
Kenmerken van Data Lakehouse
- Gelijktijdig lezen en schrijven van gegevens
- Aanpassingsvermogen en schaalbaarheid
- Schemahulp met tools voor gegevensbeheer
- Gelijktijdig lezen en schrijven van gegevens
- Opslag die betaalbaar is
- Alle datatypes en bestandsformaten worden ondersteund.
- Toegang tot tools voor datawetenschap en machine learning die zijn geoptimaliseerd
- Uw datateams zullen profiteren van toegang tot slechts één systeem om workloads er sneller en nauwkeuriger doorheen te verplaatsen.
- Realtime mogelijkheden voor initiatieven op het gebied van datawetenschap, machine learning en analyse
Top 5 Data Lakehouse-tools
Databricks
Databricks, opgericht door de persoon die Apache Spark voor het eerst ontwikkelde en maakte open source, biedt een beheerde Apache Spark-service en is gepositioneerd als een platform voor datameren.
De data lake-, delta lake- en delta-enginecomponenten van de Databricks lakehouse-architectuur maken gebruik van business intelligence, datawetenschap en machine learning mogelijk.
Het datameer is een openbare opslagplaats in de cloud.
Met ondersteuning voor metadatabeheer, batch- en streamdataverwerking voor multi-gestructureerde datasets, data discovery, veilige toegangscontrole en SQL-analyse.
Databricks biedt de meeste datawarehousing-functies die je zou verwachten in een data lakehouse-platform.
Databricks heeft onlangs zijn Auto Loader onthuld, die ETL en gegevensinvoer automatiseert en gebruikmaakt van gegevenssampling om het schema voor een verscheidenheid aan gegevenstypen af te leiden, om de essentiële componenten van de data lake-opslagstrategie te leveren.
Als alternatief kunnen gebruikers ETL-pijplijnen bouwen tussen hun openbare cloud-datameer en Delta Lake met behulp van Delta Live Tables.
Op papier lijkt Databricks alle voordelen te hebben, maar het opzetten van de oplossing en het creëren van de datapijplijnen vereist veel menselijke arbeid van bekwame ontwikkelaars.
Op schaal wordt het antwoord ook complexer. Het is ingewikkelder dan het lijkt.
Ahana
Een datameer is een enkele, centrale locatie waar u elk type gegevens dat u kiest op schaal kunt opslaan, inclusief ongestructureerde en gestructureerde gegevens. AWS S3, Microsoft Azure en Google Cloud Storage zijn drie veelvoorkomende datameren.
Datameren zijn ongelooflijk populair omdat ze zeer betaalbaar en eenvoudig te gebruiken zijn; u kunt in wezen zoveel van elk type gegevens opslaan als u wilt voor heel weinig geld.
Maar het datameer biedt geen ingebouwde tools zoals analyse, query, enz.
U hebt een query-engine en een gegevenscatalogus nodig bovenop het datameer (waar Ahana Cloud binnenkomt) om uw gegevens op te vragen en te gebruiken.
Met het beste van zowel het datawarehouse als het datameer is een nieuw data lakehouse-ontwerp ontwikkeld.
Dit geeft aan dat het transparant is, aanpasbaar, een goede prijs/prestatie heeft, schaalt als een data lake, transacties ondersteunt en een hoog beveiligingsniveau heeft dat vergelijkbaar is met een datawarehouse.
Uw krachtige SQL-query-engine is het brein achter Data Lakehouse. Hierdoor kunt u hoogwaardige analyses uitvoeren op uw data lake-gegevens.
Ahana Cloud for Presto is SaaS voor Presto op AWS, waardoor het ongelooflijk eenvoudig is om Presto in de cloud te gaan gebruiken.
Voor uw S3-gebaseerde data lake heeft Ahana al een ingebouwde datacatalogus en caching. Ahana geeft u de functies van Presto zonder dat u de overhead hoeft aan te pakken, omdat het dit intern doet.
AWS Lake Formation, Apache Hudi en Delta Lake zijn slechts enkele van de transactiemanagers die deel uitmaken van de stack en ermee integreren.
Dremio
Organisaties willen snel, eenvoudig en efficiënt enorme hoeveelheden snel stijgende gegevens evalueren.
Dremio is van mening dat een open data lakehouse de voordelen van data lakes en datawarehouses op een open basis combineert, de beste aanpak is om dit te bereiken.
Het Lakehouse-platform van Dremio biedt een ervaring die voor iedereen werkt, met een eenvoudige gebruikersinterface waarmee gebruikers analyses in een fractie van de tijd kunnen voltooien.
Dremio Cloud, een volledig beheerd data lakehouse-platform, en de lancering van twee nieuwe diensten: Dremio Sonar, een lakehouse-query-engine, en Dremio Arctic, een intelligente megastore voor Apache Iceberg die een unieke Git-achtige ervaring voor de lakehouse levert.
Alle SQL-workloads van een organisatie kunnen worden uitgevoerd op het wrijvingsloze, eindeloos schaalbare Dremio Cloud-platform, dat ook gegevensbeheertaken automatiseert.
Het is gebouwd voor SQL, biedt een Git-achtige ervaring, is open source en is altijd gratis.
Ze hebben het gemaakt om het Lakehouse-platform te zijn waar datateams dol op zijn.
Door gebruik te maken van open source tabel- en bestandsindelingen zoals Apache Iceberg en Apache Parquet, blijven uw gegevens permanent in uw eigen data lake-opslag wanneer u Dremio Cloud gebruikt.
Toekomstige innovaties kunnen eenvoudig worden overgenomen en de juiste engine kan worden gekozen op basis van uw werklast.
Sneeuwvlok
Snowflake is een cloudgegevens- en analyseplatform dat kan voldoen aan de behoeften van datameren en magazijnen.
Het begon als een datawarehouse-systeem gebouwd op een cloudinfrastructuur.
Het platform bestaat uit een gecentraliseerde opslagplaats die bovenop openbare cloudopslag van AWS, Microsoft Azure of Google Cloud Platform (GCP) zit.
Daarna volgt een rekenlaag met meerdere clusters, waar gebruikers een virtueel datawarehouse kunnen starten en SQL-query's kunnen uitvoeren op hun gegevensopslag.
De architectuur maakt het mogelijk om opslag- en rekenresources te ontkoppelen, waardoor organisaties de twee onafhankelijk kunnen schalen als dat nodig is.
Ten slotte biedt Snowflake een servicelaag met categorisatie van metagegevens, resourcebeheer, gegevensbeheer, transacties en andere functies.
Connectors voor BI-tools, metadatabeheer, toegangscontrole en SQL-query's zijn slechts enkele van de datawarehouse-functionaliteit die het platform uitblinkt.
Snowflake is echter beperkt tot een enkele relationele SQL-gebaseerde query-engine.
Als gevolg hiervan wordt het eenvoudiger te beheren, maar minder aanpasbaar, en wordt de multi-model data lake-visie niet gerealiseerd.
Bovendien, voordat gegevens uit cloudopslag kunnen worden doorzocht of geanalyseerd, vereist Snowflake dat bedrijven deze in een gecentraliseerde opslaglaag laden.
De handmatige datapipelining-procedure vereist voorafgaande ETL, provisioning en dataformattering voordat deze kan worden onderzocht. Het opschalen van deze handmatige processen maakt ze frustrerend.
Een andere optie die op papier goed lijkt te passen, maar in feite afwijkt van het data lake-principe van eenvoudige data-invoer, is Snowflake's data lakehouse.
Oracle
Moderne, open architectuur die bekend staat als een "data lakehouse" maakt het mogelijk om al uw gegevens op te slaan, te begrijpen en te analyseren.
De breedte en flexibiliteit van de meest populaire open source data lake-oplossingen worden gecombineerd met de kracht en diepte van datawarehouses.
De nieuwste AI-frameworks en vooraf gebouwde AI-services kunnen worden gebruikt met een data lakehouse op Oracle Cloud Infrastructure (OCI).
Het is mogelijk om met extra soorten gegevens te werken terwijl u een open-source datameer gebruikt. Maar de tijd en moeite die nodig is om het te beheren, kan een hardnekkig nadeel zijn.
OCI biedt volledig beheerde open source lakehouse-services tegen lagere tarieven en met minder beheer, zodat u kunt anticiperen op lagere operationele kosten, betere schaalbaarheid en beveiliging en de capaciteit om al uw bestaande gegevens op één locatie te consolideren.
Een data lakehouse verhoogt de waarde van datawarehouses en marts, die essentieel zijn voor succesvolle ondernemingen.
Gegevens kunnen worden opgehaald met behulp van een Lakehouse vanaf verschillende locaties met slechts één SQL-query.
Bestaande programma's en tools krijgen transparant toegang tot alle data zonder dat aanpassingen of nieuwe vaardigheden nodig zijn.
Conclusie
De introductie van data lakehouse-oplossingen is een weerspiegeling van een grotere trend in big data, namelijk de integratie van analyse en gegevensopslag in uniforme dataplatforms om de bedrijfswaarde uit data te maximaliseren en tegelijkertijd de tijd, kosten en complexiteit van waarde-extractie te verlagen.
Platforms zoals Databricks, Snowflake, Ahana, Dremio en Oracle zijn allemaal gekoppeld aan het idee van een 'data lakehouse', maar ze hebben elk een unieke reeks functies en de neiging om meer als een datawarehouse te functioneren dan als een echt datameer Als geheel.
Wanneer een oplossing op de markt wordt gebracht als een 'data lakehouse', moeten bedrijven op hun hoede zijn voor wat het eigenlijk betekent.
Bedrijven moeten verder kijken dan marketingjargon zoals 'data lakehouse' en in plaats daarvan kijken naar de functies van elk platform om het beste dataplatform te selecteren dat in de toekomst met hun bedrijf mee zal groeien.
Laat een reactie achter