Indholdsfortegnelse[Skjule][At vise]
Data lakehouses kombinerer data warehouse og data lake koncepter for virksomheder.
Disse værktøjer giver dig mulighed for at bygge omkostningseffektive datalagringsløsninger ved at kombinere datasøernes administrationsmuligheder med den dataarkitektur, der findes i datavarehuse.
Derudover er der en reduktion i datamigrering og redundans, der bruges mindre tid på at administrere, og kortere skema- og datastyringsprocedurer bliver faktisk en realitet.
Et datasøhus har mange fordele i forhold til et lagersystem med flere løsninger.
Disse værktøjer bruges stadig af dataforskere til at forbedre deres forståelse af business intelligence og maskinlæringsprocedurer.
Denne artikel vil tage et hurtigt kig på data lakehouse, dets muligheder og de tilgængelige værktøjer.
Introduktion til Data Lakehouse
En ny slags dataarkitektur kaldet "data søhus” kombinerer en datasø og et datavarehus for at løse svaghederne ved hver enkelt uafhængigt.
Lakehouse-systemet bruger ligesom datasøer billig lagring til at holde enorme mængder data i sin oprindelige form.
Tilføjelsen af et metadatalag oven på butikken giver også datastruktur og giver datastyringsværktøjer svarende til dem, der findes i datavarehuse.
Den indeholder enorme mængder af strukturerede, semistrukturerede og ustrukturerede data, der er opnået fra de forskellige forretningsapplikationer, systemer og enheder, der bruges i hele virksomheden.
Som et resultat, i modsætning til datasøer, kan lakehouse-systemet administrere og optimere disse data til SQL-ydeevne.
Det har også evnen til at gemme og behandle store mængder forskelligartede data til en billigere pris end datavarehuse.
Et data Lakehouse er praktisk, når du skal udføre dataadgang eller analyser mod data, men er usikker på dataene eller de anbefalede analyser.
En søhusarkitektur vil fungere ganske godt, hvis ydeevne ikke er en primær bekymring.
Det betyder ikke, at du skal basere hele din struktur på et søhus.
Du kan finde flere oplysninger om, hvordan du vælger en datasø, et søhus, et datavarehus eller en specialiseret analysedatabase for hver brugssag link..
Funktioner i Data Lakehouse
- Samtidig datalæsning og skrivning
- Tilpasningsevne og skalerbarhed
- Skemahjælp med datastyringsværktøjer
- Samtidig datalæsning og skrivning
- Opbevaring, der er overkommelig
- Alle datatyper og filformater understøttes.
- Adgang til datavidenskab og maskinlæringsværktøjer, der er optimeret
- Dine datateams vil drage fordel af at have adgang til kun ét system for at overføre arbejdsbyrder gennem det hurtigere og mere præcist.
- Realtidsfunktioner til initiativer inden for datavidenskab, maskinlæring og analyse
Top 5 Data Lakehouse-værktøjer
Databrikker
Databricks, som blev grundlagt af den person, der først udviklede Apache Spark og lavede den open source, leverer en administreret Apache Spark-tjeneste og er placeret som en platform for datasøer.
Datasøen, deltasøen og deltamotorkomponenterne i Databricks lakehouse-arkitekturen muliggør brugscases for business intelligence, datavidenskab og maskinlæring.
Datasøen er et offentligt skylager.
Med understøttelse af metadatastyring, batch- og streamdatabehandling til multistrukturerede datasæt, dataopdagelse, sikker adgangskontrol og SQL-analyse.
Databricks tilbyder de fleste af de data warehousing funktioner, man kan forvente at se i en data lakehouse platform.
Databricks afslørede for nylig sin Auto Loader, som automatiserer ETL og datainput og udnytter datasampling til at udlede skemaet for en række forskellige datatyper for at levere på de væsentlige komponenter i datasøens lagringsstrategi.
Alternativt kan brugere bygge ETL-pipelines mellem deres offentlige cloud-datasø og Delta Lake ved hjælp af Delta Live Tables.
På papiret ser Databricks ud til at have alle fordelene, men at opsætte løsningen og skabe dens datapipelines kræver en masse menneskelig arbejdskraft fra dygtige udviklere.
I skala bliver svaret også mere komplekst. Det er mere kompliceret, end det ser ud til.
Ahana
En datasø er en enkelt, central placering, hvor du kan gemme hvilken som helst type data, du vælger i skala, inklusive ustrukturerede og strukturerede data. AWS S3, Microsoft Azure og Google Cloud Storage er tre almindelige datasøer.
Datasøer er utroligt vellidte, fordi de er meget overkommelige og nemme at bruge; du kan stort set gemme så meget af enhver type data, som du vil, for meget få penge.
Men datasøen tilbyder ikke indbyggede værktøjer som analyse, forespørgsel osv.
Du skal bruge en forespørgselsmaskine og et datakatalog oven på datasøen (hvor Ahana Cloud kommer ind) for at forespørge om dine data og bruge dem.
Med det bedste fra både Data Warehouse og Data Lake er der udviklet et nyt data Lakehouse-design.
Dette indikerer, at det er gennemsigtigt, tilpasningsdygtigt, har god pris/ydelse, skalerer som en datasø understøtter transaktioner og har et højt sikkerhedsniveau, der kan sammenlignes med et datavarehus.
Din højtydende SQL-forespørgselsmotor er hjernen bag Data Lakehouse. På grund af dette kan du udføre højtydende analyser på dine datasø-data.
Ahana Cloud for Presto er SaaS for Presto på AWS, hvilket gør det utrolig enkelt at begynde at bruge Presto i skyen.
Til din S3-baserede datasø har Ahana allerede et indbygget datakatalog og caching. Ahana giver dig Prestos funktioner uden at kræve, at du skal håndtere overhead, fordi det gør det internt.
AWS Lake Formation, Apache Hudi og Delta Lake er blot nogle få af de transaktionsadministratorer, der er en del af stakken og integreres med den.
Dremio
Organisationer søger hurtigt, enkelt og effektivt at evaluere enorme mængder af hurtigt stigende data.
Dremio mener, at et åbent datasøhus kombinerer fordelene ved datasøer og datavarehuse på et åbent grundlag er den bedste tilgang til at opnå dette.
Dremios lakehouse-platform giver en oplevelse, der fungerer for alle, med en nem brugergrænseflade, der giver brugerne mulighed for at gennemføre analyser på en brøkdel af tiden.
Dremio Cloud, en fuldt administreret data Lakehouse-platform, og lanceringen af to nye tjenester: Dremio Sonar, en søhusforespørgselsmotor, og Dremio Arctic, en intelligent megastore for Apache Iceberg, der leverer en unik Git-lignende oplevelse til søhuset.
Alle en organisations SQL-arbejdsbelastninger kan køres på den friktionsfri, endeløst skalerbare Dremio Cloud-platform, som også automatiserer dataadministrationsopgaver.
Det er bygget til SQL, tilbyder en Git-lignende oplevelse, er open source og er altid gratis.
De skabte den for at være den lakehouse-platform, som datateams elsker.
Ved at bruge open source-tabel- og filformater som Apache Iceberg og Apache Parquet er dine data vedvarende i din egen datasø-lagring, når du bruger Dremio Cloud.
Fremtidige innovationer kan nemt tages i brug, og den rigtige motor kan vælges baseret på din arbejdsbyrde.
Snowflake
Snowflake er en cloud-data- og analyseplatform, der kan opfylde datasøers og lagres behov.
Det begyndte som et datavarehussystem bygget på cloud-infrastruktur.
Platformen består af et centraliseret lagerlager, der ligger oven på offentligt cloudlager fra AWS, Microsoft Azure eller Google Cloud Platform (GCP).
Derefter følger et multi-cluster-beregningslag, hvor brugere kan starte et virtuelt datavarehus og udføre SQL-forespørgsler mod deres datalager.
Arkitekturen giver mulighed for at afkoble lager- og beregningsressourcer, hvilket giver organisationer mulighed for at skalere de to uafhængigt efter behov.
Endelig leverer Snowflake et servicelag med metadatakategorisering, ressourcestyring, datastyring, transaktioner og andre funktioner.
BI-værktøjsforbindelser, metadatastyring, adgangskontrol og SQL-forespørgsler er blot nogle få af de datavarehusfunktioner, som platformen udmærker sig ved at tilbyde.
Snowflake er dog begrænset til en enkelt relationel SQL-baseret forespørgselsmotor.
Som et resultat bliver det enklere at administrere, men mindre tilpasningsdygtigt, og multimodel-datasø-visionen bliver ikke realiseret.
Derudover kræver Snowflake, at virksomhederne indlæser dem i et centraliseret lagerlag, før data fra skylager kan søges eller analyseres.
Den manuelle datapipelining-procedure kræver forudgående ETL, klargøring og dataformatering, før den kan undersøges. Opskalering af disse manuelle processer gør dem frustrerende.
En anden mulighed, der ser ud til at passe godt på papiret, men som faktisk afviger fra datasøprincippet om simpelt datainput, er Snowflakes datasøhus.
Oracle
Moderne, åben arkitektur kendt som et "datasøhus" gør det muligt at gemme, forstå og analysere alle dine data.
De mest vellidte open source data lake løsningers bredde og fleksibilitet kombineres med styrken og dybden af datavarehuse.
De nyeste AI-frameworks og præbyggede AI-tjenester kan bruges sammen med et datasøhus på Oracle Cloud Infrastructure (OCI).
Det er muligt at arbejde med yderligere typer data, mens du bruger en open source-datasø. Men den tid og indsats, der kræves for at håndtere det, kan være en vedvarende ulempe.
OCI tilbyder fuldt administrerede open source lakehouse-tjenester til lavere priser og med mindre administration, hvilket giver dig mulighed for at forudse lavere driftsomkostninger, bedre skalerbarhed og sikkerhed og kapaciteten til at konsolidere alle dine eksisterende data på ét sted.
Et datasøhus vil øge værdien af datavarehuse og marts, som er afgørende for succesrige virksomheder.
Data kan hentes ved hjælp af et søhus fra flere lokationer med kun én SQL-forespørgsel.
Eksisterende programmer og værktøjer får gennemsigtig adgang til alle data uden at kræve justeringer eller tilegne sig nye færdigheder.
Konklusion
Introduktionen af data lakehouse-løsninger er en afspejling af en større trend inden for big data, som er integrationen af analyser og datalagring i forenede dataplatforme for at maksimere forretningsværdien fra data og samtidig sænke tiden, omkostningerne og kompleksiteten af værdiudvinding.
Platforme, herunder Databricks, Snowflake, Ahana, Dremio og Oracle, er alle blevet knyttet til ideen om et "data-søhus", men de har hver især et unikt sæt funktioner og en tendens til at fungere mere som et datavarehus end en ægte datasø. som en helhed.
Når en løsning markedsføres som et "data lakehouse", bør virksomheder være på vagt over for, hvad det rent faktisk betyder.
Virksomheder skal se ud over markedsføringsjargon som "data lakehouse" og i stedet se på hver platforms funktioner for at vælge den bedste dataplatform, der vil udvide med deres virksomheder i fremtiden.
Giv en kommentar