Inhaltsverzeechnes[Verstoppen][Show]
Data Lakehouses kombinéieren d'Datelager an d'Date Lake Konzepter fir Geschäfter.
Dës Tools erlaben Iech kosteneffizient Datespäicherléisungen ze bauen andeems Dir d'Gestiounsfäegkeeten vun Datenséien kombinéiert mat der Datearchitektur déi an Datelager fonnt gëtt.
Zousätzlech gëtt et eng Reduktioun vun der Datemigratioun an der Redundanz, manner Zäit gëtt Administratioun verbruecht, a méi kuerz Schema- an Dategouvernanceprozeduren ginn tatsächlech eng Realitéit.
One Date Lakehouse huet vill Virdeeler am Verglach zu engem Stockage System mat verschiddene Léisungen.
Dës Tools ginn nach ëmmer vun Datewëssenschaftler benotzt fir hire Verständnis vu Geschäftsintelligenz a Maschinnléiereprozeduren ze verbesseren.
Dësen Artikel wäert e séiere Bléck op daten Lakehouse, seng Fäegkeeten, an déi verfügbar Tools.
Aféierung an daten Lakehouse
Eng nei Aart vun Datenarchitektur genannt "daten lakehouse" kombinéiert en Dateséi an en Datelager fir d'Schwäche vun all eenzel onofhängeg unzegoen.
De Lakehouse System, wéi Daten Séien, benotzt Low-Cost Späichere fir enorm Quantitéiten un Daten a senger ursprénglecher Form ze halen.
D'Zousätzlech vun enger Metadatenschicht uewen um Geschäft bitt och Datestruktur an erméiglecht Datemanagement Tools ähnlech wéi déi an Datelager fonnt.
Et enthält massiv Quantitéiten u strukturéierten, semi-strukturéierten an onstrukturéierten Donnéeën aus de verschiddene Geschäftsapplikatiounen, Systemer an Apparater, déi an der ganzer Entreprise benotzt ginn.
Als Resultat, am Géigesaz zu Daten Séien, kann de Lakehouse System dës Donnéeën fir SQL Leeschtung verwalten an optimiséieren.
Et huet och d'Fäegkeet fir grouss Quantitéite vu verschiddenen Donnéeën zu méi bëllege Käschte wéi Datelager ze späicheren an ze veraarbechten.
En Date-Lakehouse kënnt praktesch wann Dir all Datenzougang oder Analyse géint all Donnéeën ausféiere musst, awer net sécher sidd iwwer d'Donnéeën oder d'recommandéiert Analyse.
Eng Lakehouse Architektur funktionnéiert ganz gutt wann d'Performance net eng primär Suerg ass.
Dat heescht net datt Dir Är ganz Struktur op engem Séihaus sollt baséieren.
Méi Informatioun iwwer wéi Dir en Dateséi, Séihaus, Datelager oder spezialiséiert Analysedatabase fir all Benotzungsfall auswielen kann fonnt ginn hei.
Fonctiounen vun Data Lakehouse
- Gläichzäiteg Daten Liesen a Schreiwen
- Adaptabilitéit a Skalierbarkeet
- Schema Hëllef mat Daten Gouvernance Tools
- Gläichzäiteg Daten Liesen a Schreiwen
- Lagerung déi bezuelbar ass
- All Datentypen an Dateiformate ginn ënnerstëtzt.
- Zougang zu Datenwëssenschaften a Maschinnléieren Tools déi optimiséiert sinn
- Är Dateteams profitéieren dovunner Zougang zu just engem System ze hunn fir d'Aarbechtslaascht méi séier a präzis duerch ze transferéieren.
- Echtzäit Fäegkeeten fir Initiativen an der Datewëssenschaft, Maschinnléieren an Analyse
Top 5 daten Lakehouse Tools
Datebanken
Databricks, déi vun der Persoun gegrënnt gouf, déi éischt Apache Spark entwéckelt huet an et gemaach huet Open Source, stellt e verwalteten Apache Spark Service a gëtt als Plattform fir Datenséien positionéiert.
Den Dateséi, Delta Séi, an Delta Motor Komponente vun der Databricks Lakehouse Architektur erméiglechen Geschäftsintelligenz, Datewëssenschaft, a Maschinnléiere Benotzungsfäll.
Den Dateséi ass en ëffentleche Cloud Storage Repository.
Mat Ënnerstëtzung fir Metadatenverwaltung, Batch- a Streamdatenveraarbechtung fir multistrukturéiert Datesätz, Datenentdeckung, sécher Zougangskontrollen, a SQL Analyse.
Databricks bitt déi meescht vun den Datelagerfunktiounen, déi ee kéint erwaarden an enger Dateséi-Plattform ze gesinn.
Databricks huet viru kuerzem säin Auto Loader enthüllt, deen den ETL an d'Dateinput automatiséiert an d'Dateprobe benotzt fir de Schema fir eng Vielfalt vun Datentypen ofzeschléissen, fir déi wesentlech Komponente vun der Dateséi-Späicherstrategie ze liwweren.
Alternativ kënnen d'Benotzer ETL Pipelines bauen tëscht hirem ëffentleche Cloud Dateséi an Delta Lake mat Delta Live Tables.
Op Pabeier schéngt Databricks all d'Virdeeler ze hunn, awer d'Léisung opzestellen a seng Datepipelines erstellen erfuerdert vill mënschlech Aarbecht vu qualifizéierten Entwéckler.
Op Skala gëtt d'Äntwert och méi komplex. Et ass méi komplizéiert wéi et schéngt.
Ahana
En Dateséi ass eng eenzeg zentral Plaz wou Dir all Zort vun Donnéeën, déi Dir op Skala wielt, späichere kënnt, inklusiv onstrukturéiert a strukturéiert Donnéeën. AWS S3, Microsoft Azure, a Google Cloud Storage sinn dräi allgemeng Dateséi.
Daten Séien sinn onheemlech gutt gefall well se ganz gënschtegsten an einfach ze benotzen sinn; Dir kënnt am Fong sou vill vun all Typ vun Daten späicheren wéi Dir wëllt fir ganz wéineg Suen.
Awer den Dateséi bitt keng agebaute Tools wéi Analytik, Ufro, etc.
Dir braucht en Ufromotor an Datekatalog uewen um Dateséi (wou Ahana Cloud erakënnt) fir Är Donnéeën ze froen an se ze benotzen.
Mat dem Beschten aus dem Data Warehouse an dem Data Lake ass en neien Date-Lakehouse-Design entwéckelt.
Dëst weist datt et transparent ass, adaptéierbar, gutt Präis / Leeschtung huet, Skalen wéi en Dateséi ënnerstëtzt Transaktiounen, an huet en héije Sécherheetsniveau vergläichbar mat engem Datelager.
Ären High-Performance SQL Query Engine ass d'Gehir hannert dem Data Lakehouse. Dofir kënnt Dir High-Performance-Analytiken op Är Daten Séi Daten ausféieren.
Ahana Cloud fir Presto ass SaaS fir Presto op AWS, wat et onheemlech einfach mécht Presto an der Wollek ze benotzen.
Fir Är S3-baséiert Dateséi huet Ahana schonn en agebaute Datekatalog a Cache. Ahana gëtt Iech Presto's Features ouni datt Dir d'Overhead erfuerdert, well et intern mécht.
AWS Lake Formation, Apache Hudi, an Delta Lake sinn nëmmen e puer vun den Transaktiounsmanager, déi Deel vum Stack sinn an domat integréieren.
Dremio
Organisatioune sichen séier, einfach an effizient massiv Quantitéite vu séier eropgoen Daten ze evaluéieren.
Dremio mengt datt en oppenen Dateséihaus d'Virdeeler vun Dateséen an Datelager op enger oppener Basis kombinéiert ass déi bescht Approche fir dëst z'erreechen.
Dem Dremio seng Lakehouse Plattform bitt eng Erfarung déi fir jiddereen funktionnéiert, mat engem einfachen UI, deen d'Benotzer erlaabt Analysen an enger Fraktioun vun der Zäit ze kompletéieren.
Dremio Cloud, eng voll verwalteten Daten Lakehouse Plattform, an de Start vun zwee neie Servicer: Dremio Sonar, e Lakehouse Query Engine, an Dremio Arctic, eng intelligent Megastore fir Apache Iceberg déi eng eenzegaarteg Git-ähnlech Erfahrung fir de Lakehouse liwwert.
All SQL-Aarbechtslaascht vun enger Organisatioun kënnen op der frictionless, endlos skalierbar Dremio Cloud Plattform lafen, déi och Datemanagement Aufgaben automatiséiert.
Et ass fir SQL gebaut, bitt eng Git-ähnlech Erfahrung, ass Open Source, an ass ëmmer gratis.
Si hunn et erstallt fir d'Lakehouse Plattform ze sinn déi Datenteams begeeschteren.
Mat Open Source Tabellen a Dateiformate wéi Apache Iceberg an Apache Parquet, sinn Är Donnéeën persistent an Ärem eegenen Dateséilagerung wann Dir Dremio Cloud benotzt.
Zukünfteg Innovatiounen kënnen einfach ugeholl ginn, an de passende Motor ka gewielt ginn op Basis vun Ärer Aarbechtsbelaaschtung.
bass
Snowflake ass eng Cloud Daten an Analyseplattform déi d'Bedierfnesser vun Datenséien a Lagerhaiser treffen kann.
Et huet ugefaang als Datelagersystem op Cloud Infrastruktur gebaut.
D'Plattform besteet aus engem zentraliséierte Späicherrepository deen uewen op der ëffentlecher Cloud Storage vun AWS, Microsoft Azure oder Google Cloud Platform (GCP) setzt.
Duerno ass eng Multi-Cluster Berechnungsschicht, wou d'Benotzer e virtuellt Datelager lancéiere kënnen an SQL Ufroe géint hir Datelagerung maachen.
D'Architektur erlaabt d'Entkopplung vu Späicher- a Berechnungsressourcen, wat Organisatiounen erlaabt déi zwee onofhängeg ze skaléieren wéi néideg.
Schlussendlech bitt Snowflake eng Serviceschicht mat Metadatenkategoriséierung, Ressourcemanagement, Dategouvernance, Transaktiounen an aner Funktiounen.
BI Tool Connectoren, Metadatenverwaltung, Zougangskontrollen, a SQL Ufroen sinn nëmmen e puer vun den Datelagerfunktioune, déi d'Plattform excels bitt.
Snowflake ass awer limitéiert op eng eenzeg relational SQL-baséiert Ufromotor.
Als Resultat gëtt et méi einfach ze administréieren awer manner adaptéierbar, an d'Multi-Modell Daten Séi Visioun gëtt net realiséiert.
Zousätzlech, ier Daten aus der Wolleklagerung gesicht oder analyséiert kënne ginn, erfuerdert Snowflake d'Geschäfter fir se an eng zentraliséiert Späicherschicht ze lueden.
Déi manuell Datepipelining Prozedur erfuerdert virdru ETL, Dispositioun an Dateformatéierung ier se iwwerpréift kënne ginn. Dës manuell Prozesser opzebauen mécht se frustréierend.
Eng aner Optioun, déi op Pabeier gutt fit schéngt, awer tatsächlech vum Dateséi-Prinzip vum einfachen Dateinput ofwäich ass Snowflake's Date-Lakehouse.
entscheet
Modern, oppe Architektur bekannt als "Date Lakehouse" mécht et méiglech all Är Donnéeën ze späicheren, ze verstoen an ze analyséieren.
Déi meescht beléifte Open Source Dateséi Léisungen Breet a Flexibilitéit si kombinéiert mat der Kraaft an Déift vun Datelager.
Déi neisten AI Kaderen a prebuilt AI Servicer kënne mat engem Dateséihaus op Oracle Cloud Infrastructure (OCI) benotzt ginn.
Et ass machbar mat zousätzlech Aarte vun Daten ze schaffen wärend Dir en Open-Source Dateséi benotzt. Awer d'Zäit an d'Ustrengung déi néideg ass fir et ze managen kéint e persistent Nodeel sinn.
OCI bitt voll geréiert Open Source Lakehouse Servicer zu méi nidderegen Tariffer a mat manner Gestioun, wat Iech erlaabt méi niddereg Operatiounskäschte virzegoen, besser Skalierbarkeet a Sécherheet, an d'Kapazitéit fir all Är existent Daten op enger Plaz ze konsolidéieren.
En Dateséihaus wäert de Wäert vun Datelager a Marts erhéijen, déi wesentlech fir erfollegräich Entreprisen sinn.
D'Donnéeë kënne mat engem Lakehouse vu verschiddene Plazen mat nëmmen enger SQL Ufro zréckgewonne ginn.
Bestehend Programmer an Tools kréien transparent Zougang zu all Daten ouni Upassungen ze erfuerderen oder nei Fäegkeeten ze kréien.
Konklusioun
D'Aféierung vun Daten Lakehouse Léisungen ass eng Reflexioun vun engem gréisseren Trend a Big Data, dat ass d'Integratioun vun Analyse an Datelagerung an vereenegt Dateplattformen fir de Geschäftswäert aus Daten ze maximéieren, während d'Zäit, d'Käschte an d'Komplexitéit vun der Wäertextraktioun erofsetzen.
Plattformen dorënner Databricks, Snowflake, Ahana, Dremio, an Oracle goufen all mat der Iddi vun engem "Date Lakehouse" verbonnen, awer si hunn all eng eenzegaarteg Set vu Featuren an eng Tendenz méi wéi en Datelager ze funktionéieren wéi e richtegen Dateséi als Ganzt.
Wann eng Léisung als "Date Lakehouse" vermaart gëtt, sollten d'Entreprisen oppassen op wat et eigentlech heescht.
D'Entreprisen mussen iwwer Marketingjargon wéi "Data Lakehouse" kucken an amplaz d'Features vun all Plattform kucken fir déi bescht Dateplattform ze wielen déi mat hire Geschäfter an Zukunft ausdehnt.
Hannerlooss eng Äntwert