Inhaltsverzeechnes[Verstoppen][Show]
Et kann e bësse schwéier sinn all déi verfügbar Servicer an architektonesch Optiounen ze berücksichtegen wann Dir un Datenplattformen denkt.
Eng Enterprise Dateplattform besteet dacks aus Datelager, Datemodeller, Dateséi a Berichter, jidderee mat engem spezifeschen Zweck a Set vu Fäegkeeten déi néideg sinn. Am Géigesaz, en neien Design genannt daten Lakehouse ass an de leschte Jore entstanen.
D'Vielsäitegkeet vun Dateséen an Datelager Datemanagement ginn an enger revolutionärer Datespäicherarchitektur kombinéiert, déi e "Dataséihaus" genannt gëtt.
Mir wäerten daten Lakehouse am-Déift an dësem Post ënnersicht, dorënner seng Komponente, Fonctiounen, Architektur, an aner Aspekter.
Wat ass Data Lakehouse?
Wéi den Numm et scho seet, ass en Dateséihaus eng nei Aart vun Datenarchitektur déi en Dateséi mat engem Datelager kombinéiert fir d'Mängel vun all eenzel ze léisen.
Am Wesentlechen benotzt de Lakehouse System preiswerte Späichere fir massiv Quantitéiten un Daten an hiren originelle Formen z'erhalen, sou wéi Datenseeen. D'Metadatenschicht uewen um Geschäft bäizefügen gëtt och Datenstruktur an erméiglecht Datemanagement Tools wéi déi, déi an Datelager fonnt ginn.
Et späichert déi enorm Bänn vun organiséierten, semi-strukturéierten an onstrukturéierten Donnéeën, déi se aus de verschiddene Geschäftsapplikatiounen, Systemer a Gadgeten kréien, déi an hirer Organisatioun benotzt ginn.
D'Majoritéit vun der Zäit, Daten Séien benotzen bëlleg Stockage Infrastruktur mat engem Fichier Applikatioun programméiere Interface (API) Daten an oppen, generesch Fichier Formater ze späicheren.
Dëst mécht et méiglech fir vill Teams fir all d'Firmadaten duerch en eenzege System fir eng Vielfalt vun Initiativen ze kréien, sou wéi Datenwëssenschaft, Maschinn léieren, a Business Intelligenz.
Eegeschaften
- Niddereg-Käschte Stockage. En Dateséihaus muss fäeg sinn Daten an engem preiswerten Objektlagerung ze späicheren, wéi z Google Cloud Storage, Azure Blob Storage, Amazon Simple Storage Service, oder natierlech mat ORC oder Parquet.
- Kapazitéit fir Dateoptimiséierung: Date Layoutoptimiséierung, Caching an Indexéierung sinn e puer Beispiller vu wéi en Dateséihaus muss fäeg sinn d'Donnéeën ze optimiséieren wärend d'Originalformat vun den Daten behalen.
- Eng Schicht vun Transaktiouns-Metadaten: Nieft der wesentlecher Low-Cost-Späicherung, erméiglecht dëst Datenverwaltungsfäegkeeten entscheedend fir Datelagerleistung.
- Ënnerstëtzung fir d'Declarative DataFrame API: D'Majoritéit vun AI Tools kënnen DataFrames benotzen fir rau Objektspeicherdaten ze recuperéieren. Ënnerstëtzung fir Declarative DataFrame API erhéicht d'Fäegkeet fir d'Presentatioun an d'Struktur vun den Donnéeën dynamesch ze verbesseren an Äntwert op eng speziell Datewëssenschaft oder AI Aufgab.
- Ënnerstëtzung fir ACID Transaktiounen: Den Akronym ACID, wat fir Atomitéit, Konsistenz, Isolatioun an Haltbarkeet steet, ass e kritesche Bestanddeel fir eng Transaktioun ze definéieren an d'Konsistenz an d'Verlässlechkeet vun den Donnéeën ze garantéieren. Esou Transaktiounen waren virdrun nëmmen an Daten Warehousen méiglech, mä de lakehouse bitt d'Méiglechkeet se mat Daten Séien ze benotzen och. Mat verschiddenen Datepipelines inklusiv concurrent Daten Liesen a Schreiwen, léist dëst de Problem vun der gerénger Datequalitéit vun der leschter.
Elementer vun daten Lakehouse
D'Architektur vum Dateséihaus ass an zwee Haaptniveauen op engem héijen Niveau opgedeelt. D'Datenaufnahme vun der Späicherschicht gëtt vun der Lakehouse Plattform kontrolléiert (dh den Dateséi).
Ouni d'Daten an en Datelager ze lueden oder se an e propriétaire Format ze konvertéieren, ass d'Veraarbechtungsschicht dann fäeg d'Donnéeën an der Späicherschicht direkt mat enger Rei vun Tools ze froen.
Dann kënnen BI Apps, souwéi AI an ML Technologien, d'Donnéeën benotzen. D'Wirtschaft vun engem Dateséi gëtt vun dësem Design geliwwert, awer well all Veraarbechtungsmotor dës Donnéeën liesen kann, hunn d'Geschäfter d'Fräiheet fir déi preparéiert Donnéeën zougänglech ze maachen fir Analyse duerch eng Rei vu Systemer. Prozessor Leeschtung a Käschten kënne souwuel verbessert ginn andeems Dir dës Method fir Veraarbechtung an Analyse benotzt.
Wéinst senger Ënnerstëtzung fir Datebanktransaktiounen déi folgend ACID (Atomizitéit, Konsistenz, Isolatioun an Haltbarkeet) Critèren halen, erméiglecht d'Architektur och vill Parteien Zougang zu Daten gläichzäiteg am System ze schreiwen:
- Atomizitéit bezitt sech op d'Tatsaach, datt entweder déi voll Transaktioun oder näischt dovunner geléngt beim Ofschloss vun enger Transaktioun. Am Fall wou e Prozess ënnerbrach ass, hëlleft dëst Datenverloscht oder Korruptioun ze vermeiden.
- Konsequenz garantéiert Transaktiounen op eng prévisibel, konsequent Manéier geschéien. Et behält d'Integritéit vun den Donnéeën andeems se suergen, datt all Donnéeën legitim sinn am Aklang mat virbestëmmten Reegelen.
- Isolatioun garantéiert datt, bis et fäerdeg ass, keng Transaktioun kann vun all aner Transaktioun am System beaflosst ginn. Dëst erlaabt vill Parteien aus dem selwechte System gläichzäiteg ze liesen a schreiwen ouni sech mateneen ze stéieren.
- Plazverbrauch garantéiert datt Ännerungen un d'Donnéeën an engem System weider existéieren nodeems eng Transaktioun fäerdeg ass, och am Fall vun engem Systemfehler. All Ännerungen, déi duerch eng Transaktioun entstoen, ginn fir ëmmer op Datei gehal.
Daten Lakehouse Architektur
Databricks (den Innovateur an Designer vun hirem Delta Lake Konzept) an AWS sinn déi zwee Haaptvertrieder fir d'Konzept vun engem Dateséihaus. Mir wäerten also op hir Wëssen an Asiicht vertrauen fir den architektonesche Layout vu Séihäuser ze beschreiwen.
En Data Lakehouse System wäert typesch fënnef Schichten hunn:
- Verdauungsschicht
- Stockage Layer
- Metadatenschicht
- API Layer
- Konsum Layer
Verdauungsschicht
Déi éischt Layer vum System ass zoustänneg fir Daten aus verschiddene Quellen ze sammelen an se an d'Späicherschicht ze schécken. D'Schicht kann verschidde Protokoller benotze fir mat villen internen an externen Quellen ze verbannen, dorënner d'Kombinatioun vu Batch a Streaming Datenveraarbechtungsfäegkeeten, wéi z.
- NoSQL Datenbanken,
- Fichier deelt
- CRM Uwendungen,
- Websäiten,
- IoT Sensoren,
- sozial Medien,
- Software als Service (SaaS) Uwendungen, an
- relational Datebank Management Systemer, etc.
Zu dësem Zäitpunkt kënnen Komponenten wéi Apache Kafka fir Datestream an Amazon Data Migration Service (Amazon DMS) fir Datenimport vu RDBMSs an NoSQL Datenbanken benotzt ginn.
Stockage Layer
D'Lakehouse Architektur ass geduecht fir d'Späichere vu verschiddenen Zorte vun Daten als Objeten an preiswerten Objektgeschäfter z'erméiglechen, wéi AWS S3. Mat oppene Dateiformate kënnen d'Client-Tools dës Artikelen direkt aus dem Geschäft liesen.
Dëst mécht et méiglech fir vill APIen a Konsumschichtkomponenten Zougang zu de selwechten Donnéeën ze benotzen. D'Metadatenschicht späichert d'Schemae fir strukturéiert an semi-strukturéiert Datesätz sou datt d'Komponente se op d'Daten applizéiere kënnen wéi se se liesen.
D'Hadoop Distributed File System (HDFS) Plattform, zum Beispill, ka benotzt ginn fir Cloud Repository Servicer ze konstruéieren déi Informatik a Lagerung on-premises opdeelen. Lakehouse ass ideal fir dës Servicer.
Metadatenschicht
D'Metadatenschicht ass de fundamentale Bestanddeel vun engem Dateséihaus dat dësen Design ënnerscheet. Et ass en eenzege Katalog deen Metadaten (Informatioun iwwer aner Datenstécker) fir all Elementer, déi am Séi gelagert sinn, ubitt an d'Benotzer erlaabt Administratiounsfäegkeeten ze benotzen wéi:
- Eng konsequent Versioun vun der Datebank gëtt duerch concurrent Transaktiounen duerch ACID Transaktiounen gesi ginn;
- Caching fir Cloud Objekt Store Dateien ze späicheren;
- derbäigesat Datestrukturindexe mat Indexéierung fir Ufroveraarbechtung ze beschleunegen;
- benotzt Nullkopie Klonen fir Dateobjekter ze duplizéieren; an
- fir bestëmmte Versioune vun den Donnéeën ze späicheren, etc., benotzt d'Datenversioun.
Zousätzlech erméiglecht d'Metadatenschicht d'Ëmsetzung vun der Schemaverwaltung, d'Benotzung vun DW Schema Topologien wéi Star / Snowflake Schemaen, an d'Bereetstellung vun Dategouvernance an Auditfäegkeeten direkt um Dateséi, d'Integritéit vun der ganzer Datepipeline verbesseren.
Features fir Schema Evolutioun an Duerchféierung sinn am Schema Management abegraff. Andeems Dir all Schreiwen refuséiert, déi net dem Schema vum Dësch entspriechen, erlaabt d'Schema Duerchféierung d'Benotzer d'Datenintegritéit an d'Qualitéit z'erhalen.
Schema Evolutioun erlaabt den aktuellen Schema vum Dësch ze änneren fir verännert Daten z'empfänken. Wéinst enger eenzeger Administratioun Interface uewen op der Dateséi, ginn et och Zougang Kontroll an Audit Méiglechkeeten.
API Layer
Eng aner entscheedend Schicht vun der Architektur ass elo präsent, hosting eng Zuel vun APIen déi all Endbenotzer kënne benotze fir Aarbecht méi séier ze maachen a méi sophistikéiert Statistiken ze kréien.
D'Benotzung vu Metadaten APIen mécht et méi einfach d'Datenartikelen z'identifizéieren an ze kréien, déi fir eng bestëmmte Applikatioun néideg sinn.
Wat d'Maschinn Léierbibliothéiken ugeet, kënnen e puer vun hinnen, sou wéi TensorFlow a Spark MLlib, oppene Dateiformate wéi Parquet liesen an direkt op d'Metadatenschicht kommen.
Zur selwechter Zäit bidden DataFrame APIs méi grouss Chancen fir Optimiséierung, wat Programméierer erméiglechen, verspreet Daten z'organiséieren an z'änneren.
Konsum Layer
Power BI, Tableau an aner Tools an Apps ginn ënner der Konsumschicht gehost. Mam Lakehouse Design sinn all d'Metadaten an all d'Donnéeën, déi an engem Séi gehale ginn, fir de Client Apps zougänglech.
D'Lakehouse kann vun all Benotzer bannent enger Firma benotzt ginn all Zorte vun Leeschtunge analytesch Operatiounen, dorënner d'Schafe vun Business Intelligence Dashboards a lafen SQL Ufroen a Maschinn Léieren Aufgaben.
Virdeeler vun Data Lakehouse
Organisatiounen kënnen en Dateséihaus erstellen fir hir aktuell Dateplattform ze vereenegen an hire ganzen Datemanagementprozess ze optimiséieren. Andeems Dir d'Silobarrièren ofbaut, déi verschidde Quelle verbannen, kann en Dateséihaus de Besoin fir verschidde Léisungen ersetzen.
Am Verglach mat curated Datequellen produzéiert dës Integratioun eng wesentlech méi effektiv End-to-End Prozedur. Dëst huet e puer Virdeeler:
- Manner Administratioun: Anstatt Donnéeën aus rauen Donnéeën ze extrahieren an ze preparéieren fir se an engem Datelager ze benotzen, erlaabt en Dateséihaus all Quellen, déi domat verbonne sinn, hir Donnéeën zur Verfügung ze stellen an ze organiséieren fir ze benotzen.
- Méi Käschte-Effizienz: Daten Séihauser gi mat zäitgenëssesch Infrastruktur gebaut, déi Berechnung a Lagerung trennt, sou datt et einfach ass d'Späichere auszebauen ouni d'Rechenkraaft ze erhéijen. Just d'Benotzung vu preiswerten Datelagerung resultéiert zu Skalierbarkeet déi kosteneffektiv ass.
- Besser Daten Gouvernance: Daten Séihauser gi mat standardiséierter oppener Architektur gebaut, wat méi Kontroll iwwer Sécherheet, Metriken, Roll-baséiert Zougang an aner wichteg Gestiounskomponenten erlaabt. Andeems se Ressourcen an Datequellen vereenegen, vereinfachen se a verbesseren d'Regierung.
- Vereinfacht Normen: Zënter datt d'Verbindung an den 1980er Joren héich beschränkt war, wéi d'Datelager fir d'éischt entwéckelt goufen, goufen lokaliséiert Schemanormen dacks bannent Geschäfter entwéckelt, souguer Departementer. Data Lakehouses benotzen d'Tatsaach datt vill Aarte vun Daten elo oppe Standarde fir Schema hunn andeems se vill Datequellen mat dem iwwerlappende eenheetleche Schema huelen fir Prozeduren ze streamline.
Nodeeler vun Data Lakehouse
Trotz all Hoopla ronderëm daten lakehouses, Et ass wichteg am Kapp ze halen, datt d'Iddi nach ganz nei ass. Gitt sécher d'Nodeeler ze weien ier Dir Iech voll op dësen neien Design engagéiert.
- Monolithesch Struktur: A lakehouse d'all-inklusiv Design bitt verschidde Virdeeler, mä et stellt och e puer Problemer. Monolithesch Architektur féiert dacks zu engem schlechten Service fir all Benotzer a kann steif a schwéier ze erhalen sinn. Typesch hunn Architekten an Designer gär eng méi modulär Architektur déi se fir verschidde Benotzungsfäll kënne personaliséieren.
- D'Technologie ass nach net ganz do: dat lescht Zil enthält eng bedeitend Quantitéit un Maschinnléieren a kënschtlech Intelligenz. Ier Séihäuser kënne Leeschtunge wéi virgesinn, mussen dës Technologien weider entwéckelen.
- Net e wesentleche Fortschrëtt iwwer existent Strukturen: Et gëtt nach ëmmer vill Skepsis iwwer wéi vill méi Wäert Séihäuser tatsächlech bäidroen. E puer Detractorer behaapten datt e Séi-Lagerhaus Design gepaart mat der passenden automatiséierter Ausrüstung vergläichbar Effizienz ka erreechen.
Erausfuerderunge vun Data Lakehouse
Et kéint schwéier ginn der daten lakehouse Technik ze adoptéieren. Wéinst der Komplexitéit vu senge Komponentstécker ass et falsch fir d'Date Lakehouse als eng ëmfaassend ideal Struktur oder "eng Plattform fir alles" ze gesinn.
Zousätzlech, wéinst der Erhéijung vun der Adoptioun vun Dateséen, mussen d'Entreprisen hir aktuell Datelager op si plënneren, vertrauen nëmmen op e Versprieche vum Erfolleg ouni beweisbar wirtschaftlech Virdeel.
Wann et Latenzproblemer oder Ausbréch am ganzen Transferprozess gëtt, kann dëst deier, Zäitopwendeg a vläicht onsécher sinn.
Business Benotzer mussen héich spezialiséiert Technologien ëmfaassen, laut bestëmmte Verkeefer, déi ausdrécklech oder implizit Léisungen als Daten Séihauser Maart. Dës funktionnéiere vläicht net ëmmer mat aneren Tools verbonne mam Dateséi am Zentrum vum System, a bäidroe fir d'Problemer.
Zousätzlech kann et schwiereg sinn 24/7 Analyse ze liwweren wärend geschäftlech kritesch Aarbechtsbelaaschtungen lafen, wat eng Infrastruktur mat kosteneffektiver Skalierbarkeet erfuerdert.
Konklusioun
Déi nei Varietéit vun Datenzenteren an de leschte Joeren ass d'Date Lakehouse. Et integréiert eng Vielfalt vu Felder, wéi Informatiounstechnologie, Open-Source Software, Wollek Rechenzäit, a verdeelt Späicherprotokoller.
Et erméiglecht Entreprisen all Datenaarte vun all Plaz zentral ze späicheren, wat d'Gestioun an d'Analyse vereinfacht. Data Lakehouse ass e zimlech intrigant Konzept.
All Firma hätt e wesentleche Konkurrenzvirdeel wann se Zougang zu enger All-in-One Dateplattform hätt, déi sou séier an effizient wéi en Datelager wier an och sou flexibel ass wéi en Dateséi.
D'Iddi entwéckelt sech nach ëmmer a bleift relativ nei. Als Resultat kann et e bëssen Zäit daueren fir ze bestëmmen ob eppes verbreet ka ginn oder net.
Mir all solle virwëtzeg sinn iwwer d'Richtung déi d'Lakehouse Architektur leet.
Hannerlooss eng Äntwert