Data Lakehouse – kõik, mida pead teadma

Sisukord[Peida][Näita]

Mis on Data Lakehouse?
FUNKTSIOONID
Data Lakehouse'i elemendid
Data Lakehouse'i arhitektuur+-
Data Lakehouse'i eelised
Data Lakehouse'i puudused
Data Lakehouse'i väljakutsed
Järeldus

Andmeplatvormidele mõeldes võib olla pisut keeruline kaaluda kõiki saadaolevaid teenuseid ja arhitektuurilisi võimalusi.

Ettevõtte andmeplatvorm koosneb sageli andmeladudest, andmemudelitest, andmejärvedest ja aruannetest, millest igaühel on konkreetne eesmärk ja vajalikud oskused. Seevastu viimastel aastatel on välja kujunenud uus kujundus nimega Data Lakehouse.

Andmejärvede mitmekülgsus ja andmelao andmehaldus on ühendatud revolutsioonilises andmesalvestusarhitektuuris, mida nimetatakse andmejärvemajaks.

Selles postituses uurime põhjalikult Data Lakehouse'i, sealhulgas selle komponente, funktsioone, arhitektuuri ja muid aspekte.

Mis on Data Lakehouse?

Nagu nimigi ütleb, on andmejärvehoone uut tüüpi andmearhitektuur, mis ühendab andmejärve andmelaoga, et lahendada nende puudused eraldi.

Sisuliselt kasutab Lakehouse süsteem odavat salvestusruumi, et säilitada tohutul hulgal andmemahtusid nende algsel kujul, nagu andmejärved. Metaandmete kihi lisamine poe kohale annab ka andmestruktuuri ja annab võimaluse andmehaldustööriistadeks, nagu need, mida leidub andmeladudes.

Data Lakehouse

See salvestab tohutul hulgal organiseeritud, poolstruktureeritud ja struktureerimata andmeid, mida nad saavad erinevatest ärirakendustest, süsteemidest ja vidinatest, mida nende organisatsioonis kasutatakse.

Enamiku ajast kasutavad andmejärved odavat salvestusinfrastruktuuri koos failirakenduse programmeerimisliidesega (API), et salvestada andmeid avatud üldistes failivormingutes.

See võimaldab paljudel meeskondadel pääseda ühe süsteemi kaudu juurde kõikidele ettevõtte andmetele erinevate algatuste jaoks, nagu näiteks andmeteadus, masinõpeja ärianalüüs.

FUNKTSIOONID

Madala hinnaga ladustamine. Data Lakehouse peab suutma salvestada andmeid odavas objektisalvestuses, nt Google Cloud Salvestusruum, Azure Blob Storage, Amazon Simple Storage Service või natiivselt ORC või Parketi kasutamine.
Andmete optimeerimise võimalus: andmepaigutuse optimeerimine, vahemällu salvestamine ja indekseerimine on mõned näited selle kohta, kuidas andmejärve peab suutma andmeid optimeerida, säilitades samal ajal andmete algse vormingu.
Tehingu metaandmete kiht: lisaks olulisele odavale salvestusele võimaldab see andmehaldusvõimalusi, mis on andmelao jõudluse jaoks üliolulised.
Deklaratiivse DataFrame API tugi: enamik AI tööriistu saab kasutada DataFrame'i objektide toorandmete toomiseks. Declarative DataFrame API tugi suurendab võimet dünaamiliselt parandada andmete esitusviisi ja struktuuri vastuseks konkreetsele andmeteaduse või AI ülesandele.
ACID-tehingute tugi: akronüüm ACID, mis tähistab aatomilisust, järjepidevust, isoleeritust ja vastupidavust, on tehingu määratlemisel ning andmete järjepidevuse ja töökindluse tagamisel kriitiline komponent. Sellised tehingud olid varem võimalikud ainult andmeladudes, kuid lakehouse pakub võimalust neid andmejärvedega kasutada samuti. Mitme andmekonveieriga, mis hõlmavad samaaegset andmete lugemist ja kirjutamist, lahendab see viimaste madala andmekvaliteedi probleemi.

Data Lakehouse'i elemendid

Andmejärvehoone arhitektuur on kõrgel tasemel jagatud kaheks põhitasemeks. Salvestuskihi andmehõivet juhib Lakehouse'i platvorm (st andmejärv).

Ilma, et oleks vaja andmeid andmelattu laadida või patenteeritud vormingusse teisendada, saab töötlemiskiht seejärel teha päringuid salvestuskihi andmete kohta otse, kasutades erinevaid tööriistu.

Seejärel saavad BI-rakendused, aga ka AI- ja ML-tehnoloogiad andmeid kasutada. Andmejärve ökonoomika tagab see disain, kuid kuna iga töötlemismootor suudab neid andmeid lugeda, on ettevõtetel vabadus teha ettevalmistatud andmed paljude süsteemide jaoks analüüsimiseks kättesaadavaks. Seda töötlemis- ja analüüsimeetodit kasutades saab nii protsessori jõudlust kui ka kulusid parandada.

Tänu sellele, et arhitektuur toetab andmebaasi tehinguid, mis järgivad järgmisi ACID-i (atomilisuse, järjepidevuse, isolatsiooni ja vastupidavuse) kriteeriume, võimaldab see paljudel osapooltel süsteemis samaaegselt juurde pääseda ja neid andmeid kirjutada:

Aatomilisus viitab asjaolule, et tehingu sooritamisel õnnestub kas kogu tehing või mitte ükski tehing. Kui protsess katkeb, aitab see vältida andmete kadumist või riknemist.
järjepidevus garantiid, et tehingud toimuvad prognoositaval ja järjepideval viisil. See säilitab andmete terviklikkuse, tagades, et kõik andmed on seaduslikud vastavalt etteantud reeglitele.
Isolatsioon tagab, et kuni selle lõpetamiseni ei saa süsteemis ükski teine tehing mõjutada ühtegi tehingut. See võimaldab paljudel osapooltel samaaegselt lugeda ja kirjutada samast süsteemist ilma üksteist segamata.
KLASS garanteerib, et süsteemi andmetes tehtud muudatused jäävad kehtima ka pärast tehingu lõppemist, isegi süsteemi tõrke korral. Kõik tehinguga tehtud muudatused säilitatakse igavesti.

Data Lakehouse'i arhitektuur

Databricks (nende Delta Lake'i kontseptsiooni uuendaja ja kujundaja) ja AWS on kaks peamist andmejärvemaja kontseptsiooni pooldajat. Seetõttu tugineme nende teadmistele ja arusaamadele järvemajade arhitektuurse paigutuse kirjeldamisel.

Andmejärvesüsteemil on tavaliselt viis kihti:

Allaneelamise kiht
Säilituskiht
Metaandmete kiht
API kiht
Tarbimiskiht

Data Lakehouse'i arhitektuur

Allaneelamise kiht

Süsteemi esimene kiht vastutab erinevatest allikatest andmete kogumise ja salvestuskihile saatmise eest. Kiht võib kasutada mitmete sisemiste ja väliste allikatega ühenduse loomiseks mitut protokolli, sealhulgas kombineerida pakett- ja voogesituse andmetöötlusvõimalusi, näiteks

NoSQL andmebaasid,
failijagamised
CRM-i rakendused,
veebisaidid,
IoT andurid,
sotsiaalne meedia
Tarkvara teenusena (SaaS) rakendused ja
relatsioonilised andmebaasihaldussüsteemid jne.

Siinkohal saab kasutada selliseid komponente nagu Apache Kafka andmete voogesitamiseks ja Amazon Data Migration Service (Amazon DMS) andmete importimiseks RDBMS-idest ja NoSQL-i andmebaasidest.

Säilituskiht

Järvehoone arhitektuur on mõeldud võimaldama erinevat tüüpi andmete salvestamist objektidena odavates objektipoodides, näiteks AWS S3. Avatud failivorminguid kasutades saavad klienditööriistad neid üksusi otse poest lugeda.

See võimaldab paljudel API-del ja tarbimiskihi komponentidel samadele andmetele juurde pääseda ja neid kasutada. Metaandmete kiht salvestab struktureeritud ja poolstruktureeritud andmekogumite skeemid, et komponendid saaksid neid lugemise ajal andmetele rakendada.

Näiteks Hadoop Distributed File System (HDFS) platvormi saab kasutada pilvehoidlateenuste loomiseks, mis jagavad andmetöötluse ja salvestusruumi kohapeal. Lakehouse sobib nende teenuste jaoks ideaalselt.

Metaandmete kiht

Metaandmete kiht on andmemajandi põhikomponent, mis seda kujundust eristab. See on ühtne kataloog, mis pakub metaandmeid (teavet muude andmeüksuste kohta) kõigi järves salvestatud üksuste kohta ja võimaldab kasutajatel kasutada selliseid haldusvõimalusi nagu:

Tänu ACID-tehingutele näevad samaaegsed tehingud andmebaasi ühtset versiooni;
vahemällu salvestamine pilveobjektide salvestamise failide salvestamiseks;
andmestruktuuri indeksite lisamine päringu töötlemise kiirendamiseks indekseerimise abil;
nullkoopia kloonimise kasutamine andmeobjektide dubleerimiseks; ja
andmete teatud versioonide jms salvestamiseks kasutage andmete versioonimist.

Lisaks võimaldab metaandmete kiht rakendada skeemihaldust, kasutada DW skeemi topoloogiaid, nagu tähe-/lumehelbeskeemid, ning pakkuda andmete haldust ja auditeerimisvõimalust otse andmejärves, suurendades kogu andmekanali terviklikkust.

Skeemihaldus sisaldab skeemi arendamise ja jõustamise funktsioone. Lükkades tagasi kõik kirjutised, mis ei vasta tabeli skeemile, võimaldab skeemi jõustamine kasutajatel säilitada andmete terviklikkust ja kvaliteeti.

Skeemi areng võimaldab muuta tabeli praegust skeemi, et kohandada muutuvaid andmeid. Tänu ühtsele andmejärve peal olevale haldusliidesele on olemas ka juurdepääsu kontroll ja auditeerimisvõimalused.

API kiht

Nüüd on olemas veel üks oluline arhitektuurikiht, mis majutab mitmeid API-sid, mida kõik lõppkasutajad saavad kasutada tööde kiiremaks tegemiseks ja keerukama statistika saamiseks.

Metaandmete API-de kasutamine hõlbustab konkreetse rakenduse jaoks vajalike andmeüksuste tuvastamist ja neile juurdepääsu.

Masinõppe teekide osas saavad mõned neist, nagu TensorFlow ja Spark MLlib, lugeda avatud failivorminguid, nagu Parquet, ja pääseda otse metaandmete kihti.

Samal ajal pakuvad DataFrame API-d suuremaid võimalusi optimeerimiseks, võimaldades programmeerijatel hajutatud andmeid korraldada ja muuta.

Tarbimiskiht

Power BI, Tableau ja muud tööriistad ja rakendused asuvad tarbimiskihi all. Järvehoone kujundusega on kõik järves hoitavad metaandmed ja andmed kliendirakendustele juurdepääsetavad.

Järvehoonet saavad kasutada kõik ettevõttesisesed kasutajad igasuguste toimingute tegemiseks analüütilised operatsioonid, sealhulgas äriteabe armatuurlaudade loomine ning SQL-päringute ja masinõppeülesannete käitamine.

Data Lakehouse'i eelised

Organisatsioonid saavad luua andmekeskuse, et ühendada oma praegune andmeplatvorm ja optimeerida kogu andmehaldusprotsessi. Demonteerides erinevaid allikaid ühendavaid silopiirdeid, võib andmejärve asendada vajaduse erinevate lahenduste järele.

Võrreldes kureeritud andmeallikatega annab see integreerimine oluliselt tõhusama täieliku protseduuri. Sellel on mitmeid eeliseid:

Vähem haldust: Selle asemel, et toorandmetest andmeid eraldada ja neid andmelaos kasutamiseks ette valmistada, võimaldab andmejärve kõigi sellega seotud allikate andmeid kasutada ja korraldada.
Suurenenud kuluefektiivsus: Data Lakehouses on ehitatud kaasaegse infrastruktuuri abil, mis jagab arvutus- ja salvestusruumi, muutes salvestusruumi laiendamise lihtsaks ilma arvutusvõimsust suurendamata. Juba ainuüksi odava andmesalvestusruumi kasutamine tagab mastaapsuse, mis on kulutõhus.
Parem andmehaldus: Data Lakehouses on ehitatud standardiseeritud avatud arhitektuuriga, mis võimaldab paremini kontrollida turvalisust, mõõdikuid, rollipõhist juurdepääsu ja muid olulisi halduskomponente. Ressursid ja andmeallikad ühendades lihtsustavad ja täiustavad juhtimist.
Lihtsustatud standardid: Kuna ühendus oli 1980. aastatel, kui andmelaod esmakordselt välja töötati, väga piiratud, töötati ettevõtetes, isegi osakondades, sageli välja lokaliseeritud skeemistandardid. Andmejärved kasutavad ära asjaolu, et paljudel andmetüüpidel on nüüd skeemi jaoks avatud standardid, kaasates arvukalt andmeallikaid kattuva ühtse skeemiga, et menetlusi sujuvamaks muuta.

Data Lakehouse'i puudused

Hoolimata kõigist andmejärve ümbritsevatest segadustest, on oluline meeles pidada, et idee on endiselt väga uus. Enne uuele disainile täielikult pühendumist kaaluge kindlasti puudusi.

Monoliitne struktuur: Järvehoone kõikehõlmav disain pakub mitmeid eeliseid, kuid tekitab ka probleeme. Monoliitarhitektuur põhjustab sageli kehva teeninduse kõigile kasutajatele ning võib olla jäik ja raskesti hooldatav. Tavaliselt meeldib arhitektidele ja disaineritele modulaarsem arhitektuur, mida nad saavad erinevateks kasutusjuhtudeks kohandada.
Tehnoloogia pole veel päris käes: lõppeesmärgiga kaasneb märkimisväärne hulk masinõpet ja tehisintellekti. Enne kui järvehooned saavad kavandatud viisil toimida, peavad need tehnoloogiad edasi arenema.
Olemasolevate struktuuridega võrreldes pole see oluline edasiminek: Siiani valitseb märkimisväärne skeptitsism selle üle, kui palju väärtuslikumad järvehooned tegelikult panustavad. Mõned taunijad väidavad, et järve-lao kujundus koos sobivate automatiseeritud seadmetega võib saavutada võrreldava tõhususe.

Data Lakehouse'i väljakutsed

Data Lakehouse'i tehnika kasutuselevõtt võib olla keeruline. Selle komponentide keerukuse tõttu on vale vaadelda andmejärve kui kõikehõlmavat ideaalset struktuuri või "üks platvorm kõige jaoks".

Lisaks peavad ettevõtted andmejärvede üha laialdasema kasutuselevõtu tõttu oma praegused andmelaod neile üle viima, tuginedes ainult edu lubadusele, millel pole tõendatavat majanduslikku kasu.

Kui edastusprotsessi ajal esineb latentsusprobleeme või katkestusi, võib see olla kulukas, aeganõudev ja võib-olla ohtlik.

Ärikasutajad peavad omaks võtma kõrgelt spetsialiseerunud tehnoloogiad, nagu teatavad tarnijad, kes turustavad lahendusi sõnaselgelt või kaudselt andmemajadena. Need ei pruugi alati töötada koos teiste süsteemi keskel asuva andmejärvega seotud tööriistadega, mis suurendab probleeme.

Lisaks võib ärikriitiliste töökoormuste ajal olla keeruline ööpäevaringset analüütikat pakkuda, mis nõuab kulutõhusa skaleeritavusega infrastruktuuri.

Järeldus

Viimaste aastate uusim andmekeskuste valik on Data Lakehouse. See integreerib mitmesuguseid valdkondi, nagu infotehnoloogia, avatud lähtekoodiga tarkvara, cloud computingja hajutatud salvestusprotokolle.

See võimaldab ettevõtetel keskselt salvestada igasuguseid andmeid mis tahes asukohast, lihtsustades haldust ja analüüsi. Data Lakehouse on päris intrigeeriv kontseptsioon.

Igal ettevõttel oleks märkimisväärne konkurentsieelis, kui tal oleks juurdepääs kõik-ühes andmeplatvormile, mis oleks sama kiire ja tõhus kui andmeladu, olles samal ajal paindlik kui andmejärv.

Idee alles areneb ja on suhteliselt uus. Selle tulemusena võib kuluda veidi aega, et teha kindlaks, kas midagi võib levida või mitte.

Me kõik peaksime olema uudishimulikud, mis suunas Lakehouse'i arhitektuur liigub.

Data Lakehouse – kõik, mida pead teadma

Mis on Data Lakehouse?

FUNKTSIOONID

Data Lakehouse'i elemendid