Data Lakehouse – Minden, amit tudnod kell

Tartalomjegyzék[Elrejt][Előadás]

Mi az a Data Lakehouse?
Jellemzők
A Data Lakehouse elemei
Data Lakehouse architektúra+-
A Data Lakehouse előnyei
A Data Lakehouse hátrányai
A Data Lakehouse kihívásai
Következtetés

Kicsit nehéz lehet az összes elérhető szolgáltatást és architektúra lehetőséget figyelembe venni, amikor az adatplatformokról gondolkodunk.

Egy vállalati adatplatform gyakran adattárházakból, adatmodellekből, adattókból és jelentésekből áll, amelyek mindegyike meghatározott céllal és szükséges készségekkel rendelkezik. Ezzel szemben az elmúlt néhány évben megjelent egy új dizájn, a Data Lakehouse.

A Data Lake-ek sokoldalúsága és az adattárház-adatkezelés egy forradalmian új adattárolási architektúrában ötvöződik, amelyet „adattóháznak” neveznek.

Ebben a bejegyzésben alaposan megvizsgáljuk a Data Lakehouse-t, beleértve annak összetevőit, jellemzőit, architektúráját és egyéb szempontjait.

Mi az a Data Lakehouse?

Ahogy a neve is sugallja, a Data Lakehouse egy olyan új típusú adatarchitektúra, amely egy Data Lake-et és egy adattárházat egyesít, hogy külön-külön megoldja a hiányosságokat.

Lényegében a Lakehouse rendszer olcsó tárolást használ, hogy hatalmas mennyiségű adatot eredeti formájukban tartson fenn, hasonlóan az adattókhoz. A metaadatrétegnek az áruház tetejére történő hozzáadása egyúttal adatstruktúrát ad, és olyan adatkezelési eszközöket ad, mint amilyenek az adattárházakban találhatók.

Data Lakehouse

Azt a hatalmas mennyiségű szervezett, félig strukturált és strukturálatlan adatot tárolja, amelyet a szervezetükben használt különböző üzleti alkalmazásokból, rendszerekből és modulokból kapnak.

A legtöbb esetben az adatforrások alacsony költségű tárolási infrastruktúrát használnak fájlalkalmazás-programozási felülettel (API) az adatok nyílt, általános fájlformátumokban való tárolására.

Ez lehetővé teszi sok csapat számára, hogy egyetlen rendszeren keresztül hozzáférjen az összes vállalati adathoz számos kezdeményezéshez, például az adattudományhoz, gépi tanulásés üzleti intelligencia.

Jellemzők

Alacsony költségű tárolás. A Data Lakehouse-nak képesnek kell lennie az adatok tárolására olcsó objektumtárolókban, mint pl A Google Cloud Storage, Azure Blob Storage, Amazon Simple Storage Service, vagy natív módon ORC vagy Parquet használatával.
Adatoptimalizálási képesség: Az adatelrendezés optimalizálása, gyorsítótárazása és indexelése néhány példa arra, hogy egy Data Lakehouse-nak képesnek kell lennie az adatok optimalizálására az adatok eredeti formátumának megőrzése mellett.
A tranzakciós metaadatok egy rétege: Az alapvető, alacsony költségű tárolás mellett ez lehetővé teszi az adattárház teljesítményéhez elengedhetetlen adatkezelési képességeket.
A Declarative DataFrame API támogatása: Az AI-eszközök többsége a DataFrame-et használhatja nyers objektumtároló adatok lekérésére. A Declarative DataFrame API támogatása növeli az adatok megjelenítésének és szerkezetének dinamikus javítását egy adott adattudományi vagy mesterséges intelligencia feladatra válaszul.
ACID-tranzakciók támogatása: Az ACID mozaikszó, amely az atomitást, a konzisztenciát, az elszigeteltséget és a tartósságot jelenti, kritikus eleme a tranzakciók meghatározásának, valamint az adatok konzisztenciájának és megbízhatóságának biztosításában. Ilyen tranzakciókra korábban csak adattárházakban volt lehetőség, de a A lakehouse lehetőséget kínál ezeknek adattavakkal való hasznosítására is. Számos adatfolyam, beleértve az egyidejű adatolvasást és -írást, ez megoldja az utóbbiak alacsony adatminőségének problémáját.

A Data Lakehouse elemei

A Data Lakehouse architektúrája magas szinten két fő rétegre oszlik. A tárolóréteg adatfelvételét a Lakehouse platform (azaz az adattó) vezérli.

Anélkül, hogy be kellene töltenie az adatokat egy adattárházba, vagy szabadalmaztatott formátumba kellene konvertálnia azokat, a feldolgozó réteg ezután képes közvetlenül lekérdezni a tárolási rétegben lévő adatokat egy sor eszköz segítségével.

Ezután a BI-alkalmazások, valamint az AI és az ML technológiák felhasználhatják az adatokat. Az adattó gazdaságosságát ez a kialakítás biztosítja, de mivel bármely feldolgozó motor képes kiolvasni ezeket az adatokat, a vállalkozásoknak lehetőségük van arra, hogy az előkészített adatokat egy sor rendszer számára hozzáférhetővé tegyék elemzés céljából. A processzor teljesítménye és költsége egyaránt javítható ezzel a feldolgozási és elemzési módszerrel.

Az alábbi ACID (atomitás, konzisztencia, izoláció és tartósság) kritériumoknak megfelelő adatbázis-tranzakciók támogatásának köszönhetően az architektúra számos fél számára lehetővé teszi az adatok egyidejű elérését és írását a rendszeren belül:

Atomos állapot arra utal, hogy vagy a teljes tranzakció, vagy egyik sem sikerül egy tranzakció végrehajtása során. Ha egy folyamat megszakad, ez segít elkerülni az adatvesztést vagy -sérülést.
Következetesség garantálja, hogy a tranzakciók kiszámíthatóan, következetesen mennek végbe. Fenntartja az adatok sértetlenségét azáltal, hogy az előre meghatározott szabályok szerint minden adat jogszerű.
Szigetelés biztosítja, hogy annak befejezéséig semmilyen tranzakciót ne érinthessen más tranzakció a rendszeren belül. Ez lehetővé teszi számos fél számára, hogy ugyanabból a rendszerből egyidejűleg olvassanak és írhassanak anélkül, hogy zavarnák egymást.
Tartósság garantálja, hogy a rendszerben lévő adatok változásai a tranzakció befejezése után is fennállnak, még rendszerhiba esetén is. A tranzakció által okozott bármilyen módosítást örökre nyilvántartjuk.

Data Lakehouse architektúra

A Databricks (a Delta Lake koncepció megújítója és tervezője) és az AWS a két fő szószólója a Data Lakehouse koncepciójának. Így tudásukra és belátásukra támaszkodunk a tóházak építészeti elrendezésének leírásában.

A Data Lakehouse rendszer általában öt rétegből áll:

Lenyelési réteg
Tároló réteg
Metaadat réteg
API réteg
Fogyasztási réteg

Data Lakehouse architektúra

Lenyelési réteg

A rendszer első rétege felelős a különböző forrásokból származó adatok összegyűjtéséért és a tárolási rétegbe való elküldéséért. A réteg számos protokollt használhat számos belső és külső forráshoz való csatlakozáshoz, beleértve a kötegelt és streaming adatfeldolgozási képességek kombinálását, mint pl.

NoSQL adatbázisok,
fájlmegosztások
CRM alkalmazások,
weboldalak,
IoT érzékelők,
közösségi média,
Szoftver mint szolgáltatás (SaaS) alkalmazások, és
relációs adatbázis-kezelő rendszerek stb.

Ezen a ponton olyan komponensek használhatók, mint az Apache Kafka az adatfolyamokhoz és az Amazon Data Migration Service (Amazon DMS) az adatok RDBMS-ekből és NoSQL-adatbázisokból történő importálásához.

Tároló réteg

A lakehouse architektúra célja, hogy lehetővé tegye különféle típusú adatok objektumként való tárolását olcsó objektumtárolókban, például az AWS S3-ban. Nyílt fájlformátumok használatával az ügyféleszközök közvetlenül az áruházból olvashatják ezeket az elemeket.

Ez lehetővé teszi, hogy számos API és fogyasztási réteg összetevője hozzáférjen és felhasználja ugyanazokat az adatokat. A metaadatréteg tárolja a strukturált és félig strukturált adatkészletek sémáit, így a komponensek alkalmazni tudják azokat az adatokra, miközben azokat olvassák.

A Hadoop Distributed File System (HDFS) platform például használható olyan felhőalapú adattárszolgáltatások létrehozására, amelyek felosztják a számítástechnikát és a helyszíni tárolást. A Lakehouse ideálisan alkalmas ezekre a szolgáltatásokra.

Metaadat réteg

A metaadatréteg az adattóház alapvető összetevője, amely megkülönbözteti ezt a kialakítást. Ez egy egyetlen katalógus, amely metaadatokat (más adatelemekről szóló információkat) kínál a tóban tárolt összes elemhez, és lehetővé teszi a felhasználók számára, hogy olyan adminisztrációs lehetőségeket alkalmazzanak, mint:

Az ACID-tranzakcióknak köszönhetően a párhuzamos tranzakciók az adatbázis konzisztens verzióját látják;
gyorsítótár a felhőobjektum-tároló fájlok mentéséhez;
adatszerkezeti indexek hozzáadása indexeléssel a lekérdezésfeldolgozás felgyorsítása érdekében;
nulla másolati klónozás használata adatobjektumok megkettőzésére; és
az adatok bizonyos verzióinak tárolására stb. használjon adatverziószámítást.

Ezenkívül a metaadatréteg lehetővé teszi a sémakezelés megvalósítását, a DW sématopológiák, például a csillag/hópehely sémák használatát, valamint az adatkezelési és auditálási képességek biztosítását közvetlenül a Data Lake-en, javítva a teljes adatfolyam integritását.

A séma evolúciójához és végrehajtásához szükséges funkciókat a sémakezelés tartalmazza. Azáltal, hogy elutasít minden olyan írást, amely nem felel meg a tábla sémájának, a séma érvényesítése lehetővé teszi a felhasználók számára az adatok integritásának és minőségének megőrzését.

A séma evolúciója lehetővé teszi a táblázat jelenlegi sémájának módosítását a változó adatokhoz. Az adattó tetején található egyetlen adminisztrációs felületnek köszönhetően beléptetési és auditálási lehetőségek is vannak.

API réteg

Az architektúra egy másik kulcsfontosságú rétege már jelen van, amely számos API-t tartalmaz, amelyek segítségével minden végfelhasználó gyorsabban végezhet munkát és kifinomultabb statisztikákat kaphat.

A metaadat API-k használata megkönnyíti az adott alkalmazáshoz szükséges adatelemek azonosítását és elérését.

Ami a gépi tanulási könyvtárakat illeti, néhány közülük, például a TensorFlow és a Spark MLlib, képesek olvasni a nyílt fájlformátumokat, mint például a Parquet, és közvetlenül hozzáférni a metaadatréteghez.

Ugyanakkor a DataFrame API-k nagyobb optimalizálási lehetőségeket kínálnak, lehetővé téve a programozóknak a szétszórt adatok rendszerezését és módosítását.

Fogyasztási réteg

A Power BI, a Tableau és más eszközök és alkalmazások a fogyasztási réteg alatt találhatók. A tóház kialakításával a tóban tárolt összes metaadat és adat elérhető az ügyfélalkalmazások számára.

A tóházat egy cégen belül minden felhasználó használhatja mindenféle feladat elvégzésére elemző műveletek, beleértve az üzleti intelligencia irányítópultjainak létrehozását, valamint az SQL-lekérdezések és a gépi tanulási feladatok futtatását.

A Data Lakehouse előnyei

A szervezetek létrehozhatnak egy adattárat, hogy egységesítsék jelenlegi adatplatformjukat és optimalizálják teljes adatkezelési folyamatukat. A különböző forrásokat összekötő silósorompók lebontásával egy adattóház helyettesítheti az eltérő megoldások iránti igényt.

A kurált adatforrásokhoz képest ez az integráció lényegesen hatékonyabb végpontok közötti eljárást eredményez. Ennek számos előnye van:

Kevesebb adminisztráció: Ahelyett, hogy az adatokat nyers adatokból kinyerné és felkészítené egy adattárházban való használatra, az adattárház lehetővé teszi a hozzá kapcsolódó bármely forrás számára, hogy adatai elérhetőek és felhasználásra rendszerezve legyenek.
Megnövekedett költséghatékonyság: A Data Lakehouse-okat olyan korszerű infrastruktúra felhasználásával építik fel, amely megosztja a számítást és a tárolást, így egyszerűen bővíthető a tárhely a számítási teljesítmény növelése nélkül. Csak az olcsó adattárolás használata költséghatékony skálázhatóságot eredményez.
Jobb adatkezelés: A Data Lakehouses szabványosított nyílt architektúrával készült, amely lehetővé teszi a biztonság, a mérőszámok, a szerepkör alapú hozzáférés és más fontos felügyeleti összetevők nagyobb ellenőrzését. Az erőforrások és adatforrások egységesítésével egyszerűsítik és javítják az irányítást.
Egyszerűsített szabványok: Mivel a kapcsolat erősen korlátozott volt az 1980-as években, amikor az adattárházakat először fejlesztették ki, a honosított sémaszabványokat gyakran dolgozták ki a vállalkozásokon belül, még az osztályokon belül is. A Data Lakehouses kihasználja azt a tényt, hogy sok adattípus most már nyílt szabványokkal rendelkezik a séma számára, mivel számos adatforrást feldolgoznak az átfedő egységes sémával az eljárások egyszerűsítése érdekében.

A Data Lakehouse hátrányai

Annak ellenére, hogy az adattóházakat övező zűrzavar, fontos észben tartani, hogy az ötlet még nagyon új. Feltétlenül mérlegelje a hátrányokat, mielőtt teljesen elkötelezi magát az új kialakítás mellett.

Monolit szerkezet: A lakehouse all-inclusive kialakítása számos előnnyel jár, de problémákat is felvet. A monolitikus architektúra gyakran az összes felhasználó rossz szolgáltatásához vezet, merev és nehezen karbantartható lehet. Az építészek és a tervezők általában a modulárisabb architektúrát kedvelik, amelyet különféle felhasználási esetekre szabhatnak.
A technológia még nincs teljesen ott: a végső cél jelentős mennyiségű gépi tanulással és mesterséges intelligenciával jár. Mielőtt a tóházak az elképzeléseknek megfelelően működnének, ezeket a technológiákat tovább kell fejleszteni.
Nem jelentős előrelépés a meglévő struktúrákhoz képest: Még mindig nagy a szkepticizmus a tekintetben, hogy a tóházak valójában mennyivel értékesebbek. Egyes ellenzők azt állítják, hogy a tó-raktár kialakítása a megfelelő automatizált berendezésekkel párosítva hasonló hatékonyságot érhet el.

A Data Lakehouse kihívásai

Nehéz lehet a data Lakehouse technika alkalmazása. Összetevőinek bonyolultsága miatt helytelen az adattóházat egy mindent átfogó ideális szerkezetnek vagy „mindennek egy platformnak” tekinteni.

Ezen túlmenően, az adattavak növekvő elterjedése miatt a vállalkozásoknak át kell költöztetniük jelenlegi adattárházaikat, csak a siker ígéretére támaszkodva, kimutatható gazdasági haszon nélkül.

Ha az átviteli folyamat során késleltetési problémák vagy kimaradások lépnek fel, az drága, időigényes és esetleg nem biztonságos megoldás lehet.

Az üzleti felhasználóknak rendkívül speciális technológiákat kell magukévá tenniük bizonyos szállítók szerint, amelyek kifejezetten vagy implicit módon a megoldásokat adattárolóként értékesítik. Előfordulhat, hogy ezek nem mindig működnek a rendszer közepén lévő Data Lake-hez kapcsolódó egyéb eszközökkel, ami tovább fokozza a problémákat.

Ezen túlmenően nehéz lehet a hét minden napján, 24 órában elemzést nyújtani az üzleti szempontból kritikus munkaterhelések futtatása közben, ami költséghatékony skálázhatóságot biztosító infrastruktúrát igényel.

Következtetés

Az adatközpontok legújabb változata az elmúlt években a Data Lakehouse. Számos területet integrál, mint például az információs technológia, a nyílt forráskódú szoftverek, cloud computingés elosztott tárolási protokollok.

Lehetővé teszi a vállalkozások számára, hogy minden adattípust központilag tároljanak bárhonnan, leegyszerűsítve a kezelést és az elemzést. A Data Lakehouse meglehetősen érdekes koncepció.

Bármely cégnek jelentős versenyelőnye lenne, ha hozzáférne egy olyan mindent az egyben adatplatformhoz, amely olyan gyors és hatékony, mint egy adattárház, ugyanakkor rugalmas, mint egy adattó.

Az ötlet még mindig fejlesztés alatt áll, és viszonylag újnak számít. Ennek eredményeként némi időbe telhet annak megállapítása, hogy valami elterjedhet-e vagy sem.

Mindannyiunknak kíváncsinak kell lennünk arra, hogy a Lakehouse építészet milyen irányba tart.

Data Lakehouse – Minden, amit tudnod kell

Mi az a Data Lakehouse?

Jellemzők

A Data Lakehouse elemei