Tartalomjegyzék[Elrejt][Előadás]
A Data Lakehouse-ok egyesítik az adattárház és a Data Lake koncepciókat a vállalkozások számára.
Ezekkel az eszközökkel költséghatékony adattárolási megoldásokat hozhat létre az adatlakok kezelési képességeinek és az adattárházakban található adatarchitektúra kombinálásával.
Ezenkívül csökken az adatmigráció és a redundancia, kevesebb idő kell az adminisztrációra, és a rövidebb séma- és adatkezelési eljárások valósággá válnak.
Egy adattóház számos előnnyel rendelkezik a több megoldást tartalmazó tárolórendszerhez képest.
Ezeket az eszközöket az adatkutatók továbbra is használják az üzleti intelligencia és a gépi tanulási eljárások jobb megértésére.
Ez a cikk röviden áttekinti a Data Lakehouse-t, annak lehetőségeit és az elérhető eszközöket.
A Data Lakehouse bemutatása
Egy újfajta adatarchitektúra, az úgynevezettadatok tóháza” egy Data Lake-et és egy adattárházat egyesít, hogy külön-külön kezelje mindegyik gyenge pontját.
A lakehouse rendszer az adattókhoz hasonlóan alacsony költségű tárolást használ, hogy hatalmas mennyiségű adatot eredeti formájában tartson meg.
Az áruház tetején lévő metaadatréteg hozzáadása szintén adatszerkezetet biztosít, és az adattárházakban találhatóakhoz hasonló adatkezelési eszközöket tesz lehetővé.
Hatalmas mennyiségű strukturált, félig strukturált és strukturálatlan adatot tartalmaz, amelyek a vállalaton belüli különféle üzleti alkalmazásokból, rendszerekből és eszközökből származnak.
Ennek eredményeként az adattókkal ellentétben a lakehouse rendszer képes kezelni és optimalizálni ezeket az adatokat az SQL teljesítményéhez.
Arra is képes, hogy nagy mennyiségű, változatos adatot tároljon és dolgozzon fel olcsóbban, mint az adattárházak.
A Data Lakehouse akkor hasznos, ha bármilyen adathozzáférést vagy elemzést kell végrehajtania bármely adat alapján, de nem biztos az adatokban vagy az ajánlott elemzésekben.
A tóház architektúrája elég jól működik, ha a teljesítmény nem elsődleges szempont.
Ez nem jelenti azt, hogy az egész szerkezetet egy tópartra kell alapoznia.
További információ arról, hogyan válasszon ki adattót, tóházat, adattárházat vagy speciális analitikai adatbázist minden egyes felhasználási esethez. itt.
A Data Lakehouse jellemzői
- Egyidejű adatolvasás és -írás
- Alkalmazkodhatóság és skálázhatóság
- Sémasegítség adatkezelési eszközökkel
- Egyidejű adatolvasás és -írás
- Megfizethető tárolás
- Minden adattípus és fájlformátum támogatott.
- Hozzáférés az adattudományhoz és a gépi tanulási eszközökhöz optimalizált módon
- Az adatcsoportok számára előnyös, ha egyetlen rendszerhez férhetnek hozzá, hogy gyorsabban és pontosabban vigyék át rajta a munkaterheléseket.
- Valós idejű lehetőségek adattudományi, gépi tanulási és elemzési kezdeményezésekhez
Az 5 legjobb Data Lakehouse eszköz
Adattárak
Databricks, amelyet az a személy alapított, aki először kifejlesztette és elkészítette az Apache Sparkot nyílt forráskódú, menedzselt Apache Spark szolgáltatást nyújt, és az adattó-rendszerek platformjaként van elhelyezve.
A Databricks lakehouse architektúra Data Lake, delta lake és delta motor összetevői lehetővé teszik az üzleti intelligencia, az adattudomány és a gépi tanulás felhasználási eseteit.
Az adattó egy nyilvános felhőtárhely.
Támogatja a metaadatkezelést, a többstrukturált adatkészletek kötegelt és adatfolyam-feldolgozását, az adatfelderítést, a biztonságos hozzáférés-vezérlést és az SQL-elemzést.
A Databricks kínálja a legtöbb adattárház-funkciót, amelyet egy Data Lakehouse platformon látni lehet.
A Databricks a közelmúltban mutatta be Auto Loader-jét, amely automatizálja az ETL- és adatbevitelt, és adatmintavételezést használ a séma kikövetkeztetéséhez különféle adattípusokhoz, hogy megvalósítsa a Data Lake tárolási stratégia alapvető összetevőit.
Alternatív megoldásként a felhasználók a Delta Live Tables segítségével ETL-folyamatokat építhetnek a nyilvános felhőadat-tó és a Delta Lake között.
Papíron úgy tűnik, hogy a Databricks minden előnnyel rendelkezik, de a megoldás felállítása és adatfolyamainak létrehozása sok emberi munkát igényel a képzett fejlesztőktől.
Nagy léptékben a válasz is összetettebbé válik. Bonyolultabb, mint amilyennek látszik.
Ahana
Az adattó egyetlen, központi hely, ahol bármilyen típusú adatot tárolhat nagy méretben, beleértve a strukturálatlan és strukturált adatokat is. Az AWS S3, a Microsoft Azure és a Google Cloud Storage három gyakori adatforrás.
A Data Lake-eket hihetetlenül kedvelik, mert nagyon megfizethetőek és egyszerűen használhatók; lényegében tetszőleges mennyiségű adatot tárolhat nagyon kevés pénzért.
A Data Lake azonban nem kínál olyan beépített eszközöket, mint az elemzés, a lekérdezés stb.
Szüksége van egy lekérdezőmotorra és egy adatkatalógusra az adattó tetején (ahol az Ahana Cloud jön be) az adatok lekérdezéséhez és használatához.
A Data Warehouse és a Data Lake legjavával egy új Data Lakehouse kialakítást fejlesztettek ki.
Ez azt jelzi, hogy átlátható, alkalmazkodóképes, jó ár/teljesítményű, méretezhető, mint egy data lake, támogatja a tranzakciókat, és magas szintű biztonsága egy adattárházhoz hasonlítható.
Az Ön nagy teljesítményű SQL lekérdező motorja a Data Lakehouse mögött álló agy. Emiatt nagy teljesítményű elemzéseket hajthat végre a Data Lake-adatokon.
Az Ahana Cloud for Presto az AWS-en futó Presto SaaS, amely hihetetlenül egyszerűvé teszi a Presto felhőben való használatának megkezdését.
Az S3-alapú adattóhoz az Ahana már rendelkezik beépített adatkatalógussal és gyorsítótárral. Az Ahana biztosítja a Presto funkcióit anélkül, hogy Önnek kellene kezelnie a rezsiköltséget, mert ezt belülről végzi.
Az AWS Lake Formation, az Apache Hudi és a Delta Lake csak néhány a tranzakciókezelők közül, amelyek a verem részét képezik és integrálódnak vele.
Dremio
A szervezetek arra törekszenek, hogy gyorsan, egyszerűen és hatékonyan kiértékeljenek hatalmas mennyiségű gyorsan növekvő adatot.
A Dremio úgy véli, hogy a nyílt adattárházak és az adattárak előnyeit nyílt alapon ötvöző nyílt adattárház a legjobb megközelítés ennek elérésére.
A Dremio lakehouse platformja mindenki számára megfelelő élményt nyújt, egyszerű felhasználói felületével, amely lehetővé teszi a felhasználók számára, hogy az idő töredéke alatt elvégezzék az elemzéseket.
A Dremio Cloud, egy teljesen felügyelt adatfürdő-platform, és két új szolgáltatás bevezetése: a Dremio Sonar, egy tóház lekérdező motor, és a Dremio Arctic, az Apache Iceberg intelligens megastore, amely egyedülálló Git-szerű élményt nyújt a lakehouse számára.
A szervezet összes SQL-munkaterhelése futtatható a súrlódásmentes, végtelenül skálázható Dremio Cloud platformon, amely az adatkezelési feladatokat is automatizálja.
SQL-hez készült, Git-szerű élményt kínál, nyílt forráskódú, és mindig ingyenes.
Úgy hozták létre, hogy az adatcsapatok imádják a Lakehouse platformot.
A nyílt forráskódú táblázat- és fájlformátumok, például az Apache Iceberg és az Apache Parquet használatával az adatok állandóak a saját Data Lake tárolójában a Dremio Cloud használatakor.
A jövőbeli újítások könnyen átvehetők, és a terhelés alapján kiválasztható a megfelelő motor.
Hópehely
A Snowflake egy felhőalapú adat- és elemzési platform, amely megfelel az adattavak és raktárak igényeinek.
Felhő infrastruktúrára épülő adattárház-rendszerként indult.
A platform egy központi tárhelyből áll, amely az AWS, a Microsoft Azure vagy a Google Cloud Platform (GCP) nyilvános felhőtárhelyén található.
Ezt követi egy több fürtből álló számítási réteg, ahol a felhasználók virtuális adattárházat indíthatnak, és SQL-lekérdezéseket hajthatnak végre az adattárhelyükön.
Az architektúra lehetővé teszi a tárolási és számítási erőforrások szétválasztását, lehetővé téve a szervezetek számára, hogy szükség szerint egymástól függetlenül méretezzék a kettőt.
Végül a Snowflake szolgáltatási réteget biztosít metaadat-kategorizálással, erőforrás-kezeléssel, adatkezeléssel, tranzakciókkal és egyéb szolgáltatásokkal.
A BI-eszköz-összekötők, a metaadat-kezelés, a hozzáférés-vezérlés és az SQL-lekérdezések csak néhány az adattárház-funkciók közül, amelyeket a platform kínál.
A Snowflake azonban egyetlen relációs SQL-alapú lekérdezőmotorra korlátozódik.
Ennek eredményeként az adminisztráció egyszerűbbé válik, de kevésbé adaptálható, és a többmodell adattó-vízió nem valósul meg.
Ezenkívül a felhőalapú tárhelyről származó adatok keresése vagy elemzése előtt a Snowflake megköveteli a vállalkozásoktól, hogy betöltsék azokat egy központi tárolórétegbe.
A kézi adatfolyam-kezelési eljárás előzetes ETL-t, kiépítést és adatformázást tesz szükségessé, mielőtt megvizsgálható lenne. E kézi folyamatok felnagyítása frusztrálóvá teszi őket.
Egy másik lehetőség, amely papíron jól illeszkedik, de valójában eltér az egyszerű adatbevitel adattó-elvétől, a Snowflake adattóháza.
Jóslat
A modern, nyitott architektúra, az úgynevezett „data Lakehouse”, lehetővé teszi az összes adat tárolását, megértését és elemzését.
A legkedveltebb nyílt forráskódú Data Lake megoldások szélessége és rugalmassága az adattárházak erejével és mélységével párosul.
A legújabb mesterségesintelligencia-keretrendszerek és előre beépített AI-szolgáltatások használhatók az Oracle Cloud Infrastructure (OCI) adattóházával.
Nyílt forráskódú adattó használata közben további adattípusokkal is dolgozhat. De a kezeléséhez szükséges idő és erőfeszítés tartós hátrányt jelenthet.
Az OCI teljes körűen felügyelt nyílt forráskódú lakehouse szolgáltatásokat kínál alacsonyabb áron és kevesebb kezeléssel, lehetővé téve az alacsonyabb működési költségek előrejelzését, jobb méretezhetőséget és biztonságot, valamint a meglévő adatok egy helyen történő konszolidálását.
A Data Lakehouse növeli az adattárházak és a piacok értékét, amelyek elengedhetetlenek a sikeres vállalkozásokhoz.
Az adatok lekérhetők egy lakehouse használatával több helyről egyetlen SQL-lekérdezéssel.
A meglévő programok és eszközök átlátható hozzáférést kapnak minden adathoz anélkül, hogy kiigazításokat vagy új ismereteket kellene megszerezniük.
Következtetés
A data Lakehouse megoldások bevezetése a big data terén tapasztalható nagyobb trendet tükrözi, amely az analitika és az adattárolás egységes adatplatformokba való integrálása az adatokból származó üzleti érték maximalizálása érdekében, miközben csökkenti az értékkinyerés idejét, költségeit és összetettségét.
Az olyan platformok, mint a Databricks, a Snowflake, az Ahana, a Dremio és az Oracle, mind összekapcsolódtak az „adattóház” ötletével, de mindegyikük egyedi jellemzőkkel rendelkezik, és hajlamos arra, hogy inkább adattárházként működjenek, semmint valódi adattóként. mint egész.
Amikor egy megoldást „adatbázisként” forgalmaznak, a vállalkozásoknak óvatosnak kell lenniük azzal kapcsolatban, hogy valójában mit is jelent.
A vállalatoknak túl kell tekinteniük az olyan marketing szakzsargonon, mint a „data lakehouse”, és ehelyett az egyes platformok funkcióit kell megvizsgálniuk, hogy kiválasszák a legjobb adatplatformot, amely a jövőben bővülni fog vállalkozásaikkal.
Hagy egy Válaszol