Data Lakehouses sujungia duomenų saugyklos ir duomenų ežero koncepcijas įmonėms.
Šie įrankiai leidžia kurti ekonomiškus duomenų saugojimo sprendimus, derinant duomenų ežerų valdymo galimybes su duomenų saugyklose esančia duomenų architektūra.
Be to, sumažėja duomenų perkėlimas ir perteklius, sugaištama mažiau laiko administruojant, o trumpesnės schemos ir duomenų valdymo procedūros iš tikrųjų tampa realybe.
Vienas duomenų ežero namas turi daug privalumų, palyginti su saugojimo sistema su keliais sprendimais.
Šiuos įrankius duomenų mokslininkai vis dar naudoja siekdami geriau suprasti verslo žvalgybos ir mašininio mokymosi procedūras.
Šiame straipsnyje trumpai apžvelgsime „data Lakehouse“, jo galimybes ir turimus įrankius.
Įvadas į Data Lakehouse
Naujo tipo duomenų architektūra, vadinamaduomenų ežero namas“ sujungia duomenų ežerą ir duomenų saugyklą, kad atskirai pašalintų kiekvieno iš jų trūkumus.
Lakehouse sistema, kaip ir duomenų ežerai, naudoja nebrangią saugyklą, kad didžiulis duomenų kiekis būtų išsaugotas pradine forma.
Pridėjus metaduomenų sluoksnį parduotuvės viršuje, taip pat suteikiama duomenų struktūra ir suteikiami duomenų valdymo įrankiai, panašūs į esančius duomenų saugyklose.
Jame yra didžiulis kiekis struktūrizuotų, pusiau struktūrizuotų ir nestruktūrizuotų duomenų, gautų iš įvairių verslo programų, sistemų ir įrenginių, naudojamų visoje įmonėje.
Dėl to, skirtingai nei duomenų ežerai, ežero sistema gali valdyti ir optimizuoti tuos duomenis SQL našumui.
Ji taip pat turi galimybę saugoti ir apdoroti didelius įvairių duomenų kiekius pigiau nei duomenų saugyklos.
Duomenų ežero namas yra naudingas, kai reikia atlikti bet kokią prieigą prie duomenų arba atlikti analizę pagal bet kokius duomenis, bet nesate tikri dėl duomenų ar rekomenduojamos analizės.
Ežero architektūra veiks gana gerai, jei našumas nėra pagrindinis rūpestis.
Tai nereiškia, kad visą savo struktūrą turėtumėte grįsti ežero nameliu.
Daugiau informacijos apie tai, kaip pasirinkti duomenų ežerą, ežerą, duomenų saugyklą arba specializuotą analizės duomenų bazę kiekvienam naudojimo atvejui, rasite čia.
„Data Lakehouse“ ypatybės
- Lygiagretus duomenų skaitymas ir rašymas
- Pritaikymas ir mastelio keitimas
- Schemos pagalba naudojant duomenų valdymo įrankius
- Lygiagretus duomenų skaitymas ir rašymas
- Įperkama saugykla
- Palaikomi visi duomenų tipai ir failų formatai.
- Optimizuota prieiga prie duomenų mokslo ir mašininio mokymosi įrankių
- Jūsų duomenų komandoms bus naudinga turėti prieigą tik prie vienos sistemos, kad per ją būtų galima greičiau ir tiksliau perkelti darbo krūvius.
- Realaus laiko duomenų mokslo, mašininio mokymosi ir analizės iniciatyvų galimybės
5 populiariausi „Data Lakehouse“ įrankiai
Duomenų plytos
Databricks, kurią įkūrė asmuo, pirmasis sukūręs ir sukūręs Apache Spark atviro kodo, teikia valdomą „Apache Spark“ paslaugą ir yra duomenų ežerų platforma.
„Databricks Lakehouse“ architektūros „Data Lake“, „Delta Lake“ ir „Delta“ variklio komponentai įgalina verslo žvalgybos, duomenų mokslo ir mašininio mokymosi naudojimo atvejus.
Duomenų ežeras yra vieša debesų saugykla.
Palaikomas metaduomenų valdymas, kelių struktūrinių duomenų rinkinių paketinis ir srautinis duomenų apdorojimas, duomenų aptikimas, saugios prieigos valdikliai ir SQL analizė.
Databricks siūlo daugumą duomenų saugojimo funkcijų, kurias galima tikėtis pamatyti duomenų ežero platformoje.
„Databricks“ neseniai pristatė savo „Auto Loader“, kuri automatizuoja ETL ir duomenų įvedimą bei naudoja duomenų atranką, kad būtų galima nustatyti įvairių duomenų tipų schemą, kad būtų galima įgyvendinti pagrindinius duomenų ežero saugojimo strategijos komponentus.
Arba vartotojai gali sukurti ETL vamzdynus tarp savo viešųjų debesų duomenų ežero ir Delta ežero naudodami „Delta Live Tables“.
Ant popieriaus atrodo, kad Databricks turi visus privalumus, tačiau norint sukurti sprendimą ir sukurti jo duomenų srautus, reikia daug kvalifikuotų kūrėjų darbo.
Esant mastui, atsakymas taip pat tampa sudėtingesnis. Tai sudėtingiau, nei atrodo.
Ahana
Duomenų ežeras yra viena centrinė vieta, kurioje galite saugoti bet kokio tipo duomenis, kuriuos pasirinksite, įskaitant nestruktūrizuotus ir struktūrizuotus duomenis. AWS S3, „Microsoft Azure“ ir „Google Cloud Storage“ yra trys įprasti duomenų rinkiniai.
Duomenų ežerai yra labai mėgstami, nes yra labai prieinami ir paprasta naudoti; iš esmės galite saugoti tiek bet kokio tipo duomenų, kiek norite, už labai mažus pinigus.
Tačiau duomenų ežeras nesiūlo integruotų įrankių, tokių kaip analizė, užklausos ir kt.
Norint pateikti duomenų užklausą ir juos naudoti, reikia užklausų variklio ir duomenų katalogo, esančio duomenų ežero viršuje (kur įeina Ahana Cloud).
Su geriausiomis „Data Warehouse“ ir „Data Lake“ galimybėmis sukurta nauja duomenų ežero konstrukcija.
Tai rodo, kad jis yra skaidrus, pritaikomas, turi gerą kainą / našumą, mastelius kaip duomenų ežeras palaiko sandorius ir turi aukštą saugumo lygį, prilygstamą duomenų saugyklai.
Jūsų didelio našumo SQL užklausų variklis yra „Data Lakehouse“ smegenys. Dėl šios priežasties galite atlikti didelio našumo duomenų ežero duomenų analizę.
„Ahana Cloud for Presto“ yra „SaaS“, skirta „Presto“ AWS, todėl labai paprasta pradėti naudoti „Presto“ debesyje.
Jūsų S3 duomenų ežerui „Ahana“ jau turi integruotą duomenų katalogą ir talpyklą. „Ahana“ suteikia jums „Presto“ funkcijų, nereikalaujant, kad jūs tvarkytumėte pridėtines išlaidas, nes tai atlieka viduje.
„AWS Lake Formation“, „Apache Hudi“ ir „Delta Lake“ yra tik keletas sandorių tvarkytojų, kurie yra paketo dalis ir integruojami su juo.
Dremio
Organizacijos siekia greitai, paprastai ir efektyviai įvertinti didžiulius sparčiai augančių duomenų kiekius.
„Dremio“ mano, kad atvirų duomenų ežerų namas sujungia duomenų ežerų ir duomenų saugyklų pranašumus atviru pagrindu, yra geriausias būdas tai pasiekti.
„Dremio Lakehouse“ platforma suteikia patirtį, kuri tinka visiems, nes paprasta vartotojo sąsaja leidžia vartotojams atlikti analizę per trumpą laiką.
„Dremio Cloud“, visiškai valdoma duomenų ežerų namų platforma, ir dviejų naujų paslaugų pristatymas: „Dremio Sonar“, ežero užklausų variklis, ir „Dremio Arctic“, išmanioji „Apache Iceberg“ megastolė, suteikianti unikalią „Git“ patirtį ežere.
Visi organizacijos SQL darbo krūviai gali būti vykdomi be trinties, be galo keičiamo dydžio Dremio Cloud platformoje, kuri taip pat automatizuoja duomenų valdymo užduotis.
Jis sukurtas SQL, siūlo panašią į Git patirtį, yra atvirojo kodo ir visada nemokamas.
Jie sukūrė jį kaip ežero platformą, kurią dievina duomenų komandos.
Naudojant atvirojo kodo lentelių ir failų formatus, tokius kaip Apache Iceberg ir Apache Parquet, naudojant Dremio Cloud jūsų duomenys išlieka jūsų pačių duomenų ežero saugykloje.
Ateities naujovės gali būti lengvai pritaikytos, o tinkamą variklį galima pasirinkti atsižvelgiant į jūsų darbo krūvį.
Snieguolė
Snowflake yra debesų duomenų ir analizės platforma, galinti patenkinti duomenų ežerų ir sandėlių poreikius.
Ji prasidėjo kaip duomenų saugyklos sistema, sukurta debesų infrastruktūroje.
Platformą sudaro centralizuota saugykla, kuri yra AWS, Microsoft Azure arba Google Cloud Platform (GCP) viešosios debesies saugyklos viršuje.
Po to yra kelių grupių skaičiavimo sluoksnis, kuriame vartotojai gali paleisti virtualų duomenų saugyklą ir atlikti SQL užklausas savo duomenų saugykloje.
Architektūra leidžia atsieti saugyklos ir skaičiavimo išteklius, o tai leidžia organizacijoms prireikus savarankiškai padidinti jų mastelį.
Galiausiai „Snowflake“ teikia paslaugų sluoksnį su metaduomenų kategorizavimu, išteklių valdymu, duomenų valdymu, operacijomis ir kitomis funkcijomis.
BI įrankių jungtys, metaduomenų valdymas, prieigos valdikliai ir SQL užklausos yra tik keletas duomenų saugyklos funkcijų, kurias siūlo platforma.
Tačiau „Snowflake“ yra apribota vienu reliaciniu SQL pagrindu veikiančiu užklausų varikliu.
Dėl to jis tampa paprastesnis administruojamas, bet mažiau pritaikomas, o kelių modelių duomenų ežero vizija nerealizuojama.
Be to, prieš pradedant ieškoti ar analizuoti duomenų iš debesies saugyklos, „Snowflake“ reikalauja, kad įmonės įkeltų juos į centralizuotą saugyklos sluoksnį.
Neautomatinio duomenų konvejerinio perdavimo procedūra reikalauja išankstinio ETL, sudarymo ir duomenų formatavimo, kad būtų galima ją ištirti. Padidinus šiuos rankinius procesus jie vargina.
Kitas variantas, kuris atrodo puikiai tinkantis popieriuje, bet iš tikrųjų nukrypsta nuo paprasto duomenų įvedimo principo, yra Snowflake duomenų ežero namas.
orakulas
Šiuolaikinė atvira architektūra, žinoma kaip „duomenų ežeras“, leidžia saugoti, suprasti ir analizuoti visus jūsų duomenis.
Labiausiai pamėgtų atvirojo kodo duomenų ežero sprendimų platumas ir lankstumas derinami su duomenų saugyklų tvirtumu ir gyliu.
Naujausios AI sistemos ir iš anksto sukurtos AI paslaugos gali būti naudojamos su duomenų baze „Oracle Cloud Infrastructure“ (OCI).
Naudojant atvirojo kodo duomenų ežerą įmanoma dirbti su papildomų tipų duomenimis. Tačiau laikas ir pastangos, reikalingos jai valdyti, gali būti nuolatinis trūkumas.
OCI siūlo visiškai valdomas atvirojo kodo ežerų namų paslaugas už mažesnę kainą ir su mažesniu valdymu, todėl galite numatyti mažesnes veiklos išlaidas, geresnį mastelio keitimą ir saugumą bei galimybę konsoliduoti visus turimus duomenis vienoje vietoje.
„Data Lakehouse“ padidins duomenų saugyklų ir prekybos vietų, kurios yra būtinos sėkmingoms įmonėms, vertę.
Duomenis galima gauti naudojant ežero namus iš kelių vietų naudojant tik vieną SQL užklausą.
Esamos programos ir įrankiai gauna skaidrią prieigą prie visų duomenų, nereikalaujant koregavimų ar neįgyjant naujų įgūdžių.
Išvada
„Data Lakehouse“ sprendimų įdiegimas atspindi didesnę didžiųjų duomenų tendenciją, ty analizės ir duomenų saugojimo integravimą į vieningas duomenų platformas, siekiant maksimaliai padidinti duomenų verslo vertę ir sumažinti vertės gavimo laiką, išlaidas ir sudėtingumą.
Platformos, įskaitant „Databricks“, „Snowflake“, „Ahana“, „Dremio“ ir „Oracle“, buvo susietos su „duomenų ežero“ idėja, tačiau kiekviena iš jų turi unikalių funkcijų rinkinį ir polinkį veikti kaip duomenų saugykla, o ne tikras duomenų ežeras. kaip visas.
Kai sprendimas parduodamas kaip „duomenų ežeras“, įmonės turėtų būti atsargios, ką jis iš tikrųjų reiškia.
Įmonės turi žvelgti ne tik į rinkodaros žargoną, pavyzdžiui, „data Lakehouse“, o pažvelgti į kiekvienos platformos funkcijas, kad pasirinktų geriausią duomenų platformą, kuri ateityje plėsis kartu su jų verslu.
Palikti atsakymą