Datumlagdomoj kombinas la datuma stokejo kaj datumlago konceptoj por entreprenoj.
Ĉi tiuj iloj ebligas al vi konstrui kostefikajn datumstokadajn solvojn kombinante la administradkapablojn de datumlagoj kun la datuma arkitekturo trovita en datumstokejoj.
Aldone, estas redukto en datummigrado kaj redundo, malpli tempo estas elspezita administrado, kaj pli mallongaj skemoj kaj datumregado proceduroj efektive fariĝas realeco.
Unu datuma lagdomo havas multajn avantaĝojn kompare al stoka sistemo kun pluraj solvoj.
Ĉi tiuj iloj daŭre estas uzataj de datumsciencistoj por plibonigi sian komprenon pri komerca inteligenteco kaj maŝinlernado-proceduroj.
Ĉi tiu artikolo tuj rigardos datumojn de la lagodomo, ĝiaj kapabloj kaj la disponeblaj iloj.
Enkonduko al Data Lakehouse
Nova speco de datuma arkitekturo nomita "datuma lagodomo” kombinas datumlagon kaj datumstokejon por trakti la malfortojn de ĉiu sendepende.
La lagdoma sistemo, kiel datumlagoj, uzas malmultekostan stokadon por konservi grandegajn kvantojn da datumoj en sia originala formo.
La aldono de metadatuma tavolo sur la supro de la vendejo ankaŭ disponigas datumstrukturon kaj rajtigas datumadministrajn ilojn similajn al tiuj trovitaj en datumstokejoj.
Ĝi enhavas amasajn kvantojn de strukturitaj, duonstrukturitaj kaj nestrukturitaj datumoj akiritaj de la diversaj komercaj aplikoj, sistemoj kaj aparatoj uzataj tra la entrepreno.
Kiel rezulto, male al datumlagoj, la lagoma sistemo povas administri kaj optimumigi tiujn datumojn por SQL-efikeco.
Ĝi ankaŭ havas la kapablon stoki kaj prilabori grandajn kvantojn da diversaj datumoj je pli malmultekosta kosto ol datumstokejoj.
Datuma lagdomo utilas kiam vi devas efektivigi ajnan datuman aliron aŭ analizon kontraŭ iuj datumoj sed ne certas pri la datumoj aŭ la rekomenditaj analizoj.
Lagdoma arkitekturo funkcios sufiĉe bone se agado ne estas ĉefa zorgo.
Tio ne implicas, ke vi bazu vian tutan strukturon sur lagdomo.
Pliaj informoj pri kiel elekti datumlagon, lagdomon, datenmagazenon aŭ specialan analizan datumbazon por ĉiu uzkazo troveblas tie.
Trajtoj de Data Lakehouse
- Samtempa legado kaj skribo de datumoj
- Adaptebleco kaj skaleblo
- Skema asistado kun datumregado-iloj
- Samtempa legado kaj skribo de datumoj
- Stokado kiu estas pagebla
- Ĉiuj datumtipoj kaj dosierformatoj estas subtenataj.
- Aliro al datumscienco kaj maŝinlernado iloj optimumigitaj
- Viaj datumteamoj profitos havi aliron al nur unu sistemo por transdoni laborŝarĝojn per ĝi pli rapide kaj precize.
- Realtempaj kapabloj por iniciatoj en datumscienco, maŝinlernado kaj analizo
Supraj 5 Data Lakehouse-iloj
Datbrikoj
Databricks, kiu estis fondita de la persono kiu unue evoluigis Apache Spark kaj faris ĝin malferma fonto, disponigas administritan Apache Spark-servon kaj estas poziciigita kiel platformo por datumlagoj.
La datumlago, delta lago, kaj delta motorkomponentoj de la Databricks lakema arkitekturo ebligas komercan inteligentecon, datumsciencon kaj maŝinlernadajn uzkazojn.
La datumlago estas publika nuba stokado-deponejo.
Kun subteno por administrado de metadatumoj, datumtraktado de batoj kaj fluoj por multstrukturaj datumseroj, malkovro de datumoj, sekuraj alirkontroloj kaj SQL-analitiko.
Databricks ofertas la plej multajn el la datumaj stokaj funkcioj, kiujn oni povus atendi vidi en datuma lakema platformo.
Databricks ĵus rivelis sian Aŭtomatan Ŝargilon, kiu aŭtomatigas ETL kaj datuman enigon kaj utiligas datumspecimenon por konkludi la skemon por diversaj datumtipoj, por liveri la esencajn komponentojn de la datuma laga stokadostrategio.
Alternative, uzantoj povas konstrui ETL-duktojn inter sia publika nuba datumlago kaj Delta Lake uzante Delta Live Tables.
Surpapere, Databricks ŝajnas havi ĉiujn avantaĝojn, sed starigi la solvon kaj krei ĝiajn datumajn duktojn postulas multan homan laboron de lertaj programistoj.
En skalo, la respondo ankaŭ fariĝas pli kompleksa. Ĝi estas pli komplika ol ŝajnas.
Ahana
Datuma lago estas ununura, centra loko, kie vi povas konservi kian ajn tipon de datumoj, kiujn vi elektas je skalo, inkluzive de nestrukturitaj kaj strukturitaj datumoj. AWS S3, Microsoft Azure kaj Google Cloud Storage estas tri oftaj datumlagoj.
Datumlagoj estas nekredeble ŝatataj ĉar ili estas tre atingeblaj kaj simplaj uzeblaj; vi povas esence stoki tiom da ajna tipo de datumoj kiel vi ŝatas por tre malmulte da mono.
Sed la datuma lago ne ofertas enkonstruitajn ilojn kiel analitiko, konsulto ktp.
Vi bezonas demandmotoron kaj datumkatalogon supre de la datuma lago (kie Ahana Cloud envenas) por pridemandi viajn datumojn kaj uzi ĝin.
Kun la plej bona de kaj la Datuma Stokejo kaj la Datuma Lago, nova datuma lagdoma dezajno formiĝis.
Ĉi tio indikas, ke ĝi estas travidebla, adaptebla, havas bonan prezon/efikecon, skalas kiel datuma lago subtenas transakciojn, kaj havas altnivelan de sekureco komparebla al datumstokejo.
Via alt-efikeca SQL-demanda motoro estas la cerbo malantaŭ la Data Lakehouse. Pro tio, vi povas ekzekuti alt-efikecan analizon pri viaj datumaj datumoj.
Ahana Cloud for Presto estas SaaS por Presto sur AWS, kio faras nekredeble simple komenci uzi Presto en la nubo.
Por via S3-bazita datuma lago, Ahana jam havas enkonstruitan datumkatalogon kaj kaŝmemoron. Ahana donas al vi la funkciojn de Presto sen postuli, ke vi pritraktu la superkoston ĉar ĝi faras ĝin interne.
AWS Lake Formation, Apache Hudi kaj Delta Lake estas nur kelkaj el la transakciaj administrantoj, kiuj estas parto de la stako kaj integriĝas kun ĝi.
Dremio
Organizoj serĉas rapide, simple kaj efike taksi amasajn kvantojn da rapide altiĝantaj datumoj.
Dremio kredas, ke malferma datuma lakedo kombinas la avantaĝojn de datumlagoj kaj datumstokejoj sur malferma bazo estas la plej bona aliro por plenumi tion.
La platformo de la lagodomo de Dremio provizas sperton, kiu funkcias por ĉiuj, kun facila UI, kiu permesas al uzantoj plenumi analizojn en frakcio de la tempo.
Dremio Cloud, plene administrita datuma lakejplatformo, kaj la lanĉo de du novaj servoj: Dremio Sonar, lagema demandmotoro, kaj Dremio Arctic, inteligenta megavendejo por Apache Iceberg kiu liveras unikan Git-similan sperton por la lagdomo.
Ĉiuj SQL-laborkvantoj de organizo povas esti rulitaj sur la senfrikcia, senfine skalebla platformo Dremio Cloud, kiu ankaŭ aŭtomatigas datumajn taskojn.
Ĝi estas konstruita por SQL, ofertas Git-similan sperton, estas malferma fonto kaj ĉiam estas senpaga.
Ili kreis ĝin por esti la lagoma platformo kiun datumteamoj adoras.
Uzante malfermfontajn tabelojn kaj dosierformatojn kiel Apache Iceberg kaj Apache Parquet, viaj datumoj estas konstantaj en via propra datuma stokado kiam vi uzas Dremio Cloud.
Estontaj novigoj povas esti facile adoptitaj, kaj la taŭga motoro povas esti elektita laŭ via laborkvanto.
Neĝero
Snowflake estas nuba datuma kaj analiza platformo, kiu povas plenumi la bezonojn de datumlagoj kaj magazenoj.
Ĝi komenciĝis kiel datuma stoksistemo konstruita sur nuba infrastrukturo.
La platformo konsistas el centralizita stokado-deponejo, kiu sidas super publika nuba stokado de AWS, Microsoft Azure aŭ Google Cloud Platform (GCP).
Sekvas tio estas plur-amastra komputadtavolo, kie uzantoj povas lanĉi virtualan datumstokejon kaj fari SQL-demandojn kontraŭ sia datumstokado.
La arkitekturo permesas malkunligi stokadon kaj komputadresursojn, permesante al organizoj skali la du sendepende laŭbezone.
Fine, Snowflake provizas servotavolon kun metadatuma kategoriigo, resursa administrado, datuma regado, transakcioj kaj aliaj funkcioj.
Konektiloj de BI-iloj, administrado de metadatumoj, alirkontroloj kaj SQL-demandoj estas nur kelkaj el la datum-magazenaj funkcioj, kiujn la platformo elstaras je ofertado.
Snowflake, tamen, estas limigita al ununura interrilata SQL-bazita demandmotoro.
Kiel rezulto, ĝi iĝas pli simple administrebla sed malpli adaptebla, kaj la plurmodela datenlago vizio ne realiĝas.
Aldone, antaŭ ol datumoj de nuba stokado povas esti serĉataj aŭ analizitaj, Snowflake postulas entreprenojn ŝargi ĝin en centralizitan stokan tavolon.
La mana datumdukta proceduro postulas antaŭan ETL, provizon kaj datuman formatadon antaŭ ol ĝi povas esti ekzamenita. Pligrandigi ĉi tiujn manajn procezojn igas ilin frustraj.
Alia opcio kiu ŝajnas esti bona taŭga sur papero sed fakte, devias de la datuma lago principo de simpla datuma enigo estas la datumlakedomo de Snowflake.
plejsanktejo
Moderna, malferma arkitekturo konata kiel "datuma lagodomo" ebligas stoki, kompreni kaj analizi ĉiujn viajn datumojn.
La amplekso kaj fleksebleco de la plej ŝatataj malfermfontaj datumlagaj solvoj estas kombinitaj kun la forto kaj profundo de datumstokejoj.
La plej novaj AI-kadroj kaj antaŭkonstruitaj AI-servoj povas esti uzataj kun datuma lagodomo sur Oracle Cloud Infrastructure (OCI).
Estas fareble labori kun pliaj specoj de datumoj dum uzado de malfermfonta datumlago. Sed la tempo kaj penado necesaj por administri ĝin povus esti konstanta malavantaĝo.
OCI ofertas plene administritajn malfermfontajn lagodomajn servojn je pli malaltaj tarifoj kaj kun malpli da administrado, permesante al vi antaŭvidi pli malaltajn operaciajn elspezojn, pli bonan skaleblon kaj sekurecon, kaj la kapablon plifirmigi ĉiujn viajn ekzistantajn datumojn en unu loko.
Datuma lagdomo pliigos la valoron de datumstokejoj kaj vendejoj, kiuj estas esencaj por sukcesaj entreprenoj.
Datenoj povas esti prenitaj uzante lagdomon de pluraj lokoj kun nur unu SQL-demando.
Ekzistantaj programoj kaj iloj ricevas travideblan aliron al ĉiuj datumoj sen postuli alĝustigojn aŭ akiri novajn kapablojn.
konkludo
La enkonduko de datenlakemaj solvoj estas spegulbildo de pli granda tendenco en grandaj datumoj, kio estas la integriĝo de analizo kaj datumstokado en unuigitaj datumplatformoj por maksimumigi komercan valoron de datumoj malaltigante la tempon, koston kaj kompleksecon de valor-eltiro.
Platformoj inkluzive de Databricks, Snowflake, Ahana, Dremio kaj Oracle estis ĉiuj ligitaj al la ideo de "datumlago", sed ili ĉiu havas unikan aron de funkcioj kaj emon funkcii pli kiel datumstokejo ol vera datumlago. entute.
Kiam solvo estas surmerkatigita kiel "datuma lagodomo", entreprenoj devus esti singardaj pri tio, kion ĝi fakte signifas.
Entreprenoj devas rigardi preter merkatika ĵargono kiel "datuma lagodomo" kaj anstataŭe rigardi la funkciojn de ĉiu platformo por elekti la plej bonan datumplatformon kiu vastiĝos kun siaj entreprenoj en la estonteco.
Lasi Respondon