Edukien aurkibidea[Ezkutatu][Erakutsi]
Data lakehouse-ek enpresentzako datu biltegia eta data lake kontzeptuak konbinatzen dituzte.
Tresna hauei esker, kostu eraginkorrak diren datuak biltegiratzeko irtenbideak eraiki ditzakezu, datu-lakuen kudeaketa-gaitasunak datu-biltegietan aurkitzen diren datu-arkitekturarekin konbinatuz.
Gainera, datuen migrazioa eta erredundantzia murrizten da, denbora gutxiago ematen da administratzen eta eskema laburragoak eta datuen gobernantza prozedurak errealitate bihurtzen dira.
Datu-laku etxe batek abantaila asko ditu hainbat soluzio dituen biltegiratze sistema batekin alderatuta.
Tresna hauek oraindik erabiltzen dituzte datu-zientzialariek negozio adimenaren eta ikaskuntza automatikoko prozeduren ulermena hobetzeko.
Artikulu honek datuen lakua, bere gaitasunei eta eskuragarri dauden tresnei begirada azkarra emango die.
Data Lakehouse-ren sarrera
Datu-arkitektura mota berri bat izenekoadata Lakehouse” data lake bat eta datu biltegi bat konbinatzen ditu bakoitzaren ahuleziak modu independentean konpontzeko.
Lakehouse sistemak, datu-lakuak bezala, kostu baxuko biltegiratzea erabiltzen du datu kopuru handiak jatorrizko forman mantentzeko.
Dendaren gainean metadatuen geruza gehitzeak datuen egitura ere eskaintzen du eta datu biltegietan aurkitzen direnen antzeko datuak kudeatzeko tresnak ahalbidetzen ditu.
Enpresa osoan erabiltzen diren hainbat negozio-aplikazio, sistema eta gailuetatik lortutako datu egituratu, erdi-egituratu eta egituratu gabeko kopuru handiak ditu.
Ondorioz, data lakeek ez bezala, lakehouse sistemak datu horiek kudeatu eta optimiza ditzake SQL errendimendurako.
Gainera, datu askotariko kopuru handiak gordetzeko eta prozesatzeko gaitasuna du datu biltegiek baino kostu merkeagoarekin.
Datu-laku-etxea oso erabilgarria da datu-sarbide edo analitika exekutatu behar duzunean edozein daturen aurka, baina datuen edo gomendatutako analisien inguruan ziur ez zaudenean.
Lakehouse arkitekturak nahiko ondo funtzionatuko du errendimendua ez bada kezka nagusia.
Horrek ez du esan nahi zure egitura osoa laku batean oinarritu behar duzunik.
Erabilera kasu bakoitzerako datu-laku, aintzira, datu-biltegi edo datu-base analitiko espezializatuak hautatzeko moduari buruzko informazio gehiago aurki daiteke hemen.
Data Lakehouse-ren ezaugarriak
- Datuen irakurketa eta idazketa aldi berean
- Egokigarritasuna eta eskalagarritasuna
- Eskemaren laguntza datuak gobernatzeko tresnekin
- Datuen irakurketa eta idazketa aldi berean
- Merkea den biltegiratzea
- Datu mota eta fitxategi formatu guztiak onartzen dira.
- Datu-zientziarako eta ikaskuntza automatikoko tresnetarako sarbidea optimizatuta dago
- Zure datu-taldeek sistema bakarrerako sarbidea izatearen abantaila izango dute lan-kargak horren bidez azkar eta zehatzago transferitzeko.
- Datuen zientzian, ikaskuntza automatikoan eta analitikan ekimenetarako denbora errealeko gaitasunak
Data Lakehouse-ren 5 tresna nagusiak
Databrikak
Databricks, Apache Spark garatu eta egin zuenak sortu zuena kode irekiko, kudeatutako Apache Spark zerbitzu bat eskaintzen du eta datu-lakuetarako plataforma gisa kokatzen da.
Databricks lakehouse arkitekturaren data lake, delta lake eta delta motor osagaiek negozio adimena, datuen zientzia eta ikaskuntza automatikoaren erabilera kasuak ahalbidetzen dituzte.
Data Lake hodeiko biltegiratze publikoa da.
Metadatuen kudeaketarako laguntzarekin, batch eta korronteen datuen prozesatzea egitura anitzeko datu multzoetarako, datuen aurkikuntza, sarbide seguruen kontrolak eta SQL analitika.
Databricks-ek datu-biltegiratze-funtzio gehienak eskaintzen ditu datu-lakuetako plataforma batean ikustea espero daitekeen.
Databricks-ek duela gutxi bere Auto Loader aurkeztu du, ETL eta datuen sarrera automatizatzen dituena eta datuen laginketa aprobetxatzen duena hainbat datu motaren eskema ondorioztatzeko, datu-lakuaren biltegiratze estrategiaren funtsezko osagaiak emateko.
Bestela, erabiltzaileek ETL kanalizazioak eraiki ditzakete hodei publikoko datu-lakuaren eta Delta Lakeren artean Delta Live Tables erabiliz.
Paperean, Databricks-ek abantaila guztiak dituela dirudi, baina irtenbidea konfiguratzeak eta bere datu-hodiak sortzeak garatzaile trebeen giza lan handia eskatzen du.
Eskalan, erantzuna ere konplexuagoa bihurtzen da. Badirudi baino konplikatuagoa da.
Ahana
Datu-lakua kokapen zentral bakarra da, non aukeratzen duzun edozein datu mota gorde dezakezu eskalan, egitura gabeko eta egituratutako datuak barne. AWS S3, Microsoft Azure eta Google Cloud Storage hiru datu-laku ohikoak dira.
Datu-lakuak oso gustukoak dira, oso merkeak eta erabiltzeko errazak direlako; funtsean, nahi adina datu gorde ditzakezu diru gutxiren truke.
Baina datu-lakuak ez ditu analitika, kontsulta eta abar bezalako tresna integratuak eskaintzen.
Datu-lakuaren gainean (Ahana Cloud sartzen den tokian) kontsulta-motor eta datu-katalogo bat behar dituzu zure datuak kontsultatzeko eta erabiltzeko.
Data Warehouse eta Data Lake-ren onenarekin, datu-lakuaren diseinu berri bat garatu da.
Horrek adierazten du gardena dela, moldagarria, prezio/errendimendu ona duela, datu-laku batek transakzioak onartzen dituela eta datu biltegi baten pareko segurtasun maila altua duela.
Zure errendimendu handiko SQL kontsulta-motorra Data Lakehouse-ren atzean dagoen garuna da. Hori dela eta, errendimendu handiko analisiak exekutatu ditzakezu zure data lakearen datuetan.
Ahana Cloud for Presto AWS-n Prestorako SaaS da, eta oso erraza da Presto hodeian erabiltzen hastea.
Zure S3-n oinarritutako datu-lakurako, Ahana-k datu-katalogoa eta cachean sartuta ditu dagoeneko. Ahana-k Prestoren ezaugarriak ematen dizkizu gainkostua kudeatu beharrik gabe, barnean egiten duelako.
AWS Lake Formation, Apache Hudi eta Delta Lake pilaren parte diren eta harekin integratzen diren transakzio-kudeatzaileetako batzuk dira.
Dremio
Erakundeek azkar, erraz eta eraginkortasunez ebaluatu nahi dituzte azkar igotzen diren datu kopuru handiak.
Dremioren ustez, datu irekiko lakehouse batek datu-lakuen eta datu biltegien abantailak modu irekian konbinatzen ditu hori lortzeko ikuspegirik onena.
Dremio-ren lakehouse plataformak guztientzako funtzionatzen duen esperientzia eskaintzen du, erabiltzaileek denboraren zati batean analisiak osatzeko aukera ematen duen UI erraz batekin.
Dremio Cloud, guztiz kudeatutako datuen lakehouse plataforma, eta bi zerbitzu berri abian jartzea: Dremio Sonar, lakehouse kontsulta-motorra, eta Dremio Arctic, Apache Icebergentzako megastore adimenduna, Git-en antzeko esperientzia paregabea eskaintzen duena.
Erakunde baten SQL lan-karga guztiak marruskadurarik gabeko eta etengabe eskalagarria den Dremio Cloud plataforman exekutatu daitezke, datuak kudeatzeko zereginak ere automatizatzen dituena.
SQLrako eraikita dago, Git antzeko esperientzia eskaintzen du, kode irekia da eta doakoa da beti.
Datu-taldeek maite duten lakehouse plataforma izateko sortu zuten.
Apache Iceberg eta Apache Parquet bezalako kode irekiko taula eta fitxategi formatuak erabiliz, zure datuak iraunkorrak dira zure data lake biltegian Dremio Cloud erabiltzen duzunean.
Etorkizuneko berrikuntzak erraz har daitezke eta motor egokia aukeratu daiteke zure lan-kargaren arabera.
Snowflake
Snowflake hodeiko datu eta analisi plataforma bat da, datu-lakuen eta biltegien beharrak ase ditzakeena.
Hodeiko azpiegituretan eraikitako datu biltegiko sistema gisa hasi zen.
Plataformak AWS, Microsoft Azure edo Google Cloud Platform (GCP) hodeiko biltegiratze publikoaren gainean kokatzen den biltegiratze zentralizatu batek osatzen du.
Horren ondoren, kluster anitzeko konputazio-geruza bat dago, non erabiltzaileek datu-biltegi birtual bat abiarazi dezaketen eta SQL kontsultak egin ditzaketen datuen biltegiaren aurka.
Arkitekturak biltegiratze- eta konputazio-baliabideak desakoplatzea ahalbidetzen du, erakundeek biak modu independentean eskala ditzakete beharren arabera.
Azkenik, Snowflake-k zerbitzu-geruza bat eskaintzen du metadatuen kategorizazioa, baliabideen kudeaketa, datuen gobernantza, transakzioak eta beste ezaugarri batzuekin.
BI tresnaren konektoreak, metadatuen kudeaketa, sarbide-kontrolak eta SQL kontsultak plataformak eskaintzen dituen datu biltegiko funtzionalitateetako batzuk dira.
Snowflake, ordea, erlazionatutako SQLn oinarritutako kontsulta-motor bakar batera mugatuta dago.
Ondorioz, administratzea errazago bihurtzen da, baina ez da hain moldagarria, eta eredu anitzeko datu-lakuaren ikuspegia ez da gauzatzen.
Gainera, hodeiko biltegiratzeko datuak bilatu edo aztertu aurretik, Snowflake-k enpresei biltegiratze zentralizatuko geruza batean kargatzea eskatzen die.
Eskuzko datuak kanalizatzeko prozedurak ETL, hornikuntza eta datuen formatua aldez aurretik behar ditu aztertu ahal izateko. Eskuzko prozesu horiek handitzeak frustrazio bihurtzen ditu.
Paperean ondo moldatzen den baina, egia esan, datu-lakuaren printzipiotik aldentzen den beste aukera bat, datuen sarrera sinplearen printzipiotik, Snowflake-ren data lakehouse da.
Oracle
"Datuen aintzira" izenez ezagutzen den arkitektura moderno eta irekiak zure datu guztiak gordetzea, ulertzea eta aztertzea ahalbidetzen du.
Iturburu irekiko datu-lakuen soluzioen zabalera eta malgutasunik gustukoenak datu biltegien sendotasun eta sakontasunarekin konbinatzen dira.
AI esparru berrienak eta aurrez eraikitako AI zerbitzuak Oracle Cloud Infrastructure (OCI) datu-laku batekin erabil daitezke.
Bideragarria da datu-mota gehigarriekin lan egitea kode irekiko datu-laku bat erabiltzen duzun bitartean. Baina kudeatzeko behar den denbora eta esfortzua eragozpen iraunkor bat izan liteke.
OCI-k guztiz kudeatutako kode irekiko lakehouse zerbitzuak eskaintzen ditu tarifa baxuagoetan eta kudeaketa gutxiagorekin, gastu operatibo txikiagoak, eskalagarritasun eta segurtasun hobea eta lehendik dituzun datu guztiak kokapen bakarrean finkatzeko ahalmena aurreikusteko aukera emanez.
Data Lakehouse batek datu biltegien eta merkatuen balioa handituko du, ezinbestekoak diren enpresa arrakastatsuetarako.
Datuak hainbat tokitatik laku etxe bat erabiliz berreskura daitezke SQL kontsulta bakarrarekin.
Dauden programek eta tresnek datu guztietarako sarbide gardena jasotzen dute, doikuntzarik edo trebetasun berriak eskuratu gabe.
Ondorioa
Data lakehouse irtenbideak sartzea datu handien joera handiagoaren isla da, hau da, analitika eta datu biltegiratzea datu-plataforma bateratuetan integratzea datuen negozioaren balioa maximizatzeko, balioak ateratzeko denbora, kostua eta konplexutasuna murrizten diren bitartean.
Databricks, Snowflake, Ahana, Dremio eta Oracle barne plataformak "data lakehouse" ideiarekin lotuta egon dira, baina bakoitzak ezaugarri multzo berezia dute eta datu-biltegi baten antzera funtzionatzeko joera dute benetako datu-laku bat baino. bere osotasunean.
Irtenbide bat "data lakehouse" gisa merkaturatzen denean, enpresek benetan esan nahi dutenaz kontuz ibili beharko lukete.
Enpresek "data lakehouse" bezalako marketin-jarraitik haratago begiratu behar dute eta, horren ordez, plataforma bakoitzaren ezaugarriak aztertu behar dituzte etorkizunean negozioekin zabalduko den datu-plataforma onena hautatzeko.
Utzi erantzun bat