Apur bat zaila izan daiteke eskuragarri dauden zerbitzu eta arkitektura-aukera guztiak kontuan hartzea datu-plataformei buruz pentsatzean.
Enpresa-datu-plataforma batek askotan datu biltegiak, datu-ereduak, datu-lakuak eta txostenak ditu, bakoitza helburu zehatz batekin eta behar diren gaitasun multzo batekin. Aitzitik, data lakehouse izeneko diseinu berri bat sortu da azken urteotan.
Datu-lakuen aldakortasuna eta datu biltegiko datuen kudeaketa "datuen aintzira" izeneko datuen biltegiratze arkitektura iraultzaile batean konbinatzen dira.
Data Lakehouse-a sakon aztertuko dugu argitalpen honetan, bere osagaiak, ezaugarriak, arkitektura eta beste alderdi batzuk barne.
Zer da Data Lakehouse?
Izenak dioen bezala, data lakehouse datu-arkitektura mota berri bat da, datu-laku bat eta datu biltegi bat konbinatzen dituena, bakoitzaren gabeziak bereizita konpontzeko.
Funtsean, lakehouse sistemak biltegiratze merke erabiltzen du datu-kopuru masiboak jatorrizko forman mantentzeko, datu-lakuen antzera. Metadatuen geruza dendaren gainean gehitzeak datuen egitura ere ematen du eta datu biltegietan aurkitzen diren bezalako datuak kudeatzeko tresnak ahalbidetzen ditu.
Erakundean zehar erabiltzen diren negozio-aplikazio, sistema eta tramankulu ezberdinetatik lortzen dituzten datu antolatu, erdi-egituratu eta egituratu gabekoen bolumen izugarriak gordetzen ditu.
Gehienetan, datu-lakuek kostu baxuko biltegiratze-azpiegiturak erabiltzen dituzte fitxategien aplikazioen programazio interfazearekin (API) datuak fitxategi formatu ireki eta generikoetan gordetzeko.
Horri esker, talde askok enpresaren datu guztiak sistema bakar baten bidez eskura ditzakete hainbat ekimenetarako, hala nola datuen zientziarako, makina ikaskuntza, eta negozio adimena.
Ezaugarriak
- Kostu baxuko biltegiratzea. Datu-laku etxe batek objektu merke biltegiratzeko datuak gordetzeko gai izan behar du, adibidez Google Cloud Biltegiratzea, Azure Blob Storage, Amazon Simple Storage Service edo jatorrizko ORC edo Parquet erabiliz.
- Datuak optimizatzeko gaitasuna: datuen diseinuaren optimizazioa, cachea eta indexatzea datu-laku etxe batek datuak optimizatzeko gai izan behar duen datuen jatorrizko formatua mantenduz erakusten duten adibide batzuk dira.
- Transakzio-metadatuen geruza bat: kostu baxuko ezinbesteko biltegiratzeaz gain, datu-biltegiaren errendimendurako funtsezkoak diren datuak kudeatzeko gaitasunak ahalbidetzen ditu.
- Declarative DataFrame APIrako laguntza: AI tresna gehienek DataFrames erabil dezakete objektu gordinak biltegiratzeko datuak berreskuratzeko. Declarative DataFrame APIaren laguntzak datuen aurkezpena eta egitura dinamikoki hobetzeko gaitasuna areagotzen du datuen zientzia edo AI zeregin jakin bati erantzunez.
- ACID transakzioetarako euskarria: ACID akronimoa, atomotasuna, koherentzia, isolamendua eta iraunkortasuna adierazten duena, osagai kritikoa da transakzio bat definitzeko eta datuen koherentzia eta fidagarritasuna ziurtatzeko. Horrelako transakzioak lehen datu biltegietan baino ez ziren posible, baina lakehouse-k datu-lakuekin erabiltzeko aukera eskaintzen du baita. Hainbat datu kanalizaziorekin batera datuen irakurketa eta idazketa barne, honek azken horien datuen kalitate baxuaren arazoa konpontzen du.
Data Lakehouse-ren elementuak
Data Lakehouse-ren arkitektura bi maila nagusitan banatzen da maila altuan. Biltegiratze-geruzaren datu-hartzea Lakehouse plataformak kontrolatzen du (hau da, datu-lakua).
Datuak datu biltegi batean kargatu edo jabedun formatuan bihurtu beharrik gabe, prozesatzeko geruzak biltegiratze geruzan datuak zuzenean kontsultatu ditzake hainbat tresna erabiliz.
Ondoren, BI aplikazioek, baita AI eta ML teknologiek ere, datuak erabil ditzakete. Datu-laku baten ekonomia diseinu honek ematen du, baina edozein prozesatze-motorrek datu horiek irakur ditzakeenez, enpresek askatasuna dute prestatutako datuak hainbat sistemaren bidez aztertzeko eskuragarri izateko. Prozesadorearen errendimendua eta kostua biak hobetu daitezke prozesatzeko eta aztertzeko metodo hau erabiliz.
ACID (atomikotasuna, koherentzia, isolamendua eta iraunkortasuna) irizpide hauek betetzen dituzten datu-baseen transakzioetarako onartzen duelako, arkitekturak alderdi askok sisteman datuak aldi berean sartzeko eta idazteko aukera ematen du:
- Atomizitatea transakzio osoa ala bat ere ez dela transakzio bat burutzean arrakasta egiten duela aipatzen du. Prozesu bat eteten bada, horrek datuak galtzea edo usteltzea saihesten laguntzen du.
- Koherentzia transakzioak modu aurreikusgarri eta koherentean gertatzen direla bermatzen du. Datuen osotasuna mantentzen du, datu guztiak aldez aurretik zehaztutako arauen arabera legezkoak direla ziurtatuz.
- Isolamendua bermatzen du, amaitu arte, sistemako beste transakziorik ez duela eraginik izan transakziorik. Horri esker, alderdi askok sistema beretik aldi berean irakurtzen eta idazten dute elkarren artean oztopatu gabe.
- Iraunkortasuna transakzio bat amaitu ondoren sistema bateko datuen aldaketak izaten jarraitzen dutela bermatzen du, sistemaren hutsegiterik gertatuz gero ere. Transakzio batek eragindako aldaketa guztiak artxiboan gordetzen dira betirako.
Data Lakehouse Arkitektura
Databricks (bere Delta Lake kontzeptuaren berritzailea eta diseinatzailea) eta AWS dira data lakehouse kontzeptuaren bi defendatzaile nagusiak. Beraz, haien ezagutzan eta ikuskeran oinarrituko gara laku-etxeen diseinu arkitektonikoa deskribatzeko.
Datu lakehouse sistemak normalean bost geruza izango ditu:
- Irenste-geruza
- Biltegiratze geruza
- Metadatuen geruza
- API geruza
- Kontsumo-geruza
Irenste-geruza
Sistemaren lehen geruza hainbat iturritako datuak biltzeaz eta biltegiratze geruzara bidaltzeaz arduratzen da. Geruzak hainbat protokolo erabil ditzake barneko eta kanpoko iturri ugaritara konektatzeko, besteak beste, batch eta streaming datuak prozesatzeko gaitasunak konbinatuz, hala nola.
- NoSQL datu-baseak,
- fitxategi partekatzeak
- CRM aplikazioak,
- webguneak,
- IoT sentsoreak,
- sare sozialak,
- Software gisa Zerbitzu (SaaS) aplikazioak, eta
- datu-base erlazionalak kudeatzeko sistemak, etab.
Une honetan, Apache Kafka datu-streamerako eta Amazon Data Migration Service (Amazon DMS) RDBMS eta NoSQL datu-baseetatik datuak inportatzeko bezalako osagaiak erabil daitezke.
Biltegiratze geruza
Lakehouse arkitekturak hainbat datu mota objektu gisa biltegiratzea ahalbidetu nahi du, objektu merkeen biltegietan, hala nola AWS S3. Fitxategien formatu irekiak erabiliz, bezeroen tresnek elementu hauek zuzenean dendatik irakur ditzakete.
Horri esker, API eta kontsumo-geruzen osagai askok datu berdinak atzitu eta erabil ditzakete. Metadatuen geruzak datu-multzo egituratu eta erdiegituratuen eskemak gordetzen ditu, osagaiek irakurtzen duten heinean datuei aplika ditzaten.
Hadoop Distributed File System (HDFS) plataforma, adibidez, informatika eta biltegiratzea lokalean banatzen duten hodeiko biltegiratze zerbitzuak eraikitzeko erabil daiteke. Lakehouse ezin hobea da zerbitzu hauetarako.
Metadatuen geruza
Metadatuen geruza diseinu hau bereizten duen datu-laku etxe baten oinarrizko osagaia da. Lakuan gordetako elementu guztien metadatuak (beste datu-piezei buruzko informazioa) eskaintzen dituen katalogo bakarra da eta erabiltzaileek administrazio-gaitasunak erabil ditzakete, hala nola:
- Datu-basearen bertsio koherentea ikusten da aldibereko transakzioek ACID transakzioei esker;
- cachean hodeiko objektuen biltegiko fitxategiak gordetzeko;
- datu-egituraren indizeak gehitzea indexatzea erabiliz, kontsultaren prozesamendua bizkortzeko;
- zero-copy klonazioa erabiltzea datu-objektuak bikoizteko; eta
- datuen zenbait bertsio gordetzeko, etab., erabili datuen bertsioa.
Gainera, metadatuen geruzak eskemaren kudeaketa ezartzea ahalbidetzen du, izar/elur maluta eskemak bezalako DW eskema topologiak erabiltzea eta datuen gobernantza eta auditoretza gaitasuna zuzenean datu-lakuan eskaintzea, datu-hodi osoaren osotasuna hobetuz.
Eskemaren bilakaera eta betearazteko eginbideak eskemaren kudeaketan sartzen dira. Taularen eskema betetzen ez duten idazketak baztertuz, eskema betetzeak erabiltzaileei datuen osotasuna eta kalitatea mantentzea ahalbidetzen die.
Eskemaren bilakaerak taularen egungo eskema aldatzea ahalbidetzen du, alda daitezkeen datuak egokitzeko. Datu-lakuaren gainean administrazio-interfaze bakarra dela eta, sarbidea kontrolatzeko eta ikuskatzeko aukerak ere badaude.
API geruza
Arkitekturaren beste geruza erabakigarri bat dago orain, azken erabiltzaile guztiek lanak azkarrago egiteko eta estatistika sofistikatuagoak lortzeko erabil ditzaketen API ugari hartzen ditu.
Metadatuen APIak erabiltzeak aplikazio jakin baterako beharrezkoak diren datu-elementuak identifikatzea eta atzitzea errazten du.
Ikaskuntza automatikoko liburutegiei dagokienez, horietako batzuek, TensorFlow eta Spark MLlib adibidez, Parquet bezalako fitxategi formatu irekiak irakur ditzakete eta metadatuen geruza zuzenean sar daitezke.
Aldi berean, DataFrame APIek optimizaziorako aukera handiagoak eskaintzen dituzte, programatzaileek sakabanatutako datuak antolatzeko eta aldatzeko aukera emanez.
Kontsumo-geruza
Power BI, Tableau eta beste tresna eta aplikazio batzuk kontsumo geruzaren azpian daude ostatatuta. Lakehouse diseinuarekin, metadatu guztiak eta aintzira batean gordetzen diren datu guztiak eskuragarri daude bezeroen aplikazioek.
Laku-etxea enpresa bateko erabiltzaile guztiek erabil dezakete mota guztietako lanak egiteko eragiketa analitikoak, besteak beste, business intelligence panelak sortzea eta SQL kontsultak eta ikaskuntza automatikoko atazak exekutatzen.
Data Lakehouse-ren abantailak
Erakundeek data lakehouse bat sor dezakete euren egungo datu-plataforma bateratzeko eta datuen kudeaketa prozesu osoa optimizatzeko. Hainbat iturri lotzen dituzten silo-hesiak deseginez, datu-laku-etxe batek irtenbide ezberdinen beharra ordezkatu dezake.
Oinarritutako datu-iturriekin alderatuta, integrazio honek amaierako prozedura askoz eraginkorragoa sortzen du. Honek hainbat abantaila ditu:
- Administrazio gutxiago: Datu gordinetik datuak atera eta datu biltegi batean erabiltzeko prestatu beharrean, data lakehouse batek horri lotuta dauden iturri guztiei beren datuak eskuragarri eta erabiltzeko aukera ematen die.
- Kostu-eraginkortasuna areagotzea: Datuen aintzira-etxeak konputazioa eta biltegiratzea banatzen dituen azpiegitura garaikidea erabiliz eraikitzen dira, biltegiratzea errazten du konputazio potentzia handitu gabe. Datuen biltegiratze merke erabiltzeak kostu eraginkorra den eskalagarritasuna lortzen du.
- Datuen gobernantza hobea: Datuen aintzira-etxeak arkitektura ireki estandarizatuarekin eraikitzen dira, segurtasunaren, metrikaren, roletan oinarritutako sarbidearen eta beste kudeaketa-osagai garrantzitsuen gaineko kontrol gehiago ahalbidetuz. Baliabideak eta datu-iturriak bateratuz, gobernantza sinplifikatzen eta hobetzen dute.
- Estandar sinplifikatuak: 1980ko hamarkadan konexioa oso mugatua zegoenez, datu biltegiak lehen aldiz garatu zirenean, eskema lokalizatuen estandarrak maiz garatu ziren enpresen barruan, baita sailetan ere. Data lakehouse-ek datu-mota askok gaur egun eskemetarako estandar irekiak dituztela baliatzen dute datu-iturri ugari gainjarriz eskema uniformearekin prozedurak arintzeko.
Data Lakehouse-ren desabantailak
Datu-laku etxeen inguruko txaloak gorabehera, kontuan izan behar da ideia oso berria dela oraindik. Ziurtatu desabantailak pisatzen dituzula diseinu berri honekin guztiz konprometitu aurretik.
- Egitura monolitikoa: Laku-etxe baten diseinu osoak abantaila ugari eskaintzen ditu, baina arazo batzuk ere sortzen ditu. Arkitektura monolitikoak maiz erabiltzaile guztientzat zerbitzu eskasa dakar eta zurruna eta mantentzea zaila izan daiteke. Normalean, arkitektoek eta diseinatzaileek hainbat erabilera-kasutarako pertsonaliza dezaketen arkitektura modularagoa gustatzen zaie.
- Teknologia ez dago oraindik: azken helburuak ikaskuntza automatiko eta adimen artifizial handia dakar. Laku-etxeek aurreikusitako moduan funtzionatzeko, teknologia hauek gehiago garatu behar dute.
- Ez da aurrerapen nabarmena egungo egituren aldean: Eszeptizismo handia dago oraindik laku-etxeek zenbat balio gehiago emango duten. Detrakzio batzuek diote laku-biltegiaren diseinuak ekipamendu automatizatu egokiarekin konbinatuta eraginkortasun parekoa lor dezakeela.
Data Lakehouse-ren erronkak
Zaila izan liteke data lakehouse teknika hartzea. Bere osagaien zati korapilatsuaren ondorioz, okerra da datuen aintzira-etxea egitura ezin hobea edo "guztientzako plataforma bakarra" gisa ikustea.
Gainera, datu-lakuak gero eta gehiago hartzen direnez, enpresek euren egungo datu-biltegiak hara eraman beharko dituzte, onura ekonomiko frogagarririk ez duen arrakastaren promesan soilik oinarrituz.
Transferentzia-prozesuan zehar latentzia-arazorik edo etenaldiren bat egonez gero, baliteke hori garestia izatea, denbora asko hartzea eta agian ez segurua izatea.
Enpresa-erabiltzaileek teknologia oso espezializatuak hartu behar dituzte, datu-laku gisa soluzioak espresuki edo inplizituki merkaturatzen dituzten saltzaile batzuen arabera. Baliteke hauek sistemaren erdian dagoen datu-lakuari lotutako beste tresnekin ez funtzionatzea beti, arazoei gehitzeaz gain.
Gainera, baliteke 24/7 analisiak hornitzea negoziorako lan-karga kritikoak exekutatzen diren bitartean, eta horrek eskalagarritasun errentagarriko azpiegitura eskatzen du.
Ondorioa
Azken urteotako datu-zentro berriena data lakehouse da. Hainbat arlo integratzen ditu, hala nola, informazioaren teknologiak, kode irekiko softwarea, cloud computing, eta banatutako biltegiratze-protokoloak.
Enpresei aukera ematen die edozein tokitatik datu mota guztiak zentralizatuta gordetzeko, kudeaketa eta analisia erraztuz. Data Lakehouse kontzeptu nahiko intrigazkoa da.
Edozein enpresak abantaila lehiakorra nabarmena izango luke datu-biltegi bat bezain azkar eta eraginkorra izango den datu-plataforma bateratu baterako sarbidea izango balu, datu-laku bat bezain malgua ere bada.
Ideia oraindik garatzen ari da eta nahiko berria izaten jarraitzen du. Ondorioz, denbora pixka bat behar izan daiteke zerbait hedatu daitekeen edo ez zehazteko.
Denok jakin-mina izan beharko genuke Lakehouse arkitekturak norantz doan norabideaz.
Utzi erantzun bat