Edukien aurkibidea[Ezkutatu][Erakutsi]
Enpresek inoiz baino datu gehiago jasotzen ari dira, gero eta gehiago konfiantza baitute negozio-erabaki garrantzitsuak informatzeko, produktuen eskaintza hobetzeko eta bezeroei zerbitzu hobea emateko.
Datu-kopurua abiadura esponentzialean sortzen denez, hodeiak hainbat abantaila eskaintzen ditu datuak prozesatzeko eta analisirako, eskalagarritasuna, fidagarritasuna eta erabilgarritasuna barne.
Hodeiko ekosisteman, datuak prozesatzeko eta analisirako hainbat tresna eta teknologia ere badaude. Gehien erabiltzen diren datu handiak biltegiratzeko egitura bi motak datu biltegiak eta datu-lakuak dira.
Datu-laku bat erabiltzea ez da hain erakargarria izan, eredua eta datuak oraindik garrantzitsua den bitartean kontsultatu ezin dituzunez, datu-biltegi bat erabiltzea alferrikakoa da datuak streaming bidez gordetzeko.
Wzein hodei arkitektura mota aukeratzen dugu?
Datu lakehouse-rako kontzeptu berriagoak kontuan hartu behar ditugu, ala biltegiaren murrizketekin edo lakuaren murrizketekin konformatu behar al gara?
Datuak biltegiratzeko arkitektura berri batek "data lakehouse" izenekoak datu-lakuen moldagarritasuna eta datu biltegien datuen kudeaketa uztartzen ditu.
Datu handiak biltegiratzeko metodo desberdinak ulertzea ezinbestekoa da datuen biltegiratze kanal fidagarri bat eraikitzeko negozio adimenerako (BI), datuen analisirako eta makina ikaskuntza (ML) lan-kargak, zure enpresaren eskaeren arabera.
Argitalpen honetan, Data Warehouse, Data Lake eta Data Lakehouse arretaz aztertuko ditugu, horien abantailak, mugak eta abantailak eta txarrak. Has gaitezen.
Zer da Data Warehouse?
Datu biltegia erakunde batek iturri askotako datu-bolumen izugarriak gordetzeko erabiltzen duen datu-biltegi zentralizatua da. Datu biltegi batek erakunde baten "datuen egia" iturri bakar gisa jarduten du eta ezinbestekoa da txostenak egiteko eta negozio-analitika egiteko.
Normalean, datu-biltegiek hainbat iturritako erlazio-datu multzoak konbinatzen dituzte, hala nola aplikazio, negozio eta transakzio-datuak, datu historikoak gordetzeko. Biltegiratze sisteman kargatu aurretik, datuak datu biltegietan eraldatzen eta garbitzen dira, datuen egia iturri bakar gisa erabili ahal izateko.
Enpresako alor guztietako negozioei buruzko informazioa azkar eskaintzeko duten gaitasuna dela eta, enpresek datu biltegietan inbertitzen dute. BI tresnak, SQL bezeroak eta ez hain sofistikatuak (hau da, datu-zientziakoak ez diren) analisi soluzio batzuk erabiliz, negozio analistak, datu-ingeniariek eta erabaki-hartzaileek datu biltegietako datuak atzi ditzakete.
Garestia da biltegi bat mantentzea gero eta datu-bolumen handiagoarekin, eta datu-biltegi batek ezin du datu gordinak edo egituratu gabekoak kudeatu. Gainera, ez da aukera aproposa datuen analisirako teknika sofistikatuetarako, adibidez, ikaskuntza automatikoa edo modelizazio prediktiboa.
Datu biltegi batek, beraz, kontsulta-erantzun azkarragoak eta kalitate handiagoko datuak eskaintzen ditu. Google Big Query, Amazon Redshift, Azure SQL Data warehouse eta Snowflake datu biltegietarako eskuragarri dauden hodeiko zerbitzuak dira.
Data Warehouse-ren abantailak
- Business intelligence eta datu-analisiaren lan-kargen eraginkortasuna eta abiadura areagotzea: Datu biltegiek datuak prestatzeko eta aztertzeko behar den denbora laburtzen dute. Datuen analisirako eta negozio adimenerako tresnekin erraz lotu daitezke datu biltegiko datuak fidagarriak eta koherenteak baitira. Gainera, datu biltegiek datuak biltzeko behar den denbora aurrezten dute eta taldeei datuak erabiltzeko gaitasuna ematen diete txostenetarako, aginte-paneletarako eta bestelako analisi-eskakizunetarako.
- Datuen koherentzia, kalitatea eta estandarizazioa areagotzea: Erakundeek hainbat iturritako datuak biltzen dituzte, erabiltzaileen, salmentaren eta transakzioen datuak barne. Enpresak datuetan fida ditzake negozio-eskakizunetarako, datuen biltegiak datu korporatiboak formatu uniforme eta estandarizatu batean biltzen dituelako, datuen egia iturri bakar gisa jarduteko.
- Erabakiak hartzea orokorrean hobetzea: Datuen biltegiratzeak erabakiak hartzea errazten du, datu berrien zein zaharren biltegi zentralizatu bat eskainiz. Datu-biltegietan datuak prozesatuz informazio zehatza lortzeko, erabakiak hartzen dituztenek arriskuak ebaluatu, bezeroen nahiak ulertu eta ondasunak eta zerbitzuak hobetu ditzakete.
- Negozioen adimen hobea eskaintzea: Datuen biltegiratzeak datu gordina masiboen arteko aldea gainditzen du, maiz ohiko moduan biltzen direnak, eta ikuspegiak ematen dituzten datu onduen artean. Erakunde baten datuak biltegiratzeko oinarri gisa jarduten dute, bere datuei buruzko galdera konplikatuak erantzuteko eta erantzunak negozio-erabaki defendagarriak hartzeko aukera ematen diote.
Data Warehouse-ren mugak
- Datuen malgutasun falta: Datu-biltegiak datu egituratuak maneiatzen bikain diren arren, erdi-egituratutako eta egituratu gabeko datu-formatuak, hala nola, erregistro-analisiak, streaming-ak eta sare sozialetako datuak zailak izan daitezke haientzat. Horrek datu biltegiak gomendatzen ditu ikaskuntza automatikoa eta erabilera kasuetarako adimen artifizialeko zailtasuna.
- Instalatzea eta mantentzea kostatzen da: Datu biltegiak instalatzea eta mantentzea garestiak izan daitezke. Gainera, datu biltegia askotan ez da estatikoa; zahartu egiten da eta maiz mantentze-lanak behar ditu, eta hori garestia da.
Pros
- Datuak aurkitzeko, berreskuratzeko eta kontsultatzeko errazak dira.
- Datuak dagoeneko garbiak diren bitartean, SQL datuen prestaketa erraza da.
Cons
- Analitikoen hornitzaile bakarra erabiltzera behartuta zaude.
- Egituratu gabeko edo fluxu gabeko datuak aztertzea eta biltegiratzea nahiko garestia da.
Zer da Data Lake?
Datu mota guztiak agintzen eta posible egiten dira data lakeek. Onuragarria da datuak modu eskuragarri batean kokatuta eta irakurtzeko eskuragarri egotea.
Datu-lakua biltegiratze-espazio zentralizatu eta oso moldagarria da, non antolatutako eta egituratu gabeko datu-bolumen handiak prozesatu gabe, aldatu gabe eta formateatu gabe gordetzen diren.
Datu-laku batek arkitektura laua eta prozesatu gabeko egoeran gordetako objektuak erabiltzen ditu datuak gordetzeko, datu-biltegien aldean, aurrez "garbitu" diren datu erlazionalak gordetzen dituztenak.
Datu-lakuak, datu biltegien aldean, formatu honetan datuak maneiatzeko zailtasunak dituztenak, moldagarriak, fidagarriak eta merkeak dira eta enpresei egituratu gabeko datuetatik ikuspegi hobetua lortzeko aukera ematen diete.
Datu-lakuetan, datuak atera, kargatu eta eraldatzen dira (ELT) helburu analitikoetarako, datuak biltzeko unean eskema edo datuak ezarrita eduki beharrean.
IoT gailuetako datu mota askotarako teknologiak erabiltzea, social media, eta datuen streaming, data lake-ek ikaskuntza automatikoa eta analitika prediktiboa ahalbidetzen dute.
Gainera, datu gordinak prozesatu ditzakeen zientzialari batek datu-lakua erabil dezake. Datu biltegi bat, berriz, errazagoa da enpresek erabiltzeko. Erabiltzaileen profila egiteko ezin hobea da, aurresateko analisiak, ikaskuntza automatikoa eta beste zeregin batzuk.
Datu-lakuek datu biltegiekin hainbat arazo konpontzen dituzten arren, haien datuen kalitatea eskasa da eta kontsulta-abiadura nahikoa ez da. Gainera, enpresen erabiltzaileek SQL kontsultak egiteko tresna osagarriak behar dituzte. Gaizki egituratuta dagoen datu-laku batek arazo bat izan dezake datuen geldialdiarekin.
Data Lake-ren abantailak
- Ikaskuntza automatikoko eta datu-zientzien aplikazio kasu askotarako laguntza. Errazagoa da beste makina bat eta ikaskuntza sakoneko algoritmoak erabiltzea datu-lakuetan datuak kudeatzeko, datuak modu irekian eta gordinean gordetzen baitira.
- Data lakes-en aldakortasuna, datuak edozein formatu edo euskarritan gordetzeko aukera ematen duena, aurrez ezarritako eskema beharrik gabe, abantaila handia da. Etorkizuneko datuen erabilera kasuak onar daitezke, eta datu gehiago aztertu daitezke datuak jatorrizko egoeran uzten badira.
- Datu mota biak hainbat testuingurutan gorde beharrik ez izateko, datu-lakuek datu egituratuak zein egitura gabekoak izan ditzakete. Antolakuntzako hainbat datu mota gordetzeko, kokapen bakarra eskaintzen dute.
- Datu-biltegi tradizionalekin alderatuta, datu-lakuak merkeagoak dira, merkantzia-hardware merkeetan gordetzeko eraikita daudelako, adibidez, objektuen biltegiratzea, askotan biltegiratutako gigabyte bakoitzeko kostu baxuagora zuzenduta dagoena.
Data Lake-ren mugak
- Datuen analitikak eta negozio adimenaren erabilera-kasuek puntuazio txarra ematen dute: datu-lakuak antolatu gabe egon daitezke behar bezala mantentzen ez badira, eta horrek zaildu egiten du negozioen adimen eta analitika tresnekin lotzea. Gainera, txostenak eta analisiak erabiltzeko kasuak beharrezkoak direnean, koherentzia falta datu egiturak eta ACID (atomikotasuna, koherentzia, isolamendua eta iraunkortasuna) transakzio-laguntzak kontsulta-errendimendu optimoa ekar dezake.
- Data lakes-en inkoherentziak ezinezkoa egiten du datuen fidagarritasuna eta segurtasuna betearaztea, eta horrek biak falta dira. Zaila izan daiteke datuen segurtasun eta gobernantza estandar egokiak garatzea datu sentikorrei erantzuteko, datu-lakuek edozein datu-forma kudea dezaketelako.
Pros
- Datu mota guztietarako merkeak diren irtenbideak.
- Antolatutako eta erdiegituratutako datuak kudeatzeko gai da.
- Datuak prozesatzeko eta streaming konplikatuetarako aproposa.
Cons
- Hoditeria sofistikatua behar da eraikitzeko.
- Eman denbora pixka bat datuak kontsultagarriak izan daitezen.
- Datuen fidagarritasuna eta kalitatea bermatzeko denbora behar da.
Zer da Data Lakehouse?
Datu handiak biltegiratzeko arkitektura berri batek "data lakehouse" izenekoak datu-lakuen eta datu biltegien alderdirik handienak konbinatzen ditu. Zure datu guztiak, egituratuak, erdi-egituratuak edo egituratu gabeak izan, kokapen bakarrean gorde daitezke makina-ikasketa, negozio adimen eta streaming ahalmen bikainenekin datu-laku-etxe bati esker.
Mota guztietako datu-lakuak izan ohi dira data lakehouse-en abiapuntua; horren ostean, datuak Delta Lake formatura eraldatzen dira (data lakeei fidagarritasuna ematen dien kode irekiko biltegiratze geruza bat).
Delta lakeak dituzten datu-lakuek ACID transakzio-prozedurak ahalbidetzen dituzte ohiko datu-biltegietatik. Funtsean, lakehouse sistemak biltegiratze merke erabiltzen du datu-kopuru masiboak jatorrizko forman mantentzeko, datu-lakuen antzera.
Metadatuen geruza dendaren gainean gehitzeak datuen egitura ere ematen du eta datu biltegietan aurkitzen diren bezalako datuak kudeatzeko tresnak ahalbidetzen ditu.
Horri esker, talde askok enpresaren datu guztiak sistema bakar baten bidez atzitzea ahalbidetzen du hainbat ekimenetarako, hala nola datuen zientzia, ikaskuntza automatikoa eta negozio adimena.
Data Lakehouse-ren abantailak
- Lan-karga sorta handiagorako laguntza: analisi sofistikatuak errazteko, data lakehouse-ek erabiltzaileei zuzeneko sarbidea ematen die negozio adimenerako tresna ezagunenetako batzuetarako (Tableau, PowerBI). Gainera, datu-zientzialariek eta ikaskuntza automatikoko ingeniariek datuak erraz erabil ditzakete, data lakehouse-ek datu irekiko formatuak erabiltzen baititu (adibidez, Parquet) APIekin eta ikaskuntza automatikoko esparruekin batera, Python/R adibidez.
- Kostu-eraginkortasuna: Data lakehouse-ek objektuak biltegiratzeko soluzio merkeak erabiltzen dituzte datu-lakuen biltegiratze-ezaugarriak kostu-eraginkorra ezartzeko. Irtenbide bakarra eskainiz, datu-laku etxeek hainbat datu biltegiratzeko sistema kudeatzearekin lotutako gastuak eta denborak ere kentzen dituzte.
- Data Lakehouse diseinuak eskema eta datuen osotasuna bermatzen du, datuen segurtasun eta gobernu sistema eraginkorrak eraikitzea erraztuz. Erraztasuna datuen bertsioa, gobernantza eta segurtasuna.
- Data lakehouse-ek datuen biltegiratze plataforma bakarra eta erabilera anitzeko plataforma eskaintzen dute, konpainiaren datu-eskaera guztiei erantzuteko, eta horrek datuen bikoizketa murrizten du. Enpresa gehienek irtenbide hibrido bat aukeratzen dute datu biltegiaren eta datu-lakuaren abantailengatik. Estrategia honek, aldiz, datuen bikoizketa garestia ekar dezake.
- Formatu irekien euskarria. Formatu irekiak software-aplikazio askok erabil ditzaketen fitxategi motak dira eta horien zehaztapenak publikoki eskuragarri daude. Txostenen arabera, Lakehouses-ek Apache Parquet eta ORC (Optimized Row Columnar) bezalako fitxategi formatu arruntetan gordetzeko gai dira.
Data Lakehouse-ren mugak
Datu lakehouse baten eragozpenik handiena teknologia gaztea eta garatzen ari den oraindik da. Zalantza da ondorioz hartutako konpromisoak beteko dituen. Datu-laku etxeek ezarritako big data biltegiratze sistemekin lehiatu aurretik, urteak behar izan ditzakete.
Hala ere, berrikuntza modernoa gertatzen ari den erritmoa ikusita, zaila da esatea datu biltegiratze sistema ezberdin batek ordezkatuko ez duen.
Pros
- Plataforma batek datu guztiak ditu, hau da, ostalari-izen gutxiago mantendu behar dira.
- Atomikotasuna, koherentzia, isolamendua eta gogortasuna ez dira eragiten.
- Askoz merkeagoa da.
- Plataforma batek datu guztiak ditu, hau da, ostalari-izen gutxiago mantendu behar dira.
- Kudeatzeko erraza eta edozein arazo konpontzeko azkarra
- Erraztu kanalizazioa eraikitzea
Cons
- Baliteke denbora pixka bat behar izatea konfiguratzea.
- Gazteegia eta urrunegia da ezarritako biltegiratze sistema gisa sailkatzeko.
Data Warehouse Vs Data Lake Vs Data Lakehouse
Datu biltegiak historia luzea du korporazioen adimen, txostenak eta analitika aplikazioetan eta datu handiak biltegiratzeko lehen teknologia da.
Datu biltegiak, berriz, garestiak dira eta arazoak dituzte datu askotarikoak eta egituratu gabekoak kudeatzeko, hala nola streaming datuak. Ikaskuntza automatikoa eta datu-zientzien lan-kargarako, datu-lakuak garatu ziren datu gordinak modu ezberdinetan biltegiratze merkean kudeatzeko.
Datu-lakuak egituratu gabeko datuekin eraginkorrak badira ere, datu-biltegien ACID transakzio-gaitasunik ez dute, eta zaila da datuen koherentzia eta fidagarritasuna bermatzea.
Datuak biltegiratzeko arkitektura berrienak, "data lakehouse" izenez ezagutzen dena, datu biltegien fidagarritasuna eta koherentzia eta datu-lakuen eskuragarritasuna eta moldagarritasuna uztartzen ditu.
Ondorioa
Ondorioz, datu-laku etxe bat hutsetik eraikitzea zaila izan daiteke. Gainera, ia seguru datu irekiko lakehouse arkitektura gaitzeko diseinatutako plataforma bat erabiliko duzu.
Hori dela eta, kontuz ibili plataforma bakoitzaren ezaugarri eta ezarpen ugari ikertzeko erosketa egin aurretik. Datu-konponbide heldu eta egituratu bat bilatzen duten enpresek negozio-inteligentzian eta datu-analisiaren erabilera kasuetan arreta jarrita datu biltegi bat har dezakete kontuan.
Hala ere, datu-zientziarako eta datu-egituratu gabeko datuen ikaskuntza automatikorako lan-kargak elikatzeko datu handien irtenbide eskalagarri eta merke bat bilatzen duten enpresek kontuan hartu beharko lituzkete datu-lakuak.
Kontuan izan zure negozioak datu-biltegiak eta data lake teknologiek eman dezaketenak baino datu gehiago behar dituela edo zure datuetan analitika eta ikasketa automatikoko eragiketa sofistikatuak integratzeko irtenbide bat bilatzen ari zarela. A data Lakehouse egoeran zentzuzko aukera bat da.
Utzi erantzun bat