Jista 'jkun ftit diffiċli li tikkunsidra s-servizzi kollha disponibbli u l-għażliet arkitettoniċi meta taħseb dwar pjattaformi tad-dejta.
Pjattaforma tad-dejta tal-intrapriża ħafna drabi tikkonsisti f'imħażen tad-dejta, mudelli tad-dejta, lagi tad-dejta, u rapporti, kull wieħed bi skop speċifiku u sett ta 'ħiliet meħtieġa. B'kuntrast, disinn ġdid imsejjaħ id-data lakehouse ħareġ matul l-aħħar ftit snin.
Il-versatilità tal-lagi tad-dejta u l-ġestjoni tad-dejta tal-maħżen tad-dejta huma kkombinati f’arkitettura rivoluzzjonarja tal-ħażna tad-dejta msejħa “lakehouse tad-dejta”.
Se neżaminaw id-data lakehouse fil-fond f'din il-kariga, inklużi l-komponenti, il-karatteristiċi, l-arkitettura u aspetti oħra tagħha.
X'inhu Data Lakehouse?
Kif jimplika l-isem, data lakehouse hija tip ġdid ta 'data arkitettura li tgħaqqad data lake ma' data warehouse biex issolvi n-nuqqasijiet ta 'kull separatament.
Essenzjalment, is-sistema tal-lakehouse tuża ħażna rħas biex iżżomm ammonti massivi ta 'dejta fil-forom oriġinali tagħhom, bħall-lagi tad-dejta. Iż-żieda tas-saff tal-metadejta fuq il-maħżen tagħti wkoll struttura tad-dejta u tagħti s-setgħa lill-għodod tal-ġestjoni tad-dejta bħal dawk li jinsabu fl-imħażen tad-dejta.
Taħżen il-volumi enormi ta’ data organizzata, semi-strutturata u mhux strutturata li huma jiksbu mill-applikazzjonijiet, sistemi u aġġeġġi tan-negozju differenti użati fl-organizzazzjoni tagħhom kollha.
Il-biċċa l-kbira tal-ħin, il-lagi tad-dejta jużaw infrastruttura ta 'ħażna bi prezz baxx b'interface ta' programmazzjoni tal-applikazzjoni tal-fajl (API) biex jaħżnu d-dejta f'formati ta 'fajls ġeneriċi u miftuħa.
Dan jagħmilha possibbli għal ħafna timijiet li jaċċessaw id-dejta kollha tal-kumpanija permezz ta' sistema waħda għal varjetà ta' inizjattivi, bħax-xjenza tad-dejta, tagħlim magna, u intelliġenza tan-negozju.
Karatteristiċi
- Ħażna bi prezz baxx. A lakehouse tad-data għandha tkun kapaċi taħżen data fil-ħażna ta 'oġġetti rħas, bħal Google Cloud Ħażna, Azure Blob Storage, Amazon Simple Storage Service, jew bl-użu nattiv ta' ORC jew Parquet.
- Kapaċità għall-ottimizzazzjoni tad-dejta: L-ottimizzazzjoni tat-tqassim tad-dejta, il-caching u l-indiċjar huma ftit eżempji ta’ kif data lakehouse trid tkun kapaċi tottimizza d-dejta filwaqt li żżomm il-format oriġinali tad-dejta.
- Saff ta’ metadejta transazzjonali: Minbarra l-ħażna essenzjali bi prezz baxx, dan jippermetti kapaċitajiet ta’ ġestjoni tad-dejta kruċjali għall-prestazzjoni tal-maħżen tad-dejta.
- Appoġġ għall-API Declarative DataFrame: Il-maġġoranza tal-għodod tal-AI jistgħu jużaw DataFrames biex jirkupraw data mhux maħduma tal-maħżen tal-oġġetti. L-appoġġ għal Declarative DataFrame API iżid il-ħila li ttejjeb b'mod dinamiku l-preżentazzjoni u l-istruttura tad-dejta b'reazzjoni għal xjenza tad-dejta partikolari jew kompitu AI.
- Appoġġ għal tranżazzjonijiet ACID: L-akronimu ACID, li jirrappreżenta atomiċità, konsistenza, iżolament u durabilità, huwa komponent kritiku fid-definizzjoni ta 'tranżazzjoni u jiżgura l-konsistenza u l-affidabbiltà tad-dejta. Tranżazzjonijiet bħal dawn qabel kienu possibbli biss fl-imħażen tad-dejta, iżda l- lakehouse toffri l-għażla li tutilizzahom ma 'lagi tad-dejta kif ukoll. B'diversi pipelines tad-dejta inklużi l-qari u l-kitba tad-dejta konkorrenti, dan isolvi l-problema ta 'kwalità baxxa tad-dejta ta' dan tal-aħħar.
Elementi tad-Data Lakehouse
L-arkitettura tad-data lakehouse hija maqsuma f'żewġ livelli ewlenin f'livell għoli. It-teħid tad-dejta tas-saff tal-ħażna huwa kkontrollat mill-pjattaforma Lakehouse (jiġifieri, il-lag tad-dejta).
Mingħajr ma jkollu bżonn jgħabbi d-dejta f'maħżen tad-dejta jew jaqilbuha f'format proprjetarju, is-saff tal-ipproċessar imbagħad ikun jista 'jitfittex id-dejta fis-saff tal-ħażna direttament billi juża firxa ta' għodod.
Imbagħad, l-apps BI, kif ukoll it-teknoloġiji AI u ML, jistgħu jużaw id-dejta. L-ekonomija ta 'lag tad-dejta hija pprovduta minn dan id-disinn, iżda minħabba li kwalunkwe magna tal-ipproċessar tista' taqra din id-dejta, in-negozji għandhom il-libertà li jagħmlu d-dejta ppreparata aċċessibbli għall-analiżi minn firxa ta 'sistemi. Il-prestazzjoni u l-ispiża tal-proċessur jistgħu jittejbu t-tnejn bl-użu ta 'dan il-metodu għall-ipproċessar u l-analiżi.
Minħabba l-appoġġ tagħha għat-tranżazzjonijiet tad-database li jaderixxu mal-kriterji ACID (atomiċità, konsistenza, iżolament u durabilità) li ġejjin, l-arkitettura tippermetti wkoll lil ħafna partijiet biex jaċċessaw u jiktbu data simultanjament fi ħdan is-sistema:
- Atomiċità tirreferi għall-fatt li jew it-tranżazzjoni sħiħa jew l-ebda waħda minnha, tirnexxi waqt li titlesta tranżazzjoni. Fil-każ li proċess jiġi interrott, dan jgħin biex jiġi evitat it-telf tad-dejta jew il-korruzzjoni.
- konsistenza tranżazzjonijiet ta' garanziji jseħħu b'mod prevedibbli u konsistenti. Hija żżomm l-integrità tad-data billi tiżgura li kull data hija leġittima skont regoli predeterminati.
- Iżolament jiżgura li, sakemm tkun lesta, l-ebda tranżazzjoni ma tkun tista' tiġi affettwata minn kwalunkwe tranżazzjoni oħra fis-sistema. Dan jippermetti lil bosta partijiet jaqraw u jiktbu mill-istess sistema simultanjament mingħajr ma jinterferixxu ma' xulxin.
- durabilità jiggarantixxi li l-bidliet fid-dejta f'sistema jibqgħu jeżistu wara li titlesta tranżazzjoni, anke fil-każ ta' ħsara fis-sistema. Kwalunkwe alterazzjoni miġjuba minn tranżazzjoni tinżamm fil-fajl għal dejjem.
Data Lakehouse Arkitettura
Databricks (l-innovatur u d-disinjatur tal-kunċett Delta Lake tagħhom) u AWS huma ż-żewġ avukati ewlenin għall-kunċett ta 'data lakehouse. Għalhekk ser niddependu fuq l-għarfien u l-għarfien tagħhom biex niddeskrivu t-tqassim arkitettoniku tal-lakehouses.
Sistema tad-data lakehouse tipikament ikollha ħames saffi:
- Saff ta' inġestjoni
- Saff tal-ħażna
- Saff ta' metadata
- Saff API
- Saff tal-konsum
Saff ta' inġestjoni
L-ewwel saff tas-sistema huwa inkarigat mill-ġbir tad-dejta minn diversi sorsi u jibgħatha lis-saff tal-ħażna. Is-saff jista 'jutilizza diversi protokolli biex jgħaqqad ma' bosta sorsi interni u esterni, inkluż il-kombinazzjoni tal-kapaċitajiet tal-ipproċessar tad-dejta ta 'lott u streaming, bħal
- databases NoSQL,
- ishma tal-fajls
- applikazzjonijiet CRM,
- websajts,
- Sensuri IoT,
- midja soċjali,
- Software bħala Servizz (SaaS), applikazzjonijiet, u
- sistemi ta’ ġestjoni tad-database relazzjonali, eċċ.
F'dan il-punt, komponenti bħal Apache Kafka għall-istriming tad-dejta u Amazon Data Migration Service (Amazon DMS) għall-importazzjoni tad-dejta minn RDBMSs u databases NoSQL jistgħu jiġu impjegati.
Saff tal-ħażna
L-arkitettura tal-lakehouse hija maħsuba biex tippermetti l-ħażna ta 'diversi tipi ta' dejta bħala oġġetti fi ħwienet tal-oġġetti rħas, bħal AWS S3. Bl-użu ta 'formati ta' fajl miftuħa, l-għodod tal-klijent jistgħu mbagħad jaqraw dawn l-oġġetti direttament mill-maħżen.
Dan jagħmilha possibbli għal ħafna APIs u komponenti tas-saff tal-konsum li jaċċessaw u jutilizzaw l-istess data. Is-saff tal-metadejta jaħżen l-iskemi għal settijiet tad-dejta strutturati u semi-strutturati sabiex il-komponenti jkunu jistgħu japplikawhom għad-dejta hekk kif jaqrawha.
Il-pjattaforma Hadoop Distributed File System (HDFS), pereżempju, tista 'tintuża biex jinbnew servizzi ta' repożitorju tas-sħab li jaqsmu l-kompjuters u l-ħażna fuq il-post. Lakehouse hija idealment adattata għal dawn is-servizzi.
Saff ta' metadata
Is-saff ta 'metadata huwa l-komponent fundamentali ta' data lakehouse li jiddistingwi dan id-disinn. Huwa katalgu wieħed li joffri metadejta (informazzjoni dwar biċċiet oħra tad-dejta) għall-oġġetti kollha maħżuna fil-lag u jippermetti lill-utenti jimpjegaw kapaċitajiet ta 'amministrazzjoni bħal:
- Verżjoni konsistenti tad-database tidher minn tranżazzjonijiet konkorrenti grazzi għal tranżazzjonijiet ACID;
- caching biex tissejvja l-fajls tal-maħżen tal-oġġetti tas-sħab;
- iż-żieda ta' indiċi tal-istruttura tad-dejta bl-użu tal-indiċjar biex jitħaffef l-ipproċessar tal-mistoqsijiet;
- l-użu ta' klonazzjoni mingħajr kopja biex jiġu duplikati oġġetti tad-dejta; u
- biex taħżen ċerti verżjonijiet tad-dejta, eċċ., uża l-verżjoni tad-dejta.
Barra minn hekk, is-saff tal-metadejta jippermetti l-implimentazzjoni tal-ġestjoni tal-iskema, l-użu ta 'topoloġiji ta' skema DW bħal skemi ta 'stilla/snowflake, u l-provvista ta' governanza tad-dejta u kapaċità ta 'awditjar direttament fuq il-lag tad-dejta, u jsaħħaħ l-integrità tal-pipeline kollu tad-dejta.
Karatteristiċi għall-evoluzzjoni u l-infurzar tal-skema huma inklużi fil-ġestjoni tal-iskema. Billi tiċħad kwalunkwe kitba li ma tissodisfax l-iskema tat-tabella, l-infurzar tal-skema jippermetti lill-utenti jżommu l-integrità u l-kwalità tad-dejta.
L-evoluzzjoni tal-iskema tippermetti li l-iskema preżenti tat-tabella tiġi modifikata biex takkomoda dejta li qed tinbidel. Minħabba interface ta 'amministrazzjoni waħda fuq il-lag tad-dejta, hemm ukoll possibbiltajiet ta' kontroll ta 'aċċess u verifika.
Saff API
Saff kruċjali ieħor tal-arkitettura issa huwa preżenti, li jospita numru ta 'APIs li l-utenti finali kollha jistgħu jużaw biex iwettqu xogħlijiet aktar malajr u jiksbu statistika aktar sofistikata.
L-użu tal-APIs tal-metadejta jagħmilha aktar faċli biex jiġu identifikati u aċċessati l-oġġetti tad-dejta meħtieġa għal applikazzjoni partikolari.
F'termini ta 'libreriji ta' tagħlim bil-magni, xi wħud minnhom, bħal TensorFlow u Spark MLlib, jistgħu jaqraw formati ta 'fajls miftuħa bħal Parquet u jaċċessaw direttament is-saff tal-metadata.
Fl-istess ħin, l-APIs tad-DataFrame joffru opportunitajiet akbar għall-ottimizzazzjoni, li jippermettu lill-programmaturi jorganizzaw u jibdlu dejta mxerrda.
Saff tal-konsum
Power BI, Tableau, u għodod u apps oħra huma ospitati taħt is-saff tal-konsum. Bid-disinn tal-lakehouse, il-metadejta kollha u d-dejta kollha li tinżamm f'lag huma aċċessibbli għall-apps tal-klijenti.
Il-lakehouse tista 'tintuża mill-utenti kollha fi ħdan kumpanija biex twettaq kull tip ta' operazzjonijiet analitiċi, inkluż il-ħolqien ta' dashboards tal-intelliġenza tan-negozju u t-tmexxija ta' mistoqsijiet SQL u kompiti ta' tagħlim tal-magni.
Vantaġġi tad-Data Lakehouse
L-organizzazzjonijiet jistgħu joħolqu data lakehouse biex jgħaqqdu l-pjattaforma tad-data attwali tagħhom u jottimizzaw il-proċess kollu tal-ġestjoni tad-data tagħhom. Billi jiżżarma l-ostakli tas-silo li jgħaqqdu diversi sorsi, data lakehouse tista 'tissostitwixxi l-ħtieġa għal soluzzjonijiet distinti.
Meta mqabbla ma 'sorsi ta' dejta kkurati, din l-integrazzjoni tipproduċi proċedura minn tarf sa tarf ferm aktar effettiva. Dan għandu diversi vantaġġi:
- Inqas amministrazzjoni: Minflok ma tiġi estratta dejta minn dejta mhux ipproċessata u tippreparaha għall-użu fi ħdan maħżen tad-dejta, data lakehouse tippermetti li kwalunkwe sors konness magħha jkollu d-dejta tagħhom disponibbli u organizzata għall-utilizzazzjoni.
- Żieda fil-kost-effettività: Il-lakehouses tad-dejta huma mibnija bl-użu ta 'infrastruttura kontemporanja li taqsam il-komputazzjoni u l-ħażna, u tagħmilha sempliċi biex tespandi l-ħażna mingħajr ma tiżdied is-saħħa tal-komputazzjoni. Biss l-użu ta 'ħażna ta' data rħas jirriżulta fi skalabbiltà li hija kosteffettiva.
- Governanza tad-dejta aħjar: Il-lakehouses tad-dejta huma mibnija b'arkitettura miftuħa standardizzata, li tippermetti aktar kontroll fuq is-sigurtà, il-metriċi, l-aċċess ibbażat fuq ir-rwoli, u komponenti importanti oħra ta 'ġestjoni. Billi jgħaqqdu r-riżorsi u s-sorsi tad-dejta, jissimplifikaw u jtejbu l-governanza.
- Standards simplifikati: Peress li l-konnessjoni kienet ristretta ħafna fis-snin tmenin, meta l-imħażen tad-dejta ġew żviluppati għall-ewwel darba, l-istandards ta 'skema lokalizzati ġew żviluppati ta' spiss ġewwa n-negozji, anke dipartimenti. Data lakehouses jagħmlu użu mill-fatt li ħafna tipi ta 'data issa għandhom standards miftuħa għall-skema billi jinġerixxu sorsi ta' data numerużi bl-iskema uniformi li jikkoinċidu biex jissimplifikaw il-proċeduri.
Żvantaġġi ta 'Data Lakehouse
Minkejja l-ċaqliq kollu madwar id-data lakehouses, huwa importanti li wieħed iżomm f'moħħu li l-idea għadha ġdida ħafna. Kun żgur li tiżen l-iżvantaġġi qabel ma timpenja ruħha bis-sħiħ għal dan id-disinn il-ġdid.
- Struttura monolitika: Id-disinn li jinkludi kollox ta 'lakehouse joffri diversi vantaġġi, iżda jqajjem ukoll xi problemi. L-arkitettura monolitika ħafna drabi twassal għal servizz fqir għall-utenti kollha u tista 'tkun riġida u diffiċli biex tinżamm. Tipikament, periti u disinjaturi jħobbu arkitettura aktar modulari li jistgħu jippersonalizzaw għal diversi każijiet ta 'użu.
- It-teknoloġija għadha mhix hemm: l-għan finali jinvolvi ammont sinifikanti ta 'tagħlim tal-magni u intelliġenza artifiċjali. Qabel ma l-lakehouses ikunu jistgħu jaħdmu kif previst, dawn it-teknoloġiji jridu jiżviluppaw aktar.
- Mhux avvanz sinifikanti fuq strutturi eżistenti: Għad hemm xettiċiżmu konsiderevoli dwar kemm aktar valur se jikkontribwixxu fil-fatt il-lakehouses. Xi detraturi jsostnu li disinn tal-lag-maħżen flimkien ma 'tagħmir awtomatizzat xieraq jista' jikseb effiċjenza komparabbli.
Sfidi tad-Data Lakehouse
Jista 'jkun diffiċli li tiġi adottata t-teknika tad-data lakehouse. Minħabba l-kumplessità tal-biċċiet tal-komponenti tagħha, huwa żbaljat li tara d-data lakehouse bħala struttura ideali li tinkludi kollox jew "pjattaforma waħda għal kollox", għal waħda.
Barra minn hekk, minħabba l-adozzjoni dejjem akbar ta 'lagi tad-dejta, in-negozji se jkollhom iċaqilqu l-imħażen tad-dejta attwali tagħhom lejhom, billi jiddependu biss fuq wegħda ta' suċċess mingħajr ebda benefiċċju ekonomiku li jidher.
Jekk ikun hemm xi problemi ta' latenza jew qtugħ matul il-proċess tat-trasferiment, dan jista' jispiċċa jkun għali, jieħu ħafna ħin, u forsi mhux sikur.
L-utenti tan-negozju għandhom iħaddnu teknoloġiji speċjalizzati ħafna, skont ċerti bejjiegħa li espressament jew impliċitament jikkummerċjalizzaw soluzzjonijiet bħala data lakehouses. Dawn jistgħu mhux dejjem jaħdmu ma 'għodod oħra marbuta mal-lag tad-dejta fiċ-ċentru tas-sistema, u jżidu l-kwistjonijiet.
Barra minn hekk, jista 'jkun diffiċli li tissupplixxi analiżi 24/7 waqt li tmexxi xogħolijiet kritiċi għan-negozju, li titlob infrastruttura bi skalabbiltà kosteffettiva.
konklużjoni
L-aktar varjetà ġdida ta 'ċentri tad-dejta f'dawn l-aħħar snin hija d-data lakehouse. Tintegra varjetà ta' oqsma, bħat-teknoloġija tal-informazzjoni, softwer open-source, sħaba computing, u protokolli ta' ħażna mqassma.
Jippermetti lin-negozji jaħżnu ċentralment it-tipi kollha tad-dejta minn kwalunkwe post, u jissimplifika l-ġestjoni u l-analiżi. Data Lakehouse huwa kunċett pjuttost intriganti.
Kwalunkwe ditta jkollha vantaġġ kompetittiv sinifikanti jekk ikollha aċċess għal pjattaforma tad-dejta kollha f'wieħed li tkun malajr u effiċjenti daqs maħżen tad-dejta filwaqt li tkun flessibbli daqs lag tad-dejta.
L-idea għadha qed tiżviluppa u għadha relattivament ġdida. Bħala riżultat, jista 'jieħu xi żmien biex jiġi determinat jekk xi ħaġa tistax tinfirex jew le.
Ilkoll għandna nkunu kurjużi dwar id-direzzjoni li sejra l-arkitettura ta' Lakehouse.
Ħalli Irrispondi