Li ta ka yon ti kras difisil yo konsidere tout sèvis ki disponib ak opsyon achitekti lè w ap panse sou platfòm done yo.
Yon platfòm done antrepriz souvan konsiste de depo done, modèl done, lak done, ak rapò, yo chak gen yon objektif espesifik ak yon seri ladrès ki nesesè. Kontrèman, yon nouvo konsepsyon ki rele data lakehouse te parèt pandan dènye ane yo.
Adaptabilite nan lak done ak jesyon done depo done yo konbine nan yon achitekti revolisyonè depo done yo rele yon "lakehouse done."
Nou pral egzamine done lakehouse an pwofondè nan pòs sa a, ki gen ladan eleman li yo, karakteristik, achitekti, ak lòt aspè.
Ki sa ki Data Lakehouse?
Kòm non an implique, yon lakehouse done se yon nouvo kalite achitekti done ki konbine yon lak done ak yon depo done pou rezoud enpèfeksyon yo nan chak separeman.
Nan sans, sistèm lakehouse la itilize depo ki pa chè pou kenbe gwo kantite done nan fòm orijinal yo, menm jan ak lak done yo. Ajoute kouch metadata sou tèt magazen an tou bay estrikti done ak pèmèt zouti jesyon done tankou sa yo jwenn nan depo done.
Li estoke volim menmen done òganize, semi-estriktire ak san estrikti ke yo jwenn nan diferan aplikasyon biznis, sistèm, ak gadjèt yo itilize nan tout òganizasyon yo.
Pifò nan tan an, lak done yo itilize enfrastrikti depo a pri ki ba ak yon koòdone pwogramasyon aplikasyon pou fichye (API) pou estoke done nan fòma fichye jenerik ouvè.
Sa fè li posib pou anpil ekip jwenn aksè nan tout done konpayi yo atravè yon sèl sistèm pou yon varyete inisyativ, tankou syans done, aprantisaj machin, ak entèlijans biznis.
karakteristik
- Depo pri ki ba. Yon lakehouse done dwe kapab estoke done nan depo objè ki pa chè, tankou Google nwaj Depo, Azure Blob Depo, Amazon Senp Depo Sèvis, oswa nativman lè l sèvi avèk ORC oswa Partez.
- Kapasite pou optimize done: Optimizasyon done yo, kachèt, ak endèks se kèk egzanp sou fason yon lakehouse done dwe kapab optimize done yo pandan y ap kenbe fòma orijinal done yo.
- Yon kouch metadata tranzaksyon: Anplis depo esansyèl a pri ki ba, sa pèmèt kapasite jesyon done enpòtan anpil pou pèfòmans depo done.
- Sipò pou API Declarative DataFrame: Majorite zouti AI ka itilize DataFrames pou rekipere done magazen objè anvan tout koreksyon. Sipò pou Declarative DataFrame API ogmante kapasite pou amelyore dinamik prezantasyon ak estrikti done yo an repons a syans done patikilye oswa travay AI.
- Sipò pou tranzaksyon ACID: Akwonim ACID, ki vle di atomite, konsistans, izolasyon, ak rezistans, se yon eleman enpòtan nan defini yon tranzaksyon epi asire konsistans ak fyab done yo. Tranzaksyon sa yo te deja posib sèlman nan depo done, men an Lakehouse ofri opsyon pou itilize yo ak lak done yo osi byen. Avèk plizyè tiyo done ki gen ladan done konkouran li ak ekri, sa a rezoud pwoblèm nan nan bon jan kalite done ki ba nan lèt la.
Eleman done Lakehouse
Achitekti done lakehouse divize an de nivo prensipal nan yon nivo segondè. Konsomasyon done kouch depo a kontwole pa platfòm Lakehouse (sa vle di, lak done a).
San yo pa bezwen chaje done yo nan yon depo done oswa konvèti li nan yon fòma propriétaires, kouch nan pwosesis se Lè sa a, kapab rechèch done yo nan kouch nan depo dirèkteman lè l sèvi avèk yon seri zouti.
Lè sa a, aplikasyon BI, osi byen ke teknoloji AI ak ML, ka itilize done yo. Ekonomi yon lak done yo bay nan konsepsyon sa a, men paske nenpòt motè pwosesis ka li done sa yo, biznis yo gen libète pou fè done yo prepare aksesib pou analiz pa yon seri de sistèm. Pèfòmans processeur ak pri ka tou de amelyore lè w itilize metòd sa a pou pwosesis ak analiz.
Akòz sipò li pou tranzaksyon baz done ki respekte kritè ACID sa yo (atomisite, konsistans, izolasyon, ak rezistans), achitekti a pèmèt tou anpil pati jwenn aksè ak ekri done ansanm nan sistèm nan:
- Atomisite refere a lefèt ke swa tranzaksyon an konplè oswa okenn nan li, reyisi pandan y ap ranpli yon tranzaksyon. Nan ka yon pwosesis entèwonp, sa ede evite pèt done oswa koripsyon.
- konsistans garanti tranzaksyon yo fèt nan yon fason previzib, konsistan. Li kenbe entegrite done yo nan asire ke chak done yo lejitim an akò ak règ predetèmine.
- Izolasyon asire ke, jiska li fini, okenn lòt tranzaksyon pa ka afekte okenn lòt tranzaksyon nan sistèm nan. Sa a pèmèt anpil pati yo li ak ekri nan menm sistèm nan ansanm san yo pa entèfere youn ak lòt.
- durability garanti ke chanjman nan done yo nan yon sistèm kontinye egziste apre yon tranzaksyon fini, menm nan ka yon echèk sistèm. Nenpòt chanjman ki fèt pa yon tranzaksyon yo kenbe nan dosye pou tout tan.
Done Lakehouse Achitekti
Databricks (inovatè ak designer konsèp Delta Lake yo) ak AWS se de defansè prensipal yo pou konsèp yon lakehouse done. Se konsa, nou pral konte sou konesans yo ak insight yo dekri layout achitekti nan lakehouses.
Yon sistèm done lakehouse pral anjeneral gen senk kouch:
- Kouch enjèstyon
- Kouch depo
- Kouch metadata
- Kouch API
- Kouch konsomasyon
Kouch enjèstyon
Premye kouch sistèm nan se an chaj nan kolekte done ki soti nan divès sous epi voye li nan kouch nan depo. Kouch la ka itilize plizyè pwotokòl pou konekte avèk anpil sous entèn ak ekstèn, ki gen ladan konbine kapasite pwosesis done pakèt ak difizyon, tankou
- baz done NoSQL,
- pataje dosye
- aplikasyon CRM,
- sit entènèt,
- detèktè IoT,
- medya sosyal,
- Aplikasyon lojisyèl kòm yon sèvis (SaaS), ak
- sistèm jesyon baz done relasyon, elatriye.
Nan pwen sa a, konpozan tankou Apache Kafka pou difizyon done ak Amazon Data Migration Service (Amazon DMS) pou enpòte done ki soti nan RDBMS ak baz done NoSQL yo ka travay.
Kouch depo
Achitekti lakehouse la vle di pou pèmèt depo divès kalite done kòm objè nan magazen objè ki pa chè, tankou AWS S3. Lè l sèvi avèk fòma dosye louvri, zouti kliyan yo ka li atik sa yo dirèkteman nan magazen an.
Sa fè li posib pou anpil API ak konpozan kouch konsomasyon jwenn aksè ak itilize menm done yo. Kouch metadata a estoke chema yo pou seri done estriktire ak semi-estriktire pou konpozan yo ka aplike yo nan done yo pandan y ap li yo.
Pou egzanp, platfòm Hadoop Distributed File System (HDFS) ka itilize pou konstwi sèvis depo nwaj ki divize enfòmatik ak depo sou lokal. Lakehouse se ideyalman adapte pou sèvis sa yo.
Kouch metadata
Kouch metadata a se eleman fondamantal nan yon lakehouse done ki distenge konsepsyon sa a. Li se yon sèl katalòg ki ofri metadata (enfòmasyon sou lòt moso done) pou tout atik ki estoke nan lak la epi ki pèmèt itilizatè yo anplwaye kapasite administrasyon tankou:
- Yon vèsyon ki konsistan nan baz done a wè pa tranzaksyon konkouran gras ak tranzaksyon ACID;
- kachèt pou konsève pou fichye magazen objè nwaj yo;
- ajoute endèks estrikti done lè l sèvi avèk Indexing akselere pwosesis demann;
- itilize klonaj zewo-kopi pou kopi done objè yo; epi
- pou estoke sèten vèsyon done yo, elatriye, sèvi ak vèsyon done.
Anplis de sa, kouch metadata a pèmèt aplikasyon jesyon chema, itilizasyon topoloji chema DW tankou chema etwal/floko nèj, ak dispozisyon pou gouvènans done ak kapasite odit dirèkteman sou lak done a, amelyore entegrite tout tiyo done a.
Karakteristik pou evolisyon chema ak ranfòsman yo enkli nan jesyon chema. Lè yo rejte nenpòt ekriti ki pa satisfè chema tablo a, ranfòsman chema pèmèt itilizatè yo kenbe entegrite ak bon jan kalite done yo.
Evolisyon chema pèmèt chema prezan tab la modifye pou akomode done ki chanje. Akòz yon sèl koòdone administrasyon sou tèt done lak la, gen tou kontwòl aksè ak posiblite odit.
Kouch API
Yon lòt kouch enpòtan nan achitekti a prezan kounye a, li òganize yon kantite API ke tout itilizatè final yo ka itilize pou fè travay pi vit epi jwenn estatistik pi sofistike.
Itilizasyon API metadata fè li pi fasil pou idantifye ak jwenn aksè nan atik done ki nesesè pou yon aplikasyon bay yo.
An tèm de bibliyotèk aprantisaj machin, kèk nan yo, tankou TensorFlow ak Spark MLlib, ka li fòma dosye louvri tankou Parquet ak aksè dirèkteman nan kouch metadata a.
An menm tan an, API DataFrame ofri pi gwo chans pou optimize, sa ki pèmèt pwogramè yo òganize ak chanje done dispèse.
Kouch konsomasyon
Power BI, Tableau, ak lòt zouti ak aplikasyon yo òganize anba kouch konsomasyon an. Avèk konsepsyon lakehouse, tout metadata yo ak tout done yo kenbe nan yon lak yo aksesib a aplikasyon kliyan yo.
Lakehouse a ka itilize pa tout itilizatè nan yon konpayi fè tout kalite operasyon analytics, ki gen ladan kreye tablodbò entèlijans biznis ak kouri demann SQL ak travay aprantisaj machin.
Avantaj done Lakehouse
Òganizasyon yo ka kreye yon lakehouse done pou inifye platfòm done aktyèl yo epi optimize tout pwosesis jesyon done yo. Lè demantèlman baryè silo ki konekte plizyè sous, yon lakehouse done ka ranplase nesesite pou solisyon diferan.
Konpare ak sous done seleksyone, entegrasyon sa a pwodui yon pwosedi fen-a-fen siyifikativman pi efikas. Sa a gen plizyè avantaj:
- Mwens administrasyon: Olye ke ekstrè done ki soti nan done anvan tout koreksyon epi prepare yo pou itilize nan yon depo done, yon lakehouse done pèmèt nenpòt sous ki lye ak li yo gen done yo disponib epi òganize pou itilizasyon.
- Ogmantasyon pri-efikasite: Done lakehouse yo konstwi lè l sèvi avèk enfrastrikti kontanporen ki divize kalkil ak depo, sa ki fè li senp pou elaji depo san yo pa ogmante pouvwa kalkil. Jis itilizasyon depo done ki pa chè rezilta yo nan évolutivité ki pri-la efikas.
- Pi bon gouvènans done: Done lakehouses konstwi ak achitekti ofisyèl ki louvri, sa ki pèmèt plis kontwòl sou sekirite, mezi, aksè ki baze sou wòl, ak lòt eleman jesyon enpòtan. Lè yo inifye resous ak sous done yo, yo senplifye ak amelyore gouvènans.
- Estanda senplifye: Piske koneksyon an te gen anpil restriksyon nan ane 1980 yo, lè depo done yo te premye devlope, estanda chema lokalize yo te devlope souvan andedan biznis yo, menm depatman yo. Data lakehouses sèvi ak lefèt ke anpil kalite done kounye a gen estanda ouvè pou chema lè yo enjere anpil sous done ak sipèpoze inifòm chema pou rasyonalize pwosedi yo.
Dezavantaj done Lakehouse
Malgre tout hoopla ki antoure done lakehouses, li enpòtan pou kenbe nan tèt ou ke lide a se toujou trè nouvo. Asire ou ke ou peze dezavantaj yo anvan ou komèt konplètman nan nouvo konsepsyon sa a.
- Estrikti monolitik: Konsepsyon tout-enklizif yon lakehouse ofri plizyè avantaj, men li tou soulve kèk pwoblèm. Achitekti monolitik souvan mennen nan sèvis pòv pou tout itilizatè yo epi yo ka rijid ak difisil pou kenbe. Tipikman, achitèk ak konsèpteur renmen yon achitekti plis modilè ke yo ka Customize pou plizyè ka itilize.
- Teknoloji a pa byen la ankò: objektif final la enplike yon kantite siyifikatif nan aprantisaj machin ak entèlijans atifisyèl. Anvan lakehouses ka fè jan yo te anvizaje, teknoloji sa yo dwe devlope pi lwen.
- Pa yon avansman enpòtan sou estrikti ki egziste deja: Genyen toujou konsiderab dout sou ki kantite plis valè lakehouses pral aktyèlman kontribye. Gen kèk opozan ki fè konnen yon konsepsyon lak-depo ki asosye ak ekipman otomatik ki apwopriye a ka reyalize efikasite konparab.
Defi done Lakehouse
Li ta ka difisil pou adopte teknik done lakehouse la. Akòz konplike moso eleman li yo, li pa kòrèk pou wè done lakehouse la kòm yon estrikti ideyal ki konplè oswa "yon platfòm pou tout bagay," pou youn.
Anplis de sa, akòz adopsyon ogmante nan lak done, biznis yo pral oblije deplase depo done aktyèl yo nan yo, konte sèlman sou yon pwomès siksè san okenn avantaj ekonomik demontre.
Si gen nenpòt pwoblèm latansi oswa pann pandan tout pwosesis transfè a, sa ka fini chè, pran tan, e petèt danjere.
Itilizatè biznis yo dwe anbrase teknoloji trè espesyalize, dapre sèten fournisseurs ki ekspreseman oswa implicitman mache solisyon kòm done lakehouses. Sa yo ta ka pa toujou travay ak lòt zouti ki lye nan lak la done nan sant la nan sistèm nan, ajoute nan pwoblèm yo.
Anplis de sa, li ta ka difisil pou bay analiz 24/7 pandan w ap kouri chaj travay ki enpòtan pou biznis, ki mande pou enfrastrikti ak évolutivité pri-efikas.
konklizyon
Dernye varyete sant done nan dènye ane yo se data lakehouse. Li entegre yon varyete domèn, tankou teknoloji enfòmasyon, lojisyèl sous louvri, nwaj informatique, ak pwotokòl depo distribye.
Li pèmèt biznis yo sere tout kalite done nan nenpòt kote, senplifye jesyon ak analiz. Data Lakehouse se yon konsèp trè curieux.
Nenpòt konpayi ta gen yon avantaj konpetitif enpòtan si li te gen aksè a yon platfòm done tout-an-yon ki te rapid ak efikas tankou yon depo done pandan y ap tou fleksib tankou yon lak done.
Lide a toujou ap devlope epi li rete relativman nouvo. Kòm yon rezilta, li ka pran kèk tan pou detèmine si yon bagay ka vin gaye toupatou.
Nou tout ta dwe kirye sou direksyon achitekti Lakehouse ap dirije.
Kite yon Reply