Mahimong medyo lisud ang pagkonsiderar sa tanan nga magamit nga serbisyo ug kapilian sa arkitektura kung maghunahuna bahin sa mga platform sa datos.
Ang usa ka platform sa datos sa negosyo sagad naglangkob sa mga bodega sa datos, mga modelo sa datos, mga lawa sa datos, ug mga taho, ang matag usa adunay piho nga katuyoan ug hugpong sa mga kahanas nga gikinahanglan. Sa kasukwahi, usa ka bag-ong disenyo nga gitawag ug data lakehouse ang mitumaw sa miaging pipila ka tuig.
Ang versatility sa data lakes ug data warehouse data management gihiusa sa usa ka rebolusyonaryong data storage architecture nga gitawag og "data lakehouse."
Atong susihon ang data lakehouse sa lawom nga bahin niini nga post, lakip ang mga sangkap niini, mga bahin, arkitektura, ug uban pang mga aspeto.
Unsa ang Data Lakehouse?
Sama sa gipasabot sa ngalan, ang usa ka data lakehouse usa ka bag-ong tipo sa arkitektura sa datos nga naghiusa sa usa ka data lake nga adunay usa ka bodega sa datos aron masulbad ang mga kakulangan sa matag usa nga gilain.
Sa esensya, ang sistema sa lakehouse naggamit sa barato nga pagtipig aron mapadayon ang daghang mga datos sa ilang orihinal nga mga porma, sama sa mga lawa sa datos. Ang pagdugang sa metadata layer sa ibabaw sa tindahan naghatag usab sa istruktura sa datos ug naghatag gahum sa mga himan sa pagdumala sa datos sama sa makita sa mga bodega sa datos.
Gitipigan niini ang daghang mga volume sa organisado, semi-structured, ug dili istruktura nga datos nga ilang makuha gikan sa lainlaing mga aplikasyon sa negosyo, sistema, ug mga gadget nga gigamit sa ilang organisasyon.
Kadaghanan sa mga panahon, ang mga lawa sa datos naggamit sa barato nga imprastraktura sa pagtipig nga adunay usa ka file application programming interface (API) aron tipigan ang datos sa bukas, generic nga mga format sa file.
Naghimo kini nga posible alang sa daghang mga koponan nga ma-access ang tanan nga datos sa kompanya pinaagi sa usa ka sistema alang sa lainlaing mga inisyatibo, sama sa siyensya sa datos, pagkat-on sa makina, ug business intelligence.
Features
- Ubos nga gasto sa pagtipig. Ang usa ka data lakehouse kinahanglan nga makahimo sa pagtipig sa datos sa dili mahal nga pagtipig sa butang, sama sa Google Cloud Pagtipig, Azure Blob Storage, Amazon Simple Storage Service, o lumad nga naggamit sa ORC o Parquet.
- Kapabilidad alang sa pag-optimize sa datos: Ang pag-optimize sa layout sa datos, pag-cache, ug pag-indeks maoy pipila ka mga pananglitan kon sa unsang paagi ang usa ka data lakehouse kinahanglang ma-optimize ang datos samtang gipadayon ang orihinal nga format sa datos.
- Usa ka layer sa transactional metadata: Sa ibabaw sa hinungdanon nga barato nga pagtipig, gitugotan niini ang mga katakus sa pagdumala sa datos nga hinungdanon alang sa pasundayag sa bodega sa datos.
- Suporta alang sa Deklarasyon nga DataFrame API: Ang kadaghanan sa mga gamit sa AI mahimong mogamit sa DataFrames aron makuha ang hilaw nga datos sa tindahan sa butang. Ang suporta alang sa Declarative DataFrame API nagdugang sa abilidad sa dinamikong pagpauswag sa presentasyon ug istruktura sa datos isip tubag sa partikular nga data science o AI nga buluhaton.
- Suporta alang sa mga transaksyon sa ACID: Ang acronym nga ACID, nga nagpasabot sa atomicity, consistency, isolation, ug durability, usa ka kritikal nga bahin sa pagdeterminar sa usa ka transaksyon ug pagsiguro sa pagkamakanunayon ug pagkakasaligan sa datos. Ang ingon nga mga transaksyon kaniadto posible lamang sa mga bodega sa datos, apan ang Ang lakehouse nagtanyag sa kapilian nga magamit kini sa mga lawa sa datos ingon man. Uban sa ubay-ubay nga mga pipeline sa datos lakip na ang dungan nga pagbasa ug pagsulat sa datos, nasulbad niini ang problema sa ubos nga kalidad sa datos sa naulahi.
Mga Elemento sa Data Lakehouse
Ang arkitektura sa data lakehouse gibahin sa duha ka punoan nga lebel sa taas nga lebel. Ang data intake sa storage layer gikontrol sa Lakehouse platform (ie, ang data lake).
Kung dili kinahanglan nga i-load ang data sa usa ka bodega sa datos o i-convert kini sa usa ka proprietary format, ang layer sa pagproseso mahimo’g makapangutana sa datos sa layer sa pagtipig direkta gamit ang lainlaing mga himan.
Unya, ang BI apps, ingon man ang AI ug ML nga mga teknolohiya, makagamit sa datos. Ang ekonomiya sa usa ka data lake gihatag pinaagi niini nga disenyo, apan tungod kay ang bisan unsang makina sa pagproseso makabasa niini nga datos, ang mga negosyo adunay kagawasan sa paghimo sa giandam nga datos nga ma-access alang sa pagtuki pinaagi sa usa ka lain-laing mga sistema. Ang pasundayag ug gasto sa processor mahimong mapauswag pinaagi sa paggamit niini nga pamaagi alang sa pagproseso ug pagtuki.
Tungod sa suporta niini alang sa mga transaksyon sa database nga nagsunod sa mosunod nga ACID (atomicity, consistency, isolation, and durability) criteria, ang arkitektura makapahimo usab sa daghang mga partido sa pag-access ug pagsulat sa datos nga dungan sulod sa sistema:
- Pagkadautan nagtumong sa kamatuoran nga ang bug-os nga transaksyon o wala niini, molampos samtang nagkompleto sa usa ka transaksyon. Sa panghitabo nga ang usa ka proseso mabalda, kini makatabang sa paglikay sa data pagkawala o korapsyon.
- Pagkauyon garantiya nga ang mga transaksyon mahitabo sa matag-an, makanunayon nga paagi. Gipadayon niini ang integridad sa datos pinaagi sa pagsiguro nga ang matag datos lehitimo subay sa gitakda nang daan nga mga lagda.
- Pagkahilayo nagsiguro nga, hangtod mahuman kini, walay transaksyon nga maapektuhan sa bisan unsang ubang transaksyon sulod sa sistema. Kini nagtugot sa daghang mga partido sa pagbasa ug pagsulat gikan sa samang sistema nga dungan nga walay pagpanghilabot sa usag usa.
- kalig-on naggarantiya nga ang mga pagbag-o sa datos sa usa ka sistema magpadayon sa paglungtad pagkahuman sa usa ka transaksyon, bisan kung adunay pagkapakyas sa sistema. Ang bisan unsang mga pagbag-o nga gidala sa usa ka transaksyon gitipigan sa file hangtod sa hangtod.
Arkitektura sa Data Lakehouse
Ang Databricks (ang innovator ug tigdesinyo sa ilang konsepto sa Delta Lake) ug AWS mao ang duha ka nag-unang tigpasiugda alang sa konsepto sa usa ka data lakehouse. Sa ingon kita magsalig sa ilang kahibalo ug panabut sa paghulagway sa laraw sa arkitektura sa mga lakehouse.
Ang usa ka sistema sa data lakehouse kasagaran adunay lima ka mga layer:
- Layup sa pagtunaw
- Layup sa pagtipig
- Metadata layer
- API layer
- Konsumo nga layer
Layup sa pagtunaw
Ang una nga layer sa sistema mao ang nagdumala sa pagkolekta sa datos gikan sa lainlaing mga gigikanan ug ipadala kini sa layer sa pagtipig. Ang layer mahimong mogamit daghang mga protocol aron makonektar sa daghang mga internal ug eksternal nga gigikanan, lakip ang paghiusa sa mga kapabilidad sa pagproseso sa batch ug streaming data, sama sa
- Mga database sa NoSQL,
- mga bahin sa file
- Mga aplikasyon sa CRM,
- website,
- Mga sensor sa IoT,
- social media,
- Software as a Service (SaaS) nga mga aplikasyon, ug
- relational database management systems, ug uban pa.
Niini nga punto, ang mga sangkap sama sa Apache Kafka alang sa data streaming ug Amazon Data Migration Service (Amazon DMS) alang sa pag-import sa datos gikan sa RDBMSs ug NoSQL database mahimong magamit.
Layup sa pagtipig
Ang arkitektura sa lakehouse gituyo aron mahimo ang pagtipig sa lainlaing mga klase sa datos ingon mga butang sa barato nga mga tindahan sa butang, sama sa AWS S3. Gamit ang bukas nga mga format sa file, ang mga himan sa kliyente makabasa niini nga mga butang direkta gikan sa tindahan.
Naghimo kini nga posible alang sa daghang mga API ug mga sangkap sa layer sa pagkonsumo nga maka-access ug magamit ang parehas nga datos. Ang metadata layer nagtipig sa mga eskema para sa structured ug semi-structured datasets aron ang mga component magamit kini sa data samtang sila nagbasa niini.
Ang Hadoop Distributed File System (HDFS) nga plataporma, pananglitan, mahimong magamit sa paghimo sa cloud repository services nga nagbahin sa computing ug storage on-premises. Ang Lakehouse haom kaayo alang niini nga mga serbisyo.
Metadata layer
Ang metadata layer mao ang sukaranan nga sangkap sa usa ka data lakehouse nga nagpalahi niini nga disenyo. Kini usa ka katalogo nga nagtanyag metadata (impormasyon bahin sa ubang mga piraso sa datos) alang sa tanan nga mga butang nga gitipigan sa linaw ug gitugotan ang mga tiggamit nga mogamit mga katakus sa pagdumala sama sa:
- Ang usa ka makanunayon nga bersyon sa database makita sa dungan nga mga transaksyon salamat sa mga transaksyon sa ACID;
- pag-cache aron i-save ang mga file sa tindahan sa butang sa panganod;
- pagdugang sa mga indeks sa istruktura sa datos gamit ang pag-indeks aron mapadali ang pagproseso sa pangutana;
- gamit ang zero-copy cloning aron madoble ang mga butang sa datos; ug
- sa pagtipig sa pipila ka mga bersyon sa data, ug uban pa, gamit ang data versioning.
Dugang pa, ang metadata layer makapahimo sa pagpatuman sa schema management, ang paggamit sa DW schema topologies sama sa star/snowflake schemas, ug ang paghatag sa data governance ug auditing capability direkta sa data lake, pagpausbaw sa integridad sa tibuok data pipeline.
Ang mga bahin alang sa ebolusyon sa schema ug pagpatuman gilakip sa pagdumala sa schema. Pinaagi sa pagsalikway sa bisan unsang sinulat nga wala makaabot sa schema sa lamesa, ang pagpatuman sa schema makapahimo sa mga tiggamit sa pagpadayon sa integridad ug kalidad sa datos.
Ang ebolusyon sa schema nagtugot sa presente nga schema sa lamesa nga mabag-o aron ma-accommodate ang nag-usab-usab nga datos. Tungod sa usa ka interface sa administrasyon sa ibabaw sa data lake, adunay usab mga posibilidad sa pag-access ug pag-awdit.
API layer
Ang usa pa ka hinungdanon nga layer sa arkitektura naa na karon, nag-host sa daghang mga API nga magamit sa tanan nga mga end user aron mahimo ang mga trabaho nga labi ka dali ug makakuha labi ka sopistikado nga estadistika.
Ang paggamit sa mga metadata API nagpasayon sa pag-ila ug pag-access sa mga butang sa datos nga gikinahanglan alang sa gihatag nga aplikasyon.
Sa termino sa mga librarya sa pagkat-on sa makina, ang uban niini, sama sa TensorFlow ug Spark MLlib, makabasa sa bukas nga mga format sa file sama sa Parquet ug direktang maka-access sa metadata layer.
Sa samang higayon, ang DataFrame APIs nagtanyag ug mas dakong kahigayonan sa pag-optimize, nga makapahimo sa mga programmer sa pag-organisar ug pag-usab sa nagkatibulaag nga datos.
Konsumo nga layer
Ang Power BI, Tableau, ug uban pang mga himan ug app gi-host sa ilawom sa layer sa pagkonsumo. Uban sa disenyo sa lakehouse, ang tanan nga metadata ug ang tanan nga datos nga gitipigan sa usa ka linaw ma-access sa mga kliyente nga apps.
Ang lakehouse mahimong gamiton sa tanang tiggamit sulod sa usa ka kompanya sa paghimo sa tanang matang sa mga operasyon sa analytics, lakip ang paghimo og business intelligence dashboards ug pagpadagan sa SQL query ug machine learning tasks.
Mga bentaha sa Data Lakehouse
Ang mga organisasyon makahimo og usa ka data lakehouse aron mahiusa ang ilang kasamtangan nga plataporma sa datos ug ma-optimize ang ilang tibuok proseso sa pagdumala sa datos. Pinaagi sa pagbungkag sa mga babag sa silo nga nagkonektar sa lainlaing mga gigikanan, ang usa ka data lakehouse mahimong makapuli sa panginahanglan alang sa lahi nga mga solusyon.
Kung itandi sa mga curated nga gigikanan sa datos, kini nga panagsama nagpatunghag labi ka epektibo nga end-to-end nga pamaagi. Kini adunay daghang mga bentaha:
- Gamay nga administrasyon: Imbes nga magkuha ug datos gikan sa hilaw nga datos ug mag-andam niini para gamiton sulod sa usa ka data warehouse, ang usa ka data lakehouse motugot sa bisan unsa nga tinubdan nga nalambigit niini nga adunay ilang datos nga magamit ug organisado alang sa paggamit.
- Dugang nga pagka-epektibo sa gasto: Ang mga lakehouse sa datos gihimo gamit ang kontemporaryong imprastraktura nga nagbahin sa pagkuwenta ug pagtipig, nga nagpasayon sa pagpalapad sa pagtipig nga walay pagdugang sa gahum sa pagkalkula. Ang paggamit lang sa barato nga pagtipig sa datos nagresulta sa pagkadako nga epektibo sa gasto.
- Mas maayo nga pagdumala sa datos: Ang mga lakehouse sa datos gihimo uban sa standardized open architecture, nga nagtugot alang sa dugang nga kontrol sa seguridad, metrics, role-based access, ug uban pang importante nga mga component sa pagdumala. Pinaagi sa paghiusa sa mga kahinguhaan ug mga tinubdan sa datos, gipasimple ug gipauswag nila ang pagdumala.
- Gipasimple nga mga sumbanan: Tungod kay ang koneksyon gipugngan pag-ayo sa 1980s, sa dihang ang mga bodega sa datos unang naugmad, ang mga lokal nga sumbanan sa schema kanunay nga gihimo sulod sa mga negosyo, bisan sa mga departamento. Gigamit sa mga lakehouse sa datos ang kamatuoran nga daghang matang sa datos karon adunay bukas nga mga sumbanan alang sa schema pinaagi sa pag-ingest sa daghang mga tinubdan sa datos nga adunay nagsapaw nga uniporme nga schema aron mapahapsay ang mga pamaagi.
Mga Disbentaha sa Data Lakehouse
Bisan pa sa tanan nga kasamok nga naglibot sa mga data lakehouse, hinungdanon nga hinumdoman nga ang ideya bag-o pa kaayo. Siguroha nga timbangtimbangon ang mga disbentaha sa dili pa mopasalig sa hingpit niining bag-ong disenyo.
- Monolithic nga istruktura: Ang disenyo sa usa ka lakehouse adunay daghang mga bentaha, apan nagpatungha usab kini og pipila ka mga problema. Ang monolitikong arkitektura kanunay nga mosangpot sa dili maayo nga serbisyo alang sa tanan nga tiggamit ug mahimong estrikto ug lisud nga mapadayon. Kasagaran, ang mga arkitekto ug tigdesinyo gusto sa usa ka mas modular nga arkitektura nga mahimo nilang ipasadya alang sa lainlaing mga kaso sa paggamit.
- Ang teknolohiya wala pa didto: ang kataposang tumong nagkinahanglan ug dakong kantidad sa pagkat-on sa makina ug artipisyal nga paniktik. Sa dili pa mahimo ang mga lakehouse ingon sa gilantaw, kini nga mga teknolohiya kinahanglan nga molambo pa.
- Dili usa ka mahinungdanong pag-uswag sa kasamtangan nga mga istruktura: Adunay daghan gihapon nga pagduhaduha kon unsa ka dako ang kantidad nga matampo sa mga lakehouse. Ang ubang mga detractors nangatarungan nga ang usa ka disenyo sa bodega sa linaw nga gipares sa angay nga awtomatiko nga kagamitan mahimong makab-ot ang parehas nga kahusayan.
Mga Hagit sa Data Lakehouse
Mahimong lisud ang pagsagop sa teknik sa data lakehouse. Tungod sa kakuti sa mga bahin nga bahin niini, dili husto ang pagtan-aw sa data lakehouse isip usa ka hingpit nga sulud nga istruktura o "usa ka plataporma alang sa tanan," alang sa usa.
Dugang pa, tungod sa nagkadaghan nga pagsagop sa mga lawa sa datos, ang mga negosyo kinahanglan nga ibalhin ang ilang mga karon nga bodega sa datos ngadto kanila, nga nagsalig lamang sa usa ka saad sa kalampusan nga wala’y gipakita nga kaayohan sa ekonomiya.
Kung adunay bisan unsang mga problema sa latency o pagkawala sa tibuuk nga proseso sa pagbalhin, mahimo’g kini mahimong mahal, makahurot sa oras, ug tingali dili luwas.
Ang mga tiggamit sa negosyo kinahanglan nga modawat sa labi ka espesyal nga mga teknolohiya, sumala sa pipila nga mga tigbaligya nga dayag o dili klaro nga gipamaligya ang mga solusyon ingon mga data lakehouse. Mahimong dili kini kanunay nga magamit sa ubang mga himan nga nalambigit sa data lake sa sentro sa sistema, nga nagdugang sa mga isyu.
Dugang pa, mahimong lisud ang paghatag sa 24/7 nga analytics samtang nagpadagan sa mga kritikal nga buluhaton sa negosyo, nga nanawagan alang sa imprastraktura nga adunay gasto nga epektibo nga scalability.
Panapos
Ang pinakabag-o nga lainlain nga mga sentro sa datos sa bag-ohay nga mga tuig mao ang data lakehouse. Naghiusa kini sa lainlaing mga natad, sama sa teknolohiya sa impormasyon, open-source software, panganod Computing, ug gipang-apod-apod nga mga protocol sa pagtipig.
Gitugotan niini ang mga negosyo nga ibutang sa sentro ang tanan nga mga klase sa datos gikan sa bisan unsang lokasyon, nga gipasimple ang pagdumala ug pagtuki. Ang Data Lakehouse usa ka medyo makaiikag nga konsepto.
Ang bisan unsang kompanya adunay usa ka hinungdanon nga kompetisyon kung kini adunay access sa usa ka all-in-one nga platform sa datos nga ingon kadali ug episyente sama sa usa ka bodega sa datos samtang ingon usab kadali sama sa usa ka lawa sa datos.
Ang ideya nag-uswag pa ug nagpabilin nga bag-o. Ingon usa ka sangputanan, mahimo’g magdugay aron mahibal-an kung ang usa ka butang mahimong kaylap o dili.
Kitang tanan kinahanglan nga mausisa bahin sa direksyon sa arkitektura sa Lakehouse.
Leave sa usa ka Reply