Is dòcha gum bi e beagan duilich beachdachadh air na seirbheisean agus na roghainnean ailtireachd a tha rim faighinn nuair a smaoinicheas tu air àrd-ùrlaran dàta.
Bidh àrd-ùrlar dàta iomairt gu tric a’ toirt a-steach stòran dàta, modalan dàta, lochan dàta, agus aithisgean, gach fear le adhbhar sònraichte agus seata de sgilean a dh’ fheumar. An coimeas ri sin, tha dealbhadh ùr ris an canar an taigh locha dàta air nochdadh anns na beagan bhliadhnaichean a dh ’fhalbh.
Tha sùbailteachd lochan dàta agus riaghladh dàta taigh-bathair dàta air an cur còmhla ann an ailtireachd stòraidh dàta rèabhlaideach ris an canar “taigh-locha dàta.”
Nì sinn sgrùdadh domhainn air taigh locha dàta san dreuchd seo, a’ toirt a-steach na pàirtean, feartan, ailtireachd agus taobhan eile.
Dè a th’ ann an Data Lakehouse?
Mar a tha an t-ainm a 'ciallachadh, is e seòrsa ùr de dh'ailtireachd dàta a th' ann an taigh-locha dàta a tha a 'ceangal loch dàta le taigh-bathair dàta gus fuasgladh fhaighinn air easbhaidhean gach fear fa leth.
Gu dearbh, bidh siostam an taigh-locha a’ cleachdadh stòradh saor gus meud mòr de dhàta a chumail anns na cruthan tùsail aca, coltach ri lochan dàta. Le bhith a’ cur an t-sreath meata-dàta air mullach a’ bhùtha cuideachd a’ toirt structar dàta agus a’ toirt cumhachd do dh’ innealan riaghlaidh dàta mar an fheadhainn a lorgar ann an taighean-bathair dàta.
Bidh e a’ stòradh na h-uiread de dhàta eagraichte, leth-structaraichte agus neo-structaraichte a gheibh iad bho na diofar thagraidhean gnìomhachais, siostaman agus innealan a thathas a’ cleachdadh air feadh na buidhne aca.
A’ mhòr-chuid den ùine, bidh lochan dàta a’ cleachdadh bun-structar stòraidh aig prìs ìosal le eadar-aghaidh prògramadh tagradh faidhle (API) gus dàta a stòradh ann an cruthan faidhle fosgailte, coitcheann.
Tha seo ga dhèanamh comasach dha mòran sgiobaidhean faighinn gu dàta a’ chompanaidh gu lèir tro aon shiostam airson grunn iomairtean, leithid saidheans dàta, ionnsachadh innealan, agus fiosrachadh gnìomhachais.
feartan
- Stòradh cosgais ìseal. Feumaidh taigh-locha dàta a bhith comasach air dàta a stòradh ann an stòradh stuthan saor, leithid Google uisge Stòradh, Azure Blob Storage, Amazon Simple Storage Service, no gu dùthchasach a’ cleachdadh ORC no Parquet.
- Comas airson optimachadh dàta: Tha optimization cruth dàta, caching, agus clàr-amais nam beagan eisimpleirean air mar a dh’ fheumas taigh-locha dàta a bhith comasach air an dàta as fheàrr a dhèanamh fhad ‘s a chumas e cruth tùsail an dàta.
- Sreath de mheata-dàta gnìomhachd: A bharrachd air an stòradh cosgais ìosal riatanach, tha seo a’ comasachadh comasan riaghlaidh dàta a tha deatamach airson coileanadh taigh-bathair dàta.
- Taic don API Dearbhach DataFrame: Faodaidh a’ mhòr-chuid de dh’ innealan AI DataFrames a chleachdadh gus dàta stòr stuthan amh fhaighinn air ais. Tha taic airson API DataFrame Dearbhach a’ meudachadh comas taisbeanadh agus structar an dàta a leasachadh gu dinamach mar fhreagairt do ghnìomh sònraichte saidheans dàta no AI.
- Taic do ghnothaichean ACID: Tha an acronaim ACID, a tha a’ seasamh airson atamachd, cunbhalachd, aonaranachd agus seasmhachd, na phàirt dheatamach ann a bhith a’ mìneachadh gnothach agus a’ dèanamh cinnteach à cunbhalachd agus earbsachd dàta. Cha robh gnothaichean leithid seo comasach roimhe seo ach ann an taighean-bathair dàta, ach bha an Tha lakehouse a’ tabhann an roghainn an cleachdadh le lochan dàta A bharrachd air. Le grunn phìoban dàta a’ toirt a-steach leughadh agus sgrìobhadh dàta co-aontach, tha seo a’ fuasgladh na duilgheadas a thaobh càileachd dàta ìosal an fheadhainn mu dheireadh.
Eileamaidean de Data Lakehouse
Tha ailtireachd an taigh-locha dàta air a roinn ann an dà phrìomh shreath aig ìre àrd. Tha in-ghabhail dàta an t-sreath stòraidh fo smachd àrd-ùrlar Lakehouse (ie, an loch dàta).
Gun a bhith feumach air an dàta a luchdachadh a-steach do thaigh-bathair dàta no a thionndadh gu cruth seilbh, faodaidh an ìre giollachd an uairsin an dàta anns an ìre stòraidh a cheasnachadh gu dìreach a ’cleachdadh raon de dh’ innealan.
An uairsin, faodaidh aplacaidean BI, a bharrachd air teicneòlasan AI agus ML, an dàta a chleachdadh. Tha eaconamachd loch dàta air a thoirt seachad leis an dealbhadh seo, ach leis gu bheil einnsean giullachd sam bith comasach air an dàta seo a leughadh, tha saorsa aig gnìomhachasan an dàta ullaichte a dhèanamh ruigsinneach airson mion-sgrùdadh le raon de shiostaman. Faodar coileanadh agus cosgais pròiseasar a leasachadh le bhith a’ cleachdadh an dòigh seo airson giullachd agus mion-sgrùdadh.
Mar thoradh air an taic a th’ aige do ghnothaichean stòr-dàta a tha a’ cumail ris na slatan-tomhais ACID (atomicity, cunbhalachd, iomallachd agus seasmhachd) a leanas, tha an ailtireachd cuideachd a’ toirt comas do mhòran phàrtaidhean faighinn gu agus dàta a sgrìobhadh aig an aon àm taobh a-staigh an t-siostam:
- Atamach a’ toirt iomradh air an fhìrinn gu bheil an dàrna cuid an gnothach slàn no gin dheth, a’ soirbheachadh fhad ‘s a tha e a’ crìochnachadh malairt. Ma thèid stad a chuir air pròiseas, cuidichidh seo le bhith a’ seachnadh call dàta no coirbeachd.
- Co-chòrdadh a’ gealltainn gun tachair gnothaichean ann an dòigh a tha dùil, cunbhalach. Bidh e a’ cumail ionracas an dàta le bhith a’ dèanamh cinnteach gu bheil gach dàta dligheach a rèir riaghailtean ro-shuidhichte.
- seasgair a’ dèanamh cinnteach, gus an tèid a chrìochnachadh, nach toir gnothach sam bith eile san t-siostam buaidh air malairt sam bith. Leigidh seo le grunn phàrtaidhean leughadh agus sgrìobhadh bhon aon shiostam aig an aon àm gun a bhith a’ cur bacadh air a chèile.
- Durability a’ gealltainn gum bi atharrachaidhean air an dàta ann an siostam fhathast ann às deidh do ghnothach a bhith deiseil, eadhon ged a dh’ fhàillig siostam. Bithear a’ cumail atharrachaidhean sam bith a thig bho ghnothach air faidhle gu bràth.
Dàta Lakehouse ailtireachd
Is e Databricks (neach-nuadhachaidh agus dealbhaiche am bun-bheachd Delta Lake) agus AWS an dà phrìomh thagraiche airson bun-bheachd taigh-locha dàta. Mar sin bidh sinn an urra ris an eòlas agus an lèirsinn aca gus cunntas a thoirt air cruth ailtireil thaighean locha.
Mar as trice bidh còig sreathan ann an siostam taigh-locha dàta:
- Sreath in-ghabhail
- Còmhdach stòraidh
- Ìre meata-dàta
- Sreath API
- Ìre caitheamh
Sreath in-ghabhail
Tha e an urra ris a’ chiad sreath den t-siostam dàta a chruinneachadh bho dhiofar thùsan agus a chuir chun ìre stòraidh. Faodaidh an còmhdach grunn phròtacalan a chleachdadh gus ceangal ri grunn stòran a-staigh agus a-muigh, a’ gabhail a-steach a bhith a’ cothlamadh comasan giullachd dàta baidse is sruthadh, leithid
- Stòr-dàta NoSQL,
- earrannan faidhle
- iarrtasan CRM,
- làraich-lìn,
- mothachairean IoT,
- meadhanan sòisealta,
- Iarrtasan Bathar-bog mar Sheirbheis (SaaS), agus
- siostaman rianachd stòr-dàta dàimh, msaa.
Aig an ìre seo, faodar co-phàirtean leithid Apache Kafka airson sruthadh dàta agus Seirbheis Imrich Dàta Amazon (Amazon DMS) airson dàta a thoirt a-steach bho stòran-dàta RDBMSs agus NoSQL.
Còmhdach stòraidh
Tha an ailtireachd taigh-locha an dùil a bhith comasach air diofar sheòrsaichean dàta a stòradh mar nithean ann an stòran stuthan saor, leithid AWS S3. A’ cleachdadh chruthan faidhle fosgailte, faodaidh na h-innealan teachdaiche na nithean sin a leughadh gu dìreach bhon stòr.
Tha seo ga dhèanamh comasach dha mòran APIan agus co-phàirtean còmhdach caitheamh an aon dàta fhaighinn agus a chleachdadh. Bidh an ìre meata-dàta a’ stòradh nan sgeamaichean airson stòran-dàta structaraichte agus leth-structaraichte gus an urrainn dha na pàirtean an cur an sàs san dàta fhad ‘s a bhios iad ga leughadh.
Faodar an àrd-ùrlar Hadoop Distributed File System (HDFS), mar eisimpleir, a chleachdadh gus seirbheisean tasgaidh neòil a thogail a bhios a ’roinn coimpiutaireachd agus stòradh san togalach. Tha Lakehouse air leth freagarrach airson na seirbheisean sin.
Ìre meata-dàta
Is e an ìre meata-dàta am pàirt bunaiteach de thaigh-locha dàta a tha a’ dèanamh eadar-dhealachadh air an dealbhadh seo. Is e aon chatalog a th’ ann a tha a’ tabhann meata-dàta (fiosrachadh mu phìosan dàta eile) airson gach nì a tha air a stòradh san loch agus a’ leigeil le luchd-cleachdaidh comasan rianachd a chleachdadh mar:
- Tha dreach cunbhalach den stòr-dàta air fhaicinn le gnothaichean co-aontach mar thoradh air gnothaichean ACID;
- caching gus faidhlichean stòr stuthan sgòthan a shàbhaladh;
- cur ri clàran-amais structar dàta a’ cleachdadh clàr-amais gus pròiseasadh cheistean a luathachadh;
- cleachdadh clonadh leth-bhreac gus nithean dàta a dhùblachadh; agus
- gus dreachan sònraichte den dàta a stòradh, msaa, cleachd dreach dàta.
A bharrachd air an sin, tha an ìre meata-dàta a’ comasachadh riaghladh sgeamaichean a chuir an gnìomh, cleachdadh topologies sgeama DW leithid sgeamaichean rionnag / maoim-sneachda, agus solar riaghladh dàta agus comas sgrùdaidh gu dìreach air an loch dàta, ag àrdachadh ionracas na loidhne-phìoban dàta gu lèir.
Tha feartan airson mean-fhàs sgeamaichean agus cur an gnìomh air an toirt a-steach do riaghladh sgeamaichean. Le bhith a’ diùltadh sgrìobhaidhean sam bith nach eil a’ coinneachadh ri sgeama a’ bhùird, tha cur an sàs sgeamaichean a’ toirt comas do luchd-cleachdaidh ionracas agus càileachd dàta a chumail suas.
Tha mean-fhàs sgeama a’ leigeil le sgeama làithreach a’ bhùird atharrachadh gus gabhail ri atharrachadh dàta. Air sgàth aon eadar-aghaidh rianachd a bharrachd air an loch dàta, tha comas ann cuideachd airson smachd air ruigsinneachd agus sgrùdadh.
Sreath API
Tha sreath deatamach eile den ailtireachd an làthair a-nis, a’ toirt aoigheachd do ghrunn APIan as urrainn don h-uile neach-cleachdaidh deireannach a chleachdadh gus obraichean a dhèanamh nas luaithe agus staitistig nas ionnsaichte fhaighinn.
Tha cleachdadh APIan meata-dàta ga dhèanamh nas fhasa na nithean dàta a tha a dhìth airson tagradh sònraichte a chomharrachadh agus faighinn thuige.
A thaobh leabharlannan ionnsachadh innealan, faodaidh cuid dhiubh, leithid TensorFlow agus Spark MLlib, cruthan faidhle fosgailte mar Parquet a leughadh agus faighinn gu dìreach air an ìre meata-dàta.
Aig an aon àm, tha DataFrame APIs a’ tabhann barrachd chothroman airson optimization, a’ toirt cothrom do luchd-prògramaidh dàta sgapte a chuir air dòigh agus atharrachadh.
Ìre caitheamh
Tha Power BI, Tableau, agus innealan is aplacaidean eile air an cumail fon ìre caitheamh. Le dealbhadh taigh-locha, tha a h-uile meata-dàta agus an dàta gu lèir a tha air a chumail ann an loch ruigsinneach dha na h-aplacaidean teachdaiche.
Faodar an taigh-locha a chleachdadh leis a h-uile neach-cleachdaidh taobh a-staigh companaidh airson a h-uile seòrsa de a dhèanamh obrachaidhean anailis, a’ gabhail a-steach cruthachadh deas-bhòrdan fiosrachaidh gnìomhachais agus ruith cheistean SQL agus gnìomhan ionnsachaidh innealan.
Buannachdan Data Lakehouse
Faodaidh buidhnean taigh-locha dàta a chruthachadh gus an àrd-ùrlar dàta gnàthach aca aonachadh agus am pròiseas riaghlaidh dàta iomlan aca a bharrachadh. Le bhith a’ toirt air falbh na bacaidhean silo a tha a’ ceangal diofar thùsan, faodaidh taigh-locha dàta àite an fheum air fuasglaidhean sònraichte.
An coimeas ri stòran dàta curanta, tha an aonachadh seo a’ toirt a-mach modh-obrach deireadh-gu-deireadh mòran nas èifeachdaiche. Tha grunn bhuannachdan aig seo:
- Nas lugha de rianachd: An àite a bhith a’ toirt a-mach dàta bho dhàta amh agus ga ullachadh airson a chleachdadh taobh a-staigh taigh-bathair dàta, tha taigh-locha dàta a’ leigeil le stòran sam bith a tha ceangailte ris an dàta aca a bhith ri fhaighinn agus air a chuir air dòigh airson a chleachdadh.
- Meudachadh cosgais-èifeachdas: Tha taighean-locha dàta air an togail a’ cleachdadh bun-structar co-aimsireil a bhios a’ roinn àireamhachd is stòradh, ga dhèanamh furasta stòradh a leudachadh gun a bhith a’ meudachadh cumhachd coimpiutaireachd. Is e dìreach cleachdadh stòradh dàta saor a thig gu scalability a tha èifeachdach a thaobh cosgais.
- Riaghladh dàta nas fheàrr: Tha taighean locha dàta air an togail le ailtireachd fosgailte àbhaisteach, a’ ceadachadh barrachd smachd air tèarainteachd, meatrach, ruigsinneachd stèidhichte air dreuchd, agus pàirtean riaghlaidh cudromach eile. Le bhith ag aonachadh ghoireasan agus stòran dàta, bidh iad a’ sìmpleachadh agus ag adhartachadh riaghladh.
- Inbhean nas sìmplidhe: Leis gu robh an ceangal air a chuingealachadh gu mòr anns na 1980n, nuair a chaidh stòran dàta a leasachadh an toiseach, chaidh inbhean sgeama ionadail a leasachadh gu tric taobh a-staigh ghnìomhachasan, eadhon roinnean. Bidh taighean-loidhnichean dàta a’ cleachdadh an fhìrinn gu bheil inbhean fosgailte aig iomadh seòrsa dàta a-nis airson sgeamaichean le bhith a’ toirt a-steach grunn stòran dàta leis an sgeama èideadh tar-tharraingeach gus modhan-obrach a sgioblachadh.
Eas-bhuannachdan bho Data Lakehouse
A dh 'aindeoin a h-uile hoopla a tha timcheall air taighean locha dàta, tha e cudromach cuimhneachadh gu bheil am beachd fhathast gu math ùr. Dèan cinnteach gun tomhas thu na h-eas-bhuannachdan mus dèan thu làn ghealladh don dealbhadh ùr seo.
- Structar monolithic: Tha dealbhadh uile-in-ghabhalach taigh-locha a 'tabhann grunn bhuannachdan, ach tha e cuideachd a' togail cuid de dhuilgheadasan. Bidh ailtireachd monolithic gu tric a’ leantainn gu droch sheirbheis don h-uile neach-cleachdaidh agus faodaidh e a bhith teann agus duilich a chumail suas. Mar as trice, is toil le ailtirean agus luchd-dealbhaidh ailtireachd nas modular as urrainn dhaibh a ghnàthachadh airson diofar chùisean cleachdaidh.
- Chan eil an teicneòlas buileach ann fhathast: tha an amas mu dheireadh a’ toirt a-steach tòrr ionnsachadh innealan agus inntleachd fuadain. Mus urrainn dha taighean-locha coileanadh mar a bhathar an dùil, feumaidh na teicneòlasan sin tuilleadh leasachaidh a dhèanamh.
- Chan e adhartas mòr a tha seo thairis air na structaran a th’ ann mar-thà: Tha mòran teagmhach fhathast mu dè an luach a bharrachd a chuireas taighean-locha ris. Tha cuid de luchd-bacaidh a’ cumail a-mach gum faod dealbhadh taigh-bathair locha le paidhir uidheamachd fèin-ghluasadach iomchaidh èifeachdas coimeasach a choileanadh.
Dùbhlain Data Lakehouse
Dh’ fhaodadh e a bhith duilich gabhail ris an innleachd taigh locha dàta. Mar thoradh air cho iom-fhillte ‘s a tha na pìosan co-phàirteach aige, tha e ceàrr a bhith a’ coimhead air an taigh-locha dàta mar structar air leth làn-chuimseach no “aon àrd-ùrlar airson a h-uile càil,” airson aon.
A bharrachd air an sin, mar thoradh air gabhail ri lochan dàta a tha a’ sìor fhàs, feumaidh gnìomhachasan na taighean-bathair dàta gnàthach aca a ghluasad thuca, an urra ri gealltanas soirbheachais a-mhàin gun bhuannachd eaconamach follaiseach.
Ma tha duilgheadasan latency no briseadh a-mach tron phròiseas gluasaid, dh’ fhaodadh seo a bhith daor, ùineail agus is dòcha cunnartach.
Feumaidh luchd-cleachdaidh gnìomhachais gabhail ri teicneòlasan air leth speisealaichte, a rèir cuid de luchd-reic a bhios gu soilleir no gu ciallach a’ margaidheachd fhuasglaidhean mar thaighean-locha dàta. Is dòcha nach obraich iad sin an-còmhnaidh le innealan eile ceangailte ris an loch dàta aig meadhan an t-siostaim, a’ cur ris na cùisean.
A bharrachd air an sin, dh’ fhaodadh gum biodh e duilich anailisean 24/7 a thoirt seachad fhad ‘s a tha thu a’ ruith eallach obrach a tha deatamach do ghnìomhachas, a tha ag iarraidh bun-structar le scalability cosg-èifeachdach.
Co-dhùnadh
Is e am measgachadh as ùire de ionadan dàta anns na bliadhnachan mu dheireadh an taigh locha dàta. Bidh e a’ fighe a-steach grunn raointean, leithid teicneòlas fiosrachaidh, bathar-bog stòr fosgailte, coimpiutaireachd sgòth, agus protocolaidhean stòraidh sgaoilte.
Leigidh e le gnìomhachasan a h-uile seòrsa dàta a stòradh sa mheadhan bho àite sam bith, a’ sìmpleachadh riaghladh agus mion-sgrùdadh. Tha Data Lakehouse na bhun-bheachd gu math inntinneach.
Bhiodh buannachd farpaiseach mòr aig companaidh sam bith nam biodh cothrom aca air àrd-ùrlar dàta uile-ann-aon a bha cho luath agus cho èifeachdach ri taigh-bathair dàta agus aig an aon àm a bhith cho sùbailte ri loch dàta.
Tha am beachd fhathast a’ leasachadh agus tha e an ìre mhath ùr. Mar thoradh air an sin, dh ’fhaodadh e beagan ùine a thoirt gus faighinn a-mach an urrainn rudeigin fàs farsaing no nach eil.
Bu chòir dhuinn uile a bhith fiosrach mun taobh a tha ailtireachd Lakehouse a’ dol.
Leave a Reply