Clár na nÁbhar[Folaigh][Taispeáin]
D'fhéadfadh sé a bheith beagán deacair na seirbhísí agus na roghanna ailtireachta go léir atá ar fáil a mheas agus tú ag smaoineamh ar ardáin sonraí.
Is minic a bhíonn ardán sonraí fiontair comhdhéanta de stórais sonraí, samhlacha sonraí, lochanna sonraí, agus tuarascálacha, gach ceann acu le sainchuspóir agus sraith scileanna a theastaíonn. I gcodarsnacht leis sin, tá dearadh nua ar a dtugtar an teach loch sonraí tagtha chun cinn le cúpla bliain anuas.
Comhcheanglaítear solúbthacht na lochanna sonraí agus bainistíocht sonraí stórais sonraí in ailtireacht stórála sonraí réabhlóideach ar a dtugtar “teach locha sonraí.”
Déanfaimid scrúdú domhain ar theach locha sonraí sa phost seo, lena n-áirítear a chomhpháirteanna, a ghnéithe, a ailtireacht agus gnéithe eile.
Cad é Data Lakehouse?
Mar a thugann an t-ainm le tuiscint, is cineál nua ailtireachta sonraí é teach loch sonraí a chomhcheanglaíonn loch sonraí le stóras sonraí chun easnaimh gach ceann díobh a réiteach ar leithligh.
Go bunúsach, úsáideann an córas locha stóráil neamhchostasach chun méideanna ollmhóra sonraí a choinneáil ina bhfoirmeacha bunaidh, cosúil le lochanna sonraí. Nuair a chuirtear an ciseal meiteashonraí ar bharr an stórais, tugtar struchtúr sonraí agus cumasaítear uirlisí bainistíochta sonraí cosúil leo siúd a fhaightear i stórais sonraí.
Stórálann sé an méid ollmhór sonraí eagraithe, leathstruchtúrtha agus neamhstruchtúrtha a fhaigheann siad ó na feidhmeanna gnó, na córais agus na giuirléidí éagsúla a úsáidtear ar fud a n-eagraíochta.
An chuid is mó den am, úsáideann lochanna sonraí bonneagar stórála ar chostas íseal le comhéadan feidhmchlár comhaid (API) chun sonraí a stóráil i bhformáidí oscailte, cineálacha comhaid.
Fágann sin gur féidir le go leor foirne rochtain a fháil ar shonraí uile na cuideachta trí chóras amháin le haghaidh tionscnamh éagsúla, amhail eolaíocht sonraí, foghlaim meaisín, agus faisnéis ghnó.
Gnéithe
- Stóráil ar chostas íseal. Ní mór go mbeadh teach locha sonraí in ann sonraí a stóráil i stóráil réad saor, mar shampla Google Cloud Stóráil, Stóráil Azure Blob, Seirbhís Stórála Simplí Amazon, nó úsáid a bhaint as ORC nó Parquet ó dhúchas.
- Cumas le haghaidh leas iomlán a bhaint as sonraí: Tá leas iomlán a bhaint as leagan amach sonraí, taisceadh agus innéacsú ar roinnt samplaí den chaoi a gcaithfidh teach locha sonraí a bheith in ann na sonraí a bharrfheabhsú agus formáid bhunaidh na sonraí a chothabháil.
- Sraith de mheiteashonraí idirbheartaíochta: Anuas ar an stóráil riachtanach ar chostas íseal, cuireann sé seo ar chumas cumais bhainistíochta sonraí ríthábhachtach d'fheidhmíocht stórais sonraí.
- Tacaíocht don API DataFrame Dearbhaithe: Is féidir le formhór na n-uirlisí AI DataFrames a úsáid chun sonraí stórais amhábhar a aisghabháil. Méadaíonn tacaíocht do API DataFrame Dearbhaithe an cumas chun cur i láthair agus struchtúr na sonraí a fheabhsú go dinimiciúil mar fhreagra ar thasc ar leith eolaíocht sonraí nó AI.
- Tacaíocht d'idirbhearta ACID: Tá an t-acrainm ACID, a sheasann do adamhacht, comhsheasmhacht, leithlisiú agus marthanacht, ina chomhpháirt ríthábhachtach chun idirbheart a shainiú agus chun comhsheasmhacht agus iontaofacht sonraí a chinntiú. Ní raibh idirbhearta den sórt sin indéanta roimhe seo ach amháin i stórais sonraí, ach níorbh fhéidir an Tugann lakehouse an rogha chun iad a úsáid le lochanna sonraí freisin. Le roinnt píblínte sonraí lena n-áirítear sonraí comhthráthacha a léitear agus a scríobhtar, réitíonn sé seo an fhadhb a bhaineann le cáilíocht sonraí íseal na sonraí sin.
Gnéithe de Thithe Locha Sonraí
Tá ailtireacht an teach locha sonraí roinnte ina dhá phríomhshraith ar ardleibhéal. Tá iontógáil sonraí an chiseal stórála á rialú ag ardán Lakehouse (ie, an loch sonraí).
Gan gá na sonraí a luchtú isteach i stóras sonraí nó iad a thiontú i bhformáid dílseánaigh, is féidir leis an gciseal próiseála ansin na sonraí sa chiseal stórála a cheistiú go díreach ag baint úsáide as raon uirlisí.
Ansin, is féidir le apps BI, chomh maith le teicneolaíochtaí AI agus ML, na sonraí a úsáid. Soláthraíonn an dearadh seo eacnamaíocht locha sonraí, ach toisc gur féidir le haon inneall próiseála na sonraí seo a léamh, tá an tsaoirse ag gnólachtaí na sonraí ullmhaithe a dhéanamh inrochtana le haghaidh anailíse ag raon córas. Is féidir feidhmíocht agus costas próiseálaí a fheabhsú trí úsáid a bhaint as an modh seo le haghaidh próiseála agus anailíse.
Mar gheall ar a thacaíocht d’idirbhearta bunachar sonraí a chloíonn leis na critéir ACID (adamhachas, comhsheasmhacht, leithlisiú agus marthanacht) seo a leanas, cuireann an ailtireacht ar chumas go leor páirtithe rochtain a fháil ar shonraí agus iad a scríobh go comhuaineach laistigh den chóras:
- Adamhach tagairt don fhíric go n-éiríonn leis an idirbheart iomlán nó le haon cheann de, agus idirbheart á chur i gcrích. Sa chás go gcuirtear isteach ar phróiseas, cuidíonn sé seo le cailliúint sonraí nó éilliú a sheachaint.
- Comhsheasmhacht ráthaíochtaí go dtarlaíonn idirbhearta ar bhealach intuartha, comhsheasmhach. Coimeádann sé sláine na sonraí trína áirithiú go bhfuil gach sonraí dlisteanach i gcomhréir le rialacha réamhshocraithe.
- Leithlisiú áirithíonn sé, go dtí go mbeidh sé críochnaithe, nach mbeidh tionchar ag aon idirbheart ar bith eile laistigh den chóras. Ligeann sé seo do go leor páirtithe léamh agus scríobh ón gcóras céanna ag an am céanna gan cur isteach ar a chéile.
- Marthanacht ráthaíonn sé go leanann athruithe ar shonraí i gcóras de bheith ann tar éis idirbheart a bheith críochnaithe, fiú i gcás cliseadh córais. Coinnítear aon athruithe a dhéantar mar gheall ar idirbheart ar comhad go deo.
Sonraí Ailtireacht Lakehouse
Is iad Databricks (nuálaí agus dearthóir a gcoincheap Delta Lake) agus AWS an dá phríomh-thacadóirí don choincheap de theach loch sonraí. Mar sin beimid ag brath ar a gcuid eolais agus léargas chun cur síos a dhéanamh ar leagan amach ailtireachta na dtithe locha.
De ghnáth beidh cúig shraith ag córas teach locha sonraí:
- Ciseal ionghabhála
- Ciseal stórála
- Ciseal meiteashonraí
- Ciseal API
- Ciseal Tomhaltais
Ciseal ionghabhála
Tá an chéad chiseal den chóras i gceannas ar shonraí a bhailiú ó fhoinsí éagsúla agus é a sheoladh chuig an gciseal stórála. Is féidir leis an gciseal roinnt prótacal a úsáid chun nascadh le foinsí iomadúla inmheánacha agus seachtracha, lena n-áirítear cumais phróiseála sonraí baisce agus sruthaithe a chomhcheangal, mar shampla
- bunachair shonraí NoSQL,
- scaireanna comhaid
- feidhmchláir CRM,
- láithreáin ghréasáin,
- Braiteoirí IoT,
- na meáin shóisialta,
- Feidhmchláir Bogearraí mar Sheirbhís (SaaS), agus
- córais bhainistíochta bunachar sonraí coibhneasta, etc.
Ag an bpointe seo, is féidir comhpháirteanna cosúil le Apache Kafka le haghaidh sruthú sonraí agus Seirbhís Imirce Sonraí Amazon (Amazon DMS) chun sonraí a allmhairiú ó bhunachair shonraí RDBMS agus NoSQL a úsáid.
Ciseal stórála
Tá an ailtireacht teach locha i gceist chun stóráil cineálacha éagsúla sonraí a chumasú mar rudaí i stórais réad saor, mar AWS S3. Ag baint úsáide as formáidí comhaid oscailte, is féidir leis na huirlisí cliant na míreanna seo a léamh go díreach ón siopa.
Mar sin is féidir le go leor APInna agus comhpháirteanna ciseal tomhaltais rochtain a fháil ar na sonraí céanna agus iad a úsáid. Stórálann an ciseal meiteashonraí na scéimeanna do thacair sonraí struchtúrtha agus leathstruchtúrtha ionas gur féidir leis na comhpháirteanna iad a chur i bhfeidhm ar na sonraí agus iad á léamh.
Is féidir an t-ardán Córas Comhaid Dáilte Hadoop (HDFS), mar shampla, a úsáid chun seirbhísí stórtha néal a thógáil a scoilteann ríomhaireacht agus stóráil ar an áitreabh. Tá Lakehouse an-oiriúnach do na seirbhísí seo.
Ciseal meiteashonraí
Is é an ciseal meiteashonraí an chomhpháirt bhunúsach de theach loch sonraí a dhéanann idirdhealú ar an dearadh seo. Is catalóg aonair í a thairgeann meiteashonraí (faisnéis faoi phíosaí sonraí eile) do gach earra atá stóráilte sa loch agus ligeann sé d’úsáideoirí cumais riaracháin a úsáid mar:
- Feictear leagan comhsheasmhach den bhunachar sonraí le hidirbhearta comhthráthacha a bhuí le hidirbhearta ACID;
- taisceadh chun comhaid stórála réad scamall a shábháil;
- innéacsanna struchtúir sonraí a chur leis ag baint úsáide as innéacsú chun próiseáil fiosrúcháin a bhrostú;
- úsáid a bhaint as clónáil nialasach chun réada sonraí a mhacasamhlú; agus
- chun leaganacha áirithe de na sonraí a stóráil, etc., úsáid leagan sonraí.
Ina theannta sin, cuireann an ciseal meiteashonraí ar chumas bainistíocht scéimre a chur i bhfeidhm, úsáid topeolaíochtaí scéimre DW cosúil le scéimrí réalta/cáithnínísneachta, agus cumas rialachais agus iniúchta sonraí a sholáthar go díreach ar an loch sonraí, ag cur le sláine na píblíne sonraí ar fad.
Áirítear gnéithe d'éabhlóid scéimre agus forfheidhmiú i mbainistíocht scéimre. Trí aon scríbhinní nach gcomhlíonann scéimre an tábla a dhiúltú, cuireann forfheidhmiú scéimre ar chumas úsáideoirí sláine agus cáilíocht sonraí a choinneáil.
Ligeann éabhlóid scéimre scéimre reatha an tábla a mhodhnú chun freastal ar shonraí athraitheacha. Mar gheall ar chomhéadan riaracháin amháin ar bharr an locha sonraí, tá féidearthachtaí rialaithe rochtana agus iniúchta ann freisin.
Ciseal API
Tá ciseal ríthábhachtach eile den ailtireacht i láthair anois, ag óstáil roinnt APIanna is féidir le gach úsáideoir deiridh a úsáid chun poist a dhéanamh níos tapúla agus staitisticí níos sofaisticiúla a fháil.
Trí APInna meiteashonraí a úsáid is fusa na míreanna sonraí a theastaíonn le haghaidh feidhmchlár ar leith a shainaithint agus rochtain a fháil orthu.
Maidir le leabharlanna meaisínfhoghlama, is féidir le cuid acu, mar TensorFlow agus Spark MLlib, formáidí comhaid oscailte cosúil le Parquet a léamh agus rochtain dhíreach a fháil ar an gciseal meiteashonraí.
Ag an am céanna, cuireann APIs DataFrame deiseanna níos fearr ar fáil do bharrfheabhsú, rud a chuireann ar chumas ríomhchláraitheoirí sonraí scaipthe a eagrú agus a athrú.
Ciseal Tomhaltais
Déantar Power BI, Tableau, agus uirlisí agus apps eile a óstáil faoin gciseal tomhaltais. Le dearadh an teach locha, tá na meiteashonraí go léir agus na sonraí go léir a choimeádtar i loch inrochtana do na apps cliant.
Is féidir le gach úsáideoir laistigh de chuideachta an teach locha a úsáid chun gach cineál a dhéanamh oibríochtaí anailíse, lena n-áirítear deiseanna faisnéise gnó a chruthú agus fiosrúcháin SQL agus tascanna meaisínfhoghlama a rith.
Buntáistí Teach Locha Sonraí
Is féidir le heagraíochtaí teach locha sonraí a chruthú chun a n-ardán sonraí reatha a aontú agus a bpróiseas iomlán bainistíochta sonraí a bharrfheabhsú. Trí na bacainní silo a nascann foinsí éagsúla a dhíchóimeáil, is féidir le teach locha sonraí an gá atá le réitigh ar leith a athsholáthar.
I gcomparáid le foinsí sonraí coimeádta, cruthaíonn an comhtháthú seo nós imeachta ceann go ceann i bhfad níos éifeachtaí. Tá roinnt buntáistí ag baint leis seo:
- Níos lú riaracháin: In áit sonraí a bhaint as amhshonraí agus iad a ullmhú lena n-úsáid laistigh de stóras sonraí, ceadaíonn lochtheach sonraí d’aon fhoinsí atá nasctha leis a gcuid sonraí a bheith ar fáil agus eagraithe lena n-úsáid.
- Éifeachtúlacht costais mhéadaithe: Tógtar tithe locha sonraí ag baint úsáide as bonneagar comhaimseartha a roinntear ríomh agus stóráil, rud a fhágann go bhfuil sé simplí stóráil a leathnú gan cumhacht ríofa a mhéadú. Ní bhíonn ach inscálaithe atá éifeachtach ó thaobh costais de mar thoradh ar úsáid stórála sonraí neamhchostasach.
- Rialachas sonraí níos fearr: Tógtar tithe locha sonraí le hailtireacht oscailte chaighdeánaithe, rud a cheadaíonn níos mó smachta ar shlándáil, méadracht, rochtain ról-bhunaithe, agus comhpháirteanna bainistíochta tábhachtacha eile. Trí acmhainní agus foinsí sonraí a aontú, déanann siad rialachas a shimpliú agus a fheabhsú.
- Caighdeáin shimplithe: Ós rud é go raibh an nasc srianta go mór sna 1980í, nuair a forbraíodh stórais sonraí ar dtús, is minic a forbraíodh caighdeáin scéimre áitiúla laistigh de ghnólachtaí, fiú ranna. Baineann tithe locha sonraí leas as an bhfíric go bhfuil caighdeáin oscailte don scéimre ag go leor cineálacha sonraí anois trí fhoinsí iomadúla sonraí a ionghabháil leis an scéimre aonfhoirmeach forluiteach chun nósanna imeachta a shruthlíniú.
Míbhuntáistí a bhaineann le Data Lakehouse
In ainneoin na hoopla go léir a bhaineann le tithe locha sonraí, tá sé tábhachtach a choinneáil i gcuimhne go bhfuil an smaoineamh fós an-nua. Déan cinnte na míbhuntáistí a mheá sula nglacann tú go hiomlán leis an dearadh nua seo.
- Struchtúr monolithic: Tugann dearadh uile-chuimsitheach teach locha roinnt buntáistí, ach ardaíonn sé roinnt fadhbanna freisin. Is minic go mbíonn drochsheirbhís ag gach úsáideoir as ailtireacht mhonailiotach agus is féidir leis a bheith docht agus deacair a chothabháil. De ghnáth, is maith le hailtirí agus dearthóirí ailtireacht níos modúlach ar féidir leo a shaincheapadh do chásanna úsáide éagsúla.
- Níl an teicneolaíocht ann go fóill: tá méid suntasach meaisínfhoghlama agus hintleachta saorga i gceist leis an sprioc deiridh. Sula bhféadfaidh tithe locha feidhmiú mar a shamhlaítear, ní mór na teicneolaíochtaí seo a fhorbairt tuilleadh.
- Ní dul chun cinn suntasach é seo thar struchtúir atá ann cheana féin: Tá amhras nach beag fós ar cé mhéad luach níos mó a chuirfidh tithe locha i ndáiríre. Áitíonn roinnt detractors gur féidir le dearadh loch-stórais péireáilte leis an trealamh uathoibrithe cuí éifeachtacht inchomparáide a bhaint amach.
Dúshláin Teach Locha Sonraí
D’fhéadfadh sé a bheith deacair teicníc an tí locha sonraí a ghlacadh. Mar gheall ar chomh casta is atá a chomhchodanna, tá sé mícheart féachaint ar an loch sonraí mar struchtúr idéalach uile-chuimsitheach nó mar “ardán amháin do gach rud,” ar cheann amháin.
Ina theannta sin, mar gheall ar ghlacadh méadaithe na lochanna sonraí, beidh ar ghnólachtaí a stórais sonraí reatha a aistriú chucu, ag brath ar ghealltanas rathúlachta amháin gan aon tairbhe eacnamaíoch inléirithe.
Má bhíonn aon fhadhbanna foighne nó bristeacha ann le linn an phróisis aistrithe, d'fhéadfadh sé seo a bheith costasach, am-íditheach agus b'fhéidir neamhshábháilte.
Ní mór d'úsáideoirí gnó glacadh le teicneolaíochtaí an-speisialaithe, de réir díoltóirí áirithe a mhargaíonn go sainráite nó go hintuigthe réitigh mar thithe locha sonraí. Seans nach n-oibreodh siad seo i gcónaí le huirlisí eile atá nasctha leis an loch sonraí i lár an chórais, rud a chuir leis na fadhbanna.
Ina theannta sin, d’fhéadfadh sé a bheith deacair anailísíocht 24/7 a sholáthar agus ualaí oibre atá ríthábhachtach don ghnó á rith, rud a éilíonn bonneagar a bhfuil inscálaitheacht cost-éifeachtach aige.
Conclúid
Is é an t-ionad sonraí is nuaí le blianta beaga anuas ná an loch sonraí. Comhtháthaíonn sé réimsí éagsúla, mar theicneolaíocht faisnéise, bogearraí foinse oscailte, ríomhaireachta scamall, agus prótacail stórála dáilte.
Cuireann sé ar chumas gnólachtaí gach cineál sonraí a stóráil go lárnach ó aon láthair, ag simpliú bainistíochta agus anailíse. Is coincheap suimiúil go leor é Data Lakehouse.
Bheadh buntáiste iomaíoch suntasach ag gnólacht ar bith dá mbeadh rochtain aige ar ardán sonraí uile-i-amháin a bheadh chomh tapa agus chomh héifeachtach le stóras sonraí agus é chomh solúbtha le loch sonraí.
Tá an smaoineamh fós ag forbairt agus tá sé sách nua. Mar thoradh air sin, d'fhéadfadh sé roinnt ama a ghlacadh chun a chinneadh an bhféadfadh rud éigin a bheith forleathan nó nach bhfuil.
Ba cheart dúinn go léir a bheith fiosrach faoin treo a bhfuil ailtireacht Theach Locha ag dul.
Leave a Reply