Libaka tsa polokelo ea data li kopanya polokelo ea data le mehopolo ea letša la data bakeng sa likhoebo.
Lisebelisoa tsena li u lumella hore u thehe litharollo tsa polokelo ea data tse theko e tlaase ka ho kopanya bokhoni ba tsamaiso ea matša a data le meralo ea data e fumanehang libakeng tsa polokelo ea data.
Ho feta moo, ho na le phokotso ea phalliso ea data le khaello ea mesebetsi, nako e nyane e sebelisoa ho tsamaiseng, 'me mekhoa e khuts'oane ea schema le ts'ebetso ea taolo ea data e hlile e phethahala.
E 'ngoe ea data lakehouse e na le melemo e mengata ha e bapisoa le tsamaiso ea polokelo e nang le litharollo tse' maloa.
Lisebelisoa tsena li ntse li sebelisoa ke bo-rasaense ba data ho ntlafatsa kutloisiso ea bona ea bohlale ba khoebo le mekhoa ea ho ithuta ka mochini.
Sengoliloeng sena se tla shebisisa kapele ho data lakehouse, bokhoni ba eona, le lisebelisoa tse teng.
Selelekela ho Data Lakehouse
Mofuta o mocha oa meralo ea data e bitsoang "data lakehouse” e kopanya letša la data le polokelo ea data ho rarolla bofokoli ba e 'ngoe le e 'ngoe ka boikemelo.
Sistimi ea matša, joalo ka matša a data, e sebelisa polokelo e theko e tlase ho boloka lintlha tse ngata ka sebopeho sa eona sa pele.
Ho eketsoa ha lera la metadata ka holim'a lebenkele ho boetse ho fana ka sebopeho sa data le ho matlafatsa lisebelisoa tsa tsamaiso ea data tse tšoanang le tse fumanoang matlong a polokelo ea boitsebiso.
E na le lintlha tse ngata tse hlophisitsoeng, tse hlophisitsoeng hantle, le tse sa hlophisoang tse fumanoeng lits'ebetsong tse fapaneng tsa khoebo, lits'ebetso le lisebelisoa tse sebelisoang khoebong eohle.
Ka lebaka leo, ho fapana le matša a data, sistimi ea lakehouse e ka laola le ho ntlafatsa data eo bakeng sa ts'ebetso ea SQL.
E boetse e na le bokhoni ba ho boloka le ho sebetsana le lintlha tse ngata tse fapaneng ka theko e tlase ho feta polokelo ea data.
Sebaka sa polokelo ea data se tla thusa ha o hloka ho etsa phihlello efe kapa efe ea data kapa analytics khahlano le data leha e le efe empa o sa tiisehe ka lintlha kapa li-analytics tse khothaletsoang.
Mohaho oa ntlo ea leoatle o tla sebetsa hantle haeba ts'ebetso e se ntho e amehang haholo.
Seo ha se bolele hore o lokela ho theha mohaho oohle oa hau holim'a ntlo ea leoatle.
Lintlha tse ling mabapi le mokhoa oa ho khetha letša la data, ntlo ea leoatle, polokelo ea data, kapa database e khethehileng ea analytics bakeng sa nyeoe ka 'ngoe e ka fumanoa. Mona.
Likarolo tsa Data Lakehouse
- Ho bala le ho ngola data ka nako e le nngwe
- Ho ikamahanya le maemo le scalability
- Thuso ea schema ka lisebelisoa tsa taolo ea data
- Ho bala le ho ngola data ka nako e le nngwe
- Polokelo e ka theko e tlase
- Mefuta eohle ea data le lifomate tsa faele li tšehetsoa.
- Ho fihlella ho mahlale a data le lisebelisoa tsa ho ithuta ka mochini tse ntlafalitsoeng
- Lihlopha tsa hau tsa data li tla rua molemo ka ho fumana mokhoa o le mong feela oa ho fetisetsa mesebetsi e mengata ka eona kapele le ka nepo.
- Bokhoni ba nako ea 'nete bakeng sa matsapa a mahlale a data, ho ithuta ka mochini, le litlhahlobo
Lisebelisoa tse holimo tsa 5 tsa Data Lakehouse
Lisebelisoa tsa data
Databricks, e thehiloeng ke motho ea qalileng ho hlahisa Apache Spark le ho e etsa Mohloli o bulehileng, e fana ka ts'ebeletso e laoloang ea Apache Spark mme e behiloe joalo ka sethala sa matša a data.
Letša la data, delta lake, le likarolo tsa enjine ea delta tsa meralo ea Databricks lakehouse li thusa bohlale ba khoebo, saense ea data, le linyeoe tsa tšebeliso ea mochini.
Letša la data ke sebaka sa polokelo ea maru sa sechaba.
Ka ts'ehetso ea taolo ea metadata, ts'ebetso ea li-batch le ho tsamaisa data bakeng sa li-dataset tse nang le mefuta e mengata, ho sibolloa ha data, taolo e bolokehileng ea phihlello, le litlhahlobo tsa SQL.
Databricks e fana ka boholo ba mesebetsi ea polokelo ea data eo motho a ka e lebellang ho e bona sethaleng sa polokelo ea data.
Databricks e sa tsoa senola Auto Loader ea eona, e tsamaisang ETL le ho kenya data le ho sebelisa sampole ea data ho fana ka schema bakeng sa mefuta e fapaneng ea data, e le ho fana ka likarolo tsa bohlokoa tsa leano la polokelo ea letša.
Ka mokhoa o mong, basebelisi ba ka haha liphaephe tsa ETL pakeng tsa letša la bona la data la maru la sechaba le Delta Lake ba sebelisa Delta Live Tables.
Ka pampiri, Databricks e bonahala e na le melemo eohle, empa ho theha tharollo le ho theha liphaephe tsa eona tsa data ho hloka mosebetsi o mongata oa batho ho tsoa ho baetsi ba litsebi.
Ka tekanyo, karabo e boetse e fetoha e rarahaneng haholoanyane. E rarahane ho feta kamoo e bonahalang kateng.
Ahana
Letša la data ke sebaka se le seng, se bohareng moo o ka bolokang mofuta ofe kapa ofe oa data oo u o khethang ka tekanyo, ho kenyeletsoa lintlha tse sa hlophisoang le tse hlophisitsoeng. AWS S3, Microsoft Azure, le Google Cloud Storage ke matša a mararo a tloaelehileng a data.
Matša a data a ratoa haholo hobane a theko e tlase ebile a bonolo ho a sebelisa; o ka boloka boholo ba mofuta ofe kapa ofe oa data kamoo o ratang ka chelete e nyane haholo.
Empa letša la data ha le fane ka lisebelisoa tse hahelletsoeng joalo ka analytics, potso, jj.
U hloka enjene ea lipotso le lethathamo la lintlha ka holim'a letša la data (moo Ahana Cloud e kenang) ho botsa lintlha tsa hau le ho li sebelisa.
Ka tse ntle ka ho fetisisa tsa polokelo ea data le Letša la Data, ho entsoe moralo o mocha oa polokelo ea data.
Sena se bontša hore se na le pepeneneng, se feto-fetoha, se na le theko e ntle / ts'ebetso, litekanyo tse kang letša la data li tšehetsa litšebelisano, 'me li na le ts'ireletso e phahameng e bapisoang le polokelo ea data.
Enjene ea hau ea SQL e sebetsang hantle haholo ke boko bo ka morao ho Data Lakehouse. Ka lebaka lena, o ka etsa analytics ea ts'ebetso e phahameng ho data ea hau ea letša.
Ahana Cloud bakeng sa Presto ke SaaS bakeng sa Presto ho AWS, e etsa hore ho be bonolo haholo ho qala ho sebelisa Presto ka leru.
Bakeng sa letša la hau la data le thehiloeng ho S3, Ahana e se e ntse e e-na le lethathamo la lintlha tse hahelletsoeng ka hare le caching. Ahana e u fa likarolo tsa Presto ntle le ho u hloka hore u sebetse ka holimo hobane e e etsa ka hare.
AWS Lake Formation, Apache Hudi, 'me Delta Lake ke batsamaisi ba seng bakae feela ba transaction bao e leng karolo ea stack mme ba ikopanya le eona.
Dremio
Mekhatlo e batla ho lekola kapele, ka mokhoa o bonolo, le ka nepo palo e kholo ea data e nyolohang ka potlako.
Dremio o lumela hore sebaka se bulehileng sa lakehouse se kopanya melemo ea matša a data le polokelo ea data ka mokhoa o bulehileng ke mokhoa o motle oa ho fihlela sena.
Sethala sa lakehouse sa Dremio se fana ka boiphihlelo bo sebetsang bakeng sa motho e mong le e mong, ka UI e bonolo e lumellang basebelisi ho qeta litlhahlobo ka nako e itseng.
Dremio Cloud, sethala sa polokelo ea data se laoloang ka botlalo, le ho qalisoa ha lits'ebeletso tse peli tse ncha: Dremio Sonar, enjine ea lipotso tsa letša, le Dremio Arctic, megastore e bohlale ea Apache Iceberg e fanang ka boiphihlelo bo ikhethang bo kang ba Git bakeng sa letša.
Mesebetsi eohle ea SQL ea mokhatlo e ka tsamaisoa sethaleng sa Dremio Cloud se se nang likhohlano, se sa feleng, se etsang mesebetsi ea taolo ea data.
E hahiloe bakeng sa SQL, e fana ka phihlelo e kang ea Git, ke mohloli o bulehileng, 'me e lula e lokolohile.
Ba e entse hore e be sethala sa lakehouse seo lihlopha tsa data li se ratang.
U sebelisa tafole e bulehileng ea mohloli le liforomo tsa faele joalo ka Apache Iceberg le Apache Parquet, data ea hau e lula e le polokelong ea hau ea data ha u sebelisa Dremio Cloud.
Litlhahiso tsa nako e tlang li ka amoheloa habonolo, 'me enjene e nepahetseng e ka khethoa ho latela mosebetsi oa hau.
Snowflake
Snowflake ke sethala sa data sa cloud le analytics se ka fihlelang litlhoko tsa matša a data le litoro tsa polokelo.
E qalile e le mokhoa oa polokelo ea data o hahiloeng holim'a lisebelisoa tsa maru.
Sethala se na le sebaka sa polokelo se bohareng se lutseng ka holim'a polokelo ea maru ea sechaba ho tsoa ho AWS, Microsoft Azure, kapa Google Cloud Platform (GCP).
Ka mor'a moo ke lera la computation ea lihlopha tse ngata, moo basebelisi ba ka qalang sebaka sa polokelo ea boitsebiso le ho etsa lipotso tsa SQL khahlanong le polokelo ea bona ea data.
Mehaho e lumella ho arola mehloli ea polokelo le ea ho bala, e lumellang mekhatlo ho lekanya tse peli ka boikemelo ha ho hlokahala.
Qetellong, Snowflake e fana ka sekhahla sa lits'ebeletso se nang le likarolo tsa metadata, taolo ea lisebelisoa, taolo ea data, litšebelisano le likarolo tse ling.
Lihokelo tsa lisebelisoa tsa BI, taolo ea metadata, taolo ea phihlello, le lipotso tsa SQL ke tse 'maloa feela tsa ts'ebetso ea polokelo ea data eo sethala se ipabolang ho e fana.
Snowflake, leha ho le joalo, e lekanyelitsoe ho enjine e le 'ngoe ea SQL e amanang le lipotso.
Ka lebaka leo, ho ba bonolo ho tsamaisa empa ho se feto-fetohe, 'me pono ea letša la data ea mefuta e mengata ha e lemohuoe.
Ntle le moo, pele data e tsoang polokelong ea leru e ka batlisisoa kapa ea hlahlojoa, Snowflake e hloka hore likhoebo li e kenye sebakeng sa polokelo se bohareng.
Ts'ebetso ea ho tsamaisa lipeipi tsa data ka letsoho e hloka pele ho ETL, ho fana, le ho fomata ha data pele e ka hlahlojoa. Ho eketsa lits'ebetso tsena tsa matsoho ho etsa hore li nyahamise.
Kgetho e 'ngoe e bonahalang eka e nepahetse pampiring empa ha e le hantle, e kheloha molao-motheo oa letša la data oa ho kenya lintlha tse bonolo ke Snowflake's data lakehouse.
oracle
Meaho ea sejoale-joale, e bulehileng e tsejoang e le "data lakehouse" e etsa hore ho khonehe ho boloka, ho utloisisa, le ho sekaseka lintlha tsa hau kaofela.
The ka ho fetisisa hantle ratoa bulehileng mohloli ya data letša ditharollo 'bophara le feto-fetoha ho kopantswe le matla le botebo ba polokelo ya data.
Merero e mecha ea AI le lits'ebeletso tsa AI tse hahiloeng esale pele li ka sebelisoa le polokelo ea data ho Oracle Cloud Infrastructure (OCI).
Hoa khoneha ho sebetsa le mefuta e meng ea data ha u ntse u sebelisa letša le bulehileng la data. Empa nako le boiteko tse hlokahalang ho e laola e ka ba tšitiso e phehellang.
OCI e fana ka lits'ebeletso tse bulehileng tse laoloang ka botlalo tsa ntlo ea matša ka litheko tse tlase le taolo e tlase, e u lumellang ho lebella litšenyehelo tse tlase tsa ts'ebetso, scalability e ntle le ts'ireletso, le bokhoni ba ho kopanya lintlha tsohle tsa hau tse teng sebakeng se le seng.
Sebaka sa polokelo ea data se tla eketsa boleng ba libaka tsa polokelo ea data le limmapa, tse bohlokoa likhoebong tse atlehileng.
Lintlha li ka fumanoa ho sebelisoa ntlo ea leoatle ho tsoa libakeng tse 'maloa ka potso e le' ngoe feela ea SQL.
Mananeo le lisebelisoa tse teng li fumana phihlello e pepeneneng ea data eohle ntle le ho hloka liphetoho kapa ho fumana tsebo e ncha.
fihlela qeto e
Kenyelletso ea litharollo tsa lakehouse ea data ke sesupo sa mokhoa o moholoanyane oa data e kholo, e leng ho kopanngoa ha li-analytics le polokelo ea data ho li-platform tsa data tse kopaneng ho eketsa boleng ba khoebo ho tsoa ho data ha o ntse o theola nako, litšenyehelo, le ho rarahana ha tlhahiso ea boleng.
Lipolanete tse kenyeletsang Databricks, Snowflake, Ahana, Dremio, le Oracle kaofela li hokahane le mohopolo oa "data Lakehouse," empa e 'ngoe le e' ngoe e na le likarolo tse ikhethang le tšekamelo ea ho sebetsa joalo ka polokelo ea data ho feta letša la 'nete la data. ka kakaretso.
Ha tharollo e rekisoa e le "botsi ba data," likhoebo li lokela ho ela hloko seo e hlileng e se bolelang.
Likhoebo li hloka ho sheba ka nqane ho mebaraka e kang "data lakehouse" mme ho e-na le hoo ba shebe likarolo tsa sethala ka seng ho khetha sethala se setle sa data se tla hola le likhoebo tsa bona nakong e tlang.
Leave a Reply