Data Lakehouse - Kila kitu unachohitaji kujua

Orodha ya Yaliyomo[Ficha][Onyesha]

Data Lakehouse ni nini?
Vipengele
Vipengele vya Data Lakehouse
Usanifu wa Data Lakehouse+-
Manufaa ya Data Lakehouse
Hasara za Data Lakehouse
Changamoto za Data Lakehouse
Hitimisho

Huenda ikawa vigumu kidogo kuzingatia huduma zote zinazopatikana na chaguo za usanifu unapofikiria kuhusu majukwaa ya data.

Mfumo wa data wa biashara mara nyingi huwa na maghala ya data, miundo ya data, maziwa ya data na ripoti, kila moja ikiwa na madhumuni mahususi na seti ya ujuzi unaohitajika. Kinyume chake, muundo mpya unaoitwa hifadhi ya data umeibuka katika miaka michache iliyopita.

Utangamano wa maziwa ya data na usimamizi wa data wa ghala la data umeunganishwa katika usanifu wa kimapinduzi wa hifadhi ya data unaoitwa "maziwa ya data."

Tutachunguza data ya lakehouse kwa kina katika chapisho hili, ikijumuisha vipengele vyake, vipengele, usanifu, na vipengele vingine.

Data Lakehouse ni nini?

Kama jina linavyodokeza, hifadhi ya data ni aina mpya ya usanifu wa data ambayo inachanganya ziwa la data na ghala la data ili kutatua mapungufu ya kila moja tofauti.

Kimsingi, mfumo wa ziwa hutumia hifadhi ya gharama nafuu kudumisha kiasi kikubwa cha data katika aina zao asili, kama vile maziwa ya data. Kuongeza safu ya metadata juu ya duka pia kunatoa muundo wa data na kuwezesha zana za usimamizi wa data kama zile zinazopatikana kwenye ghala za data.

Data Lakehouse

Huhifadhi idadi kubwa ya data iliyopangwa, iliyopangwa nusu, na isiyo na muundo ambayo wanapata kutoka kwa programu tofauti za biashara, mifumo, na vifaa vinavyotumiwa katika shirika lao.

Mara nyingi, maziwa ya data hutumia miundombinu ya hifadhi ya gharama nafuu yenye kiolesura cha utayarishaji wa programu ya faili (API) ili kuhifadhi data katika umbizo la wazi la faili za kawaida.

Hii inafanya uwezekano wa timu nyingi kufikia data yote ya kampuni kupitia mfumo mmoja kwa ajili ya mipango mbalimbali, kama vile sayansi ya data, mashine kujifunza, na akili ya biashara.

Vipengele

Hifadhi ya gharama nafuu. Hifadhi ya data lazima iweze kuhifadhi data katika hifadhi ya vitu vya bei ghali, kama vile Google Cloud Hifadhi, Hifadhi ya Azure Blob, Huduma ya Uhifadhi Rahisi ya Amazon, au asili kwa kutumia ORC au Parquet.
Uwezo wa uboreshaji wa data: Uboreshaji wa mpangilio wa data, kuhifadhi akiba, na kuweka faharasa ni mifano michache ya jinsi hifadhi ya data lazima iweze kuboresha data huku ikidumisha umbizo halisi la data.
Safu ya metadata ya muamala: Pamoja na hifadhi muhimu ya gharama ya chini, hii huwezesha uwezo wa usimamizi wa data muhimu kwa utendaji wa ghala la data.
Usaidizi kwa API ya Declarative DataFrame: Zana nyingi za AI zinaweza kutumia DataFrames kupata data ghafi ya hifadhi ya kitu. Usaidizi kwa API ya Declarative DataFrame huongeza uwezo wa kuboresha uwasilishaji na muundo wa data kulingana na sayansi fulani ya data au kazi ya AI.
Usaidizi kwa miamala ya ACID: Kifupi ACID, ambacho kinasimamia atomicity, uthabiti, kutengwa, na uimara, ni kipengele muhimu katika kufafanua shughuli na kuhakikisha uthabiti na kutegemewa kwa data. Shughuli hizo hapo awali ziliwezekana tu katika maghala ya data, lakini lakehouse inatoa chaguo la kuzitumia na maziwa ya data vilevile. Kwa njia kadhaa za kusambaza data ikijumuisha usomaji na uandishi wa data kwa wakati mmoja, hii husuluhisha tatizo la ubora wa chini wa data ya mwisho.

Vipengele vya Data Lakehouse

Usanifu wa ziwa la data umegawanywa katika viwango viwili kuu kwa kiwango cha juu. Uingizaji wa data wa safu ya hifadhi unadhibitiwa na jukwaa la Lakehouse (yaani, ziwa la data).

Bila kuhitaji kupakia data kwenye ghala la data au kuibadilisha kuwa muundo wa umiliki, safu ya uchakataji inaweza kuuliza data katika safu ya hifadhi moja kwa moja kwa kutumia zana mbalimbali.

Kisha, programu za BI, pamoja na teknolojia za AI na ML, zinaweza kutumia data. Uchumi wa ziwa la data hutolewa na muundo huu, lakini kwa sababu injini yoyote ya uchakataji inaweza kusoma data hii, biashara zina uhuru wa kufanya data iliyotayarishwa kupatikana kwa uchambuzi na anuwai ya mifumo. Utendaji wa kichakataji na gharama zote zinaweza kuboreshwa kwa kutumia mbinu hii kwa usindikaji na uchanganuzi.

Kwa sababu ya usaidizi wake kwa shughuli za hifadhidata zinazozingatia vigezo vifuatavyo vya ACID (atomicity, uthabiti, kutengwa, na uimara), usanifu pia huwezesha wahusika wengi kupata na kuandika data kwa wakati mmoja ndani ya mfumo:

Atomiki inarejelea ukweli kwamba shughuli kamili au hakuna hata moja, inafanikiwa wakati wa kukamilisha muamala. Katika tukio ambalo mchakato umekatizwa, hii husaidia kuzuia upotezaji wa data au ufisadi.
Msimamo dhamana miamala hutokea kwa njia inayotabirika, thabiti. Hudumisha uadilifu wa data kwa kuhakikisha kuwa kila data ni halali kwa mujibu wa sheria zilizoamuliwa mapema.
Kutengwa inahakikisha kwamba, hadi ikamilike, hakuna muamala unaoweza kuathiriwa na shughuli nyingine yoyote ndani ya mfumo. Hii inaruhusu vyama vingi kusoma na kuandika kutoka kwa mfumo mmoja kwa wakati mmoja bila kuingiliana.
Durability inahakikisha kwamba mabadiliko ya data katika mfumo yanaendelea kuwepo baada ya muamala kukamilika, hata katika tukio la kushindwa kwa mfumo. Mabadiliko yoyote yanayoletwa na muamala huwekwa kwenye faili milele.

Usanifu wa Data Lakehouse

Databricks (mvumbuzi na mbunifu wa dhana yao ya Delta Lake) na AWS ndio watetezi wakuu wawili wa dhana ya hifadhi ya data. Kwa hivyo tutategemea maarifa na maarifa yao kuelezea mpangilio wa usanifu wa maziwa.

Mfumo wa hifadhi ya data kwa kawaida utakuwa na tabaka tano:

Safu ya kumeza
Safu ya hifadhi
Safu ya metadata
Safu ya API
Safu ya matumizi

Usanifu wa Data Lakehouse

Safu ya kumeza

Safu ya kwanza ya mfumo inasimamia kukusanya data kutoka kwa vyanzo mbalimbali na kuituma kwenye safu ya hifadhi. Safu inaweza kutumia itifaki kadhaa kuunganishwa na vyanzo vingi vya ndani na nje, pamoja na kuchanganya kundi na uwezo wa usindikaji wa data, kama vile.

hifadhidata za NoSQL,
faili za hisa
Maombi ya CRM,
tovuti,
Sensorer za IoT,
mtandao wa kijamii,
Programu kama Huduma (SaaS) maombi, na
mifumo ya usimamizi wa hifadhidata ya uhusiano, nk.

Katika hatua hii, vipengee kama Apache Kafka vya utiririshaji data na Huduma ya Uhamiaji ya Data ya Amazon (Amazon DMS) ya kuagiza data kutoka kwa hifadhidata za RDBMS na NoSQL vinaweza kuajiriwa.

Safu ya hifadhi

Usanifu wa ziwa unakusudiwa kuwezesha uhifadhi wa aina mbalimbali za data kama vitu katika hifadhi za vitu vya bei ghali, kama vile AWS S3. Kwa kutumia fomati za faili zilizo wazi, zana za mteja zinaweza kusoma vitu hivi moja kwa moja kutoka kwa duka.

Hii inafanya uwezekano wa API nyingi na vipengele vya safu ya matumizi kufikia na kutumia data sawa. Safu ya metadata huhifadhi taratibu za hifadhidata zilizoundwa na zenye muundo nusu ili vijenzi viweze kuzitumia kwenye data wanapoisoma.

Jukwaa la Mfumo wa Faili Uliosambazwa wa Hadoop (HDFS), kwa mfano, linaweza kutumika kutengeneza huduma za hazina za wingu zinazogawanya kompyuta na kuhifadhi kwenye majengo. Lakehouse inafaa kwa huduma hizi.

Safu ya metadata

Safu ya metadata ni sehemu ya msingi ya hifadhi ya data inayotofautisha muundo huu. Ni katalogi moja inayotoa metadata (maelezo kuhusu vipande vingine vya data) kwa vitu vyote vilivyohifadhiwa ziwani na inaruhusu watumiaji kutumia uwezo wa usimamizi kama vile:

Toleo thabiti la hifadhidata linaonekana kwa shughuli za pamoja kwa shukrani kwa shughuli za ACID;
caching ili kuhifadhi faili za kuhifadhi vitu vya wingu;
kuongeza fahirisi za muundo wa data kwa kutumia indexing ili kuharakisha usindikaji wa hoja;
kutumia cloning ya nakala sifuri ili kurudia vitu vya data; na
kuhifadhi matoleo fulani ya data, n.k., tumia matoleo ya data.

Zaidi ya hayo, safu ya metadata huwezesha utekelezaji wa usimamizi wa schema, matumizi ya topolojia ya schema ya DW kama vile michoro ya nyota/snowflake, na utoaji wa usimamizi wa data na uwezo wa ukaguzi moja kwa moja kwenye ziwa la data, kuimarisha uadilifu wa bomba zima la data.

Vipengele vya mageuzi na utekelezaji wa schema vimejumuishwa katika usimamizi wa schema. Kwa kukataa maandishi yoyote ambayo hayaafikii taratibu za jedwali, utekelezaji wa taratibu huwawezesha watumiaji kudumisha uadilifu na ubora wa data.

Mageuzi ya schema huruhusu utaratibu wa sasa wa jedwali kurekebishwa ili kushughulikia mabadiliko ya data. Kwa sababu ya kiolesura kimoja cha usimamizi juu ya ziwa la data, pia kuna udhibiti wa ufikiaji na uwezekano wa ukaguzi.

Safu ya API

Safu nyingine muhimu ya usanifu sasa iko, ikipokea idadi ya API ambazo watumiaji wote wa mwisho wanaweza kutumia kufanya kazi kwa haraka zaidi na kupata takwimu za kisasa zaidi.

Matumizi ya API za metadata hurahisisha kutambua na kufikia vipengee vya data vinavyohitajika kwa programu fulani.

Kwa upande wa maktaba za kujifunza kwa mashine, baadhi yazo, kama vile TensorFlow na Spark MLlib, zinaweza kusoma fomati za faili zilizo wazi kama vile Parquet na kufikia safu ya metadata moja kwa moja.

Wakati huo huo, API za DataFrame hutoa nafasi kubwa zaidi za uboreshaji, kuwezesha wasanidi programu kupanga na kubadilisha data iliyotawanywa.

Safu ya matumizi

Power BI, Tableau, na zana na programu zingine zimepangishwa chini ya safu ya matumizi. Kwa muundo wa ziwa, metadata yote na data yote ambayo huwekwa ziwani inaweza kufikiwa na programu za mteja.

Lakehouse inaweza kutumika na watumiaji wote ndani ya kampuni kufanya kila aina ya shughuli za uchanganuzi, ikiwa ni pamoja na kuunda dashibodi za akili za biashara na kuendesha hoja za SQL na kazi za kujifunza kwa mashine.

Manufaa ya Data Lakehouse

Mashirika yanaweza kuunda hifadhi ya data ili kuunganisha jukwaa lao la sasa la data na kuboresha mchakato wao mzima wa usimamizi wa data. Kwa kuondoa vizuizi vya silo vinavyounganisha vyanzo mbalimbali, hifadhi ya data inaweza kuchukua nafasi ya hitaji la suluhu tofauti.

Ikilinganishwa na vyanzo vya data vilivyoratibiwa, muunganisho huu hutoa utaratibu bora zaidi wa mwisho hadi mwisho. Hii ina faida kadhaa:

Utawala mdogo: Badala ya kutoa data kutoka kwa data mbichi na kuitayarisha kwa ajili ya matumizi ndani ya ghala la data, hifadhi ya data inaruhusu vyanzo vyovyote vilivyounganishwa nayo kupata data yao na kupangwa kwa matumizi.
Kuongezeka kwa ufanisi wa gharama: Majumba ya ziwa ya data yanajengwa kwa kutumia miundombinu ya kisasa inayogawanya ukokotoaji na uhifadhi, na kuifanya iwe rahisi kupanua hifadhi bila kuongeza nguvu za kukokotoa. Utumiaji tu wa uhifadhi wa data wa bei rahisi husababisha uboreshaji ambao ni wa gharama nafuu.
Utawala bora wa data: Majumba ya ziwa ya data yamejengwa kwa usanifu wazi sanifu, kuruhusu udhibiti zaidi juu ya usalama, vipimo, ufikiaji kulingana na jukumu, na vipengele vingine muhimu vya usimamizi. Kwa kuunganisha rasilimali na vyanzo vya data, hurahisisha na kuimarisha utawala.
Viwango vilivyorahisishwa: Kwa kuwa muunganisho uliwekewa vikwazo vya juu katika miaka ya 1980, wakati ghala za data zilipotengenezwa kwa mara ya kwanza, viwango vya schema vilivyojanibishwa vilitengenezwa mara kwa mara ndani ya biashara, hata idara. Hifadhi za data hutumia ukweli kwamba aina nyingi za data sasa zina viwango vilivyo wazi vya schema kwa kuingiza vyanzo vingi vya data na schema inayoingiliana ili kurahisisha taratibu.

Hasara za Data Lakehouse

Licha ya hoopla zote zinazozunguka hifadhi za data, ni muhimu kukumbuka kuwa wazo bado ni jipya sana. Hakikisha kupima hasara kabla ya kujitolea kikamilifu kwa muundo huu mpya.

Muundo wa monolithic: Muundo wa jumba la ziwa hutoa manufaa kadhaa, lakini pia huibua baadhi ya matatizo. Usanifu wa monolithic mara nyingi husababisha huduma duni kwa watumiaji wote na inaweza kuwa ngumu na ngumu kudumisha. Kwa kawaida, wasanifu na wabunifu wanapenda usanifu wa kawaida zaidi ambao wanaweza kubinafsisha kwa visa anuwai vya utumiaji.
Teknolojia bado haipo kabisa: lengo la mwisho linajumuisha kiasi kikubwa cha kujifunza kwa mashine na akili bandia. Kabla ya ziwa kufanya kazi kama inavyotarajiwa, teknolojia hizi lazima ziendelezwe zaidi.
Sio maendeleo makubwa juu ya miundo iliyopo: Bado kuna mashaka makubwa juu ya ni kiasi gani maziwa yatachangia thamani zaidi. Baadhi ya wapinzani wanadai kuwa muundo wa ghala la ziwa uliooanishwa na vifaa vinavyofaa vya kiotomatiki unaweza kufikia ufanisi sawa.

Changamoto za Data Lakehouse

Inaweza kuwa vigumu kupitisha mbinu ya hifadhi ya data. Kwa sababu ya uchangamano wa vijenzi vyake, si sahihi kuona hifadhi ya data kama muundo bora unaojumuisha yote au "jukwaa moja la kila kitu," kwa moja.

Zaidi ya hayo, kutokana na kuongezeka kwa matumizi ya maziwa ya data, wafanyabiashara watalazimika kuhamishia maghala yao ya sasa ya data, wakitegemea tu ahadi ya mafanikio bila faida yoyote ya kiuchumi inayoweza kuonyeshwa.

Ikiwa kuna matatizo yoyote ya muda wa kusubiri au kukatika katika mchakato mzima wa uhamisho, hii inaweza kuishia kuwa ghali, inayotumia muda, na pengine si salama.

Watumiaji wa biashara lazima wakumbatie teknolojia zilizobobea sana, kulingana na wachuuzi fulani ambao kwa uwazi au kwa udhahiri wanauza suluhu kama hifadhi za data. Hizi zinaweza zisifanye kazi kila wakati na zana zingine zilizounganishwa na ziwa la data katikati mwa mfumo, na kuongeza maswala.

Zaidi ya hayo, inaweza kuwa vigumu kutoa uchanganuzi wa saa 24/7 huku ukiendesha mzigo wa kazi muhimu wa biashara, ambayo inahitaji miundombinu yenye uboreshaji wa gharama nafuu.

Hitimisho

Aina mpya zaidi za vituo vya data katika miaka ya hivi karibuni ni hifadhi ya data. Inajumuisha nyanja mbali mbali, kama vile teknolojia ya habari, programu huria, wingu kompyuta, na itifaki za hifadhi zilizosambazwa.

Huwezesha biashara kuhifadhi aina zote za data kutoka eneo lolote, kurahisisha usimamizi na uchanganuzi. Data Lakehouse ni dhana ya kuvutia sana.

Kampuni yoyote ingekuwa na ushindani mkubwa ikiwa ingekuwa na ufikiaji wa jukwaa la data la yote kwa moja ambalo lilikuwa la haraka na bora kama ghala la data huku likiwa rahisi kunyumbulika kama ziwa la data.

Wazo bado linaendelea na bado ni mpya. Kama matokeo, inaweza kuchukua muda kuamua ikiwa kitu kinaweza kuenea au la.

Sote tunapaswa kuwa na hamu ya kutaka kujua mwelekeo ambao usanifu wa Lakehouse unaelekea.

Data Lakehouse Kila Kitu Unachohitaji Kujua

Data Lakehouse - Kila kitu unachohitaji kujua

Data Lakehouse ni nini?

Vipengele

Vipengele vya Data Lakehouse