Waxa laga yaabaa inay yara adkaato in la tixgeliyo dhammaan adeegyada jira iyo fursadaha qaabdhismeedka marka laga fikirayo goobaha xogta.
Goobta xogta ganacsigu waxay inta badan ka kooban tahay bakhaarrada xogta, moodooyinka xogta, harooyinka xogta, iyo warbixinnada, mid kastaa leh ujeedo gaar ah iyo xirfado loo baahan yahay. Taas bedelkeeda, naqshad cusub oo la yiraahdo xogta lakehouse ayaa soo baxday dhowrkii sano ee la soo dhaafay.
Kala duwanaanshaha harooyinka xogta iyo maareynta xogta bakhaarka xogta ayaa lagu daray qaab dhismeedka kaydinta xogta kacaanka ee lagu naanayso "lakehouse data."
Waxaan si qoto dheer u baari doonaa lakehouse xogta boostadan, oo ay ku jiraan qaybaheeda, muuqaalada, qaab dhismeedka, iyo dhinacyo kale.
Waa maxay Data Lakehouse?
Sida magacaba ka muuqata, xogta lakehouse waa nooc cusub oo qaab dhismeedka xogta ah kaas oo isku dara harada xogta iyo bakhaarka xogta si loo xalliyo cilladaha mid kasta si gaar ah.
Nuxur ahaan, nidaamka harooyinka wuxuu adeegsadaa kaydin aan qaali ahayn si uu u ilaaliyo tiro badan oo xog ah qaabkoodii asalka ahaa, sida harooyinka xogta. Ku darida lakabka xogaha badan ee dushiisa dukaanka ayaa sidoo kale siinaya qaab dhismeedka xogta waxayna awood siisaa agabka maaraynta xogta sida kuwa laga helo bakhaarada xogta.
Waxa ay kaydisaa tiro aad u badan oo habaysan, habaysan, iyo xogta aan habaysanayn ee ay ka helaan codsiyada ganacsiga ee kala duwan, nidaamyada, iyo qalabka loo isticmaalo ururkooda oo dhan.
Inta badan, harooyinka xogtu waxay isticmaalaan kaabayaasha kaydinta qiime jaban oo leh interface programming interface (API) si ay xogta ugu kaydiyaan qaabab faylal guud oo furan.
Tani waxay suurtogal ka dhigeysaa in kooxo badan ay helaan dhammaan xogta shirkadda iyada oo loo marayo hal nidaam oo loogu talagalay waxqabadyo kala duwan, sida sayniska xogta, barashada mashiinka, iyo sirdoonka ganacsiga.
Features
- Kaydinta qiime jaban. Xogta lakehouse waa inay awood u leedahay inay ku kaydiso xogta kaydinta shay aan qaali ahayn, sida Google Cloud Kaydinta, Kaydinta Blob Azure, Adeegga Kaydinta Fudud ee Amazon, ama asal ahaan adoo isticmaalaya ORC ama Parquet.
- Kartida hagaajinta xogta: Habaynta xogta, kaydinta, iyo tusmaynta waa dhawr tusaale oo ku saabsan sida harada xogta ay tahay inay awood u yeelato inay hagaajiso xogta iyadoo la ilaalinayo qaabka asalka ah ee xogta.
- Lakabka xogta badan ee macaamil ganacsi: dusha sare ee kaydinta qiimaha jaban ee muhiimka ah, tani waxay awood u siinaysaa awoodaha maaraynta xogta ee muhiimka u ah waxqabadka kaydinta xogta.
- Taageerada Bayaanka DataFrame API: Inta badan aaladaha AI waxay isticmaali karaan DataFrames si ay u soo ceshadaan xogta kaydka sheyga cayriin. Taageerada ku dhawaaqida DataFrame API waxay kordhisaa awooda si firfircooni leh loo wanaajiyo soo bandhigida xogta iyo qaab dhismeedka iyada oo laga jawaabayo sayniska xogta gaarka ah ama hawsha AI.
- Taageerada wax kala iibsiga ACID: Soo gaabinta ACID, oo u taagan atomiga, joogteynta, go'doominta, iyo adkeysiga, waa qayb muhiim ah oo lagu qeexayo macaamil ganacsi iyo hubinta joogtaynta iyo isku halaynta xogta. Dhaqdhaqaaqyada noocan oo kale ah ayaa hore u ahaa kaliya suurtogalnimada bakhaarada xogta, laakiin lakehouse waxay bixisaa ikhtiyaarka ah in looga faa'iidaysto harooyinka xogta sidoo kale. Iyadoo ay jiraan dhowr tubbo oo xog ah oo ay ku jiraan xogta isla socota waa la akhriyaa oo la qoraa, tani waxay xallisaa dhibaatada tayada hoose ee xogta dambe.
Qaybaha Data Lakehouse
Nashqada dhismaha harada xogta waxa loo qaybiyaa laba heerar oo waaweyn oo heer sare ah. Qaadashada xogta lakabka kaydinta waxaa gacanta ku haya goobta harada (tusaale, harada xogta).
Adigoon u baahnayn in xogta lagu shubo bakhaarka xogta ama loo beddelo qaab gaar ah, lakabka farsamaynta ayaa markaa awood u yeelanaya inuu si toos ah u weydiiyo xogta ku jirta lakabka kaydinta isagoo isticmaalaya qalab kala duwan.
Kadib, barnaamijyada BI, iyo sidoo kale tignoolajiyada AI iyo ML, ayaa isticmaali kara xogta. Dhaqaalaha harada xogta waxaa bixiya nashqadan, laakiin sababtoo ah mishiin kasta oo wax-qabadku wuu akhriyi karaa xogtan, ganacsiyadu waxay xor u yihiin inay ka dhigaan xogta diyaarsan oo la heli karo si loo baaro nidaamyo kala duwan. Waxqabadka processor-ka iyo qiimaha labadaba waa lagu wanaajin karaa iyadoo habkan loo isticmaalo habaynta iyo falanqaynta.
Iyada oo ay ugu wacan tahay taageerada ay u fidiso xogta macluumaadka ee u hoggaansan ACID-yada soo socda (atomicity, joogtaynta, go'doominta, iyo cimri dhererka) shuruudaha, qaabdhismeedku waxa kale oo uu awood u siiyaa dhinacyo badan inay galaan oo qoraan xogta isku mar nidaamka dhexdiisa:
- Atomiga waxaa loola jeedaa xaqiiqda ah in macaamilka buuxa ama midkoodna, uu guuleysto marka la dhammeynayo macaamil ganacsi. Haddii ay dhacdo in nidaamku go'o, tani waxay kaa caawineysaa inaad iska ilaaliso luminta xogta ama musuqmaasuqa.
- Dhanka dammaanad qaadka wax kala beddelashadu u dhacaan si la saadaalin karo, hab joogto ah. Waxa ay ilaalisaa daacadnimada xogta iyada oo hubinaysa in xog kasta ay tahay mid sharci ah iyada oo la raacayo xeerar la go'aamiyay.
- Go'doon waxay hubisaa in, ilaa iyo inta la dhammeeyo, wax macaamil ganacsi ah ma saameyn karo macaamil kasta oo nidaamka dhexdiisa ah. Tani waxay u ogolaanaysaa dhinacyo badan inay wax akhriyaan waxna ka qoraan isla nidaam isku mar iyagoon midba midka kale faragelin.
- Assal wuxuu dammaanad qaadayaa in isbeddelka xogta nidaamka uu sii jiro ka dib marka la dhammeeyo macaamil ganacsi, xitaa haddii ay dhacdo nidaam guuldarro. Wax ka beddel kasta oo uu keeno wax kala beddelasho waxa lagu hayaa faylka weligood.
Dhismaha Data Lakehouse
Databricks (hal-abuuraha iyo naqshadeeyaha fikradahooda Delta Lake) iyo AWS waa labada u doode ee ugu muhiimsan fikradda harada xogta. Waxaan markaa ku tiirsanaan doonnaa aqoontooda iyo aragtidooda si aan u qeexno qaab-dhismeedka dhismayaasha harooyinka.
Habka lakehouse xogta ayaa sida caadiga ah yeelan doona shan lakab:
- lakabka dhuujinta
- Lakabka kaydinta
- lakabka metadata
- lakabka API
- Lakabka isticmaalka
lakabka dhuujinta
Lakabka kowaad ee nidaamku waxa uu masuul ka yahay ururinta xogta ilo kala duwan iyo u dirida lakabka kaydinta. Lakabku waxa uu isticmaali karaa dhawr hab-maamuus si uu ugu xidho ilo badan oo gudaha iyo dibadda ah, oo ay ku jiraan isku darka dufcaddii iyo awoodaha socodsiinta xogta, sida
- NoSQL xog-ururinta,
- saamiyada faylka
- Codsiyada CRM,
- mareegaha internetka,
- Dareemayaasha IoT,
- warbaahinta bulshada,
- Codsiyada Software ahaan Adeeg ahaan (SaaS), iyo
- nidaamyada maaraynta xogta xogta ee xidhiidhka, iwm.
Halkaa marka ay marayso, qaybaha sida Apache Kafka ee qulqulka xogta iyo Adeegga Socdaalka Xogta Amazon (Amazon DMS) ee soo dejinta xogta RDBMS-yada iyo xogaha NoSQL waa la shaqayn karaa.
Lakabka kaydinta
Dhismaha harada waxaa loola jeedaa in lagu sahlo kaydinta noocyada kala duwan ee xogta sida shay ku jira bakhaarada shay qaaliga ah, sida AWS S3. Isticmaalka qaababka faylka furan, qalabka macmiilku wuxuu markaa si toos ah uga akhriyi karaa alaabtan dukaanka.
Tani waxay suurtogal ka dhigaysaa API-yo badan iyo qaybaha lakabka isticmaalka inay galaan oo isticmaalaan xog isku mid ah. Lakabka metadata wuxuu kaydiyaa jaantusyada xogta habaysan iyo qaab-dhismeed hoose si ay qaybuhu ugu dabaqaan xogta markay akhrinayaan.
Hadoop Distributed File System (HDFS), tusaale ahaan, waxa loo isticmaali karaa in lagu dhiso adeegyada kaydinta daruuraha ee kala qaybiya xisaabinta iyo kaydinta dhismaha. Lakehouse ayaa ku habboon adeegyadan.
lakabka metadata
Lakabka metadata waa qaybta aasaasiga ah ee kaydka xogta ee kala saarta naqshaddan. Waa buug keliya oo bixiya metadata (macluumaad ku saabsan qaybaha kale ee xogta) ee dhammaan walxaha lagu kaydiyo harada oo u ogolaata isticmaalayaasha inay shaqaalaysiiyaan awoodaha maamulka sida:
- Nooc joogto ah oo xog ururin ah ayaa lagu arkaa macaamil ganacsi oo is daba jooga iyada oo ay uga mahadcelinayaan macaamilka ACID;
- kaydinta si loo badbaadiyo faylasha kaydka walxaha daruuraha;
- ku darista tusmooyinka qaab dhismeedka xogta iyadoo la adeegsanayo tusmaynta si loo dedejiyo habaynta weydiinta;
- iyadoo la isticmaalayo koobi eber si loo nuqulo walxaha xogta; iyo
- si aad u kaydiso qaybo ka mid ah xogta, iwm., isticmaal nooca xogta.
Intaa waxaa dheer, lakabka xogaha badan waxa uu awood u siinaya hirgelinta maamulka schema, isticmaalka schema schema topologies sida xiddigaha/qorshayaasha barafka, iyo bixinta maamulka xogta iyo awoodda xisaabinta si toos ah harada xogta, kor u qaadida daacadnimada ee dhammaan dhuumaha xogta.
Astaamaha horumarinta schema iyo dhaqangelinta ayaa lagu daray maaraynta schema. Diidmada qoraal kasta oo aan buuxin shaxda miiska, fulinta schema waxay u saamaxdaa isticmaalayaasha inay ilaaliyaan daacadnimada iyo tayada xogta.
Horumarka Schema waxa uu ogolaadaa in shaxda miiska la joogo wax laga beddelo si loo waafajiyo xogta beddelka ah. Iyada oo ay ugu wacan tahay hal is-dhexgal maamul oo ka sarreeya harada xogta, waxa kale oo jira xakamaynta gelitaanka iyo suurtogalnimada xisaabinta.
lakabka API
Lakab kale oo muhiim ah oo ka mid ah qaab dhismeedka ayaa hadda jira, oo martigelinaya tiro APIs ah oo dhammaan isticmaalayaasha dhamaadka u isticmaali karaan si ay u qabtaan shaqooyinka si dhakhso leh oo ay u helaan tirokoob aad u casrisan.
Isticmaalka xogta badan APIs waxay sahlaysaa in la aqoonsado oo la galo xogta macluumaadka loo baahan yahay codsiga la bixiyay.
Marka la eego maktabadaha barashada mashiinka, qaarkood, sida TensorFlow iyo Spark MLlib, waxay akhrin karaan qaabab faylal furan sida Parquet oo si toos ah u geli karaan lakabka metadata.
Isla mar ahaantaana, DataFrame APIs waxay bixiyaan fursado badan oo hagaajin ah, taas oo u oggolaanaysa barnaamij-bixiyeyaasha inay habeeyaan oo beddelaan xogta la firdhiyey.
Lakabka isticmaalka
Power BI, Tableau, iyo qalabyada kale iyo abka waxa lagu marti galiyay lakabka isticmaalka. Naqshadeynta harada, dhammaan xogta badan iyo dhammaan xogta lagu hayo harada waa la heli karaa abka macmiilka.
Lakehouse-ka waxaa isticmaali kara dhammaan isticmaalayaasha shirkadda dhexdeeda si ay u fuliyaan dhammaan noocyada kala duwan hawlgallada falanqaynta, oo ay ku jiraan abuurista dashboards sirta ganacsiga iyo socodsiinta su'aalaha SQL iyo hawlaha barashada mashiinka.
Faa'iidooyinka Data Lakehouse
Ururadu waxay abuuri karaan kayd xogeed si ay u mideeyaan madal xogta ay hadda ku jiraan oo ay u wanaajiyaan habka maamulkooda xogta oo dhan. Iyadoo la baabi'inayo caqabadaha silo ee isku xiraya ilo kala duwan, kaydka xogta ayaa bedeli kara baahida xalal kala duwan.
Marka la barbar dhigo ilaha xogta la soo koobay, is dhexgalkani waxa uu soo saaraa hab-dhammaad-ilaa-dhammaad aad waxtar u leh. Tani waxay leedahay faa'iidooyin dhowr ah:
- Maamul yarHalkii laga soo saari lahaa xogta xogta ceyriinka ah oo loo diyaarin lahaa in lagu isticmaalo bakhaarka xogta, kaydka xogta ayaa u oggolaanaya ilo kasta oo ku xidhan in la heli karo xogtooda oo loo habeeyo ka faa'iidaysiga.
- Waxtarka kharash-ku-oolnimada oo kordhayXogta harooyinka waxaa la dhisay iyadoo la adeegsanayo kaabayaasha casriga ah ee kala qaybiya xisaabinta iyo kaydinta, taasoo ka dhigaysa mid fudud in la balaadhiyo kaydinta iyada oo aan la kordhin awoodda xisaabinta. Kaliya isticmaalka kaydinta xogta ee jaban waxay keenaysaa miisaan la'aan kharash-ool ah.
- Maamulka xogta wanaagsan: Guryaha xogta waxaa lagu dhisay qaab-dhismeed furan oo habaysan, taas oo u oggolaanaysa in la xakameeyo ammaanka, cabbiraadaha, gelitaanka doorka ku salaysan, iyo qaybaha kale ee maamulka ee muhiimka ah. Marka la mideeyo ilaha iyo ilaha xogta, waxay fududeeyaan oo kor u qaadaan maamulka.
- Heerarka la fududeeyayTan iyo markii xidhiidhka si aad ah loo xaddiday 1980-tii, markii ugu horreysay ee la sameeyay bakhaarrada xogta, jaangooyooyinka schema-ga ayaa inta badan lagu soo saaray ganacsiyada, xitaa waaxaha. Guryaha harooyinka xogtu waxay adeegsadaan xaqiiqda ah in noocyo badan oo xog ah ay hadda leeyihiin heerar furan oo schema ah iyaga oo geliyey ilo xogeedyo badan oo leh schema lebbiska oo isku dhafan si loo hagaajiyo hababka.
Faa'iido darrada Data Lakehouse
In kasta oo ay jiraan dhammaan hoopla ku xeeran lakehouses xogta, waxaa muhiim ah in maskaxda lagu hayo in fikradda weli waa mid aad u cusub. Hubi inaad miisaanto khasaarooyinka ka hor inta aadan si buuxda u go'an naqshadan cusub.
- Qaab dhismeedka monolithicNaqshadaynta loo dhan yahay ee guriga harada waxay bixisaa faa'iidooyin dhowr ah, laakiin sidoo kale waxay kor u qaadaa dhibaatooyinka qaarkood. Dhismaha monolithic wuxuu inta badan u horseedaa adeeg liidata dhammaan isticmaalayaasha waxayna noqon kartaa mid adag oo ay adagtahay in la ilaaliyo. Caadi ahaan, naqshadeeyayaasha iyo naqshadeeyayaasha waxay jecel yihiin qaab dhismeed modular ah oo ay u habeyn karaan kiisaska isticmaalka kala duwan.
- Tiknooloojiyada ilaa hadda ma jirto: Hadafka ugu dambeeya wuxuu ka kooban yahay tiro badan oo ah barashada mashiinka iyo garaadka macmalka ah. Kahor inta aqallada harooyinka aysan u fulin sidii la filayey, tignoolajiyadaani waa in ay horumaraan.
- Horumar la taaban karo maaha dhismayaasha jira: Weli waxaa jira shaki weyn oo laga qabo intee in le'eg ayay ka qiimo badan yihiin guryaha harooyinka. Qaar ka mid ah dacaayado ayaa ku doodaya in nakhshad bakhaar haro ah oo lagu lamaanay qalab toos ah oo ku habboon uu gaari karo waxtar la mid ah.
Caqabadaha Harada Xogta
Way adkaan kartaa in la qaato farsamada lakehouse data. Sababo la xiriira qallafsanaanta qaybaha ay ka kooban tahay, waa khalad in loo arko lakehouse xogta sida qaab-dhismeed ku habboon oo dhan oo dhan ama "hal madal wax walba," mid.
Intaa waxaa dheer, kororka qaadashada harooyinka xogta awgeed, ganacsiyadu waa inay u raraan bakhaarkooda xogta hadda jira, iyagoo ku tiirsan oo keliya ballanqaad guul ah oo aan lahayn faa'iido dhaqaale oo muuqata.
Haddii ay jiraan wax dhibaato ah oo daahitaan ah ama maqnaansho inta lagu jiro habka wareejinta, tani waxay noqon kartaa mid qaali ah, waqti-qaadasho ah, iyo laga yaabo in aan ammaan ahayn.
Isticmaalayaasha ganacsigu waa inay qaataan tignoolajiyada takhasuska sare leh, marka loo eego iibiyeyaasha qaarkood ee si cad ama si aan toos ahayn u suuq gayn xalalka xogta harooyinka. Kuwani waxaa laga yaabaa inaanay had iyo jeer la shaqayn qalabyada kale ee ku xiran harada xogta ee xarunta dhexe ee nidaamka, iyaga oo ku daraya arrimaha.
Intaa waxaa dheer, waxaa laga yaabaa inay adkaato in la bixiyo 24/7 falanqaynta iyadoo la wado culeysyo shaqo oo muhiim ah oo ganacsi, kaas oo ku baaqaya kaabayaal leh miisaan wax ku ool ah.
Ugu Dambeyn
Noocyada ugu cusub ee xarumaha xogta sannadihii u dambeeyay waa xogta lakehouse. Waxay isku daraysaa qaybo kala duwan, sida tignoolajiyada macluumaadka, softiweerka il furan, daruur Kombuyuutarada, iyo hab-maamuuska kaydinta la qaybiyey.
Waxay awood u siinaysaa ganacsiyada inay meel dhexe ku kaydiyaan dhammaan noocyada xogta meel kasta, fududaynta maamulka iyo falanqaynta. Data Lakehouse waa fikrad aad u xiiso badan.
Shirkad kastaa waxay yeelan doontaa gees tartan oo muhiim ah haddii ay heli lahayd madal xog-dhan-hal ah oo u degdeg badan oo hufan sida bakhaarka xogta iyada oo sidoo kale u dabacsan sida harada xogta.
Fikirku wali wuu soo korayaa oo weli wuu cusub yahay. Natiijo ahaan, waxay qaadan kartaa wakhti in la go'aamiyo in shay uu noqon karo mid baahsan iyo in kale.
Dhammaanteen waa inaan ka xishoonnaa jihada uu u socdo dhismaha Lakehouse.
Leave a Reply