Goobaha harooyinka xogta waxay isku daraan bakhaarka xogta iyo fikradaha harada xogta ee ganacsiyada.
Aaladahani waxay kuu ogolaanayaan inaad dhisto xalalka kaydinta xogta kharash-ku-ool ah adoo isku daraya awoodaha maaraynta ee harooyinka xogta iyo qaabdhismeedka xogta ee laga helo bakhaarada xogta.
Intaa waxaa dheer, waxaa jira hoos u dhac ku yimid socdaalka xogta iyo dib-u-celinta, waqti yar ayaa lagu bixiyaa maamulka, iyo qorshaha gaaban iyo hababka maamulka xogta ayaa dhab ahaantii noqday mid dhab ah.
Mid ka mid ah harooyinka xogta ayaa leh faa'iidooyin badan marka loo eego nidaamka kaydinta oo leh dhowr xalal.
Aaladahan waxaa wali isticmaala saynisyahanada xogta si ay u wanaajiyaan fahamkooda sirdoonka ganacsiga iyo hababka barashada mashiinka.
Maqaalkani wuxuu si degdeg ah u eegi doonaa xogta lakehouse, awoodeeda, iyo qalabka la heli karo.
Hordhaca Data Lakehouse
Nooc cusub oo qaab dhismeedka xogta ah oo loo yaqaan "xogta lakehouse” waxay isku daraysaa haro xogeed iyo bakhaar xogeed si loo xalliyo daciifnimada mid kasta si madax bannaan.
Nidaamka harooyinka, sida harooyinka xogta, waxay isticmaashaa kaydinta qiime jaban si ay u hayso tiro badan oo xog ah qaabkeedii asalka ahaa.
Ku darida lakabka xogta badan ee dukaanka dushiisa ayaa sidoo kale bixisa qaab dhismeedka xogta waxayna awood u siisaa agabka maaraynta xogta oo la mid ah kuwa laga helo bakhaarada xogta.
Waxay ka kooban tahay tiro aad u badan oo habaysan, habaysan, iyo xog aan habaysanayn oo laga helay codsiyada ganacsiga ee kala duwan, nidaamyada, iyo qalabka laga isticmaalo guud ahaan ganacsiga.
Natiijo ahaan, si ka duwan harooyinka xogta, nidaamka harooyinka ayaa maamuli kara oo kor u qaadi kara xogtaas waxqabadka SQL.
Waxa kale oo ay awood u leedahay in ay kaydiso oo ku farsamayso tiro badan oo xogo kala duwan ah qiimo jaban marka loo eego kaydadka xogta.
Xogta lakehouse waxay ku timaadaa anfaca markaad u baahan tahay inaad fuliso marin kasta ama falanqayn ka dhan ah xog kasta laakiin aadan hubin xogta ama falanqaynta lagu taliyay.
Dhismaha harooyinka ayaa si fiican u shaqayn doona haddii waxqabadku aanu ahayn welwelka aasaasiga ah.
Taas macnaheedu maaha inaad ku salaysan tahay dhismahaaga oo dhan guriga harada.
Macluumaad dheeraad ah oo ku saabsan sida loo doorto harada xogta, harada, bakhaarka xogta, ama xogta falanqaynta gaarka ah ee kiis kasta oo la isticmaalo ayaa laga heli karaa halkan.
Astaamaha Data Lakehouse
- Akhrinta iyo qorista xogta is-dhaafsan
- La qabsiga iyo miisaanka
- Kaalmada schema ee qalabka maamulka xogta
- Akhrinta iyo qorista xogta is-dhaafsan
- Kaydinta oo la awoodi karo
- Dhammaan noocyada xogta iyo qaababka faylka waa la taageeray.
- Helitaanka xogta sayniska iyo qalabka barashada mashiinka oo la hagaajiyay
- Kooxaha xogtaadu waxay ka faa'iidaysan doonaan inay helaan hal nidaam si ay ugu gudbiyaan culayska shaqada si degdeg ah oo sax ah.
- Awoodaha waqtiga-dhabta ah ee dadaallada sayniska xogta, barashada mashiinka, iyo falanqaynta
Qalabka ugu sarreeya ee 5 Data Lakehouse
Macluumaadka
Databricks, oo uu aasaasay qofkii ugu horreeyay ee sameeyay Apache Spark oo sameeyay ilo furan, waxay bixisaa adeega Apache Spark oo la maareeyay waxaana loo dhigay meel loogu talagalay harooyinka xogta.
Harada xogta, harada delta, iyo qaybaha matoorka delta ee qaab dhismeedka lakehouse Databricks waxay awood u siinaysaa sirdoonka ganacsiga, sayniska xogta, iyo kiisaska isticmaalka barashada mashiinka.
Harada xogtu waa kaydka kaydinta daruuraha guud.
Iyada oo la taageerayo maareynta xogta badan, dufcada iyo socodsiinta xogta habaynta xogta qaabaysan ee badan, helitaanka xogta, kontaroolada gelitaanka badbaadada, iyo falanqaynta SQL.
Databricks waxay bixisaa inta badan shaqooyinka kaydinta xogta ee laga yaabo in laga yaabo in lagu arko goobta xogta harada.
Databricks ayaa dhawaan soo bandhigtay Auto Loader, kaas oo otomaatig u ah ETL iyo gelinta xogta iyo ka faa'iidaysiga muunad xogta si loo qiyaaso schema ee noocyada kala duwan ee xogta, si loo bixiyo qaybaha muhiimka ah ee istaraatiijiyada kaydinta harada.
Taa beddelkeeda, isticmaalayaashu waxay dhisi karaan dhuumaha ETL inta u dhaxaysa harada xogta daruuraha guud iyo harada Delta iyagoo isticmaalaya Delta Live Tables.
Warqadda, Databricks waxay u muuqataa inay leedahay dhammaan faa'iidooyinka, laakiin dejinta xalka iyo abuurista dhuumaha xogta waxay u baahan tahay shaqaale badan oo bini'aadan ah oo ka yimaada horumarinta xirfadlayaasha ah.
Miisaanka, jawaabtu waxay noqonaysaa mid aad u adag. Way ka dhib badan tahay sida ay u muuqato.
Ahana
Harada xogtu waa hal, meel dhexe oo aad ku kaydin karto nooc kasta oo xog ah oo aad doorato cabir ahaan, oo ay ku jiraan xogta aan habaysan iyo habaysan. AWS S3, Microsoft Azure, iyo Google Cloud Storage waa saddex haro xogeed oo caadi ah.
Harooyinka xogta ayaa si aad ah loo jecel yahay sababtoo ah aad bay u jaban yihiin oo fudud in la isticmaalo; waxaad si dhab ah u kaydin kartaa inta ugu badan ee nooc kasta oo xog ah inta aad jeceshahay lacag aad u yar.
Laakin harada xogtu ma bixiso qalab ku dhisan sida falanqaynta, waydiinta, iwm.
Waxaad u baahan tahay injiinka weydiinta iyo buuga xogta oo ku dul yaal harada xogta (halka ay Ahana Cloud ka soo gasho) si aad u waydiiso xogtaada oo aad isticmaasho.
Iyada oo sida ugu wanaagsan ee labadaba kaydka xogta iyo harada xogta, naqshad cusub oo xog ah ayaa la sameeyay.
Tani waxay tusinaysaa inay tahay mid hufan, la qabsan karo, leh qiimo/waxqabad wanaagsan, miisaan sida harada xogtu waxay taageertaa wax kala iibsiga, oo ay leedahay ammaan heer sare ah oo la barbar dhigi karo kaydka xogta.
Matoorka waydiimahaaga SQL ee waxqabadka sare leh waa maskaxda ka dambaysa Data Lakehouse. Taas awgeed, waxaad samayn kartaa falanqaynta waxqabadka sare ee xogtaada harada.
Ahana Cloud ee Presto waa SaaS loogu talagalay Presto ee AWS, taasoo ka dhigaysa mid aad u fudud in la bilaabo isticmaalka Presto ee daruuraha.
Harada xogta ku salaysan ee S3, Ahana waxay hore u haysatay buug-yaraha xogta iyo kaydinta. Ahana waxa ay ku siinaysaa sifada Presto adiga oo aan u baahnayn in aad wax ka qabato dusha sare sababtoo ah waxa ay ku qabataa gudaha.
AWS Lake Formation, Apache Hudi, iyo Delta Lake waa wax yar oo ka mid ah maamulayaasha wax kala iibsiga kuwaas oo qayb ka ah xirmada oo ku dhex milma.
Dremio
Ururadu waxay raadiyaan inay si dhakhso ah, fudud, oo hufan u qiimeeyaan tiro badan oo xog ah oo si degdeg ah u koraysa.
Dremio wuxuu aaminsan yahay in harada xogta furan ay isku darayso faa'iidooyinka harooyinka xogta iyo bakhaarada xogta si furan waa habka ugu wanaagsan ee tan lagu gaaro.
Meesha lakehouse ee Dremio waxay siisaa waayo-aragnimo u shaqeysa qof walba, oo leh UI fudud oo u oggolaanaya isticmaaleyaasha inay dhammaystiraan falanqaynta qayb yar oo wakhtiga ah.
Dremio Cloud, madal xogeed si buuxda loo maareeyay, iyo furitaanka laba adeeg oo cusub: Dremio Sonar, mishiin waydiinta harada, iyo Dremio Arctic, megastore caqli badan oo Apache Iceberg ah kaas oo bixiya khibrad Git u eg ee harada.
Dhammaan culayska shaqada ee ururka SQL waxa lagu socodsiin karaa is-jiid-jiid la'aan, oo aan dhammaanayn la miisaami karo Dremio Cloud platform, kaas oo sidoo kale toosiya hawlaha maaraynta xogta.
Waxaa loo dhisay SQL, waxay bixisaa khibrad u eg Git, waa il furan, mar walbana waa bilaash.
Waxay u abuureen inay noqoto goobta harada ee kooxaha xogta ay jecel yihiin.
Isticmaalka miiska isha furan iyo qaababka faylka sida Apache Iceberg iyo Apache Parquet, xogtaadu waxay ku sii jirtaa kaydinta xogtaada harada markaad isticmaalayso Dremio Cloud.
Hal-abuurka mustaqbalka si fudud ayaa loo qaadan karaa, matoorka saxda ah ayaa lagu dooran karaa iyadoo lagu saleynayo shaqadaada.
Snowflake
Snowflake waa xogta daruuraha iyo madal falanqayn oo dabooli karta baahiyaha harooyinka iyo bakhaarada.
Waxay ku bilaabantay habka kaydinta xogta ee lagu dhisay kaabayaasha daruuraha.
Madalku waxa uu ka kooban yahay kaydka kaydinta dhexe oo ku fadhiya korka kaydinta daruuraha guud ee AWS, Microsoft Azure, ama Google Cloud Platform (GCP).
Taas ka dib waa lakab xisaabin kooxeedyo badan, halkaas oo isticmaalayaashu ay bilaabi karaan bakhaarka xogta farsamada oo ay qabtaan su'aalo SQL oo liddi ku ah kaydinta xogta.
Nashqadani waxay u ogolaataa in la kala saaro kaydinta iyo agabka xisaabinta, taas oo u ogolaanaysa ururadu in ay si madax banaan u cabbiraan labada marka loo baahdo.
Ugu dambeyntii, Snowflake wuxuu bixiyaa lakab adeeg oo leh kala soocida xogta badan, maareynta kheyraadka, maamulka xogta, wax kala iibsiga, iyo sifooyin kale.
Xidhiidhiyayaasha aaladaha BI, maaraynta xogta badan, kontaroolada gelitaanka, iyo waydiimaha SQL ayaa ah dhawr ka mid ah shaqaynta kaydinta xogta ee madalku ku fiican tahay bixinta.
Barafka barafka, si kastaba ha ahaatee, waxa uu ku xaddidan yahay hal injiin su'aal oo ku salaysan SQL.
Natiijo ahaan, way fududaanaysaa in la maamulo laakiin la qabsan kari waydo, iyo aragtida harooyinka badan ee xogta moodada ah lama xaqiijin.
Intaa waxaa dheer, ka hor inta aan xogta laga helay kaydinta daruuraha aan la baadhi karin ama la falanqeyn, Snowflake wuxuu u baahan yahay ganacsiyada inay ku shubaan lakab kaydinta dhexe ah.
Habka dhuumaha xogta buuggu waxa uu u baahan yahay ETL ka hor, bixinta, iyo qaabaynta xogta ka hor inta aan la baarin. Kor-u-qaadista hababkan gacanta waxay ka dhigtaa niyad-jab.
Ikhtiyaar kale oo u muuqda inuu ku habboon yahay warqad laakiin dhab ahaantii, ka leexanaysa mabda'a harada xogta ee gelinta xogta fudud waa Snowflake's data lakehouse.
Oracle
Dhismaha casriga ah, furan ee loo yaqaan "data lakehouse" waxay suurtogal ka dhigtaa kaydinta, fahamka, iyo falanqaynta dhammaan xogtaada.
Xalka harada xogta isha furan ee sida aadka ah loo jecel yahay ballaadhkeeda iyo dabacsanaanta waxa lagu daraa xoogga iyo qoto dheer ee kaydinta xogta.
Qaab-dhismeedka AI ee ugu cusub iyo adeegyada AI ee horay loo dhisay waxaa lagu isticmaali karaa harada xogta ee Oracle Cloud Infrastructure (OCI).
Waa suurtogal in lagu shaqeeyo noocyo kale oo xog ah marka la isticmaalayo haro xog il furan. Laakiin waqtiga iyo dadaalka loo baahan yahay si loo maareeyo waxay noqon kartaa dib u dhac joogto ah.
OCI waxay bixisaa adeegyo il furan oo lakehouse ah oo si buuxda loo maareeyey oo leh heerar hoose iyo maarayn yar, taasoo kuu ogolaanaysa inaad odoroso kharashyada hawlgalka oo hooseeya, miisaan fiican iyo ammaan, iyo awoodda aad ku ururinayso dhammaan xogtaada jirta hal meel.
Kaydka xogtu waxay kordhin doontaa qiimaha bakhaarrada xogta iyo mareegyada, kuwaas oo lagama maarmaan u ah ganacsiyada guuleysta.
Xogta waxaa lagu soo celin karaa iyadoo la isticmaalayo haro badan oo laga keenay meelo badan oo leh hal su'aal SQL ah.
Barnaamijyada iyo aaladaha jira waxay helayaan helitaan hufan oo xogta oo dhan ah iyada oo aan u baahnayn wax ka beddel ama xirfado cusub.
Ugu Dambeyn
Soo bandhigida xalalka xogta lakehouse waa muujinta isbeddelka weyn ee xogta weyn, taas oo ah isdhexgalka falanqaynta iyo kaydinta xogta ee goobaha xogta midaysan si kor loogu qaado qiimaha ganacsiga ee xogta iyada oo la dhimayo wakhtiga, kharashka, iyo kakanaanta soo saarista qiimaha.
Platforms ay ka mid yihiin Databricks, Snowflake, Ahana, Dremio, iyo Oracle ayaa dhamaantood lala xiriiriyay fikradda "daarta lakehouse", laakiin mid kastaa wuxuu leeyahay astaamo u gaar ah iyo u janjeera inuu u shaqeeyo sida bakhaarka xogta marka loo eego harada xogta dhabta ah. guud ahaan.
Marka xalka loo suuqgeeyo sidii "xarunta xogta," ganacsiyadu waa inay ka digtoonaadaan waxa dhabta ah.
Shirkaduhu waxay u baahan yihiin inay eegaan wax ka baxsan suuqgeyntooda suuqgeyneed sida "data lakehouse" oo taa beddelkeeda ay eegaan astaamaha madal kasta si ay u doortaan goobta xogta ugu fiican ee ku fidin doonta ganacsigooda mustaqbalka.
Leave a Reply