Saynisyahannada Xogta iyo xirfadlayaasha barashada mishiinada waxay la macaamilaan tiro badan oo xog ah oo noocyo kala duwan ah mashruuca sayniska xogta caadiga ah. Noocyo badan ayaa la sameeyay oo leh habab iyo astaamo kala duwan, iyo sidoo kale ku celcelin badan oo habbeegsiyeedka si loo helo waxqabadka ugu wanaagsan.
Xaaladdan oo kale, dhammaan wax-ka-beddelka xogta iyo habaynta habka dhisidda moodeelka waa in la kormeeraa lana cabbiraa si loo go'aamiyo waxa shaqeeyay iyo waxa aan shaqayn. Waxa kale oo muhiim ah in la awoodo in lagu noqdo daabacaad hore oo la eego natiijooyinkii hore.
Xakamaynta Nooca Xogta (DVC), kaas oo gacan ka geysta maaraynta xogta, qaabka hoose, iyo socodsiinta natiijooyinka la soo saari karo, waa mid ka mid ah tignoolajiyada noocan oo kale ah oo awood noo siinaya in aan la socono waxaas oo dhan.
Maqaalkan, waxaanu si dhow u eegi doonaa Xakamaynta Nooca Xogta, iyo qalabka ugu fiican ee la isticmaalo. Aan bilowno.
Waa maxay Xakamaynta Nooca Xogta?
Qaabaynta ayaa looga baahan yahay dhammaan nidaamyada wax soo saarka. Hal dhibic oo laga helayo xogta ugu casrisan Kheyraad kasta oo inta badan wax laga beddelo, gaar ahaan dhowr isticmaale oo isku mar ah, waxay u baahan tahay abuurista dariiq xisaabeed si loola socdo dhammaan isbeddellada.
Nidaamka xakamaynta nooca ayaa mas'uul ka ah hubinta in qof kasta oo kooxda ka mid ah uu ku jiro isku bog. Waxay dammaanad qaadaysaa in qof kasta oo kooxda ka mid ahi uu ka shaqaynayo nooca ugu dambeeyay ee faylka iyo, ka sii muhiimsan, in qof kastaa uu isla mashruuc isla markiiba ka wada shaqeeyo.
Haddii aad haysato qalab ku habboon, waxaad tan ku dhammayn kartaa dadaalka ugu yar!
Waxaad yeelan doontaa xog ururin joogto ah iyo kayd dhammaystiran oo dhammaan cilmi-baadhisyadaada haddii aad isticmaasho istaraatiijiyad maaraynta nooca xogta oo la isku halleyn karo. Aaladaha qaabaynta xogta ayaa muhiim u ah socodkaaga shaqada haddii aad danayso soo saarista, raadraaca, iyo taariikhda moodeelka ML.
Waxay kaa caawinayaan inaad hesho nooc ka mid ah shay, sida xashiishka xogta ama moodel, kaas oo aad isticmaali karto si aad u aqoonsato oo aad barbar dhigto. Nooca xogtan waxaa badanaa la galaa xalkaaga maaraynta xogta badan si loo dammaanad qaado in tababbarka moodeelkaagu yahay mid nuqul ah oo lagu celin karo.
Qalabka Xakamaynta Nooca Xogta ugu Fiican
Hadda waa waqtigii la eegi lahaa xalalka kantaroolka nooca xogta ugu fiican, kaas oo aad isticmaali karto si aad ula socoto qayb kasta oo ka mid ah koodkaaga.
1. Xigasho LFS
Mashruuca Git LFS waa bilaash in la isticmaalo. Gudaha Git, faylal waaweyn sida muunado maqal ah, fiidiyowyo, xog ururin, iyo sawirro ayaa lagu beddelaa tilmaameyaal qoraal ah, waxa ku jira faylka waxaa lagu kaydiyaa server fog sida GitHub.com ama GitHub Enterprise.
Waxay kuu oggolaaneysaa inaad Git u isticmaasho nooca faylalka waaweyn -ilaa dhowr GB oo cabbir ah - martigeli wax badan oo ku jira bakhaarkaaga Git adoo isticmaalaya kaydinta dibadda, oo xidho oo soo ceshano kaydka faylalka waaweyn si dhakhso leh. Marka ay timaado maareynta xogta, tani waa xal fudud oo qurux badan. Si aad ula shaqeyso Git, uma baahnid wax amarro dheeraad ah, nidaamyada kaydinta, ama qalabyada.
Waxay xaddidaysaa tirada macluumaadka aad soo dejisay. Tani waxay tusinaysaa in xidhidhaynta iyo ka soo saarida faylalka waaweyn ee kaydka ay noqon doonto mid dhakhso badan. Tilmaamayaashu waxay ka samaysan yihiin walxo khafiif ah waxayna tilmaamayaan LFS.
Natiijo ahaan, marka aad ku riixdo kaydkaaga kaydka ugu weyn, si dhakhso ah ayay u cusbooneysiisaa oo waxay qaadataa meel yar.
Faa'iidooyinka
- Si sahal ah ayey ugu biirtaa socodka shaqada ee horumarinta ganacsiyada intooda badan.
- Looma baahna in la xakameeyo xuquuqaha dheeraadka ah sababtoo ah waxay isticmaashaa rukhsad la mid ah tan kaydka Git.
Qasaarooyinka
- Git LFS waxa ay daruuri ka dhigtaa isticmaalka adeegayaasha gaarka ah si loo kaydiyo xogtaada. Natiijo ahaan, kooxaha sayniska xogtaada waa la xidhi doonaa, oo culayska shaqadaada injineernimada ayaa kor u kici doonta.
- Aad u takhasusay, oo laga yaabo inay qasabto adeegsiga agabyo kala duwan oo kala duwan wejiyada xiga ee socodka shaqada sayniska.
Qiimo u goynta
Waa u bilaash in qof walba loo isticmaalo.
2. LakeFS
LakeFS waa xalka qaabaynta xogta il furan kaas oo ku kaydiya xogta S3 ama GCS oo leh laamo u eg Git iyo samaynta jaangooyooyin cabiraya petabytes.
Istaraatiijiyadan qaybinta waxay ka dhigaysaa xogtaada harada ACID mid u hoggaansan iyadoo u oggolaanaysa isbeddellada inay ka dhacaan laamo kala duwan kuwaas oo la dhisi karo, la isku dari karo, oo dib loo rogi karo si atomiga iyo isla markiiba ah.
LakeFS waxay awood u siisaa kooxaha inay abuuraan hawlaha harada xogta kuwaas oo lagu celin karo, atomikada, iyo qaabaysan. Waa qof ku cusub goobta, balse waa xoog lagu xisaabtami karo.
Waxay isticmaashaa laanta u eg Git iyo habka xakamaynta nooca si ay ula fal gasho kaaga harada xogta, la qiyaasi karo ilaa Petabytes ee xogta. Miisaanka exabyte, waxaad ka hubin kartaa xakamaynta nooca.
Faa'iidooyinka
- Hawlgallada u eg Git waxa ka mid ah laanta, samaynta, isku darka, iyo soo noqoshada.
- Xirmooyinka hore-u-goynta/isku-dhafka ayaa loo isticmaalaa hubinta CI/CD xogta.
- Waxay siisaa astaamo adag sida macaamilka ACID ee kaydinta daruuraha fudud sida S3 iyo GCS, dhammaan inta qaab dhexdhexaad ah hadhay
- Ku celi isbeddelada xogta wakhtiga dhabta ah
- Miisaanka si diyaar ah, u oggolaanaya inay dejiso harooyinka xogta aadka u weyn. Xakamaynta nooca waxaa lagu bixin karaa labadaba horumarinta iyo goobaha wax soo saarka.
Qasaarooyinka
- LakeFS waa badeeco cusub, sidaas awgeed shaqeynta iyo dukumeentigu waxay u beddeli karaan si ka dhaqso badan xalalkii hore.
- Maadaama ay diiradda saarayso nooca xogta, waxaad u baahan doontaa inaad ka faa'iidaysato qalabyo dheeri ah oo kala duwan oo qaybaha kala duwan ee socodka shaqada sayniska.
Qiimo u goynta
Waa u bilaash in qof walba loo isticmaalo.
3. DVC
Xakamaynta Nooca Xogta waa xalka qaabaynta xogta bilaashka ah ee loogu talagalay sayniska xogta iyo codsiyada mashiinka barashada. Waa barnaamij kuu ogolaanaya inaad ku qeexdo dhuumahaaga luqad kasta.
Iyadoo la maamulayo faylalka waaweyn, xogta xogta, moodooyinka barashada mashiinka, koodka, iyo wixii la mid ah, qalabku wuxuu ka dhigayaa moodooyinka barashada mashiinka mid la wadaagi karo oo la soo saari karo. Barnaamijku wuxuu raacayaa hogaanka Git ee bixinta khad amar fudud oo lagu dejin karo dhowr tillaabo oo keliya.
Sida magaceedu tilmaamayo, DVC kuma saabsana nuqulka xogta oo kaliya. Waxa kale oo ay fududaysaa maareynta dhuumaha iyo moodooyinka barashada mishiinada ee kooxaha.
Ugu dambeyntii, DVC waxay gacan ka geysan doontaa hagaajinta joogtaynta moodooyinka kooxdaada iyo ku celcelintooda. Halkii aad isticmaali lahayd daba-galayaasha faylka adag iyo faallooyinka koodka, ka faa'iidayso Laamaha Git in la tijaabiyo fikrado cusub. Si aad u safarto, shaqaalayso metric-tracking beddelka warqad iyo qalin.
Si loo gudbiyo xirmooyinka joogtada ah ee barashada mashiinka moodooyinka, xogta, iyo koodka soo saarista, kombayuutarada fogfog, ama miiska saaxiibka, waxaad isticmaali kartaa amarrada riixista halkii aad ka isticmaali lahayd qoraallada ad-hoc.
Faa'iidooyinka
- Waa fudeyd, il-furan, waxayna la shaqeysaa dhammaan goobaha daruuriga ah iyo noocyada kaydinta.
- Dabacsan, agnostic qaabka iyo qaab-dhismeedka, oo fudud in la fuliyo.
- Nooc kasta oo ML ah horumarkiisa oo dhan waxaa dib loogu raadin karaa koodka isha iyo xogta.
Qasaarooyinka
- Maaraynta dhuumaha iyo xakamaynta nooca DVC ayaa si aan kala go' lahayn isugu xidhan. Waxaa jiri doona dib-u-dhis haddii kooxdaadu ay horay u isticmaalaysay badeecad kale oo dhuumaha xogta ah.
- Maadaama ay DVC fudud tahay, kooxdaadu waxa laga yaabaa inay u baahdaan inay qaabeeyaan sifooyin dheeri ah si ay uga dhigaan mid saaxiibtinimo badan.
Qiimo u goynta
Waa u bilaash in qof walba loo isticmaalo.
4. DeltaLake
DeltaLake waa lakab kaydinta il furan oo kor u qaada kalsoonida harada. Delta Lake waxay taageertaa macaamilka ACID iyo maaraynta xogta badan ee la miisaami karo marka lagu daro socodsiinta iyo habaynta xogta dufcada.
Waxay la shaqeysaa Apache Spark APIs waxayna ku fadhidaa harada xogtaada jirta. Wadaagista Delta waa borotokoolka furan ee ugu horeeya aduunka ee wadaaga xogta badbaadada leh ee ganacsiga, taas oo ka dhigaysa mid fudud in ay xogta ku badashaan ganacsiyada kale ee ka madax banaan nidaamyada kombayutarada.
Harooyinka Delta waxay awood u leeyihiin inay si fudud ugu maamulaan petabytes ee xogta. Metadata waxa loo kaydiyaa si la mid ah xogta, isticmaalayaashuna waxay ku heli karaan iyagoo isticmaalaya habka Faahfaahinta. Delta Lakes waxay leedahay hal dhisme oo akhrin kara xogta qulqulka iyo dufcada labadaba.
Kor u qaadis waa sahlan tahay in la sameeyo iyadoo la adeegsanayo Delta. Kor-u-qaadyadan ama ku biiritaanka shaxda Delta waxay la mid yihiin SQL Merges. Waxaad u isticmaali kartaa inaad ku dhexgeliso xogta qaab kale oo xog ah miiskaaga oo aad sameyso cusbooneysiin, gelin, iyo tirtirid.
Faa'iidooyinka
- Awoodo badan, sida macaamilka ACID iyo maaraynta xogta badan ee adag, ayaa laga heli karaa xalka kaydinta xogtaada hadda.
- Delta Lake hadda waxay si dadaal la'aan ah u maareyn kartaa miisaska balaayiin qaybood ah iyo faylal ku yaal miisaan petabyte ah.
- Waxay yaraynaysaa baahida loo qabo kantaroolka nooca xogta gacanta iyo welwelka kale ee xogta, taasoo u oggolaanaysa horumariyayaashu inay xoogga saaraan horumarinta alaabada korka ka ah harooyinka xogtooda.
Qasaarooyinka
- Sida loogu talagalay in lagula shaqeeyo Spark iyo xog aad u weyn, Delta Lake guud ahaan aad bay u culus tahay hawlaha intooda badan.
- Waxay daruuri u tahay adeegsiga qaab xog gaar ah, kaas oo xaddidaya dabacsanaantiisa oo ka dhigaya mid aan ku habboonayn foomamkaaga hadda.
Qiimo u goynta
Waa u bilaash in qof walba loo isticmaalo.
5. Dhibic
Dolt waa kaydka SQL kaas oo sameeya fargeeto, xidhidh, laamo, isku darka, riixida, iyo jiidida si la mid ah sida kaydka git uu sameeyo. Si loo horumariyo khibrada isticmaale ee xogta kontoroolka nooca, Dolt waxay u ogolaataa xogta iyo qaab dhismeedka inay isku bedelaan isku xidhka.
Waa qalab aad u fiican adiga iyo asxaabtaada inaad iska kaashataan. Waxaad ku xidhi kartaa Dolt si la mid ah sida aad ugu xidhi lahayd xog kasta oo MySQL ah oo aad ku socodsiiso su'aalaha ama isbeddel ku samee xogta adoo isticmaalaya amarada SQL.
Marka ay timaado nooca xogta, Dolt waa nooc ka mid ah. Dolt waa xog ururin, oo ka soo horjeeda qaar ka mid ah xalalka kale ee kaliya ee xogta. Iyadoo software-ku uu hadda ku jiro marxaladihiisa hore, waxaa jira rajooyin ah in laga dhigo mid si buuxda ula jaan qaada Git iyo MySQL mustaqbalka dhow.
Dhammaan amarrada aad taqaan isticmaalka Git waxay sidoo kale la shaqeyn doonaan Dolt. Noocyada Git, miisaska noocyada Dolt Isticmaalka khadka taliska, soo dejinta faylasha CSV, samee isbeddeladaada, ku daabac meel fog, oo ku biir isbeddelada saaxiibkaaga.
Faa'iidooyinka
- Fudud iyo ilo furan qayb ahaan.
- Marka la barbardhigo doorashooyin badan oo dahsoon, waxay leedahay interface SQL, taas oo ka dhigaysa mid aad u heli kara falanqeeyayaasha xogta.
Qasaarooyinka
- Marka la barbardhigo beddelka nooca database-ka kale, Dolt weli waa badeecad soo koraysa.
- Maadaama Dolt uu yahay keyd xogeed, waa inaad ku wareejisaa xogtaada si aad faa'iidooyinka u hesho.
Qiimo u goynta
Qof walba waa lagu soo dhaweynayaa inuu isticmaalo kulanka bulshada. Madalku ma bixiso qiime sare; bedelkeeda, waa inaad la xiriirtaa bixiyaha.
6. Pachyderm
Pachyderm waa nidaamka xakamaynta nooca sayniska xogta bilaashka ah oo leh astaamo badan. Pachyderm Enterprise waa madal saynis xogeed oo awood leh oo loogu talagalay iskaashi baaxad weyn oo deegaan aadka loo ilaaliyo.
Pachyderm waa mid ka mid ah liiska dhowr aaladood oo sayniska xogta ah. Hadafka Pachyderm waa inuu bixiyo goob maamusha xogta dhamaystiran oo wareeg ah oo ka dhigaysa mid fudud in la nuqulo natiijooyinka moodooyinka barashada mashiinka. Pachyderm waxaa loo yaqaan "Docker of Data" macnaha guud. Pachyderm waxay ku ururisaa deegaankaaga fulinta iyadoo la isticmaalayo weelasha Docker. Tani waxay fududaynaysaa in la nuqulo natiijooyin isku mid ah.
Saynis yahanada xogta iyo kooxaha DevOps waxay geyn karaan moodallo si kalsooni leh iyadoo ay ugu mahadcelinayaan isku darka xogta la qaabeeyey ee Docker. Waad ku mahadsan tahay nidaamka kaydinta hufan, petabytes ee xogta habaysan iyo kuwa aan habaysan waa la ilaalin karaa iyadoo kharashka kaydinta lagu hayo ugu yaraan.
Inta lagu jiro marxaladaha dhuumaha, nooca faylka ku salaysan wuxuu bixiyaa diiwaanka hanti dhawrka dhamaystiran ee dhammaan xogta iyo agabka, oo ay ku jiraan wax soo saarka dhexdhexaadka ah. Qaar badan oo ka mid ah awoodaha qalabka waxaa dhaqaajiya tiirarkan, kuwaas oo ka caawiya kooxuhu inay ka faa'iidaystaan.
Faa'iidooyinka
- Iyada oo ku saleysan weelasha, deegaanka xogtaadu waxay ahaan doonaan kuwo la qaadi karo oo fudud in la kala wareejiyo bixiyayaasha daruuraha.
- Xoog leh, oo awood u leh in lagu cabbiro nidaamyo yaryar oo aad u weyn.
Qasaarooyinka
- Maadaama ay jiraan waxyaabo badan oo dhaqaaqa, sida server-ka Kubernetes ee lagama maarmaanka u ah in lagu xakameeyo daabacaadda bilaashka ah ee Pachyderm, waxaa jira qalooc waxbarasho oo qotodheer.
- Pachyderm waxaa laga yaabaa inay ku adkaato in lagu daro kaabayaasha jira ee shirkadda sababtoo ah qaybo badan oo tignoolajiyadeed.
Qiimo u goynta
Waxaad ka bilaabi kartaa isticmaalka goobta kulanka bulshada iyo daabacaadda ganacsiga, waa inaad la xiriirtaa iibiyaha.
7. Neptune
Xogta badan ee dhismaha qaab-dhismeedka waxaa maamula kaydka xogta badan ee ML, taas oo ah arrin muhiim ah oo ka mid ah xirmada MLOps. Socod kasta oo MLOps ah, Neptune waxay u adeegtaa sidii kaydinta xogta badan ee dhexdhexaadka ah.
Waxaad la socon kartaa, sawiri kartaa, oo aad barbardhigi kartaa kumannaanka nooc ee barashada mashiinka dhammaan hal meel. Waxa ku jira astaamo ay ka mid yihiin daba-galka tijaabada, diiwaanka moodeelka, iyo la socodka moodeelka, iyo sidoo kale is-dhexgal iskaashi. Waxa ku jira in ka badan 25 qalab oo kala duwan iyo maktabado la isku daray, oo ay ku jiraan dhawr tababar oo moodal ah iyo qalabyada hagaajinta hyperparameter.
Waxaad ku biiri kartaa Neptune adoon isticmaalin kaarka deynta. Koontada Gmail ayaa ku filnaan doonta meesheeda.
Faa'iidooyinka
- Isku-dhafka dhuumaha kasta, socodka, codebase, ama qaab-dhismeedka waa mid fudud.
- Muuqaallada waqtiga-dhabta ah, API-ga fudud, iyo taageerada degdegga ah
- Neptune, waxaad ku samayn kartaa "kaabta" dhammaan xogta tijaabadaada hal meel, oo aad dib u soo kaban karto.
Qasaarooyinka
- In kasta oo aanay ahayn mid gebi ahaanba furan, haddana nooca gaarka ah waxa loo malaynayaa inuu ku filnaan doono isticmaalka gaarka ah, in kasta oo gelitaanka noocaas ahi uu ku kooban yahay hal bil.
- Waxaa jira cillado yar yar oo naqshadeynta ah oo la heli karo.
Qiimo u goynta
Waxaad ku bilaabi kartaa isticmaalka goobta qorshaha shakhsi ahaaneed kaas oo xor u ah inuu isticmaalo qof kasta. Qaybta qiimuhu waxay ka bilaabataa $150/bishii.
Ugu Dambeyn
Maqaalkan, waxaan ka wada hadalnay aaladaha nuqulka xogta ugu fiican. Qalab kasta, sidaan soo sheegnay, wuxuu leeyahay astaamo u gaar ah. Qaar waxay ahaayeen bilaash, halka kuwa kalena ay u baahdeen lacag. Qaarkood waxay si fiican ugu habboon yihiin qaabka ganacsiga yaryar, halka kuwa kalena ay ku habboon yihiin qaabka ganacsiga waaweyn.
Natiijo ahaan, waa inaad doorataa software-ka ugu fiican ujeedooyinkaaga ka dib markaad miisaamayso faa'iidooyinka iyo khasaarooyinka. Waxaan kugu dhiirigelinaynaa inaad tijaabiso nooca tijaabada ah ee bilaashka ah ka hor intaadan iibsan alaab qaali ah.
Leave a Reply