Datu zinātnieki un mašīnmācīšanās profesionāļi tipiskā datu zinātnes projektā nodarbojas ar ievērojamu skaitu dažāda veida datu. Ir izstrādāti daudzi modeļi ar dažādām konfigurācijām un funkcijām, kā arī vairākām parametru regulēšanas iterācijām, lai iegūtu optimālu veiktspēju.
Šādā scenārijā visas datu modifikācijas un modeļu veidošanas procesa korekcijas ir jāuzrauga un jāmēra, lai noteiktu, kas strādāja un kas ne. Ir arī svarīgi, lai varētu atgriezties pie iepriekšējā izdevuma un izpētīt iepriekšējos rezultātus.
Datu versijas kontrole (DVC), kas palīdz pārvaldīt datus, pamatā esošo modeli un palaist reproducējamus rezultātus, ir viena no tehnoloģijām, kas ļauj mums to visu pārraudzīt.
Šajā ziņojumā mēs rūpīgi apskatīsim datu versiju kontroli un labākos izmantojamos rīkus. Sāksim.
Kas ir datu versijas kontrole?
Versionēšana ir nepieciešama visām ražošanas sistēmām. Viens piekļuves punkts visjaunākajiem datiem. Jebkurš resurss, ko bieži modificē, jo īpaši vairāki lietotāji vienlaikus, ir jāizveido audita pēdas, lai sekotu līdzi visām izmaiņām.
Versiju kontroles sistēma ir atbildīga par to, lai visi komandas locekļi atrastos vienā lapā. Tas garantē, ka visi komandas locekļi strādā pie jaunākās faila versijas un, vēl svarīgāk, visi vienlaikus sadarbojas vienā projektā.
Ja jums ir atbilstošs aprīkojums, varat to paveikt ar minimālu piepūli!
Ja izmantosit uzticamu datu versiju pārvaldības stratēģiju, jums būs konsekventas datu kopas un rūpīgs visu savu pētījumu arhīvs. Datu versiju veidošanas rīki ir ļoti svarīgi jūsu darbplūsmai, ja jums rūp reproducējamība, izsekojamība un ML modeļa vēsture.
Tie palīdz iegūt vienuma versiju, piemēram, datu kopas vai modeļa jaucējkodu, ko pēc tam varat izmantot, lai identificētu un salīdzinātu. Šī datu versija bieži tiek ievadīta jūsu metadatu pārvaldības risinājumā, lai garantētu, ka modeļa apmācība ir versijas un atkārtojama.
Labākie datu versiju kontroles rīki
Tagad ir pienācis laiks apskatīt labākos pieejamos datu versiju kontroles risinājumus, kurus varat izmantot, lai izsekotu katrai sava koda daļai.
1. git-lfs
Git LFS projektu var izmantot bez maksas. Git ietvaros lieli faili, piemēram, audio paraugi, video, datu bāzes un fotoattēli, tiek aizstāti ar teksta rādītājiem, un faila saturs tiek saglabāts attālā serverī, piemēram, GitHub.com vai GitHub Enterprise.
Tas ļauj izmantot Git, lai versētu milzīgus failus — līdz pat vairākiem GB — viesot vairāk jūsu Git krātuvēs, izmantojot ārējo krātuvi, un ātrāk klonēt un izgūt lielus failu repozitorijus. Runājot par datu pārvaldību, tas ir diezgan viegls risinājums. Lai strādātu ar Git, jums nav nepieciešamas nekādas papildu komandas, uzglabāšanas sistēmas vai rīku komplekti.
Tas ierobežo lejupielādējamās informācijas daudzumu. Tas nozīmē, ka lielu failu klonēšana un izgūšana no krātuvēm būs ātrāka. Rādītāji ir izgatavoti no vieglāka materiāla un norāda uz LFS.
Tā rezultātā, ievietojot savu repo galvenajā repozitorijā, tas ātri tiek atjaunināts un aizņem mazāk vietas.
Plusi
- Viegli integrējas vairuma uzņēmumu izstrādes darbplūsmās.
- Nav nepieciešams apstrādāt papildu tiesības, jo tas izmanto tās pašas atļaujas kā Git repozitorijs.
Mīnusi
- Git LFS jūsu datu glabāšanai ir jāizmanto īpaši serveri. Rezultātā jūsu datu zinātnes komandas tiks bloķētas, un jūsu inženieru darba slodze palielināsies.
- Ļoti specializēts, un turpmākajos datu zinātnes darbplūsmas posmos var būt nepieciešams izmantot dažādus dažādus rīkus.
Cena
To var bez maksas izmantot ikviens.
2. LakeFS
LakeFS ir atvērtā pirmkoda datu versiju veidošanas risinājums, kas glabā datus S3 vai GCS, un tam ir Git līdzīga zarojuma un apņemšanās paradigma, kas tiek mērogota līdz petabaitiem.
Šī sazarošanas stratēģija padara jūsu datu ezeru saderīgu ar ACID, ļaujot veikt izmaiņas atsevišķos zaros, kurus var izveidot, apvienot un atvilkt atpakaļ atomiski un acumirklī.
LakeFS ļauj komandām izveidot datu ezera darbības, kas ir atkārtojamas, atomāras un versijas. Tas ir iesācējs šajā jomā, taču tas ir spēks, ar kuru ir jārēķinās.
Tas izmanto Git līdzīgu zarojuma un versiju kontroles pieeju, lai mijiedarbotos ar jūsu datu ezers, mērogojams līdz petabaitiem datu. Eksabaitu mērogā varat pārbaudīt versiju kontroli.
Plusi
- Git līdzīgas darbības ietver atzarošanu, saistību uzņemšanos, apvienošanu un atgriešanu.
- Pirmsapstiprināšanas/apvienošanas āķi tiek izmantoti datu CI/CD pārbaudēm.
- Nodrošina sarežģītas funkcijas, piemēram, ACID transakcijas vienkāršai mākoņkrātuvei, piemēram, S3 un GCS, vienlaikus saglabājot formāta neitrālu.
- Atjaunojiet izmaiņas datos reāllaikā.
- Viegli mērogojams, ļaujot tam uzņemt ļoti milzīgus datu ezerus. Versijas kontroli var nodrošināt gan izstrādes, gan ražošanas iestatījumiem.
Mīnusi
- LakeFS ir jauns produkts, tāpēc funkcionalitāte un dokumentācija var mainīties ātrāk nekā ar iepriekšējiem risinājumiem.
- Tā kā tā ir vērsta uz datu versiju veidošanu, jums būs jāizmanto dažādi papildu rīki dažādām datu zinātnes darbplūsmas daļām.
Cena
To var bez maksas izmantot ikviens.
3. CVD
Data Version Control ir bezmaksas datu versiju veidošanas risinājums, kas paredzēts datu zinātnes un mašīnmācīšanās lietojumprogrammām. Tā ir programma, kas ļauj definēt cauruļvadu jebkurā valodā.
Pārvaldot lielus failus, datu kopas, mašīnmācīšanās modeļus, kodu un tā tālāk, rīks padara mašīnmācīšanās modeļus koplietojamus un reproducējamus. Programma seko Git piemēram, nodrošinot vienkāršu komandrindu, kuru var iestatīt tikai dažās darbībās.
Kā norāda nosaukums, DVC nav tikai datu versiju veidošana. Tas arī atvieglo cauruļvadu un mašīnmācīšanās modeļu pārvaldību komandām.
Visbeidzot, DVC palīdzēs uzlabot jūsu komandas modeļu konsekvenci un to atkārtojamību. Tā vietā, lai kodā izmantotu sarežģītus failu sufiksus un komentārus, izmantojiet priekšrocības Git zari izmēģināt jaunas idejas. Lai ceļotu, papīra un zīmuļa vietā izmantojiet automatizētu metrikas izsekošanu.
Lai pārsūtītu konsekventus komplektus mašīna mācīšanās modeļus, datus un kodu ražošanā, attālos datoros vai kolēģa darbvirsmā, varat izmantot push/pull komandas, nevis ad-hoc skriptus.
Plusi
- Tas ir viegls, atvērtā koda un darbojas ar visām galvenajām mākoņu platformām un krātuves veidiem.
- Elastīgs, formātu un ietvaru agnostiķis un vienkārši ieviešams.
- Katra ML modeļa visu attīstību var izsekot tā avota kodam un datiem.
Mīnusi
- Cauruļvada pārvaldība un DVC versiju kontrole ir nesaraujami saistītas. Ja jūsu komanda jau izmanto citu datu cauruļvada produktu, tiks veikta atlaišana.
- Tā kā DVC ir viegls, jūsu komandai var būt nepieciešams manuāli izstrādāt papildu funkcijas, lai padarītu to lietotājam draudzīgāku.
Cena
To var bez maksas izmantot ikviens.
4. DeltaLake
DeltaLake ir atvērtā koda krātuves slānis, kas palielina datu ezera uzticamību. Delta Lake atbalsta ACID darījumus un mērogojamu metadatu pārvaldību papildus straumēšanai un pakešu datu apstrādei.
Tas darbojas ar Apache Spark API un atrodas jūsu esošajā datu ezerā. Delta Sharing ir pasaulē pirmais atvērtais protokols drošai datu koplietošanai uzņēmējdarbībā, kas atvieglo datu apmaiņu ar citiem uzņēmumiem neatkarīgi no to datorsistēmām.
Delta Lakes spēj viegli apstrādāt datu petabaitus. Metadati tiek glabāti tāpat kā dati, un lietotāji tos var iegūt, izmantojot metodi Aprakstīt detalizēti. Delta Lakes ir viena arhitektūra, kas var nolasīt gan straumes, gan pakešu datus.
Izmantojot Delta, pārslēgšanu ir vienkārši izdarīt. Šie pārveidojumi vai sapludinājumi Delta tabulā ir salīdzināmi ar SQL sapludinājumiem. Varat to izmantot, lai savā tabulā integrētu datus no cita datu rāmja un veiktu atjauninājumus, ievietošanu un dzēšanu.
Plusi
- Jūsu pašreizējā datu glabāšanas risinājumā var būt pieejamas daudzas iespējas, piemēram, ACID darījumi un spēcīga metadatu pārvaldība.
- Delta Lake tagad var bez piepūles pārvaldīt tabulas ar miljardiem nodalījumu un failu petabaitu mērogā.
- Samazina vajadzību pēc manuālas datu versiju kontroles un citām datu problēmām, ļaujot izstrādātājiem koncentrēties uz produktu izstrādi papildus saviem datu ezeriem.
Mīnusi
- Tā kā tas bija paredzēts darbam ar Spark un milzīgiem datiem, Delta Lake parasti ir pārslogots lielākajai daļai uzdevumu.
- Tam ir nepieciešams izmantot īpašu datu formātu, kas ierobežo tā elastību un padara to nesaderīgu ar jūsu pašreizējām formām.
Cena
To var bez maksas izmantot ikviens.
5. Dolt
Dolt ir SQL datu bāze, kas veic dakšošanu, klonēšanu, sazarošanu, sapludināšanu, stumšanu un vilkšanu tāpat kā git repozitorijs. Lai uzlabotu versiju kontroles datu bāzes lietotāja pieredzi, Dolt ļauj sinhronizēti mainīt datus un struktūru.
Tas ir lielisks rīks, lai jūs un jūsu kolēģi sadarbotos. Varat izveidot savienojumu ar Dolt tādā pašā veidā, kā to darītu ar jebkuru citu MySQL datu bāzi, un izpildīt vaicājumus vai veikt izmaiņas datos, izmantojot SQL komandas.
Runājot par datu versiju veidošanu, Dolt ir unikāls. Dolt ir datu bāze, atšķirībā no dažiem citiem risinājumiem, kas tikai versijas datus. Lai gan programmatūra pašlaik ir agrīnā stadijā, ir cerības tuvākajā nākotnē padarīt to pilnībā saderīgu ar Git un MySQL.
Visas komandas, kuras esat pazīstamas ar Git, darbosies arī ar Dolt. Git versiju faili, Dolt versiju tabulas Izmantojot komandrindas saskarni, importējiet CSV failus, veiciet izmaiņas, publicējiet tās tālvadības pultī un apvienojiet komandas biedra veiktās izmaiņas.
Plusi
- Viegls un atvērtā koda daļēji.
- Salīdzinot ar neskaidrākām izvēlēm, tai ir SQL saskarne, kas padara to pieejamāku datu analītiķiem.
Mīnusi
- Salīdzinot ar citām datu bāzes versiju veidošanas alternatīvām, Dolt joprojām ir jaunattīstības produkts.
- Tā kā Dolt ir datu bāze, jums ir jāpārsūta savi dati, lai iegūtu priekšrocības.
Cena
Ikviens ir laipni aicināts izmantot kopienas sesiju. Platforma nenodrošina augstākās klases cenas; tā vietā jums jāsazinās ar pakalpojumu sniedzēju.
6. Pachyderm
Pachyderm ir bezmaksas datu zinātnes versiju kontroles sistēma ar daudzām funkcijām. Pachyderm Enterprise ir jaudīga datu zinātnes platforma, kas paredzēta liela mēroga sadarbībai ļoti drošā vidē.
Pachyderm ir viena no nedaudzajām datu zinātnes platformām sarakstā. Pachyderm mērķis ir nodrošināt platformu, kas pārvalda visu datu ciklu un ļauj vienkārši dublēt mašīnmācīšanās modeļu rezultātus. Pachyderm šajā kontekstā ir pazīstams kā "datu docētājs". Pachyderm pakotnē izpildes vidi, izmantojot Docker konteinerus. Tas ļauj vienkārši dublēt tos pašus rezultātus.
Datu zinātnieki un DevOps komandas var droši izvietot modeļus, pateicoties datu versijas apvienošanai ar Docker. Pateicoties efektīvai uzglabāšanas sistēmai, var saglabāt strukturētu un nestrukturētu datu petabaitus, vienlaikus samazinot uzglabāšanas izmaksas līdz minimumam.
Visās konveijera fāzēs uz failiem balstītā versiju izveide nodrošina rūpīgu visu datu un artefaktu, tostarp starpproduktu, audita ierakstu. Daudzas rīka iespējas ir balstītas uz šiem pīlāriem, kas palīdz komandām gūt maksimālu labumu no tā.
Plusi
- Pamatojoties uz konteineriem, jūsu datu vide būs pārnēsājama un viegli pārsūtāma starp mākoņpakalpojumu sniedzējiem.
- Izturīgs, ar iespēju mērogot no mazām līdz ārkārtīgi lielām sistēmām.
Mīnusi
- Tā kā ir tik daudz kustīgu elementu, piemēram, Kubernetes serveris, kas nepieciešams, lai apstrādātu Pachyderm bezmaksas izdevumu, mācīšanās līkne ir stāvāka.
- Pachyderm varētu būt sarežģīti iekļaut uzņēmuma esošajā infrastruktūrā, jo tajā ir daudz tehnoloģisko komponentu.
Cena
Varat sākt lietot platformu ar kopienas sesiju, un uzņēmuma izdevumam ir jāsazinās ar pārdevēju.
7. Neptūns
Modeļu veidošanas metadatus pārvalda ML metadatu krātuve, kas ir svarīgs MLOps steka aspekts. Katrai MLOps darbplūsmai Neptune kalpo kā centralizēta metadatu krātuve.
Varat izsekot, vizualizēt un salīdzināt tūkstošiem mašīnmācīšanās modeļu vienuviet. Tajā ir iekļautas tādas funkcijas kā eksperimentu izsekošana, modeļu reģistrs un modeļu uzraudzība, kā arī sadarbības saskarne. Tas ietver vairāk nekā 25 dažādus integrētus rīkus un bibliotēkas, tostarp vairākus modeļu apmācības un hiperparametru regulēšanas rīkus.
Jūs varat pievienoties Neptune, neizmantojot savu kredītkarti. Tā vietā pietiks ar Gmail kontu.
Plusi
- Integrācija ar jebkuru konveijeru, plūsmu, kodu bāzi vai sistēmu ir vienkārša.
- Reāllaika vizualizācijas, vienkārša API un ātrs atbalsts
- Izmantojot Neptune, varat izveidot visu savu eksperimentu datu dublējumu vienā vietā, ko vēlāk varēsiet atgūt.
Mīnusi
- Lai gan tas nav pilnībā atvērts avots, privātai lietošanai, iespējams, pietiktu ar atsevišķu versiju, lai gan šāda piekļuve ir ierobežota līdz vienam mēnesim.
- Ir atrodami daži nelieli dizaina trūkumi.
Cena
Jūs varat sākt lietot platformu ar Individuālo plānu, ko ikviens var izmantot bez maksas. Cenu sadaļa sākas no USD 150 mēnesī.
Secinājumi
Šajā ziņojumā mēs apspriedām labākos datu versiju veidošanas rīkus. Katram rīkam, kā mēs redzējām, ir savs funkciju kopums. Daži bija bez maksas, bet citiem bija jāmaksā. Daži no tiem ir labi piemēroti mazā biznesa modelim, savukārt citi ir labāk piemēroti lielajam biznesa modelim.
Līdz ar to pēc priekšrocību un trūkumu nosvēršanas jums ir jāizvēlas vislabākā programmatūra jūsu vajadzībām. Pirms augstākās kvalitātes produkta iegādes iesakām izmēģināt bezmaksas izmēģinājuma versiju.
Atstāj atbildi