Xjentisti tad-Data u professjonisti tat-tagħlim tal-magni jittrattaw numru sinifikanti ta 'dejta ta' diversi tipi fi proġett tipiku tax-xjenza tad-dejta. Ġew żviluppati bosta mudelli b'diversi konfigurazzjonijiet u karatteristiċi, kif ukoll iterazzjonijiet multipli ta 'irfinar tal-parametri biex tinkiseb l-aħjar prestazzjoni.
F'xenarju bħal dan, il-modifiki kollha tad-dejta u l-aġġustamenti tal-proċess tal-bini tal-mudelli għandhom jiġu mmonitorjati u mkejla sabiex jiġi ddeterminat x'ħadem u x'ma kienx. Huwa wkoll vitali li tkun tista' tmur lura għal edizzjoni preċedenti u tħares lejn ir-riżultati preċedenti.
Il-Kontroll tal-Verżjoni tad-Data (DVC), li jgħin fil-ġestjoni tad-dejta, il-mudell sottostanti, u t-tmexxija ta’ riżultati riproduċibbli, hija waħda minn dawn it-teknoloġija li tippermettilna nissorveljaw dan kollu.
F'din il-kariga, se nħarsu mill-qrib lejn il-Kontroll tal-Verżjoni tad-Data, u l-aħjar għodda biex tuża. Ejja nibdew.
X'inhu l-Kontroll tal-Verżjoni tad-Data?
Verżjoni hija meħtieġa għas-sistemi ta 'produzzjoni kollha. Punt uniku ta' aċċess għad-dejta l-aktar aġġornata. Kwalunkwe riżorsa li ħafna drabi tiġi modifikata, partikolarment minn diversi utenti fl-istess ħin, teħtieġ il-ħolqien ta 'traċċa ta' verifika biex iżżomm kont tal-bidliet kollha.
Is-sistema tal-kontroll tal-verżjoni hija responsabbli biex tiżgura li kulħadd fit-tim ikun fuq l-istess paġna. Tiggarantixxi li kulħadd fit-tim qed jaħdem fuq l-aktar verżjoni reċenti tal-fajl u, aktar importanti, li kulħadd qed jikkollabora fuq l-istess proġett kull darba.
Jekk għandek it-tagħmir xieraq, tista 'twettaq dan bi sforz minimu!
Int ser ikollok settijiet ta' dejta konsistenti u arkivju bir-reqqa tar-riċerka kollha tiegħek jekk tuża strateġija affidabbli ta' ġestjoni tal-verżjoni tad-dejta. L-għodod tal-verżjoni tad-dejta huma kritiċi għall-fluss tax-xogħol tiegħek jekk inti jimpurtak mir-riproduċibbiltà, it-traċċabilità, u l-istorja tal-mudell ML.
Jgħinuk takkwista verżjoni ta' oġġett, bħal hash ta' dataset jew mudell, li mbagħad tista' tuża biex tidentifika u tqabbel. Din il-verżjoni tad-dejta ħafna drabi tiddaħħal fis-soluzzjoni tal-ġestjoni tal-metadejta tiegħek biex tiggarantixxi li t-taħriġ tal-mudell tiegħek ikun verġjonat u ripetibbli.
L-aħjar għodda għall-Kontroll tal-Verżjoni tad-Data
Issa wasal iż-żmien li tħares lejn l-ifjen soluzzjonijiet ta 'kontroll tal-verżjoni tad-dejta disponibbli, li tista' tuża biex iżżomm kont ta 'kull parti tal-kodiċi tiegħek.
1. git-lfs
Il-proġett Git LFS huwa liberu li jintuża. Fi ħdan Git, fajls kbar bħal kampjuni tal-awdjo, vidjows, databases, u ritratti huma sostitwiti b'indikaturi tat-test, u l-kontenut tal-fajl jiġi ffrankat fuq server remot bħal GitHub.com jew GitHub Enterprise.
Jippermettilek tuża Git biex verżjoni fajls enormi—sa diversi GB fid-daqs—jospita aktar fir-repożitorji Git tiegħek billi tuża ħażna esterna, u tikklona u rkupra repożitorji ta' fajls kbar aktar malajr. Meta niġu għall-ġestjoni tad-dejta, din hija soluzzjoni pjuttost ħafifa. Biex taħdem ma 'Git, m'għandekx bżonn xi kmandi żejda, sistemi ta' ħażna, jew sett ta' għodod.
Hija tillimita l-kwantità ta 'informazzjoni li tniżżel. Dan jimplika li l-klonazzjoni u l-irkupru ta 'fajls kbar minn repożitorji se jkunu aktar mgħaġġla. Il-pointers huma magħmula minn materjal eħfef u jindikaw l-LFS.
Bħala riżultat, meta timbotta repo tiegħek fir-repożitorju prinċipali, jaġġorna malajr u jieħu inqas spazju.
Prosperità
- Jintegra faċilment fil-flussi tax-xogħol ta 'żvilupp tal-biċċa l-kbira tan-negozji.
- M'hemmx bżonn li timmaniġġja drittijiet żejda minħabba li tuża l-istess permessi bħar-repożitorju Git.
cons
- Git LFS jeħtieġ l-użu ta 'servers dedikati biex jaħżnu d-dejta tiegħek. Bħala riżultat, it-timijiet tiegħek tax-xjenza tad-dejta se jkunu msakkra, u l-ammont ta 'xogħol tal-inġinerija tiegħek se jiżdied.
- Speċjalizzati ħafna, u jistgħu jeħtieġu l-użu ta 'varjetà ta' għodod differenti għal fażijiet sussegwenti fil-fluss tax-xogħol tax-xjenza tad-dejta.
ipprezzar
Huwa ħieles għall-użu għal kulħadd.
2. Lakefs
LakeFS hija soluzzjoni ta 'verżjoni ta' data ta 'sors miftuħ li taħżen id-data f'S3 jew GCS u għandha paradigma ta' fergħat u impenn simili għal Git li tiskala għal petabytes.
Din l-istrateġija tal-fergħat tagħmel id-data tal-lag ACID tiegħek konformi billi tippermetti li jseħħu bidliet f'fergħat distinti li jistgħu jinbnew, jingħaqdu u jitreġġgħu lura atomikament u istantanjament.
LakeFS jippermetti lit-timijiet li joħolqu attivitajiet tal-lagi tad-dejta li huma ripetibbli, atomiċi, u verżjoni. Huwa newbie fix-xena, iżda hija forza li wieħed iżomm f'moħħu.
Juża approċċ ta 'fergħat u kontroll tal-verżjoni bħal Git biex jinteraġixxi ma' tiegħek data lag, skalabbli sa Petabytes ta' data. Fuq skala exabyte, tista 'tiċċekkja għall-kontroll tal-verżjoni.
Prosperità
- Operazzjonijiet li jixbhu lil Git jinkludu fergħat, impenn, għaqda, u ritorn.
- Il-ganċijiet ta' pre-commit/merge huma użati għall-kontrolli tad-data CI/CD.
- Jipprovdi karatteristiċi kumplessi bħal tranżazzjonijiet ACID għal ħażna sempliċi sħaba bħal S3 u GCS, kollha filwaqt li jibqa 'format newtrali.
- Ibdel il-bidliet fid-dejta f'ħin reali.
- Tiskala faċilment, li tippermettilha takkomoda lagi tad-dejta kbar ħafna. Il-kontroll tal-verżjoni jista 'jiġi pprovdut kemm għall-issettjar tal-iżvilupp kif ukoll tal-produzzjoni.
cons
- LakeFS huwa prodott ġdid, għalhekk il-funzjonalità u d-dokumentazzjoni jistgħu jinbidlu aktar malajr milli b'soluzzjonijiet preċedenti.
- Peress li hija ffukata fuq il-verżjoni tad-dejta, ser ikollok bżonn tuża varjetà ta 'għodod addizzjonali għal diversi partijiet tal-fluss tax-xogħol tax-xjenza tad-dejta.
ipprezzar
Huwa ħieles għall-użu għal kulħadd.
3. DVC
Il-Kontroll tal-Verżjoni tad-Data huwa soluzzjoni ta' verżjonijiet tad-dejta b'xejn iddisinjata għax-xjenza tad-dejta u l-applikazzjonijiet tat-tagħlim tal-magni. Huwa programm li jippermettilek tiddefinixxi l-pipeline tiegħek fi kwalunkwe lingwa.
Billi timmaniġġja fajls kbar, settijiet ta 'dejta, mudelli ta' tagħlim tal-magni, kodiċi, eċċ, l-għodda tagħmel il-mudelli tat-tagħlim tal-magni jaqsmu u riproduċibbli. Il-programm isegwi t-tmexxija ta 'Git biex jipprovdi linja ta' kmand sempliċi li tista 'tiġi stabbilita fi ftit passi biss.
Kif jimplika ismu, DVC mhuwiex biss dwar il-verżjoni tad-dejta. Jiffaċilita wkoll il-ġestjoni ta 'pipelines u mudelli ta' tagħlim tal-magni għat-timijiet.
Fl-aħħarnett, DVC se jgħin fit-titjib tal-konsistenza tal-mudelli tat-tim tiegħek u r-ripetibbiltà tagħhom. Minflok tuża suffissi ta 'fajls ikkumplikati u kummenti fil-kodiċi, ħu vantaġġ minn Fergħat Git biex tipprova ideat ġodda. Biex tivvjaġġa, uża traċċar metriku awtomatizzat minflok karta u lapes.
Biex jittrasmettu qatet konsistenti ta tagħlim magna mudelli, dejta, u kodiċi fil-produzzjoni, kompjuters imbiegħda, jew desktop ta 'kollega, tista' tutilizza kmandi push/pull minflok skripts ad-hoc.
Prosperità
- Huwa ħafif, open-source, u jaħdem mal-pjattaformi ewlenin kollha tas-sħab u t-tipi ta 'ħażna.
- Flessibbli, agnostic tal-format u l-qafas, u sempliċi biex timplimenta.
- L-evoluzzjoni sħiħa ta 'kull mudell ML tista' tiġi rintraċċata lura għall-kodiċi tas-sors u d-dejta tiegħu.
cons
- Il-ġestjoni tal-pipeline u l-kontroll tal-verżjoni DVC huma marbuta b'mod inseparabbli. Se jkun hemm redundancy jekk it-tim tiegħek diġà qed juża prodott ieħor tal-pipeline tad-dejta.
- Peress li DVC huwa ħafif, it-tim tiegħek jista 'jkollu bżonn ifassal karatteristiċi addizzjonali manwalment biex jagħmilha aktar faċli għall-utent.
ipprezzar
Huwa ħieles għall-użu għal kulħadd.
4. DeltaLake
DeltaLake huwa saff ta 'ħażna ta' sors miftuħ li jsaħħaħ l-affidabbiltà tal-lagi tad-dejta. Delta Lake jappoġġja tranżazzjonijiet ACID u ġestjoni tal-metadata skalabbli flimkien mal-istriming u l-ipproċessar tad-dejta tal-lott.
Jaħdem ma 'Apache Spark APIs u joqgħod fuq il-lag tad-dejta eżistenti tiegħek. Delta Sharing huwa l-ewwel protokoll miftuħ fid-dinja għall-kondiviżjoni sikura tad-dejta fin-negozju, li jagħmilha sempliċi biex tiskambja d-dejta ma’ negozji oħra indipendenti mis-sistemi tal-kompjuter tagħhom.
Delta Lakes huma kapaċi jimmaniġġjaw petabytes ta 'dejta b'faċilità. Il-metadejta tinħażen bl-istess mod bħad-dejta, u l-utenti jistgħu jiksbuha billi jużaw il-metodu Iddeskrivi Dettall. Delta Lakes għandha arkitettura waħda li tista 'taqra kemm data tan-nixxiegħa kif ukoll tal-lott.
Upserts huma sempliċi biex tagħmel bl-użu ta 'Delta. Dawn l-upserts jew amalgamazzjonijiet fit-tabella Delta huma komparabbli ma 'SQL Merges. Tista' tużaha biex tintegra dejta minn qafas ta' dejta ieħor fit-tabella tiegħek u twettaq aġġornamenti, daħħal, u tħassar.
Prosperità
- Ħafna kapaċitajiet, bħal tranżazzjonijiet ACID u ġestjoni robusta tal-metadejta, jistgħu jkunu disponibbli fis-soluzzjoni tal-ħażna tad-dejta preżenti tiegħek.
- Delta Lake issa tista 'tmexxi mingħajr sforz tabelli b'biljuni ta' diviżorji u fajls fuq skala petabyte.
- Inaqqas il-ħtieġa għal kontroll manwali tal-verżjoni tad-dejta u tħassib ieħor dwar id-dejta, li jippermetti lill-iżviluppaturi jikkonċentraw fuq l-iżvilupp ta 'prodotti fuq il-lagi tad-dejta tagħhom.
cons
- Peress li kien iddisinjat biex jaħdem ma 'Spark u dejta enormi, Delta Lake ġeneralment huwa maqtul iżżejjed għall-biċċa l-kbira tal-kompiti.
- Hija teħtieġ l-użu ta' format ta' data dedikat, li jillimita l-flessibbiltà tiegħu u jagħmilha inkompatibbli mal-formoli preżenti tiegħek.
ipprezzar
Huwa ħieles għall-użu għal kulħadd.
5. Dolt
Dolt hija database SQL li tagħmel forking, klonazzjoni, fergħat, għaqda, imbuttar, u ġbid bl-istess mod kif jagħmel repożitorju git. Biex ittejjeb l-esperjenza tal-utent ta 'database ta' kontroll tal-verżjoni, Dolt jippermetti li d-dejta u l-istruttura tinbidel f'sinkronizzazzjoni.
Hija għodda eċċellenti għalik u għal sħabek biex tikkollabora fiha. Tista' tikkonnettja ma' Dolt bl-istess mod li tagħmel ma' kwalunkwe database MySQL oħra u tmexxi mistoqsijiet jew tagħmel bidliet fid-dejta billi tuża kmandi SQL.
Meta niġu għall-verżjoni tad-dejta, Dolt huwa wieħed ta’ tip. Dolt hija database, għall-kuntrarju ta 'xi wħud mis-soluzzjonijiet l-oħra li biss id-data tal-verżjoni. Filwaqt li s-softwer bħalissa jinsab fl-istadji bikrija tiegħu, hemm tamiet li jagħmilha kompletament kompatibbli ma 'Git u MySQL fil-futur qarib.
Il-kmandi kollha li int familjari magħhom tuża ma 'Git se jaħdmu wkoll ma' Dolt. Fajls tal-verżjonijiet Git, Tabelli tal-verżjonijiet Dolt Uża l-interface tal-linja tal-kmand, importa fajls CSV, ikkommetti l-bidliet tiegħek, ippubblikahom fuq remot, u għaqqad il-bidliet ta' sieħeb tiegħek.
Prosperità
- Ħfief u sors miftuħ parzjalment.
- Meta mqabbel ma 'għażliet aktar oskuri, għandu interface SQL, li jagħmilha aktar aċċessibbli għall-analisti tad-dejta.
cons
- Meta mqabbel ma 'alternattivi oħra ta' verżjonijiet tad-database, Dolt għadu prodott li qed jiżviluppa.
- Peress li Dolt hija database, trid tittrasferixxi d-data tiegħek fiha biex tikseb il-benefiċċji.
ipprezzar
Kulħadd huwa mistieden juża s-sessjoni tal-komunità. Il-pjattaforma ma tipprovdix prezzijiet premium; minflok, trid tikkuntattja lill-fornitur.
6. Pakiderma
Pachyderm hija sistema ta 'kontroll tal-verżjoni tax-xjenza tad-dejta b'xejn b'ħafna karatteristiċi. Pachyderm Enterprise hija pjattaforma qawwija tax-xjenza tad-dejta mfassla għal kollaborazzjoni fuq skala kbira f'ambjenti sikuri ħafna.
Pachyderm hija waħda mill-ftit pjattaformi tax-xjenza tad-dejta tal-lista. L-għan ta 'Pachyderm huwa li jipprovdi pjattaforma li tamministra ċ-ċiklu sħiħ tad-dejta u tagħmilha sempliċi biex jiġu duplikati s-sejbiet tal-mudelli tat-tagħlim tal-magni. Pachyderm huwa magħruf bħala "id-Docker tad-Data" f'dan il-kuntest. Pachyderm jippakkja l-ambjent tal-eżekuzzjoni tiegħek billi juża kontenituri Docker. Dan jagħmilha sempliċi biex tidduplika l-istess riżultati.
Ix-xjentisti tad-dejta u t-timijiet DevOps jistgħu jużaw mudelli b'kunfidenza bis-saħħa tal-kombinazzjoni ta 'dejta verżjoni ma' Docker. Grazzi għal sistema ta 'ħażna effiċjenti, petabytes ta' data strutturata u mhux strutturata jistgħu jinżammu filwaqt li l-ispejjeż tal-ħażna jinżammu għall-minimu.
Matul il-fażijiet tal-pipeline, il-verżjoni bbażat fuq fajls jipprovdi rekord ta' verifika bir-reqqa għad-dejta u l-artifacts kollha, inklużi l-outputs intermedji. Ħafna mill-kapaċitajiet tal-għodda huma mmexxija minn dawn il-pilastri, li jgħinu lit-timijiet biex jieħdu l-aħjar minnha.
Prosperità
- Ibbażat fuq kontenituri, l-ambjenti tad-dejta tiegħek se jkunu portabbli u faċli biex jiġu trasferiti bejn il-fornituri tas-sħab.
- B'saħħtu, bil-kapaċità li skala minn sistemi żgħar għal sistemi estremament kbar.
cons
- Peress li hemm tant elementi li jiċċaqilqu, bħas-server Kubernetes meħtieġ biex jimmaniġġaw l-edizzjoni ħielsa ta 'Pachyderm, hemm kurva ta' tagħlim aktar wieqaf.
- Pachyderm jista 'jkun ta' sfida biex jinkorpora fl-infrastruttura eżistenti ta 'kumpanija minħabba l-ħafna komponenti teknoloġiċi tiegħu.
ipprezzar
Tista 'tibda tuża l-pjattaforma mas-sessjoni tal-komunità u għall-edizzjoni tal-intrapriża, għandek tikkuntattja lill-bejjiegħ.
7. Neptune
Il-metadejta tal-bini tal-mudelli hija ġestita mill-maħżen tal-metadejta ML, li huwa aspett importanti tal-munzell MLOps. Għal kull fluss tax-xogħol MLOps, Neptune jservi bħala ħażna ċentralizzata ta' metadejta.
Tista' żżomm rekord ta', tara, u tqabbel eluf ta' mudelli ta' tagħlim bil-magni kollha f'post wieħed. Jinkludi karatteristiċi bħal traċċar tal-esperimenti, reġistru tal-mudelli, u monitoraġġ tal-mudelli, kif ukoll interface kollaborattiv. Jinkludi aktar minn 25 għodda u librerija differenti integrati, inklużi diversi għodod ta 'taħriġ ta' mudell u għodod ta 'rfinar ta' iperparametri.
Tista' tingħaqad ma' Neptune mingħajr ma tuża l-karta tal-kreditu tiegħek. Kont tal-Gmail ikun biżżejjed minfloku.
Prosperità
- L-integrazzjoni ma 'kwalunkwe pipeline, fluss, codebase, jew qafas hija sempliċi.
- Il-viżwalizzazzjonijiet f'ħin reali, l-API faċli, u l-appoġġ rapidu
- B'Neptune, tista 'tagħmel "backup" tad-dejta kollha tal-esperimenti tiegħek f'post wieħed, li tista' tirkupra aktar tard.
cons
- Għalkemm mhux għal kollox open source, verżjoni individwali preżumibbilment tkun biżżejjed għall-użu privat, għalkemm tali aċċess huwa limitat għal xahar.
- Hemm ftit difetti żgħar tad-disinn li jinstabu.
ipprezzar
Tista 'tibda tuża l-pjattaforma bil-pjan Individwali li huwa liberu li juża għal kulħadd. It-taqsima tal-prezzijiet tibda minn $150/xahar.
konklużjoni
F'din il-kariga, iddiskutejna l-aħjar għodod għall-verżjoni tad-dejta. Kull għodda, kif rajna, għandha s-sett ta 'karatteristiċi tagħha stess. Xi wħud kienu ħielsa, filwaqt li oħrajn kienu jeħtieġu ħlas. Xi wħud huma adattati sew għall-mudell tan-negozju ż-żgħar, filwaqt li oħrajn huma adattati aħjar għall-mudell tan-negozju l-kbar.
Bħala konsegwenza, trid tagħżel l-aqwa softwer għall-iskopijiet tiegħek wara li tiżen il-vantaġġi u l-iżvantaġġi. Inħeġġu li tittestja l-verżjoni ta' prova b'xejn qabel tixtri prodott premium.
Ħalli Irrispondi