Mga Siyentista sa Data ug ang mga propesyonal sa pagkat-on sa makina nag-atubang sa usa ka mahinungdanong gidaghanon sa mga datos sa lain-laing mga matang sa usa ka tipikal nga proyekto sa data science. Daghang mga modelo ang naugmad nga adunay lainlaing mga pag-configure ug mga bahin, ingon man daghang mga pag-usab sa pag-tune sa parameter aron makuha ang labing maayo nga pasundayag.
Sa ingon nga senaryo, ang tanan nga mga pagbag-o sa datos ug mga pagbag-o sa proseso sa pagtukod sa modelo kinahanglan nga bantayan ug sukdon aron mahibal-an kung unsa ang nagtrabaho ug kung unsa ang wala. Importante usab nga makabalik sa miaging edisyon ug tan-awon ang nangaging mga resulta.
Ang Data Version Control (DVC), nga nagtabang sa pagdumala sa datos, ang nagpahiping modelo, ug pagpadagan sa mga reproducible nga resulta, usa sa maong teknolohiya nga makapahimo kanato sa pagmonitor niining tanan.
Sa kini nga post, atong tan-awon pag-ayo ang Data Version Control, ug ang labing kaayo nga himan nga gamiton. Magsugod ta.
Unsa ang Data Version Control?
Gikinahanglan ang pag-bersyon para sa tanang sistema sa produksiyon. Usa ka punto sa pag-access sa pinakabag-o nga datos. Ang bisan unsang kapanguhaan nga kanunay giusab, labi na sa daghang mga tiggamit sa parehas nga oras, nanginahanglan paghimo usa ka agianan sa pag-audit aron masubay ang tanan nga mga pagbag-o.
Ang sistema sa pagkontrol sa bersyon ang responsable sa pagsiguro nga ang tanan sa team naa sa parehas nga panid. Gigarantiya niini nga ang tanan sa team nagtrabaho sa pinakabag-o nga bersyon sa file ug, labaw sa tanan, nga ang tanan nagtinabangay sa parehas nga proyekto sa usa ka higayon.
Kung ikaw adunay husto nga kagamitan, mahimo nimo kini nga adunay gamay nga paningkamot!
Adunay ka makanunayon nga mga set sa datos ug usa ka hingpit nga archive sa tanan nimo nga panukiduki kung mogamit ka usa ka kasaligan nga pamaagi sa pagdumala sa bersyon sa datos. Ang mga galamiton sa pag-bersyon sa datos kritikal para sa imong workflow kung nagpakabana ka bahin sa reproducibility, traceability, ug kasaysayan sa modelo sa ML.
Gitabangan ka nila nga makakuha usa ka bersyon sa usa ka butang, sama sa usa ka hash sa usa ka dataset o modelo, nga mahimo nimong gamiton aron mahibal-an ug itandi. Kini nga bersyon sa datos kanunay nga gisulod sa imong solusyon sa pagdumala sa metadata aron garantiya nga ang imong modelo nga pagbansay kay bersyon ug balik-balikon.
Labing maayo nga Data Version Control nga mga himan
Karon na ang panahon nga tan-awon ang labing kaayo nga mga solusyon sa pagkontrol sa bersyon sa datos nga magamit, nga magamit nimo aron masubay ang matag bahin sa imong code.
1. git-lfs
Ang proyekto sa Git LFS libre nga gamiton. Sulod sa Git, ang dagkong mga file sama sa audio sample, video, database, ug mga litrato gipulihan sa mga text pointer, ug ang mga sulod sa file gitipigan sa usa ka remote server sama sa GitHub.com o GitHub Enterprise.
Gitugotan ka niini nga gamiton ang Git sa bersyon sa daghang mga file-hangtod sa daghang GB ang gidak-on-pag-host labi pa sa imong mga repositoryo sa Git nga naggamit sa gawas nga pagtipig, ug pag-clone ug pagkuha sa daghang mga repositoryo sa file nga mas dali. Kung bahin sa pagdumala sa datos, kini usa ka medyo gaan nga solusyon. Aron magtrabaho uban sa Git, wala ka magkinahanglan og bisan unsang dugang nga mga sugo, mga sistema sa pagtipig, o mga toolkit.
Gilimitahan niini ang gidaghanon sa impormasyon nga imong gi-download. Kini nagpasabot nga ang pag-clone ug pagbawi sa dagkong mga file gikan sa mga repository mahimong mas paspas. Ang mga pointer gihimo sa usa ka gaan nga materyal ug nagpunting sa LFS.
Ingon usa ka sangputanan, kung imong iduso ang imong repo sa panguna nga tipiganan, kini dali nga nag-update ug nagkuha og gamay nga wanang.
pros
- Dali nga nag-integrate sa mga development workflow sa kadaghanan sa mga negosyo.
- Dili kinahanglan nga magdumala sa dugang nga mga katungod tungod kay kini naggamit sa parehas nga pagtugot sa Git repository.
disbentaha
- Git LFS nagkinahanglan sa paggamit sa mga dedikado nga mga server sa pagtipig sa imong data. Ingon usa ka sangputanan, ang imong mga data science team ma-lock, ug ang imong trabaho sa engineering motaas.
- Espesyalista kaayo, ug mahimong magkinahanglan sa paggamit sa lain-laing mga lain-laing mga himan alang sa sunod nga mga hugna sa data science workflow.
pagbili
Libre kini nga gamiton alang sa tanan.
2. LakeFS
Ang LakeFS kay usa ka open-source data versioning solution nga nagtipig sa datos sa S3 o GCS ug adunay Git-like branching ug committing paradigm nga mosaka sa mga petabytes.
Kini nga estratehiya sa pagsanga naghimo sa imong data lake nga ACID nga nagsunod pinaagi sa pagtugot sa mga pagbag-o nga mahitabo sa lahi nga mga sanga nga mahimong matukod, mahiusa, ug ma-roll balik sa atomiko ug dayon.
Gitugotan sa LakeFS ang mga team sa paghimo sa mga kalihokan sa lawa sa datos nga masubli, atomic, ug bersyon. Kini usa ka bag-o sa talan-awon, apan kini usa ka puwersa nga kinahanglan nga ilhon.
Naggamit kini og Git-like branching ug version control approach aron makig-interact sa imong lanaw sa datos, scalable hangtod sa Petabytes sa datos. Sa usa ka exabyte nga sukod, mahimo nimong susihon ang pagkontrol sa bersyon.
pros
- Ang sama sa Git nga mga operasyon naglakip sa pagsanga, paghimo, paghiusa, ug pagbalik.
- Ang pre-commit/merge hook kay gigamit para sa data CI/CD checks.
- Naghatag komplikado nga mga bahin sama sa mga transaksyon sa ACID alang sa yano nga pagtipig sa panganod sama sa S3 ug GCS, tanan samtang nagpabilin nga neutral sa format.
- Ibalik ang mga pagbag-o sa datos sa tinuud nga oras.
- Ang mga timbangan dali, nga gitugotan kini nga ma-accommodate ang daghang mga lawa sa datos. Ang pagkontrol sa bersyon mahimong ihatag alang sa mga setting sa pag-uswag ug produksiyon.
disbentaha
- Ang LakeFS usa ka bag-ong produkto, busa ang pag-andar ug dokumentasyon mahimong mas paspas nga mausab kaysa sa nangaging mga solusyon.
- Tungod kay naka-focus kini sa pag-bersiyon sa datos, kinahanglan nimong gamiton ang lain-laing mga dugang nga himan para sa lain-laing bahin sa data science workflow.
pagbili
Libre kini nga gamiton alang sa tanan.
3. DVC
Ang Data Version Control usa ka libre nga data versioning solution nga gidisenyo alang sa data science ug machine learning nga mga aplikasyon. Kini usa ka programa nga nagtugot kanimo sa paghubit sa imong pipeline sa bisan unsang pinulongan.
Pinaagi sa pagdumala sa dagkong mga file, mga set sa datos, mga modelo sa pagkat-on sa makina, code, ug uban pa, ang himan naghimo sa mga modelo sa pagkat-on sa makina nga mapaambit ug ma-reproducible. Ang programa nagsunod sa pagpanguna ni Git sa paghatag og yano nga command line nga ma-set up sa pipila lang ka lakang.
Sama sa gipasabut sa ngalan niini, ang DVC dili lamang bahin sa pag-bersyon sa datos. Gipadali usab niini ang pagdumala sa mga pipeline ug mga modelo sa pagkat-on sa makina alang sa mga team.
Sa katapusan, ang DVC motabang sa pagpauswag sa pagkamakanunayon sa mga modelo sa imong team ug sa ilang pagkasubli. Imbis nga mogamit og komplikado nga mga suffix sa file ug mga komento sa code, pahimusli ang Git nga mga sanga sa pagsulay sa bag-ong mga ideya. Sa pagbiyahe, gamita ang automated metric-tracking imbes nga papel ug lapis.
Sa pagpasa sa makanunayon nga mga bundle sa pagkat-on sa makina mga modelo, datos, ug code ngadto sa produksiyon, layo nga mga kompyuter, o desktop sa kauban, mahimo nimong gamiton ang push/pull commands imbes nga ad-hoc scripts.
pros
- Kini gaan, bukas nga gigikanan, ug magamit sa tanan nga dagkong mga platform sa panganod ug mga matang sa pagtipig.
- Flexible, agnostic sa format ug framework, ug yano nga ipatuman.
- Ang tibuok nga ebolusyon sa matag modelo sa ML mahimong masubay balik sa source code ug data niini.
disbentaha
- Ang pagdumala sa pipeline ug pagkontrol sa bersyon sa DVC dili mabulag. Adunay redundancy kung ang imong team naggamit na sa laing produkto sa pipeline sa data.
- Tungod kay ang DVC gaan ang timbang, ang imong team mahimong kinahanglan nga magdesinyo ug dugang nga mga bahin nga mano-mano aron mahimo kini nga labi ka user-friendly.
pagbili
Libre kini nga gamiton alang sa tanan.
4. DeltaLake
Ang DeltaLake usa ka open-source storage layer nga nagpadako sa kasaligan sa data lake. Ang Delta Lake nagsuporta sa mga transaksyon sa ACID ug scalable metadata management dugang sa streaming ug batch data processing.
Naglihok kini sa mga Apache Spark API ug naglingkod sa imong kasamtangan nga data lake. Ang Delta Sharing mao ang una nga bukas nga protocol sa kalibutan alang sa luwas nga pagpaambit sa datos sa negosyo, nga nagpasimple sa pagbinayloay sa datos sa ubang mga negosyo nga independente sa ilang mga sistema sa kompyuter.
Ang Delta Lakes makahimo sa pagdumala sa mga petabytes sa datos nga sayon. Ang metadata gitipigan sa samang paagi sa datos, ug ang mga tiggamit makakuha niini gamit ang Describe Detalye nga pamaagi. Ang Delta Lakes adunay usa ka arkitektura nga makabasa sa datos sa stream ug batch.
Ang mga upsert sayon buhaton gamit ang Delta. Kini nga mga upserts o merges ngadto sa Delta table ikatandi sa SQL Merges. Mahimo nimo kini gamiton sa pag-integrate sa datos gikan sa laing data frame ngadto sa imong lamesa ug paghimo og mga update, pagsal-ot, ug pagtangtang.
pros
- Daghang mga kapabilidad, sama sa mga transaksyon sa ACID ug lig-on nga pagdumala sa metadata, mahimong magamit sa imong karon nga solusyon sa pagtipig sa datos.
- Ang Delta Lake dali nga makadumala sa mga lamesa nga adunay binilyon nga partisyon ug mga file sa usa ka petabyte-scale.
- Gipamenos ang panginahanglan alang sa manwal nga pagkontrol sa bersyon sa datos ug uban pang mga kabalaka sa datos, nga nagtugot sa mga developers nga magkonsentrar sa pagpalambo sa mga produkto sa ibabaw sa ilang mga data lake.
disbentaha
- Ingon nga kini gidisenyo sa pagtrabaho uban sa Spark ug dako nga data, Delta Lake sa kasagaran overkilled alang sa kadaghanan sa mga buluhaton.
- Nagkinahanglan kini sa paggamit sa usa ka gipahinungod nga format sa datos, nga naglimite sa pagka-flexible niini ug naghimo niini nga dili mahiuyon sa imong presente nga mga porma.
pagbili
Libre kini nga gamiton alang sa tanan.
5. Dolt
Ang Dolt usa ka database sa SQL nga naghimo sa forking, cloning, branching, paghiusa, pagduso, ug pagbira sa parehas nga paagi sama sa usa ka git repository. Aron mapauswag ang kasinatian sa tiggamit sa usa ka database sa pagkontrol sa bersyon, gitugotan ni Dolt ang datos ug istruktura nga mabag-o sa pag-sync.
Kini usa ka maayo kaayo nga himan alang kanimo ug sa imong mga kauban sa trabaho aron magtinabangay. Mahimo nimong makonektar sa Dolt sa parehas nga paagi nga imong buhaton sa bisan unsang uban nga database sa MySQL ug magpadagan sa mga pangutana o maghimo mga pagbag-o sa datos gamit ang mga mando sa SQL.
Kung bahin sa pag-bersyon sa datos, ang Dolt usa-sa-usa ka matang. Ang Dolt usa ka database, sukwahi sa pipila sa ubang mga solusyon nga data ra sa bersyon. Samtang ang software naa sa sayong mga yugto, adunay mga paglaum nga mahimo kini nga hingpit nga katugma sa Git ug MySQL sa umaabot nga umaabot.
Ang tanan nga mga sugo nga pamilyar ka sa paggamit sa Git magamit usab sa Dolt. Git versions files, Dolt versions tables Gamit ang command line interface, import CSV files, i-commit ang imong mga kausaban, i-publish kini sa layo, ug i-merge ang mga kausaban sa imong teammate.
pros
- Gaan ug Bukas nga tinubdan sa bahin.
- Sa pagtandi sa mas dili klaro nga mga pagpili, kini adunay usa ka interface sa SQL, nga naghimo niini nga mas sayon sa mga analista sa datos.
disbentaha
- Kung itandi sa ubang mga alternatibo nga bersyon sa database, ang Dolt usa gihapon ka nag-uswag nga produkto.
- Tungod kay ang Dolt usa ka database, kinahanglan nimo nga ibalhin ang imong data niini aron makuha ang mga benepisyo.
pagbili
Giabi-abi ang tanan sa paggamit sa sesyon sa komunidad. Ang plataporma wala maghatag ug premium nga presyo; hinuon, kinahanglang mokontak ka sa provider.
6. Pachyderm
Ang Pachyderm usa ka libre nga sistema sa pagkontrol sa bersyon sa data science nga adunay daghang mga bahin. Ang Pachyderm Enterprise usa ka kusgan nga platform sa siyensya sa datos nga gidisenyo alang sa dinagkong kolaborasyon sa labi ka luwas nga mga palibot.
Ang Pachyderm usa sa pipila ka mga plataporma sa data science sa listahan. Ang tumong ni Pachyderm mao ang paghatag ug plataporma nga modumala sa kompletong siklo sa datos ug himoong simple ang pagdoble sa mga resulta sa mga modelo sa pagkat-on sa makina. Ang Pachyderm nailhan nga "ang Docker sa Data" niini nga konteksto. Giputos sa Pachyderm ang imong palibot sa pagpatay gamit ang mga sudlanan sa Docker. Kini nakapasayon sa pagdoble sa samang mga resulta.
Ang mga siyentipiko sa datos ug mga koponan sa DevOps mahimong mag-deploy sa mga modelo nga adunay pagsalig salamat sa kombinasyon sa mga bersyon nga datos sa Docker. Salamat sa usa ka episyente nga sistema sa pagtipig, ang mga petabytes sa structured ug unstructured data mahimong mamentinar samtang ang gasto sa pagtipig gitipigan sa labing gamay.
Sa tibuok nga mga hugna sa pipeline, ang pag-bersiyon nga nakabase sa file naghatag og usa ka bug-os nga rekord sa pag-audit para sa tanang datos ug mga artifact, lakip ang mga intermediate nga mga output. Daghan sa mga kapabilidad sa himan ang gimaneho sa kini nga mga haligi, nga makatabang sa mga koponan nga makuha ang labing kaayo niini.
pros
- Base sa mga sudlanan, ang imong data environment mahimong madaladala ug sayon ibalhin tali sa cloud providers.
- Lig-on, nga adunay katakus sa pagsukod gikan sa gamay hangtod sa labi ka dako nga mga sistema.
disbentaha
- Tungod kay adunay daghan kaayo nga mga elemento sa paglihok, sama sa Kubernetes server nga gikinahanglan sa pagdumala sa libre nga edisyon sa Pachyderm, adunay mas taas nga kurba sa pagkat-on.
- Mahimong mahagit ang Pachyderm nga ilakip sa naglungtad nga imprastraktura sa usa ka kompanya tungod sa daghang mga sangkap sa teknolohiya.
pagbili
Mahimo nimong sugdan ang paggamit sa plataporma sa sesyon sa komunidad ug alang sa edisyon sa negosyo, kinahanglan nimo nga kontakon ang vendor.
7. Neptune
Ang metadata sa paghimo og modelo gidumala sa ML metadata store, nga usa ka importante nga aspeto sa MLOps stack. Alang sa matag workflow sa MLOps, ang Neptune nagsilbing sentralisadong pagtipig sa metadata.
Mahimo nimong masubay, mahanduraw, ug itandi ang liboan nga mga modelo sa pagkat-on sa makina tanan sa usa ka lugar. Naglakip kini sa mga bahin sama sa pagsubay sa eksperimento, rehistro sa modelo, ug pag-monitor sa modelo, ingon man usa ka kolaborasyon nga interface. Naglakip kini sa kapin sa 25 ka lain-laing mga himan ug mga librarya nga gisagol, lakip ang daghang modelo nga pagbansay ug hyperparameter tuning tool.
Mahimo kang moapil sa Neptune nga dili mogamit sa imong credit card. Ang usa ka Gmail account igo na sa dapit niini.
pros
- Ang paghiusa sa bisan unsang pipeline, dagan, codebase, o balangkas yano ra.
- Ang real-time nga mga visualization, ang dali nga API, ug ang dali nga suporta
- Uban sa Neptune, makahimo ka og “backup” sa tanang datos sa imong mga eksperimento sa usa ka lokasyon, nga mahimo nimong mabawi sa ulahi.
disbentaha
- Bisan kung dili hingpit nga bukas nga gigikanan, ang usa ka indibidwal nga bersyon lagmit igo na alang sa pribado nga paggamit, bisan kung ang ingon nga pag-access limitado sa usa ka bulan.
- Adunay pipila ka gagmay nga mga sayup sa disenyo nga makit-an.
pagbili
Mahimo nimong sugdan ang paggamit sa plataporma gamit ang Indibidwal nga plano nga libre nga gamiton alang sa tanan. Ang seksyon sa pagpresyo magsugod gikan sa $150/bulan.
Panapos
Sa kini nga post, among gihisgutan ang labing kaayo nga mga himan sa pag-bersyon sa datos. Ang matag himan, ingon sa among nakita, adunay kaugalingon nga hugpong sa mga bahin. Ang uban libre, samtang ang uban nanginahanglan bayad. Ang uban haum kaayo sa gamay nga modelo sa negosyo, samtang ang uban mas haum sa dako nga modelo sa negosyo.
Ingon usa ka sangputanan, kinahanglan nimo nga pilion ang labing kaayo nga software alang sa imong mga katuyoan pagkahuman gitimbang ang mga bentaha ug disbentaha. Giawhag namo nga sulayan nimo ang libre nga bersyon sa pagsulay sa dili pa mopalit ug usa ka premium nga produkto.
Leave sa usa ka Reply