Innholdsfortegnelse[Gjemme seg][Forestilling]
Dataforskere og maskinlæringsfagfolk håndterer et betydelig antall data av ulike typer i et typisk datavitenskapelig prosjekt. Tallrike modeller har blitt utviklet med ulike konfigurasjoner og funksjoner, samt flere iterasjoner av parameterinnstilling for å få optimal ytelse.
I et slikt scenario må alle datamodifikasjoner og modellbyggingsprosessjusteringer overvåkes og måles for å finne ut hva som fungerte og hva som ikke gjorde det. Det er også viktig å kunne gå tilbake til en tidligere utgave og se på tidligere resultater.
Dataversjonskontroll (DVC), som hjelper til med å administrere dataene, den underliggende modellen og kjøre reproduserbare utfall, er en slik teknologi som gjør oss i stand til å overvåke alt dette.
I dette innlegget vil vi se nærmere på dataversjonskontroll og de beste verktøyene å bruke. La oss begynne.
Hva er dataversjonskontroll?
Versjonskontroll er nødvendig for alle produksjonssystemer. Ett enkelt tilgangspunkt til de mest oppdaterte dataene. Enhver ressurs som ofte endres, spesielt av flere brukere samtidig, trenger opprettelse av et revisjonsspor for å holde styr på alle endringer.
Versjonskontrollsystemet er ansvarlig for at alle i teamet er på samme side. Det garanterer at alle i teamet jobber med den nyeste versjonen av filen og, enda viktigere, at alle samarbeider om det samme prosjektet om gangen.
Hvis du har riktig utstyr, kan du oppnå dette med minimal innsats!
Du vil ha konsistente datasett og et grundig arkiv over all forskningen din hvis du bruker en pålitelig strategi for dataversjonsadministrasjon. Dataversjonsverktøy er avgjørende for arbeidsflyten din hvis du bryr deg om reproduserbarhet, sporbarhet og ML-modellhistorikk.
De hjelper deg å anskaffe en versjon av et element, som en hash av et datasett eller en modell, som du deretter kan bruke til å identifisere og sammenligne. Denne dataversjonen legges ofte inn i din metadatabehandlingsløsning for å garantere at modellopplæringen din er versjonert og repeterbar.
Beste dataversjonskontrollverktøy
Nå er det på tide å se på de beste dataversjonskontrollløsningene som er tilgjengelige, som du kan bruke til å holde styr på hver del av koden din.
1. Git AKU
Git LFS-prosjektet er gratis å bruke. Innenfor Git blir store filer som lydprøver, videoer, databaser og bilder erstattet med tekstpekere, og filinnholdet lagres på en ekstern server som GitHub.com eller GitHub Enterprise.
Den lar deg bruke Git til å versjonere enorme filer – opptil flere GB i størrelse – være vert for flere i Git-lagrene dine ved å bruke ekstern lagring, og klone og hente store fillagre raskere. Når det gjelder databehandling, er dette en ganske lett løsning. For å jobbe med Git trenger du ingen ekstra kommandoer, lagringssystemer eller verktøysett.
Det begrenser mengden informasjon du laster ned. Dette innebærer at kloning og henting av store filer fra depoter vil gå raskere. Pekerne er laget av et lettere materiale og peker mot LFS.
Som et resultat, når du skyver repoen inn i hovedlageret, oppdateres den raskt og tar mindre plass.
Pros
- Integrerer enkelt i utviklingsarbeidsflytene til de fleste virksomheter.
- Det er ikke nødvendig å håndtere ekstra rettigheter fordi den bruker de samme tillatelsene som Git-depotet.
Ulemper
- Git LFS krever bruk av dedikerte servere for å lagre dataene dine. Som et resultat vil datavitenskapsteamene dine bli låst inne, og ingeniørarbeidsmengden din vil øke.
- Veldig spesialisert, og kan nødvendiggjøre bruk av en rekke forskjellige verktøy for påfølgende faser i datavitenskapens arbeidsflyt.
Priser
Det er gratis å bruke for alle.
2. LakeFS
LakeFS er en åpen kildekode-dataversjonsløsning som lagrer data i S3 eller GCS og har et Git-lignende forgrenings- og forpliktende paradigme som skaleres til petabyte.
Denne forgreningsstrategien gjør datainnsjøen ACID-kompatibel ved å tillate endringer å skje i distinkte grener som kan konstrueres, slås sammen og rulles tilbake atomisk og øyeblikkelig.
LakeFS gjør det mulig for team å lage datainnsjø-aktiviteter som er repeterbare, atomære og versjonerte. Det er en nybegynner på scenen, men det er en kraft å regne med.
Den bruker en Git-lignende forgrenings- og versjonskontrolltilnærming for å samhandle med din data innsjø, skalerbar opp til Petabyte med data. På en exabyte-skala kan du se etter versjonskontroll.
Pros
- Git-lignende operasjoner inkluderer forgrening, committing, sammenslåing og reverting.
- Pre-commit/merge-kroker brukes for data-CI/CD-sjekker.
- Gir komplekse funksjoner som ACID-transaksjoner for enkel skylagring som S3 og GCS, alt mens de forblir formatnøytrale.
- Tilbakestill endringer i data i sanntid.
- Skaleres lett, slik at den kan romme veldig store datainnsjøer. Versjonskontroll kan leveres for både utviklings- og produksjonsinnstillinger.
Ulemper
- LakeFS er et nytt produkt, derfor kan funksjonalitet og dokumentasjon endres raskere enn med tidligere løsninger.
- Siden det er fokusert på dataversjon, må du bruke en rekke tilleggsverktøy for ulike deler av datavitenskapens arbeidsflyt.
Priser
Det er gratis å bruke for alle.
3. DVC
Dataversjonskontroll er en gratis dataversjonsløsning designet for datavitenskap og maskinlæringsapplikasjoner. Det er et program som lar deg definere din pipeline på et hvilket som helst språk.
Ved å administrere store filer, datasett, maskinlæringsmodeller, kode og så videre, gjør verktøyet maskinlæringsmodeller delbare og reproduserbare. Programmet følger Gits ledelse når det gjelder å tilby en enkel kommandolinje som kan settes opp i bare noen få trinn.
Som navnet tilsier, handler DVC ikke bare om dataversjon. Det letter også administrasjonen av rørledninger og maskinlæringsmodeller for team.
Til slutt vil DVC hjelpe til med å forbedre konsistensen av teamets modeller og deres repeterbarhet. I stedet for å bruke kompliserte filsuffikser og kommentarer i kode, dra nytte av Git grener å prøve ut nye ideer. For å reise, bruk automatisert metrisk sporing i stedet for papir og blyant.
For å overføre konsistente bunter av maskinlæring modeller, data og kode i produksjon, fjerntliggende datamaskiner eller en kollegas skrivebord, kan du bruke push/pull-kommandoer i stedet for ad-hoc-skript.
Pros
- Den er lett, åpen kildekode og fungerer med alle store skyplattformer og lagringstyper.
- Fleksibel, agnostisk i forhold til format og rammeverk, og enkel å implementere.
- Hele utviklingen til hver ML-modell kan spores tilbake til kildekoden og dataene.
Ulemper
- Pipeline management og DVC versjonskontroll er uløselig knyttet sammen. Det vil være redundans hvis teamet ditt allerede bruker et annet datapipeline-produkt.
- Siden DVC er lett, kan teamet ditt trenge å utforme tilleggsfunksjoner manuelt for å gjøre det mer brukervennlig.
Priser
Det er gratis å bruke for alle.
4. DeltaLake
DeltaLake er et åpen kildekode-lagringslag som øker datainnsjøens pålitelighet. Delta Lake støtter ACID-transaksjoner og skalerbar metadatabehandling i tillegg til strømming og batchdatabehandling.
Den fungerer med Apache Spark APIer og sitter på din eksisterende datainnsjø. Delta Sharing er verdens første åpne protokoll for sikker datadeling i virksomheten, noe som gjør det enkelt å utveksle data med andre virksomheter uavhengig av deres datasystemer.
Delta Lakes er i stand til å håndtere petabyte med data med letthet. Metadata lagres på samme måte som data, og brukere kan få det ved hjelp av Beskriv detalj-metoden. Delta Lakes har en enkelt arkitektur som kan lese både strøm- og batchdata.
Upserts er enkle å gjøre med Delta. Disse upserts eller sammenslåinger til Delta-tabellen kan sammenlignes med SQL Merges. Du kan bruke den til å integrere data fra en annen dataramme i tabellen og utføre oppdateringer, innsettinger og slettinger.
Pros
- Mange funksjoner, som ACID-transaksjoner og robust metadataadministrasjon, kan være tilgjengelig i din nåværende datalagringsløsning.
- Delta Lake kan nå enkelt administrere tabeller med milliarder av partisjoner og filer i petabyte-skala.
- Reduserer behovet for manuell dataversjonskontroll og andre dataproblemer, slik at utviklere kan konsentrere seg om å utvikle produkter på toppen av sine datainnsjøer.
Ulemper
- Siden den ble designet for å fungere med Spark og enorme data, er Delta Lake generelt overdrevet for de fleste oppgaver.
- Det nødvendiggjør bruk av et dedikert dataformat, som begrenser fleksibiliteten og gjør det uforenlig med dine nåværende skjemaer.
Priser
Det er gratis å bruke for alle.
5. Dolt
Dolt er en SQL-database som gjør forking, kloning, forgrening, sammenslåing, pushing og pulling på samme måte som et git-lager gjør. For å forbedre brukeropplevelsen til en versjonskontrolldatabase, lar Dolt data og struktur endres synkronisert.
Det er et utmerket verktøy for deg og dine medarbeidere å samarbeide om. Du kan koble til Dolt på samme måte som du ville gjort med en hvilken som helst annen MySQL-database og kjøre spørringer eller gjøre endringer i dataene ved hjelp av SQL-kommandoer.
Når det gjelder dataversjon, er Dolt enestående. Dolt er en database, i motsetning til noen av de andre løsningene som bare versjonsdata. Mens programvaren for øyeblikket er i sine tidlige stadier, er det håp om å gjøre den fullt kompatibel med Git og MySQL i nær fremtid.
Alle kommandoene du er kjent med å bruke med Git vil også fungere med Dolt. Git-versjonsfiler, Dolt-versjonstabeller. Bruk kommandolinjegrensesnittet, importer CSV-filer, foreta endringene dine, publiser dem til en fjernkontroll og slå sammen lagkameratens endringer.
Pros
- Lett og åpen kildekode delvis.
- Sammenlignet med mer obskure valg har den et SQL-grensesnitt, noe som gjør det mer tilgjengelig for dataanalytikere.
Ulemper
- Sammenlignet med andre databaseversjonsalternativer er Dolt fortsatt et produkt under utvikling.
- Siden Dolt er en database, må du overføre dataene dine til den for å få fordelene.
Priser
Alle er velkomne til å bruke fellesmøtet. Plattformen gir ikke premiumpriser; i stedet må du kontakte leverandøren.
6. Pachyderm
Pachyderm er et gratis versjonskontrollsystem for datavitenskap med mange funksjoner. Pachyderm Enterprise er en kraftig datavitenskapelig plattform designet for storskala samarbeid i svært sikre miljøer.
Pachyderm er en av listens få datavitenskapelige plattformer. Pachyderms mål er å tilby en plattform som administrerer hele datasyklusen og gjør det enkelt å duplisere funnene fra maskinlæringsmodeller. Pachyderm er kjent som "Dokkeren av data" i denne sammenhengen. Pachyderm pakker opp utførelsesmiljøet ditt ved å bruke Docker-beholdere. Dette gjør det enkelt å duplisere de samme resultatene.
Dataforskere og DevOps-team kan distribuere modeller med selvtillit takket være kombinasjonen av versjonerte data med Docker. Takket være et effektivt lagringssystem kan petabyte med strukturerte og ustrukturerte data opprettholdes mens lagringskostnadene holdes på et minimum.
Gjennom pipelinefasene gir filbasert versjonskontroll en grundig revisjonsregistrering for alle data og artefakter, inkludert mellomutdata. Mange av verktøyets evner er drevet av disse pilarene, som hjelper teamene til å få mest mulig ut av det.
Pros
- Basert på containere vil datamiljøene dine være bærbare og enkle å overføre mellom skyleverandører.
- Robust, med evne til å skalere fra små til ekstremt store systemer.
Ulemper
- Siden det er så mange bevegelige elementer, som Kubernetes-serveren som er nødvendig for å håndtere Pachyderms gratisutgave, er det en brattere læringskurve.
- Pachyderm kan være utfordrende å integrere i en bedrifts eksisterende infrastruktur på grunn av dens mange teknologiske komponenter.
Priser
Du kan begynne å bruke plattformen med fellesskapsøkten, og for enterprise-utgaven må du kontakte leverandøren.
7. Neptune
Metadata for modellbygging administreres av ML-metadatalageret, som er et viktig aspekt av MLOps-stakken. For hver MLOps-arbeidsflyt fungerer Neptune som sentralisert metadatalagring.
Du kan holde styr på, visualisere og sammenligne tusenvis av maskinlæringsmodeller på ett sted. Den inkluderer funksjoner som eksperimentsporing, modellregister og modellovervåking, samt et samarbeidsgrensesnitt. Den inkluderer over 25 forskjellige verktøy og integrerte biblioteker, inkludert flere modelltrenings- og hyperparameterinnstillingsverktøy.
Du kan registrere deg for Neptune uten å bruke kredittkortet ditt. En Gmail-konto vil være tilstrekkelig i stedet.
Pros
- Integrasjon med enhver rørledning, flyt, kodebase eller rammeverk er enkel.
- Visualiseringene i sanntid, det enkle API-et og den raske støtten
- Med Neptune kan du lage en "sikkerhetskopi" av alle eksperimentene dine på ett sted, som du kan gjenopprette senere.
Ulemper
- Selv om det ikke er helt åpen kildekode, vil en individuell versjon antagelig være tilstrekkelig for privat bruk, selv om slik tilgang er begrenset til en måned.
- Det er noen små designfeil å finne.
Priser
Du kan begynne å bruke plattformen med den individuelle planen som er gratis å bruke for alle. Prisseksjonen starter fra $150/måned.
konklusjonen
I dette innlegget diskuterte vi de beste dataversjonsverktøyene. Hvert verktøy, som vi har sett, har sitt eget sett med funksjoner. Noen var gratis, mens andre krevde betaling. Noen egner seg godt til den lille forretningsmodellen, mens andre er bedre egnet til den store forretningsmodellen.
Som en konsekvens må du velge den beste programvaren for dine formål etter å ha veid fordeler og ulemper. Vi oppfordrer deg til å teste ut den gratis prøveversjonen før du kjøper et premiumprodukt.
Legg igjen en kommentar