Indholdsfortegnelse[Skjule][At vise]
Datavidenskabsfolk og maskinlæringsprofessionelle beskæftiger sig med et betydeligt antal data af forskellige typer i et typisk datavidenskabsprojekt. Der er udviklet adskillige modeller med forskellige konfigurationer og funktioner, samt flere gentagelser af parameterjustering for at få den optimale ydeevne.
I et sådant scenarie skal alle dataændringer og modelbygningsprocesjusteringer overvåges og måles for at bestemme, hvad der virkede, og hvad der ikke gjorde. Det er også vigtigt at kunne gå tilbage til en tidligere udgave og se på tidligere resultater.
Data Version Control (DVC), som hjælper med at administrere dataene, den underliggende model og køre reproducerbare resultater, er en sådan teknologi, der gør os i stand til at overvåge alt dette.
I dette indlæg vil vi nøje se på dataversionskontrol og de bedste værktøjer at bruge. Lad os begynde.
Hvad er dataversionskontrol?
Versionering er påkrævet for alle produktionssystemer. Et enkelt adgangspunkt til de mest opdaterede data. Enhver ressource, der ofte ændres, især af flere brugere på samme tid, skal oprettes et revisionsspor for at holde styr på alle ændringer.
Versionsstyringssystemet er ansvarlig for at sikre, at alle i teamet er på samme side. Det garanterer, at alle i teamet arbejder på den seneste version af filen, og endnu vigtigere, at alle samarbejder om det samme projekt ad gangen.
Hvis du har det rigtige udstyr, kan du opnå dette med minimal indsats!
Du vil have ensartede datasæt og et grundigt arkiv over al din forskning, hvis du bruger en pålidelig dataversionsstyringsstrategi. Værktøjer til dataversionering er afgørende for din arbejdsgang, hvis du interesserer dig for reproducerbarhed, sporbarhed og ML-modelhistorik.
De hjælper dig med at erhverve en version af et element, som en hash af et datasæt eller en model, som du derefter kan bruge til at identificere og sammenligne. Denne dataversion indtastes ofte i din metadata-styringsløsning for at sikre, at din modeltræning er versioneret og gentagelig.
Bedste værktøjer til dataversionskontrol
Nu er det tid til at se på de bedste tilgængelige dataversionskontrolløsninger, som du kan bruge til at holde styr på alle dele af din kode.
1. git-lfs
Git LFS-projektet er gratis at bruge. Inden for Git erstattes store filer som lydeksempler, videoer, databaser og fotos med tekstpointere, og filindholdet gemmes på en ekstern server som GitHub.com eller GitHub Enterprise.
Det giver dig mulighed for at bruge Git til at versionere enorme filer - op til flere GB i størrelse - hoste flere i dine Git-lagre ved at bruge eksternt lager, og klone og hente store fillagre hurtigere. Når det kommer til datastyring, er dette en ret let løsning. For at arbejde med Git behøver du ingen ekstra kommandoer, lagersystemer eller værktøjssæt.
Det begrænser mængden af information, du downloader. Dette indebærer, at kloning og hentning af store filer fra arkiver vil være hurtigere. Pointerne er lavet af et lettere materiale og peger på LFS.
Som et resultat, når du skubber dit repo ind i hovedlageret, opdateres det hurtigt og fylder mindre.
FORDELE
- Integreres nemt i de fleste virksomheders udviklingsarbejdsgange.
- Der er ingen grund til at håndtere ekstra rettigheder, fordi det bruger de samme tilladelser som Git-lageret.
ULEMPER
- Git LFS nødvendiggør brugen af dedikerede servere til at gemme dine data. Som et resultat vil dine datavidenskabsteams blive låst ind, og din ingeniørarbejdsbyrde vil stige.
- Meget specialiseret og kan nødvendiggøre brugen af en række forskellige værktøjer til efterfølgende faser i datavidenskabens arbejdsgang.
Priser
Det er gratis at bruge for alle.
2. LakeFS
LakeFS er en open source-dataversioneringsløsning, der gemmer data i S3 eller GCS og har et Git-lignende forgrenings- og committing-paradigme, der skaleres til petabytes.
Denne forgreningsstrategi gør din datasø ACID-kompatibel ved at tillade ændringer at ske i forskellige grene, der kan konstrueres, flettes og rulles tilbage atomisk og øjeblikkeligt.
LakeFS gør det muligt for teams at oprette datasø-aktiviteter, der kan gentages, atomare og versionsbestemt. Det er en nybegynder på scenen, men det er en kraft at regne med.
Den bruger en Git-lignende forgrenings- og versionskontroltilgang til at interagere med din data sø, der kan skaleres op til Petabytes af data. På en exabyte-skala kan du tjekke for versionskontrol.
FORDELE
- Git-lignende operationer inkluderer forgrening, committing, fletning og tilbagevenden.
- Pre-commit/merge hooks bruges til data CI/CD kontrol.
- Giver komplekse funktioner som ACID-transaktioner til simpel cloud-lagring som S3 og GCS, alt imens det forbliver formatneutralt.
- Gendan ændringer til data i realtid.
- Skaleres let, så det kan rumme meget store datasøer. Versionskontrol kan leveres til både udviklings- og produktionsindstillinger.
ULEMPER
- LakeFS er et nyt produkt, så funktionalitet og dokumentation kan ændre sig hurtigere end med tidligere løsninger.
- Da det er fokuseret på dataversionering, bliver du nødt til at bruge en række yderligere værktøjer til forskellige dele af datavidenskabens arbejdsgang.
Priser
Det er gratis at bruge for alle.
3. CVD
Data Version Control er en gratis dataversioneringsløsning designet til datavidenskab og maskinlæringsapplikationer. Det er et program, der giver dig mulighed for at definere din pipeline på ethvert sprog.
Ved at administrere store filer, datasæt, maskinlæringsmodeller, kode og så videre gør værktøjet maskinlæringsmodeller delbare og reproducerbare. Programmet følger Gits føring med at levere en simpel kommandolinje, der kun kan sættes op i nogle få trin.
Som navnet antyder, handler DVC ikke kun om dataversionering. Det letter også styringen af pipelines og maskinlæringsmodeller for teams.
Endelig vil DVC hjælpe med at forbedre konsistensen af dit teams modeller og deres repeterbarhed. I stedet for at bruge komplicerede filsuffikser og kommentarer i kode, så drag fordel af Git grene at afprøve nye ideer. For at rejse skal du bruge automatiseret metrisk sporing i stedet for papir og blyant.
At transmittere konsistente bundter af machine learning modeller, data og kode til produktion, fjerntliggende computere eller en kollegas skrivebord, kan du bruge push/pull-kommandoer i stedet for ad-hoc-scripts.
FORDELE
- Det er let, open source og fungerer med alle større cloud-platforme og lagringstyper.
- Fleksibel, agnostisk i forhold til format og rammer og enkel at implementere.
- Hver ML-models hele udvikling kan spores tilbage til dens kildekode og data.
ULEMPER
- Pipeline management og DVC versionskontrol er uløseligt forbundet. Der vil være redundans, hvis dit team allerede bruger et andet datapipeline-produkt.
- Da DVC er let, skal dit team muligvis designe yderligere funktioner manuelt for at gøre det mere brugervenligt.
Priser
Det er gratis at bruge for alle.
4. DeltaLake
DeltaLake er et open source-lagerlag, der øger datasøens pålidelighed. Delta Lake understøtter ACID-transaktioner og skalerbar metadatastyring ud over streaming og batchdatabehandling.
Det fungerer med Apache Spark API'er og sidder på din eksisterende datasø. Delta Sharing er verdens første åbne protokol til sikker datadeling i erhvervslivet, hvilket gør det nemt at udveksle data med andre virksomheder uafhængigt af deres computersystemer.
Delta Lakes er i stand til at håndtere petabytes af data med lethed. Metadata gemmes på samme måde som data, og brugere kan få dem ved hjælp af Beskriv detaljer-metoden. Delta Lakes har en enkelt arkitektur, der kan læse både stream- og batchdata.
Upserts er nemme at lave ved hjælp af Delta. Disse upserts eller fletninger til Delta-tabellen kan sammenlignes med SQL Merges. Du kan bruge den til at integrere data fra en anden dataramme i din tabel og udføre opdateringer, indsættelser og sletninger.
FORDELE
- Mange funktioner, såsom ACID-transaktioner og robust metadatastyring, kan være tilgængelige i din nuværende datalagringsløsning.
- Delta Lake kan nu ubesværet administrere tabeller med milliarder af partitioner og filer på petabyte-skala.
- Reducerer behovet for manuel dataversionskontrol og andre dataproblemer, hvilket giver udviklere mulighed for at koncentrere sig om at udvikle produkter oven på deres datasøer.
ULEMPER
- Da det er designet til at arbejde med Spark og enorme data, er Delta Lake generelt overdrevet til de fleste opgaver.
- Det nødvendiggør brugen af et dedikeret dataformat, som begrænser dets fleksibilitet og gør det uforeneligt med dine nuværende formularer.
Priser
Det er gratis at bruge for alle.
5. Dolt
Dolt er en SQL-database, der foretager forking, kloning, forgrening, fletning, pushing og pulling på samme måde som et git-lager gør. For at forbedre brugeroplevelsen af en versionskontroldatabase tillader Dolt, at data og struktur ændres synkroniseret.
Det er et fremragende værktøj for dig og dine kolleger at samarbejde om. Du kan oprette forbindelse til Dolt på samme måde, som du ville gøre til enhver anden MySQL-database og køre forespørgsler eller foretage ændringer i dataene ved hjælp af SQL-kommandoer.
Når det kommer til dataversionering, er Dolt one-of-a-kind. Dolt er en database, i modsætning til nogle af de andre løsninger, der kun versionsdata. Selvom softwaren i øjeblikket er i sine tidlige stadier, er der håb om at gøre den fuldt ud kompatibel med Git og MySQL i den nærmeste fremtid.
Alle de kommandoer, som du er bekendt med at bruge med Git, vil også fungere med Dolt. Git-versionsfiler, Dolt-versionstabeller. Brug kommandolinjegrænsefladen til at importere CSV-filer, begå dine ændringer, udgive dem til en fjernbetjening, og flet din holdkammerats ændringer.
FORDELE
- Let og open source delvis.
- I sammenligning med mere obskure valg har den en SQL-grænseflade, der gør den mere tilgængelig for dataanalytikere.
ULEMPER
- I sammenligning med andre databaseversioneringsalternativer er Dolt stadig et produkt under udvikling.
- Da Dolt er en database, skal du overføre dine data til den for at få fordelene.
Priser
Alle er velkomne til at bruge fællesskabssessionen. Platformen giver ikke premium-priser; i stedet skal du kontakte udbyderen.
6. Pachyderm
Pachyderm er et gratis datavidenskabsversionskontrolsystem med en masse funktioner. Pachyderm Enterprise er en kraftfuld datavidenskabsplatform designet til storstilet samarbejde i meget sikre miljøer.
Pachyderm er en af listens få datavidenskabelige platforme. Pachyderms mål er at levere en platform, der styrer hele datacyklussen og gør det nemt at kopiere resultaterne af maskinlæringsmodeller. Pachyderm er i denne sammenhæng kendt som "the Docker of Data". Pachyderm pakker dit eksekveringsmiljø ved hjælp af Docker-containere. Dette gør det nemt at duplikere de samme resultater.
Dataforskere og DevOps-teams kan implementere modeller med tillid takket være kombinationen af versionerede data med Docker. Takket være et effektivt lagersystem kan petabytes af strukturerede og ustrukturerede data vedligeholdes, mens lageromkostningerne holdes på et minimum.
Gennem hele pipeline-faserne giver filbaseret versionering en grundig revisionsregistrering for alle data og artefakter, inklusive mellemliggende output. Mange af værktøjets muligheder er drevet af disse søjler, som hjælper teams med at få mest muligt ud af det.
FORDELE
- Baseret på containere vil dine datamiljøer være bærbare og nemme at overføre mellem cloud-udbydere.
- Robust, med evnen til at skalere fra små til ekstremt store systemer.
ULEMPER
- Da der er så mange bevægelige elementer, såsom Kubernetes-serveren, der er nødvendig for at håndtere Pachyderms gratis udgave, er der en stejlere indlæringskurve.
- Pachyderm kan være udfordrende at integrere i en virksomheds eksisterende infrastruktur på grund af dens mange teknologiske komponenter.
Priser
Du kan begynde at bruge platformen med community-sessionen, og for enterprise-udgaven skal du kontakte leverandøren.
7. Neptune
Modelbyggende metadata administreres af ML-metadatalageret, som er et vigtigt aspekt af MLOps-stakken. For hver MLOps-arbejdsgang fungerer Neptune som centraliseret metadatalagring.
Du kan holde styr på, visualisere og sammenligne tusindvis af machine learning-modeller på ét sted. Det inkluderer funktioner som eksperimentsporing, modelregistrering og modelovervågning samt en samarbejdsgrænseflade. Det inkluderer over 25 forskellige værktøjer og integrerede biblioteker, herunder adskillige modeltrænings- og hyperparameterjusteringsværktøjer.
Du kan tilmelde dig Neptune uden at bruge dit kreditkort. En Gmail-konto vil være tilstrækkelig i stedet for.
FORDELE
- Integration med enhver pipeline, flow, kodebase eller framework er enkel.
- Realtidsvisualiseringerne, den nemme API og den hurtige support
- Med Neptune kan du lave en "sikkerhedskopi" af alle dine eksperimenters data på ét sted, som du kan gendanne senere.
ULEMPER
- Selvom det ikke er helt open source, vil en individuel version formentlig være tilstrækkelig til privat brug, selvom en sådan adgang er begrænset til en måned.
- Der er et par små designfejl at finde.
Priser
Du kan begynde at bruge platformen med den individuelle plan, som er gratis at bruge for alle. Prisafsnittet starter fra $150/måned.
Konklusion
I dette indlæg diskuterede vi de bedste dataversioneringsværktøjer. Hvert værktøj har, som vi har set, sit eget sæt funktioner. Nogle var gratis, mens andre krævede betaling. Nogle egner sig godt til den lille forretningsmodel, mens andre er bedre egnet til den store forretningsmodel.
Som en konsekvens skal du vælge den bedste software til dine formål efter at have vejet fordele og ulemper. Vi opfordrer dig til at teste den gratis prøveversion, før du køber et premium produkt.
Giv en kommentar