Inhaltsverzeechnes[Verstoppen][Show]
Donnéeën Wëssenschaftler a Maschinnléiere Professionnelen beschäftegen eng bedeitend Unzuel vun Daten vu verschiddenen Typen an engem typeschen Datewëssenschaftsprojet. Vill Modeller goufen entwéckelt mat verschiddene Konfiguratiounen a Featuren, souwéi verschidde Iteratiounen vu Parametertuning fir déi optimal Leeschtung ze kréien.
An esou engem Szenario mussen all Datenmodifikatiounen a Modellbauprozessanpassungen iwwerwaacht a gemooss ginn fir ze bestëmmen wat geschafft huet a wat net. Et ass och vital fir fäeg ze sinn op eng fréier Editioun zréckzekommen an a fréiere Resultater ze kucken.
Data Version Control (DVC), déi hëlleft bei der Gestioun vun den Donnéeën, dem ënnerierdesche Modell a laafen vun reproduzéierbare Resultater, ass eng esou Technologie déi et eis erlaabt all dëst ze iwwerwaachen.
An dësem Post wäerte mir genau kucken op Dateversiounskontrolle, an déi bescht Tools fir ze benotzen. Loosst eis ufänken.
Wat ass Data Versioun Kontroll?
Versionéierung ass erfuerderlech fir all Produktiounssystemer. Een eenzegen Zougangspunkt op déi aktuellsten Donnéeën. All Ressource déi dacks geännert gëtt, besonnesch vu verschiddene Benotzer zur selwechter Zäit, brauch d'Schafe vun engem Audit Trail fir all Ännerungen ze verfollegen.
De Versiounskontrollsystem ass verantwortlech fir sécherzestellen datt jiddereen am Team op der selwechter Säit ass. Et garantéiert datt jiddereen am Team un der leschter Versioun vun der Datei schafft an, méi wichteg, datt jidderee gläichzäiteg un deemselwechte Projet kollaboréiert.
Wann Dir déi richteg Ausrüstung hutt, kënnt Dir dëst mat minimalem Effort erreechen!
Dir hutt konsequent Datesets an e grëndlechen Archiv vun all Är Fuerschung wann Dir eng zouverlässeg Dateversiounsmanagementstrategie benotzt. Dateversionéierungsinstrumenter si kritesch fir Ären Workflow wann Dir Iech ëm Reproduzéierbarkeet, Traceabilitéit an ML Modellgeschicht këmmert.
Si hëllefen Iech eng Versioun vun engem Artikel ze kréien, wéi en Hash vun engem Datesaz oder Modell, deen Dir dann benotze kënnt fir z'identifizéieren an ze vergläichen. Dës Dateversioun gëtt dacks an Är Metadatenverwaltungsléisung aginn fir ze garantéieren datt Äre Modelltraining Versioun Versioun a widderholl ass.
Beschte Data Versioun Kontroll Tools
Elo ass et Zäit fir déi bescht verfügbar Datenversiounskontrollléisungen ze kucken, déi Dir benotze kënnt fir all Deel vun Ärem Code ze verfollegen.
1. Gitt LFS
De Git LFS Projet ass gratis ze benotzen. Bannent Git gi grouss Dateie wéi Audioproben, Videoen, Datenbanken a Fotoen mat Texter ersat, an d'Dateiinhalt gëtt op engem Fernserver wéi GitHub.com oder GitHub Enterprise gespäichert.
Et erlaabt Iech Git ze benotzen fir enorm Dateien ze benotzen - bis zu e puer GB an der Gréisst - Host méi an Äre Git Repositories andeems Dir extern Späichere benotzt, a klonen a méi séier grouss Dateirepositories méi séier recuperéieren. Wann et ëm Datemanagement geet, ass dëst eng zimlech liicht Léisung. Fir mat Git ze schaffen, brauch Dir keng extra Kommandoen, Späichersystemer oder Toolkits.
Et limitéiert d'Quantitéit un Informatioun déi Dir erofluet. Dëst implizéiert datt Klonen a grouss Dateien aus Repositories méi séier wäerte sinn. D'Zeecher sinn aus engem liichte Material gemaach a weisen op d'LFS.
Als Resultat, wann Dir Äre Repo an den Haaptrepository dréckt, aktualiséiert se séier a hëlt manner Plaz op.
Profien
- Einfach integréiert an d'Entwécklung Workflows vun de meeschte Geschäfter.
- Et ass kee Besoin fir extra Rechter ze handhaben well et déiselwecht Permissiounen benotzt wéi de Git Repository.
scheinbar
- Git LFS erfuerdert d'Benotzung vun dedizéierten Serveren fir Är Donnéeën ze späicheren. Als Resultat ginn Är Datewëssenschaftsteams gespaart, an Är Ingenieursaarbecht wäert eropgoen.
- Ganz spezialiséiert, a kann d'Benotzung vu ville verschiddenen Tools fir spéider Phasen am Data Science Workflow erfuerderen.
Tarifikatioun
Et ass gratis fir jiddereen ze benotzen.
2. LakeFS
LakeFS ass eng Open-Source Dateversionéierungsléisung déi Daten am S3 oder GCS späichert an e Git-ähnlechen Verzweigungs- a Verpflichtungsparadigma huet dat op Petabytes skaléiert.
Dës Verzweigungsstrategie mécht Ären Dateséi ACID-kompatibel andeems Ännerungen an ënnerschiddleche Filialen geschéien, déi kënne konstruéiert, fusionéiert an atomesch an direkt zréckgeréckelt ginn.
LakeFS erlaabt Teams Daten Séi Aktivitéiten ze kreéieren déi widderhuelend, atomesch a Versioun sinn. Et ass en Newbie op der Szen, awer et ass eng Kraaft mat ze berechnen.
Et benotzt eng Git-ähnlech Verzweigung a Versiounskontroll Approche fir mat Ärem ze interagéieren daten Séi, skalierbar bis Petabytes vun Daten. Op enger Exabyte Skala kënnt Dir d'Versiounskontroll kontrolléieren.
Profien
- Git-ähnlech Operatiounen enthalen Verzweigung, Verpflichtung, Fusioun a Réckgang.
- Pre-commit / Merge Haken gi fir Daten CI / CD Schecken benotzt.
- Bitt komplex Funktiounen wéi ACID Transaktiounen fir einfache Wolleklagerung wéi S3 a GCS, alles wärend Formatneutral bleift.
- Retour Ännerungen op Daten an Echtzäit.
- Skaléiert liicht, erlaabt et ganz rieseg Dateséen z'empfänken. Versiounskontroll ka fir Entwécklungs- a Produktiounsastellungen zur Verfügung gestallt ginn.
scheinbar
- LakeFS ass en neit Produkt, also kënnen d'Funktionalitéit an d'Dokumentatioun méi séier änneren wéi mat fréiere Léisungen.
- Well et op Dateversionéierung fokusséiert ass, musst Dir eng Vielfalt vun zousätzlech Tools fir verschidden Deeler vum Datewëssenschafts Workflow benotzen.
Tarifikatioun
Et ass gratis fir jiddereen ze benotzen.
3. DVC
Data Version Control ass eng gratis Dateversionéierungsléisung entwéckelt fir Datewëssenschaften a Maschinnléieren Uwendungen. Et ass e Programm deen Iech erlaabt Är Pipeline an all Sprooch ze definéieren.
Andeems Dir grouss Dateien, Datesets, Maschinnléieremodeller, Code, asw. De Programm follegt dem Git seng Leedung fir eng einfach Kommandozeil ze liwweren déi an nëmmen e puer Schrëtt ageriicht ka ginn.
Wéi säin Numm et scho seet, geet DVC net nëmmen iwwer Dateversionéierung. Et erliichtert och d'Gestioun vu Pipelines a Maschinnléiermodeller fir Teams.
Schlussendlech wäert DVC hëllefen d'Konsistenz vun Ärem Team Modeller an hir Widderhuelbarkeet ze verbesseren. Amplaz komplizéiert Dateisuffixen a Kommentaren am Code ze benotzen, profitéiert vun Gitt Branchen nei Iddien ausprobéieren. Fir ze reesen, benotzt automatiséiert metresch Tracking anstatt Pabeier a Bleistift.
Ze iwwerdroen konsequent Bündel vun Maschinn léieren Modeller, Donnéeën a Code an d'Produktioun, wäit Computeren oder den Desktop vun engem Kolleg, kënnt Dir Push / Pull Kommandoen benotzen anstatt ad-hoc Scripten.
Profien
- Et ass liicht, Open-Source, a funktionnéiert mat all gréisser Cloud Plattformen a Späicheraarten.
- Flexibel, agnostesch vu Format a Kader, an einfach ze implementéieren.
- All ML Modell seng ganz Evolutioun kann op seng Quellcode an Daten zréckverfollegt ginn.
scheinbar
- Pipeline Management an DVC Versioun Kontroll sinn onloschterlech verbonnen. Et gëtt Redundanz wann Äert Team schonn en anert Datepipeline Produkt benotzt.
- Well DVC liicht ass, muss Äert Team eventuell zousätzlech Funktiounen manuell designen fir et méi userfrëndlech ze maachen.
Tarifikatioun
Et ass gratis fir jiddereen ze benotzen.
4. DeltaLake
DeltaLake ass eng Open-Source Späicherschicht déi d'Zouverlässegkeet vum Dateséi verbessert. Delta Lake ënnerstëtzt ACID Transaktiounen a skalierbar Metadatenverwaltung zousätzlech zu Streaming a Batchdatenveraarbechtung.
Et funktionnéiert mat Apache Spark APIen a setzt op Ärem existente Dateséi. Delta Sharing ass den éischten oppene Protokoll op der Welt fir sécher Datenaustausch am Geschäft, wat et einfach mécht Daten mat anere Geschäfter onofhängeg vun hire Computersystemer auszetauschen.
Delta Lakes si fäeg Petabytes vun Daten mat Liichtegkeet ze handhaben. Metadaten ginn op déiselwecht Manéier wéi Daten gespäichert, an d'Benotzer kënnen se mat der Describe Detail Method kréien. Delta Lakes huet eng eenzeg Architektur déi souwuel Stream a Batchdaten liesen kann.
Upserts sinn einfach mat Delta ze maachen. Dës Upserts oder Fusioune an d'Delta Tabelle si vergläichbar mat SQL Merges. Dir kënnt et benotze fir Daten aus engem aneren Dateframe an Ären Dësch z'integréieren an Updates, Inserts a Läschen auszeféieren.
Profien
- Vill Fäegkeeten, wéi ACID Transaktiounen a robust Metadatenmanagement, kënnen an Ärer aktueller Datespäicherléisung verfügbar sinn.
- Delta Lake kann elo ouni Ustrengung Dëscher mat Milliarde Partitionen a Fichieren op enger Petabyte-Skala verwalten.
- Reduzéiert de Besoin fir manuell Datenversiounskontroll an aner Datebedürfnisser, erlaabt d'Entwéckler sech op d'Entwécklung vu Produkter op hir Dateséi ze konzentréieren.
scheinbar
- Wéi et entwéckelt gouf fir mat Spark a grousse Donnéeën ze schaffen, ass Delta Lake allgemeng iwwerkillt fir déi meescht Aufgaben.
- Et erfuerdert d'Benotzung vun engem speziellen Dateformat, wat seng Flexibilitéit limitéiert an et inkompatibel mat Ären aktuellen Formen mécht.
Tarifikatioun
Et ass gratis fir jiddereen ze benotzen.
5. Dolt
Dolt ass eng SQL Datebank déi Gabel, Klonen, Verzweigung, Fusioun, Dréckt an zitt op déiselwecht Manéier wéi e Git Repository mécht. Fir d'Benotzererfarung vun enger Versiounskontrolldatenbank ze verbesseren, erlaabt Dolt Daten a Struktur an der Synchroniséierung z'änneren.
Et ass en exzellent Tool fir Iech an Är Mataarbechter ze kollaboréieren. Dir kënnt mat Dolt verbannen op déiselwecht Manéier wéi Dir mat all aner MySQL-Datebank an Ufroen ausféiert oder Ännerungen un d'Donnéeën mat SQL Kommandoen ze maachen.
Wann et ëm d'Datenversioun geet, ass Dolt eent vun enger Aart. Dolt ass eng Datebank, am Géigesaz zu e puer vun den anere Léisungen déi just Versiounsdaten. Wärend d'Software de Moment a senge fréie Stadien ass, ginn et Hoffnungen et voll kompatibel mat Git a MySQL an der nächster Zukunft ze maachen.
All d'Befehle, déi Dir vertraut sidd mat Git ze benotzen, funktionnéieren och mat Dolt. Git Versiounsdateien, Dolt Versiounstabellen Benotzt d'Command Line Interface, importéiert CSV Dateien, engagéiert Är Ännerungen, publizéiert se op eng Remote, a fusionéiert d'Ännerungen vun Ärem Teamkolleg.
Profien
- Liicht an Open Source deelweis.
- Am Verglach mat méi obskure Choixen huet et eng SQL Interface, wat et méi zougänglech mécht fir Datenanalyten.
scheinbar
- Am Verglach mat aner Datenbankversiounsalternativen ass Dolt nach ëmmer en Entwécklungsprodukt.
- Zënter Dolt ass eng Datebank, musst Dir Är Donnéeën an et transferéieren fir d'Virdeeler ze kréien.
Tarifikatioun
Jiddereen ass wëllkomm fir d'Gemeinschaftssëtzung ze benotzen. D'Plattform bitt keng Premium Präisser; amplaz, Dir musst de Provider Kontakt.
6. Pachyderm
Pachyderm ass e gratis Datewëssenschaftsversiounskontrollsystem mat vill Features. Pachyderm Enterprise ass eng mächteg Datewëssenschaftsplattform entwéckelt fir grouss Zesummenaarbecht an héich sécheren Ëmfeld.
Pachyderm ass eng vun de wéinege Datenwëssenschaftsplattformen op der Lëscht. Dem Pachyderm säin Zil ass eng Plattform ze bidden déi de komplette Datezyklus geréiert an et einfach mécht d'Resultater vu Maschinnléiermodeller ze duplizéieren. Pachyderm ass bekannt als "den Docker vun Daten" an dësem Kontext. Pachyderm packt Äert Ausféierungsëmfeld mat Docker Container. Dëst mécht et einfach déiselwecht Resultater ze duplizéieren.
Datewëssenschaftler an DevOps Teams kënne Modeller mat Vertrauen ofsetzen duerch d'Kombinatioun vu Versiounen Daten mat Docker. Dank engem effiziente Späichersystem kënnen Petabytes vu strukturéierten an onstrukturéierten Donnéeën erhale ginn, während d'Späicherkäschte op e Minimum gehale ginn.
Duerch d'Pipelinephasen bitt Datei-baséiert Versioun e grëndlechen Auditrekord fir all Daten an Artefakte, inklusiv Zwëschenausgaben. Vill vun de Fäegkeeten vum Tool ginn vun dëse Piliere gedriwwen, déi Teams hëllefen dat Bescht dovun ze kréien.
Profien
- Baséierend op Container, wäerten Är Dateëmfeld portabel sinn an einfach ze transferéieren tëscht Cloud Ubidder.
- Robust, mat der Fäegkeet fir vu klenge bis extrem grouss Systemer ze skaléieren.
scheinbar
- Zënter datt et sou vill bewegt Elementer sinn, sou wéi de Kubernetes Server néideg fir Pachyderm senger gratis Editioun ze handhaben, gëtt et eng méi steiler Léierkurve.
- Pachyderm kéint Erausfuerderung sinn an eng existent Infrastruktur vun enger Firma z'integréieren wéinst senge villen technologesche Komponenten.
Tarifikatioun
Dir kënnt d'Plattform mat der Gemeinschaftssitzung benotzen a fir d'Entreprise Editioun musst Dir de Verkeefer kontaktéieren.
7. Neptun
Model-Building Metadaten gëtt vum ML Metadate Store geréiert, wat e wichtegen Aspekt vum MLOps Stack ass. Fir all MLOps Workflow déngt Neptun als zentraliséiert Metadatenlagerung.
Dir kënnt Dausende vu Maschinnléiere Modeller op enger Plaz verfollegen, visualiséieren a vergläichen. Et enthält Funktiounen wéi Experimenter Tracking, Modellregistrierung, a Modell Iwwerwachung, souwéi eng kollaborativ Interface. Et enthält iwwer 25 verschidden Tools a Bibliothéiken integréiert, dorënner verschidde Modelltraining an Hyperparameter Tuning Tools.
Dir kënnt op Neptun matmaachen ouni Är Kreditkaart ze benotzen. E Gmail Kont wäert op senger Plaz genuch sinn.
Profien
- Integratioun mat all Pipeline, Flow, Codebase oder Kader ass einfach.
- D'Echtzäitvisualiséierungen, déi einfach API, an déi séier Ënnerstëtzung
- Mat Neptun kënnt Dir e "Backup" vun all Ären Experimenter Daten op enger Plaz maachen, déi Dir spéider kënnt recuperéieren.
scheinbar
- Och wann net ganz Open-Source, eng individuell Versioun géif viraussiichtlech fir privat Notzung duergoen, obwuel esou Zougang op ee Mount limitéiert ass.
- Et ginn e puer kleng Designfehler ze fannen.
Tarifikatioun
Dir kënnt ufänken d'Plattform ze benotzen mam Individuelle Plang dee gratis ass fir jiddereen ze benotzen. D'Präisabschnitt fänkt vu $ 150 / Mount un.
Konklusioun
An dësem Post hu mir déi bescht Dateversiounsinstrumenter diskutéiert. All Tool, wéi mir gesinn hunn, huet seng eege Set vu Funktiounen. E puer ware gratis, anerer erfuerdert Bezuelung. E puer si gutt fir de klenge Geschäftsmodell passend, anerer si besser fir de grousse Geschäftsmodell.
Als Konsequenz musst Dir déi bescht Software fir Är Zwecker auswielen nodeems Dir d'Virdeeler an Nodeeler ofgewiicht hutt. Mir encouragéieren datt Dir déi gratis Testversioun testen ier Dir e Premiumprodukt kaaft.
Hannerlooss eng Äntwert