Datumosciencistoj kaj profesiuloj pri maŝinlernado traktas signifan nombron da datumoj de diversaj tipoj en tipa datumscienca projekto. Multaj modeloj estis evoluigitaj kun diversaj agordoj kaj funkcioj, same kiel multoblaj ripetoj de parametra agordado por akiri la optimuman agadon.
En tia scenaro, ĉiuj datenmodifoj kaj modelaj konstruprocezaj alĝustigoj devas esti monitoritaj kaj mezuritaj por determini kio funkciis kaj kio ne. Ankaŭ estas esenca povi reiri al antaŭa eldono kaj rigardi antaŭajn rezultojn.
Datuma Versio-Kontrolo (DVC), kiu helpas administri la datumojn, la subesta modelo kaj funkcii reprodukteblajn rezultojn, estas unu tia teknologio, kiu ebligas al ni kontroli ĉion ĉi.
En ĉi tiu afiŝo, ni detale rigardos Datuman Versian Kontrolon kaj la plej bonajn ilojn por uzi. Ni komencu.
Kio estas Datuma Versia Kontrolo?
Versiado estas postulata por ĉiuj produktadsistemoj. Ununura punkto de aliro al la plej ĝisdataj datumoj. Ajna rimedo, kiu estas ofte modifita, precipe de pluraj uzantoj samtempe, bezonas la kreadon de revizia spuro por konservi trakon de ĉiuj ŝanĝoj.
La versio-kontrolsistemo respondecas pri certigi, ke ĉiuj en la teamo estas sur la sama paĝo. Ĝi garantias, ke ĉiuj en la teamo laboras pri la plej lastatempa versio de la dosiero kaj, pli grave, ke ĉiuj kunlaboras en la sama projekto samtempe.
Se vi havas la taŭgan ekipaĵon, vi povas plenumi ĉi tion per minimuma peno!
Vi havos konsekvencajn datumajn arojn kaj ĝisfundan arkivon de ĉiuj viaj esploroj, se vi uzas fidindan strategion pri administrado de datuma versio. Iloj pri datuma versio estas kritikaj por via laborfluo se vi zorgas pri reproduktebleco, spurebleco kaj ML-modelhistorio.
Ili helpas vin akiri version de ero, kiel hash de datumaro aŭ modelo, kiun vi povas tiam uzi por identigi kaj kompari. Ĉi tiu datumversio ofte estas enmetita en vian metadatuman administradsolvon por garantii, ke via modeltrejnado estas versionita kaj ripetebla.
Plej bonaj iloj pri Datuma Versia Kontrolo
Nun estas tempo rigardi la plej bonajn disponeblajn solvojn pri datuma versio, kiujn vi povas uzi por konservi trakon de ĉiu parto de via kodo.
1. git-lfs
La projekto Git LFS estas libere uzebla. Ene de Git, grandaj dosieroj kiel sonprovaĵoj, filmetoj, datumbazoj kaj fotoj estas anstataŭigitaj per tekstaj montriloj, kaj la dosierenhavo estas konservita en fora servilo kiel GitHub.com aŭ GitHub Enterprise.
Ĝi permesas vin uzi Git por versio de grandegaj dosieroj - ĝis pluraj GB en grandeco - gastigi pli en viaj Git-deponejoj uzante eksteran stokadon, kaj kloni kaj retrovi grandajn dosierdeponejojn pli rapide. Kiam temas pri administrado de datumoj, ĉi tio estas sufiĉe malpeza solvo. Por labori kun Git, vi ne bezonas kromajn komandojn, stokadsistemojn aŭ ilaron.
Ĝi limigas la kvanton da informoj, kiujn vi elŝutas. Ĉi tio implicas, ke klonado kaj reakiro de grandaj dosieroj el deponejoj estos pli rapidaj. La montriloj estas faritaj el pli malpeza materialo kaj montras al la LFS.
Kiel rezulto, kiam vi puŝas vian deponejon en la ĉefan deponejon, ĝi ĝisdatiĝas rapide kaj okupas malpli da spaco.
avantaĝoj
- Facile integriĝas en la evoluajn laborfluojn de plej multaj entreprenoj.
- Ne necesas trakti kromajn rajtojn ĉar ĝi uzas la samajn permesojn kiel la Git-deponejo.
contras
- Git LFS postulas la uzon de dediĉitaj serviloj por stoki viajn datumojn. Kiel rezulto, viaj datumsciencaj teamoj estos ŝlositaj, kaj via inĝenierarta laborkvanto pliiĝos.
- Tre specialeca, kaj povas necesigi la uzon de diversaj malsamaj iloj por postaj fazoj en la datumscienca laborfluo.
prezoj
Ĝi estas senpaga uzebla por ĉiuj.
2. LakeFS
LakeFS estas malfermfonta datuma versio-solvo, kiu stokas datumojn en S3 aŭ GCS kaj havas Git-similan disbranĉigan kaj transigantan paradigmon kiu skalas al petabajtoj.
Ĉi tiu disbranĉa strategio igas vian datuman lagon ACID konforma, permesante ŝanĝojn okazi en apartaj branĉoj, kiuj povas esti konstruitaj, kunfanditaj kaj reigitaj atome kaj tuj.
LakeFS ebligas al teamoj krei datumajn lagajn agadojn, kiuj estas ripeteblaj, atomaj kaj versiigitaj. Ĝi estas novulo al la sceno, sed ĝi estas forto por esti kalkulita.
Ĝi uzas Git-similan disbranĉigan kaj version-kontrolan aliron por interagi kun via datuma lago, skalebla ĝis Petabajtoj da datumoj. Sur eksabajta skalo, vi povas kontroli por versio-kontrolo.
avantaĝoj
- Git-similaj operacioj inkluzivas disbranĉigi, fari, kunfandiĝi kaj reveni.
- Antaŭ-kommit/kunfandaj hokoj estas uzataj por datenkontroloj CI/KD.
- Provizas kompleksajn funkciojn kiel ACID-transakcioj por simpla nuba stokado kiel S3 kaj GCS, ĉio restante neŭtrala formato.
- Reverti ŝanĝojn al datumoj en reala tempo.
- Skalas facile, permesante al ĝi alĝustigi tre grandegajn datumlagojn. Versia kontrolo povas esti provizita por evoluaj kaj produktadaj agordoj.
contras
- LakeFS estas nova produkto, do funkcieco kaj dokumentaro povas ŝanĝiĝi pli rapide ol kun antaŭaj solvoj.
- Ĉar ĝi estas koncentrita al datuma versio, vi devos uzi diversajn kromajn ilojn por diversaj partoj de la datuma laborfluo.
prezoj
Ĝi estas senpaga uzebla por ĉiuj.
3. DVC
Datuma Versiokontrolo estas senpaga datuma versio-solvo dizajnita por datumscienco kaj maŝinlernado-aplikoj. Ĝi estas programo kiu permesas vin difini vian dukto en iu ajn lingvo.
Administrante grandajn dosierojn, datumajn arojn, maŝinlernajn modelojn, kodon ktp, la ilo faras maŝinlernajn modelojn kundivideblajn kaj reprodukteblajn. La programo sekvas la gvidon de Git provizi simplan komandlinion, kiu povas esti agordita en nur kelkaj paŝoj.
Kiel ĝia nomo implicas, DVC ne temas nur pri datuma versio. Ĝi ankaŭ faciligas la administradon de duktoj kaj maŝinlernajn modelojn por teamoj.
Fine, DVC helpos plibonigi la konsekvencon de la modeloj de via teamo kaj ilian ripeteblon. Anstataŭ uzi komplikajn dosiersufiksojn kaj komentojn en kodo, profitu Git branĉoj por provi novajn ideojn. Por vojaĝi, uzu aŭtomatigitan metrikan spuradon anstataŭ paperon kaj krajonon.
Transsendi konsekvencajn pakaĵojn de maŝinlernado modelojn, datumojn kaj kodon en produktadon, malproksimajn komputilojn aŭ la labortablon de kolego, vi povas uzi puŝajn/tiri komandojn anstataŭ ad-hoc-skriptoj.
avantaĝoj
- Ĝi estas malpeza, malfermfonta, kaj funkcias kun ĉiuj ĉefaj nubaj platformoj kaj stokadspecoj.
- Fleksebla, agnostika de formato kaj kadro, kaj simpla por efektivigi.
- La tuta evoluo de ĉiu ML-modelo povas esti spurita reen al sia fontkodo kaj datumoj.
contras
- Dukto-administrado kaj DVC-versiokontrolo estas nedisigeble ligitaj. Estos redundo se via teamo jam uzas alian datuman duktoprodukton.
- Ĉar DVC estas malpeza, via teamo eble bezonos desegni pliajn funkciojn permane por fari ĝin pli uzebla.
prezoj
Ĝi estas senpaga uzebla por ĉiuj.
4. DeltaLago
DeltaLake estas malfermfonta stoka tavolo kiu akcelas fidindecon de datumlago. Delta Lake subtenas ACID-transakciojn kaj skaleblan metadatuman administradon krom fluado kaj bata datumtraktado.
Ĝi funkcias kun Apache Spark API kaj sidas sur via ekzistanta datuma lago. Delta Sharing estas la unua malferma protokolo en la mondo por sekura kundivido de datumoj en komerco, faciligante interŝanĝi datumojn kun aliaj entreprenoj sendepende de iliaj komputilaj sistemoj.
Delta Lakes kapablas facile pritrakti petabajtojn da datumoj. Metadatumoj estas konservitaj sammaniere kiel datumoj, kaj uzantoj povas akiri ĝin uzante la Priskribu Detalan metodon. Delta Lakes havas ununuran arkitekturon kiu povas legi kaj fluajn kaj batajn datumojn.
Upserts estas simple fari uzante Delta. Ĉi tiuj supreniroj aŭ kunfandaĵoj en la Delta-tabelon estas kompareblaj al SQL Merges. Vi povas uzi ĝin por integri datumojn de alia datuma kadro en vian tabelon kaj fari ĝisdatigojn, enmetojn kaj forigojn.
avantaĝoj
- Multaj kapabloj, kiel ACID-transakcioj kaj fortika metadatuma administrado, povas esti haveblaj en via nuna datuma stokado-solvo.
- Delta Lake nun povas senpene administri tabelojn kun miliardoj da sekcioj kaj dosieroj je petabajta skalo.
- Reduktas la bezonon de mana datuma versio-kontrolo kaj aliaj datumaj zorgoj, permesante al programistoj koncentriĝi pri evoluigado de produktoj aldone al siaj datumlagoj.
contras
- Ĉar ĝi estis desegnita por labori kun Spark kaj grandegaj datumoj, Delta Lake estas ĝenerale troplena por plej multaj taskoj.
- Ĝi postulas la uzon de dediĉita datumformato, kiu limigas ĝian flekseblecon kaj faras ĝin malkongrua kun viaj nunaj formoj.
prezoj
Ĝi estas senpaga uzebla por ĉiuj.
5. Dolt
Dolt estas SQL-datumbazo, kiu faras forkadon, klonadon, disbranĉigon, kunfandon, puŝadon kaj tiradon same kiel git-deponejo faras. Por plibonigi la uzant-sperton de versio-kontroldatumbazo, Dolt permesas al datumoj kaj strukturo sinkronigi sin.
Ĝi estas bonega ilo por vi kaj viaj kunlaborantoj kunlabori. Vi povas konektiĝi al Dolt same kiel vi farus al iu alia MySQL-datumbazo kaj fari demandojn aŭ fari ŝanĝojn al la datumoj per SQL-komandoj.
Kiam temas pri datuma versio, Dolt estas unika. Dolt estas datumbazo, kontraste al iuj el la aliaj solvoj, kiuj nur versio datumoj. Dum la programaro estas nuntempe en siaj fruaj stadioj, estas esperoj igi ĝin plene kongrua kun Git kaj MySQL en proksima estonteco.
Ĉiuj komandoj, kiujn vi konas uzi kun Git, ankaŭ funkcios kun Dolt. Dosieroj de Git-versioj, Tabeloj de versioj de Dolt Uzante la komandlinian interfacon, importu CSV-dosierojn, faru viajn ŝanĝojn, publikigu ilin al fora kaj kunfandu la ŝanĝojn de via samteamano.
avantaĝoj
- Malpeza kaj malferma fonto parte.
- Kompare al pli obskuraj elektoj, ĝi havas SQL-interfacon, igante ĝin pli alirebla por datumaj analizistoj.
contras
- Kompare al aliaj datumbazaj versioj de alternativoj, Dolt daŭre estas evoluiga produkto.
- Ĉar Dolt estas datumbazo, vi devas transdoni viajn datumojn en ĝin por akiri la avantaĝojn.
prezoj
Ĉiuj bonvenas uzi la komunuman sesion. La platformo ne provizas altvalorajn prezojn; anstataŭe, vi devas kontakti la provizanton.
6. Pakidermo
Pachyderm estas senpaga datuma scienca versio-kontrolsistemo kun multaj funkcioj. Pachyderm Enterprise estas potenca datuma scienca platformo dizajnita por grandskala kunlaboro en tre sekuraj medioj.
Pachyderm estas unu el la malmultaj datumaj platformoj de la listo. La celo de Pachyderm estas disponigi platformon kiu administras la kompletan datumciklon kaj simpligas duobligi la trovojn de maŝinlernado-modeloj. Pachyderm estas konata kiel "la Docker de Datumoj" en ĉi tiu kunteksto. Pachyderm pakas vian ekzekutmedion per Docker-ujoj. Ĉi tio simpligas duobligi la samajn rezultojn.
Datumsciencistoj kaj DevOps-teamoj povas disfaldi modelojn kun fido danke al la kombinaĵo de versionitaj datumoj kun Docker. Danke al efika stokadsistemo, petabajtoj da strukturitaj kaj nestrukturitaj datumoj povas esti konservitaj dum stokadkostoj estas minimumigitaj.
Dum la duktofazoj, dosier-bazita versionado disponigas ĝisfundan reviziorekordon por ĉiuj datenoj kaj artefaktoj, inkluzive de mezaj produktaĵoj. Multaj el la kapabloj de la ilo estas pelitaj de ĉi tiuj kolonoj, kiuj helpas teamojn akiri la plej grandan parton de ĝi.
avantaĝoj
- Surbaze de ujoj, viaj datummedioj estos porteblaj kaj facile translokigeblaj inter nubaj provizantoj.
- Fortika, kun la kapablo grimpi de malgrandaj ĝis ekstreme grandaj sistemoj.
contras
- Ĉar estas tiom da moviĝantaj elementoj, kiel la servilo de Kubernetes necesaj por trakti la senpagan eldonon de Pachyderm, estas pli kruta lernkurbo.
- Pachyderm povus esti malfacila integriĝi en la ekzistantan infrastrukturon de firmao pro ĝiaj multaj teknologiaj komponentoj.
prezoj
Vi povas komenci uzi la platformon kun la komunuma sesio kaj por la entreprena eldono, vi devas kontakti la vendiston.
7. Neptuno
Model-konstruaj metadatenoj estas administritaj fare de la ML-metadatenoj-butiko, kio estas grava aspekto de la MLOps-stako. Por ĉiu laborfluo de MLOps, Neptuno funkcias kiel centralizita metadatuma stokado.
Vi povas spuri, bildigi kaj kompari milojn da maŝinlernado-modeloj ĉiuj en unu loko. Ĝi inkludas funkciojn kiel ekzemple eksperimentspurado, modelregistro, kaj modelmonitorado, same kiel kunlaboran interfacon. Ĝi inkluzivas pli ol 25 malsamajn ilojn kaj bibliotekojn integritajn, inkluzive de pluraj modeltrejnado kaj hiperparametro-agordaj iloj.
Vi povas aliĝi al Neptuno sen uzi vian kreditkarton. Gmail-konto sufiĉos anstataŭe.
avantaĝoj
- Integriĝo kun ajna dukto, fluo, kodbazo aŭ kadro estas simpla.
- La realtempaj bildigoj, la facila API kaj la rapida subteno
- Kun Neptuno, vi povas fari "rezervon" de ĉiuj datumoj de viaj eksperimentoj en unu loko, kiun vi povas reakiri poste.
contras
- Kvankam ne tute malfermfonte, individua versio supozeble sufiĉus por privata uzo, kvankam tia aliro estas limigita al unu monato.
- Estas kelkaj malgrandaj dezajnaj difektoj troveblaj.
prezoj
Vi povas komenci uzi la platformon kun la Individua plano, kiu estas senpaga uzebla por ĉiuj. La preza sekcio komenciĝas de $ 150 / monato.
konkludo
En ĉi tiu afiŝo, ni diskutis la plej bonajn datumajn versionajn ilojn. Ĉiu ilo, kiel ni vidis, havas sian propran aron de funkcioj. Kelkaj estis senpagaj, dum aliaj postulis pagon. Iuj bone taŭgas al la modelo de malgranda komerca, dum aliaj pli taŭgas al la modelo de granda komerca.
Sekve, vi devas elekti la plej bonan programaron por viaj celoj post pesi la avantaĝojn kaj malavantaĝojn. Ni instigas, ke vi elprovi la senpagan provversion antaŭ ol aĉeti altkvalitan produkton.
Lasi Respondon