Científici di Dati è i prufessiunali di l'apprendimentu automaticu trattanu un numeru significativu di dati di varii tipi in un prughjettu tipicu di scienza di dati. Numerosi mudelli sò stati sviluppati cù diverse cunfigurazioni è caratteristiche, è ancu parechje iterazioni di sintonizazione di parametri per ottene u rendiment ottimali.
In un tali scenariu, tutte e mudificazioni di dati è l'aghjustamenti di u prucessu di costruzione di mudelli devenu esse monitorate è misurate per determinà ciò chì hà travagliatu è ciò chì ùn hà micca. Hè ancu vitale per esse capace di vultà à una edizione precedente è guardà i risultati precedenti.
Data Version Control (DVC), chì aiuta in a gestione di e dati, u mudellu sottostante, è l'esecuzione di risultati riproducibili, hè una di queste tecnulugia chì ci permette di monitorà tuttu questu.
In questu post, andemu attentamente à u cuntrollu di a versione di dati, è i migliori strumenti per utilizà. Cuminciamu.
Chì ghjè u cuntrollu di a versione di dati?
A versione hè necessaria per tutti i sistemi di produzzione. Un puntu unicu di accessu à i dati più aghjurnati. Ogni risorsa chì hè spessu mudificata, in particulare da parechji utilizatori à u stessu tempu, hà bisognu di a creazione di una pista di auditu per seguità tutti i cambiamenti.
U sistema di cuntrollu di versione hè rispunsevule per assicurà chì tutti in a squadra sò in a stessa pagina. Hè guarantisci chì tutti in a squadra sò travagliendu nantu à a versione più recente di u schedariu è, più impurtante, chì tutti cullabureghjanu à u stessu prughjettu à tempu.
Sì avete l'equipaggiu propiu, pudete fà questu cun un minimu sforzu!
Averete seti di dati coerenti è un archiviu cumpletu di tutte e vostre ricerche se utilizate una strategia di gestione di versione di dati affidabile. L'arnesi di versione di dati sò critichi per u vostru flussu di travagliu se vi importa di a riproducibilità, a tracciabilità è a storia di u mudellu ML.
Vi aiutanu à acquistà una versione di un articulu, cum'è un hash di un dataset o mudellu, chì pudete allora aduprà per identificà è paragunate. Questa versione di dati hè spessu inserita in a vostra suluzione di gestione di metadati per guarantiscia chì u vostru mudellu di furmazione hè versionatu è ripetibile.
I migliori strumenti di cuntrollu di versione di dati
Avà hè u tempu di guardà i megliu suluzioni di cuntrollu di versione di dati dispunibuli, chì pudete aduprà per seguità ogni parte di u vostru codice.
1. git-lfs
U prughjettu Git LFS hè liberu d'utilizà. In Git, i fugliali grossi cum'è campioni audio, video, basa di dati è foto sò rimpiazzati cù punters di testu, è u cuntenutu di u schedariu hè salvatu in un servitore remotu cum'è GitHub.com o GitHub Enterprise.
Permette d'utilizà Git per versioni fugliali enormi - finu à parechji GB in grandezza - ospitanu più in i vostri repositori Git utilizendu un almacenamentu esternu, è clone è ricuperà i repositori di grandi file più rapidamente. Quandu si tratta di gestione di dati, questa hè una soluzione abbastanza ligera. Per travaglià cù Git, ùn avete micca bisognu di cumandamenti extra, sistemi di almacenamento o toolkits.
Limita a quantità di informazioni chì scaricate. Questu implica chì a clonazione è a ricuperazione di grandi schedarii da i repositori serà più veloce. I punters sò fatti di un materiale più ligeru è puntanu à l'LFS.
In u risultatu, quandu u vostru repo in u repositoriu principale, aghjurnà rapidamente è occupa menu spaziu.
Runzinu
- Si integra facilmente in i flussi di travagliu di sviluppu di a maiò parte di l'imprese.
- Ùn ci hè bisognu di gestisce diritti extra perchè usa i stessi permessi cum'è u repository Git.
Cons
- Git LFS richiede l'usu di servitori dedicati per almacenà e vostre dati. In u risultatu, i vostri squadre di scienza di dati seranu chjusi, è a vostra carica di travagliu di ingegneria aumenterà.
- Moltu specializatu, è pò esse bisognu di l'usu di una varietà di strumenti diffirenti per e fasi successive in u flussu di travagliu di a scienza di dati.
Segretaria
Hè liberu d'utilizà per tutti.
2. LakeFS
LakeFS hè una soluzione di versione di dati open-source chì guarda i dati in S3 o GCS è hà un paradigma di ramificazione è cummissione Git-like chì scala à petabyte.
Questa strategia di ramificazione rende u vostru lacu di dati ACID cumpletu, permettendu chì i cambiamenti accadenu in rami distinti chì ponu esse custruiti, fusionati è ritruvati atomicamente è istantaneamente.
LakeFS permette à e squadre di creà attività di data lake chì sò ripetibili, atomichi è versionati. Hè un novu à a scena, ma hè una forza chì deve esse cunsideratu.
Utiliza un approcciu di ramificazione è di cuntrollu di versione Git-like per interagisce cù u vostru lacu di dati, scalabile finu à Petabytes di dati. In una scala exabyte, pudete verificà u cuntrollu di versione.
Runzinu
- L'operazioni simili à Git includenu branching, committing, fusione è reverte.
- I ganci di pre-commit / merge sò usati per i cuntrolli di dati CI / CD.
- Fornisce caratteristiche cumplesse cum'è transazzioni ACID per un almacenamentu in nuvola simplice cum'è S3 è GCS, tuttu purtendu u formatu neutrale.
- Ritorna i cambiamenti à i dati in tempu reale.
- Scala facilmente, chì li permette di accoglie laghi di dati assai enormi. U cuntrollu di versione pò esse furnitu per i paràmetri di sviluppu è di produzzione.
Cons
- LakeFS hè un novu pruduttu, cusì a funziunalità è a ducumentazione pò cambià più rapidamente chè cù soluzioni precedenti.
- Siccomu hè focu annantu à a versione di dati, avete bisognu di utilizà una varietà di strumenti supplementari per diverse parti di u flussu di travagliu di scienza di dati.
Segretaria
Hè liberu d'utilizà per tutti.
3. DVC
Data Version Control hè una soluzione di versione di dati gratuitu pensata per a scienza di i dati è l'applicazioni di apprendimentu automaticu. Hè un prugramma chì permette di definisce a vostra pipeline in ogni lingua.
Gestendu i fugliali grossi, seti di dati, mudelli di apprendimentu di macchina, codice, è cusì, l'uttellu rende i mudelli di apprendimentu automaticu sparte è riproducibili. U prugramma seguita a guida di Git in furnisce una linea di cumanda simplice chì pò esse stallata in solu uni pochi di passi.
Cum'è u so nome implica, DVC ùn hè micca solu di versione di dati. Facilita ancu a gestione di pipelines è mudelli di machine learning per i gruppi.
Infine, DVC aiuterà à migliurà a coherenza di i mudelli di a vostra squadra è a so ripetibilità. Invece d'utilizà suffissi cumplicati di file è cumenti in codice, apprufittate rami di Git per pruvà idee novi. Per viaghjà, aduprate un seguimentu metricu automatizatu invece di carta è lapis.
Per trasmette bundle consistente di machine learning mudelli, dati è codice in pruduzzione, computer distanti, o desktop di un cullega, pudete aduprà cumandamenti push / pull invece di script ad-hoc.
Runzinu
- Hè liggeru, open-source, è funziona cù tutte e principali piattaforme di nuvola è tipi di almacenamento.
- Flessibile, agnosticu di formatu è framework, è simplice di implementà.
- L'evoluzione sana di ogni mudellu ML pò esse tracciata à u so codice fonte è dati.
Cons
- A gestione di pipeline è u cuntrollu di versione DVC sò indissolubilmente ligati. Ci sarà redundancy se u vostru squadra hè digià utilizendu un altru pruduttu di pipeline di dati.
- Siccomu DVC hè ligeru, a vostra squadra pò avè bisognu di cuncepisce funzioni supplementari manualmente per rende più user-friendly.
Segretaria
Hè liberu d'utilizà per tutti.
4. Delta Lake
DeltaLake hè una strata di almacenamiento open-source chì aumenta l'affidabilità di u lacu di dati. Delta Lake supporta transazzione ACID è gestione di metadata scalabile in più di u prucessu di dati in streaming è batch.
Funziona cù l'API Apache Spark è si trova nantu à u vostru lacu di dati esistenti. Delta Sharing hè u primu protokollu apertu in u mondu per a spartera sicura di dati in l'imprese, facendu simplice di scambià dati cù altre imprese indipendenti da i so sistemi informatici.
Delta Lakes sò capaci di gestisce petabytes di dati cun facilità. I metadati sò almacenati in u listessu modu cum'è i dati, è l'utilizatori ponu uttene cù u metudu Descrive Detail. Delta Lakes hà una sola architettura chì pò leghje i dati di flussu è batch.
Upsers sò simplici per fà cù Delta. Questi upserts o fusioni in a tabella Delta sò paragunabili à SQL Merges. Pudete aduprà per integrà e dati da un altru quadru di dati in a vostra tavula è eseguisce aghjurnamenti, inserisce è sguassate.
Runzinu
- Parechje capacità, cum'è transazzione ACID è una gestione robusta di metadati, ponu esse dispunibuli in a vostra suluzione di almacenamiento di dati attuale.
- Delta Lake pò avà gestisce senza sforzu tavule cù miliardi di partizioni è fugliali nantu à una scala di petabyte.
- Reduce a necessità di cuntrollu di versione manuale di dati è altre preoccupazioni di dati, chì permette à i sviluppatori di cuncentrazione nantu à u sviluppu di prudutti nantu à i so laghi di dati.
Cons
- Cum'è hè statu cuncepitu per travaglià cù Spark è dati enormi, Delta Lake hè in generale eccessiva per a maiò parte di i travaglii.
- Hè necessariu l'usu di un furmatu di dati dedicatu, chì limita a so flessibilità è a rende incompatibile cù e vostre forme prisenti.
Segretaria
Hè liberu d'utilizà per tutti.
5. Doltu
Dolt hè una basa di dati SQL chì fa bifurcazione, clonazione, ramificazione, fusione, spinta è pulling in u listessu modu cum'è un repository git. Per migliurà l'esperienza di l'utilizatori di una basa di dati di cuntrollu di versione, Dolt permette à e dati è a struttura di cambià in sincronia.
Hè un strumentu eccellente per voi è i vostri cumpagni di cullaburazione. Pudete cunnette à Dolt in a listessa manera chì avaristi à qualsiasi altra basa di dati MySQL è eseguite dumande o fate cambiamenti à e dati cù cumandamenti SQL.
Quandu si tratta di versione di dati, Dolt hè unicu. Dolt hè una basa di dati, in uppusizione à alcune di l'altri suluzioni chì solu a versione di dati. Mentre u software hè attualmente in i so primi stadi, ci sò speranze di rende cumplettamente cumpatibile cù Git è MySQL in un futuru vicinu.
Tutti i cumandamenti chì avete familiarizatu cù l'usu di Git anu da travaglià ancu cù Dolt. File di versioni Git, tabelle di versione Dolt Utilizendu l'interfaccia di linea di cumanda, impurtate i fugliali CSV, impegnate i vostri cambiamenti, publicali in un remoto, è unisce i cambiamenti di u vostru cumpagnu di squadra.
Runzinu
- Ligeru è fonti apertu in parte.
- In paragunà à e scelte più oscure, hà una interfaccia SQL, facendu più accessibile per l'analista di dati.
Cons
- In paragunà à altre alternative di versione di basa di dati, Dolt hè sempre un pruduttu in sviluppu.
- Siccomu Dolt hè una basa di dati, duvete trasfiriri i vostri dati in questu per ottene i benefici.
Segretaria
Tutti sò benvenuti à aduprà a sessione di a cumunità. A piattaforma ùn furnisce micca un prezzu premium; invece, duvete cuntattà u fornitore.
6. Pachiderma
Pachyderm hè un sistema di cuntrollu di versione di scienza di dati gratuitu cù assai caratteristiche. Pachyderm Enterprise hè una putente piattaforma di scienza di dati pensata per a cullaburazione su larga scala in ambienti altamente sicuri.
Pachyderm hè una di e pochi piattaforme di scienza di dati di a lista. L'obiettivu di Pachyderm hè di furnisce una piattaforma chì gestisce u ciculu di dati cumpletu è rende simplice a duplicazione di e scuperte di mudelli di apprendimentu machine. Pachyderm hè cunnisciutu cum'è "u Docker di Dati" in questu cuntestu. Pachyderm impacchetta u vostru ambiente di esecuzione utilizendu cuntenituri Docker. Questu facenu simplice per duplicà i stessi risultati.
I scientifichi di dati è e squadre DevOps ponu implementà mudelli cun fiducia grazia à a cumminazione di dati versionati cù Docker. Grazie à un sistema d'almacenamiento efficiente, i petabytes di dati strutturati è micca strutturati ponu esse mantinuti mentre i costi di almacenamiento sò minimi.
In tutte e fasi di pipeline, a versione basata nantu à i schedari furnisce un registru di auditu cumpletu per tutti i dati è l'artefatti, cumprese l'output intermedi. Parechje di e capacità di l'uttellu sò guidate da questi pilastri, chì aiutanu e squadre à ottene u massimu.
Runzinu
- Basatu nantu à i cuntenituri, i vostri ambienti di dati seranu portatili è facili da trasferisce trà i fornituri di nuvola.
- Robustu, cù a capacità di scala da sistemi chjuchi à estremamente grandi.
Cons
- Siccomu ci sò tanti elementi in muvimentu, cum'è u servitore Kubernetes necessariu per trattà l'edizione libera di Pachyderm, ci hè una curva di apprendimentu più ripida.
- Pachyderm puderia esse sfida à incorpore in l'infrastruttura esistente di una cumpagnia per via di i so numerosi cumpunenti tecnologichi.
Segretaria
Pudete principià aduprà a piattaforma cù a sessione di a cumunità è per l'edizione di l'impresa, avete da cuntattà u venditore.
7. Neptune
I metadati di creazione di mudelli sò gestiti da a tenda di metadati ML, chì hè un aspettu impurtante di a pila MLOps. Per ogni flussu di travagliu MLOps, Neptune serve cum'è almacenamiento centralizatu di metadati.
Pudete seguità, visualizà è paragunate migliaia di mudelli di apprendimentu di macchina in un locu. Include funzioni cum'è u seguimentu di l'esperimentu, u registru di mudelli è u monitoraghju di mudelli, è ancu una interfaccia di cullaburazione. Include più di 25 arnesi è biblioteche sferenti integrati, cumprese parechji mudelli di furmazione è strumenti di sintonizazione iperparametri.
Pudete unisce à Neptune senza aduprà a vostra carta di creditu. In u so postu basterà un contu Gmail.
Runzinu
- L'integrazione cù qualsiasi pipeline, flussu, codebase, o framework hè simplice.
- E visualizazioni in tempu reale, l'API faciule è u supportu rapidu
- Cù Neptune, pudete fà una "backup" di tutti i dati di i vostri esperimenti in un locu, chì pudete ricuperà dopu.
Cons
- Ancu s'ellu ùn hè micca cumplettamente open-source, una versione individuale saria presumibbilmente abbastanza per l'usu privatu, ancu se tali accessu hè limitatu à un mese.
- Ci sò uni pochi di picculi difetti di disignu per esse truvati.
Segretaria
Pudete principià aduprà a piattaforma cù u Pianu Individuale chì hè liberu d'utilizà per tutti. A sezione di prezzi parte da $ 150 / mese.
cunchiusioni
In questu post, avemu discututu i migliori strumenti di versione di dati. Ogni strumentu, cum'è avemu vistu, hà u so propiu set di funziunalità. Certi eranu gratuiti, mentre chì altri necessitavanu pagamentu. Certi sò bè adattati à u mudellu di piccula attività, mentri àutri sò megliu adattati à u mudellu di grande cummerciale.
In cunseguenza, duvete selezziunà u software più bellu per i vostri scopi dopu à pisà i vantaghji è i svantaghji. Incuragemu à pruvà a versione di prova gratuita prima di cumprà un pruduttu premium.
Lascia un Audiolibro