Taula de continguts[Amaga][Espectacle]
Científics de dades i els professionals de l'aprenentatge automàtic tracten un nombre important de dades de diversos tipus en un projecte típic de ciència de dades. S'han desenvolupat nombrosos models amb diverses configuracions i característiques, així com múltiples iteracions d'ajust de paràmetres per obtenir el rendiment òptim.
En aquest escenari, totes les modificacions de dades i els ajustos del procés de construcció de models s'han de controlar i mesurar per determinar què va funcionar i què no. També és vital poder tornar a una edició anterior i analitzar els resultats anteriors.
El control de versions de dades (DVC), que ajuda a gestionar les dades, el model subjacent i a executar resultats reproduïbles, és una d'aquestes tecnologies que ens permet controlar tot això.
En aquesta publicació, analitzarem de prop el control de versions de dades i les millors eines per utilitzar. Anem a començar.
Què és el control de versions de dades?
El control de versions és necessari per a tots els sistemes de producció. Un únic punt d'accés a les dades més actualitzades. Qualsevol recurs que sovint es modifiqui, especialment per diversos usuaris al mateix temps, necessita la creació d'una pista d'auditoria per fer un seguiment de tots els canvis.
El sistema de control de versions s'encarrega de garantir que tots els membres de l'equip estiguin a la mateixa pàgina. Garanteix que tots els membres de l'equip estan treballant en la versió més recent del fitxer i, el que és més important, que tothom col·labora en el mateix projecte alhora.
Si teniu l'equip adequat, podeu aconseguir-ho amb el mínim esforç!
Tindreu conjunts de dades coherents i un arxiu exhaustiu de tota la vostra investigació si utilitzeu una estratègia de gestió de versions de dades fiable. Les eines de control de versions de dades són fonamentals per al vostre flux de treball si us preocupa la reproductibilitat, la traçabilitat i l'historial del model de ML.
Us ajuden a adquirir una versió d'un element, com ara un hash d'un conjunt de dades o model, que podeu utilitzar per identificar i comparar. Aquesta versió de dades sovint s'introdueix a la vostra solució de gestió de metadades per garantir que el vostre model d'entrenament sigui versionat i repetible.
Les millors eines de control de versions de dades
Ara és el moment de mirar les millors solucions de control de versions de dades disponibles, que podeu utilitzar per fer un seguiment de cada part del vostre codi.
1. Git LFS
El projecte Git LFS és d'ús gratuït. Dins de Git, els fitxers grans com mostres d'àudio, vídeos, bases de dades i fotos es substitueixen per punters de text i el contingut del fitxer es desa en un servidor remot com GitHub.com o GitHub Enterprise.
Us permet utilitzar Git per versionar fitxers enormes (fins a diversos GB de mida), allotjar més als vostres dipòsits Git utilitzant emmagatzematge extern i clonar i recuperar dipòsits de fitxers grans més ràpidament. Quan es tracta de gestió de dades, aquesta és una solució bastant lleugera. Per treballar amb Git, no necessiteu cap ordre addicional, sistemes d'emmagatzematge o conjunt d'eines.
Limita la quantitat d'informació que descarregueu. Això implica que clonar i recuperar fitxers grans dels dipòsits serà més ràpid. Els punters estan fets d'un material més lleuger i apunten a l'LFS.
Com a resultat, quan introduïu el vostre dipòsit al dipòsit principal, s'actualitza ràpidament i ocupa menys espai.
pros
- S'integra fàcilment als fluxos de treball de desenvolupament de la majoria de les empreses.
- No cal gestionar drets addicionals perquè utilitza els mateixos permisos que el repositori Git.
Contres
- Git LFS requereix l'ús de servidors dedicats per emmagatzemar les vostres dades. Com a resultat, els vostres equips de ciència de dades estaran bloquejats i la vostra càrrega de treball d'enginyeria augmentarà.
- Molt especialitzat, i pot requerir l'ús d'una varietat d'eines diferents per a les fases posteriors del flux de treball de la ciència de dades.
Preus
És d'ús gratuït per a tothom.
2. LakeFS
LakeFS és una solució de versions de dades de codi obert que emmagatzema dades a S3 o GCS i té un paradigma de ramificació i compromís semblant a Git que s'escala a petabytes.
Aquesta estratègia de ramificació fa que el vostre llac de dades sigui compatible amb ACID, ja que permet que es produeixin canvis en diferents branques que es poden construir, fusionar i revertir de manera atòmica i instantània.
LakeFS permet als equips crear activitats de data llac que siguin repetibles, atòmiques i versionades. És un novell a l'escena, però és una força a tenir en compte.
Utilitza un enfocament de ramificació i control de versions semblant a Git per interactuar amb el vostre llac de dades, escalable fins a Petabytes de dades. A una escala d'exabytes, podeu comprovar el control de versions.
pros
- Les operacions semblants a Git inclouen ramificació, confirmació, fusió i reversió.
- Els ganxos de precommit/fusion s'utilitzen per a les comprovacions de CI/CD de dades.
- Proporciona funcions complexes com les transaccions ACID per a l'emmagatzematge al núvol senzill com S3 i GCS, tot mantenint el format neutre.
- Revertiu els canvis a les dades en temps real.
- S'escala fàcilment, cosa que li permet adaptar-se a llacs de dades molt grans. El control de versions es pot proporcionar tant per a la configuració de desenvolupament com de producció.
Contres
- LakeFS és un producte nou, per tant, la funcionalitat i la documentació poden canviar més ràpidament que amb les solucions anteriors.
- Com que es centra en el control de versions de dades, haureu d'utilitzar una varietat d'eines addicionals per a diverses parts del flux de treball de la ciència de dades.
Preus
És d'ús gratuït per a tothom.
3. DVC
Data Version Control és una solució gratuïta de versions de dades dissenyada per a aplicacions de ciència de dades i aprenentatge automàtic. És un programa que us permet definir el vostre pipeline en qualsevol idioma.
En gestionar fitxers grans, conjunts de dades, models d'aprenentatge automàtic, codi, etc., l'eina fa que els models d'aprenentatge automàtic siguin compartibles i reproduïbles. El programa segueix l'exemple de Git en proporcionar una línia d'ordres senzilla que es pot configurar en només uns quants passos.
Com el seu nom indica, DVC no es tracta només de versions de dades. També facilita la gestió de pipelines i models d'aprenentatge automàtic per als equips.
Finalment, DVC ajudarà a millorar la coherència dels models del vostre equip i la seva repetibilitat. En lloc d'utilitzar sufixos de fitxers complicats i comentaris al codi, aprofiteu-ho Branques de Git per provar noves idees. Per viatjar, utilitzeu un seguiment mètric automatitzat en lloc de paper i llapis.
Per transmetre paquets consistents de màquina d'aprenentatge models, dades i codi en producció, ordinadors llunyans o l'escriptori d'un col·lega, podeu utilitzar ordres push/pull en lloc d'scripts ad-hoc.
pros
- És lleuger, de codi obert i funciona amb totes les plataformes i tipus d'emmagatzematge al núvol principals.
- Flexible, agnòstic de format i marc, i senzill d'implementar.
- Tota l'evolució de cada model de ML es pot rastrejar fins al seu codi font i dades.
Contres
- La gestió de pipelines i el control de versions de DVC estan inextricablement vinculats. Hi haurà redundància si el vostre equip ja està utilitzant un altre producte de canalització de dades.
- Com que DVC és lleuger, és possible que el vostre equip hagi de dissenyar funcions addicionals manualment per fer-lo més fàcil d'utilitzar.
Preus
És d'ús gratuït per a tothom.
4. Delta Lake
DeltaLake és una capa d'emmagatzematge de codi obert que augmenta la fiabilitat del llac de dades. Delta Lake admet transaccions ACID i gestió escalable de metadades, a més de la transmissió i el processament de dades per lots.
Funciona amb les API d'Apache Spark i es troba al vostre llac de dades existent. Delta Sharing és el primer protocol obert del món per compartir dades de manera segura a les empreses, de manera que és senzill intercanviar dades amb altres empreses independentment dels seus sistemes informàtics.
Delta Lakes són capaços de gestionar petabytes de dades amb facilitat. Les metadades s'emmagatzemen de la mateixa manera que les dades, i els usuaris poden obtenir-les mitjançant el mètode Descriviu el detall. Delta Lakes té una arquitectura única que pot llegir tant dades de flux com de lots.
Els upsers són senzills de fer amb Delta. Aquestes pujades o fusions a la taula Delta són comparables a les combinacions SQL. Podeu utilitzar-lo per integrar dades d'un altre marc de dades a la vostra taula i realitzar actualitzacions, insercions i supressions.
pros
- Moltes capacitats, com ara transaccions ACID i una gestió robusta de metadades, poden estar disponibles a la vostra solució d'emmagatzematge de dades actual.
- Delta Lake ara pot gestionar sense esforç taules amb milers de milions de particions i fitxers a una escala de petabytes.
- Redueix la necessitat de control manual de versions de dades i altres problemes de dades, permetent als desenvolupadors concentrar-se a desenvolupar productes a més dels seus llacs de dades.
Contres
- Com que va ser dissenyat per funcionar amb Spark i dades enormes, Delta Lake generalment està exagerat per a la majoria de les tasques.
- Necessita l'ús d'un format de dades dedicat, que limita la seva flexibilitat i el fa incompatible amb els vostres formularis actuals.
Preus
És d'ús gratuït per a tothom.
5. Dolt
Dolt és una base de dades SQL que fa bifurcació, clonació, ramificació, fusió, empènyer i extreure de la mateixa manera que ho fa un repositori git. Per millorar l'experiència de l'usuari d'una base de dades de control de versions, Dolt permet que les dades i l'estructura es sincronitzin.
És una eina excel·lent per col·laborar amb vosaltres i els vostres companys de feina. Podeu connectar-vos a Dolt de la mateixa manera que ho faríeu amb qualsevol altra base de dades MySQL i executar consultes o fer canvis a les dades mitjançant ordres SQL.
Quan es tracta de versions de dades, Dolt és únic. Dolt és una base de dades, a diferència d'algunes de les altres solucions que només versionen dades. Tot i que el programari es troba actualment en les seves primeres etapes, hi ha esperança de fer-lo totalment compatible amb Git i MySQL en un futur proper.
Totes les ordres que esteu familiaritzat amb Git també funcionaran amb Dolt. Fitxers de versions de Git, taules de versions de Dolt Mitjançant la interfície de la línia d'ordres, importeu fitxers CSV, envieu els vostres canvis, publiqueu-los a un control remot i fusioneu els canvis del vostre company d'equip.
pros
- Lleuger i de codi obert en part.
- En comparació amb les opcions més obscures, té una interfície SQL, la qual cosa la fa més accessible per als analistes de dades.
Contres
- En comparació amb altres alternatives de versions de bases de dades, Dolt encara és un producte en desenvolupament.
- Com que Dolt és una base de dades, heu de transferir-hi les vostres dades per obtenir els avantatges.
Preus
Tothom és benvingut a utilitzar la sessió de la comunitat. La plataforma no ofereix preus premium; en comptes d'això, heu de contactar amb el proveïdor.
6. Paquiderm
Pachyderm és un sistema de control de versions gratuït de ciència de dades amb moltes funcions. Pachyderm Enterprise és una potent plataforma de ciència de dades dissenyada per a la col·laboració a gran escala en entorns altament segurs.
Pachyderm és una de les poques plataformes de ciència de dades de la llista. L'objectiu de Pachyderm és proporcionar una plataforma que gestioni el cicle complet de dades i faci que sigui senzill duplicar les troballes dels models d'aprenentatge automàtic. Pachyderm es coneix com "el Docker de dades" en aquest context. Pachyderm empaqueta el vostre entorn d'execució mitjançant contenidors Docker. Això fa que sigui senzill duplicar els mateixos resultats.
Els científics de dades i els equips de DevOps poden implementar models amb confiança gràcies a la combinació de dades versionades amb Docker. Gràcies a un sistema d'emmagatzematge eficient, es poden mantenir petabytes de dades estructurades i no estructurades mentre els costos d'emmagatzematge es mantenen al mínim.
Al llarg de les fases del pipeline, el control de versions basat en fitxers proporciona un registre d'auditoria exhaustiu de totes les dades i artefactes, incloses les sortides intermèdies. Moltes de les capacitats de l'eina estan impulsades per aquests pilars, que ajuden els equips a treure'n el màxim profit.
pros
- A partir dels contenidors, els vostres entorns de dades seran portàtils i fàcils de transferir entre proveïdors de núvol.
- Robusta, amb la capacitat d'escalar de sistemes petits a extremadament grans.
Contres
- Com que hi ha tants elements en moviment, com ara el servidor Kubernetes necessaris per gestionar l'edició gratuïta de Pachyderm, hi ha una corba d'aprenentatge més pronunciada.
- Pachyderm pot ser difícil d'incorporar a la infraestructura existent d'una empresa a causa dels seus molts components tecnològics.
Preus
Podeu començar a utilitzar la plataforma amb la sessió de comunitat i per a l'edició empresarial, heu de contactar amb el venedor.
7. Neptú
Les metadades de creació de models les gestiona el magatzem de metadades de ML, que és un aspecte important de la pila MLOps. Per a cada flux de treball MLOps, Neptune serveix com a emmagatzematge de metadades centralitzat.
Podeu fer un seguiment, visualitzar i comparar milers de models d'aprenentatge automàtic en un sol lloc. Inclou funcions com ara el seguiment d'experiments, el registre de models i la supervisió de models, així com una interfície col·laborativa. Inclou més de 25 eines i biblioteques diferents integrades, incloses diverses eines de formació de models i d'ajustament d'hiperparàmetres.
Pots unir-te a Neptune sense utilitzar la teva targeta de crèdit. Un compte de Gmail serà suficient en el seu lloc.
pros
- La integració amb qualsevol canalització, flux, base de codi o marc és senzilla.
- Les visualitzacions en temps real, l'API fàcil i el suport ràpid
- Amb Neptune, podeu fer una "còpia de seguretat" de totes les dades dels vostres experiments en una ubicació, que podeu recuperar més tard.
Contres
- Tot i que no és totalment de codi obert, una versió individual seria suposadament suficient per a ús privat, tot i que aquest accés està limitat a un mes.
- Hi ha alguns petits defectes de disseny que es poden trobar.
Preus
Podeu començar a utilitzar la plataforma amb el pla individual que és gratuït per a tothom. La secció de preus comença a partir de 150 dòlars al mes.
Conclusió
En aquesta publicació, vam parlar de les millors eines de versions de dades. Cada eina, com hem vist, té el seu propi conjunt de característiques. Alguns eren gratuïts, mentre que altres requerien pagament. Alguns s'adapten bé al model de petit negoci, mentre que d'altres s'adapten més al model de gran negoci.
Com a conseqüència, heu de seleccionar el millor programari per als vostres propòsits després de sospesar els avantatges i els inconvenients. Us recomanem que proveu la versió de prova gratuïta abans de comprar un producte premium.
Deixa un comentari