Oamenii de știință de date iar profesioniștii în învățarea automată se ocupă cu un număr semnificativ de date de diferite tipuri într-un proiect tipic de știință a datelor. Au fost dezvoltate numeroase modele cu diverse configurații și caracteristici, precum și multiple iterații de reglare a parametrilor pentru a obține performanța optimă.
Într-un astfel de scenariu, toate modificările datelor și ajustările procesului de construire a modelului trebuie monitorizate și măsurate pentru a determina ce a funcționat și ce nu. De asemenea, este vital să te poți întoarce la o ediție anterioară și să te uiți la rezultatele anterioare.
Data Version Control (DVC), care ajută la gestionarea datelor, a modelului de bază și la rularea rezultatelor reproductibile, este una dintre aceste tehnologii care ne permite să monitorizăm toate acestea.
În această postare, vom analiza îndeaproape Controlul versiunii datelor și cele mai bune instrumente de utilizat. Sa incepem.
Ce este Controlul versiunii datelor?
Versiunea este necesară pentru toate sistemele de producție. Un singur punct de acces la cele mai actualizate date. Orice resursă care este adesea modificată, în special de mai mulți utilizatori în același timp, necesită crearea unei piste de audit pentru a ține evidența tuturor modificărilor.
Sistemul de control al versiunilor este responsabil pentru a se asigura că toată lumea din echipă este pe aceeași pagină. Acesta garantează că toată lumea din echipă lucrează la cea mai recentă versiune a fișierului și, mai important, că toată lumea colaborează la același proiect la un moment dat.
Dacă aveți echipamentul adecvat, puteți realiza acest lucru cu un efort minim!
Veți avea seturi de date consistente și o arhivă amănunțită a tuturor cercetărilor dvs. dacă utilizați o strategie de încredere de gestionare a versiunilor de date. Instrumentele de versiune a datelor sunt esențiale pentru fluxul dvs. de lucru dacă vă pasă de reproductibilitate, trasabilitate și istoricul modelului ML.
Ele vă ajută să obțineți o versiune a unui articol, cum ar fi un hash al unui set de date sau model, pe care apoi îl puteți utiliza pentru a identifica și compara. Această versiune de date este adesea introdusă în soluția dvs. de gestionare a metadatelor pentru a garanta că antrenamentul dvs. model este versiunea și repetabilă.
Cele mai bune instrumente de control al versiunilor de date
Acum este timpul să vă uitați la cele mai bune soluții de control al versiunii de date disponibile, pe care le puteți utiliza pentru a urmări fiecare parte a codului dvs.
1. git-lfs
Proiectul Git LFS este gratuit. În cadrul Git, fișierele mari, cum ar fi mostre audio, videoclipuri, baze de date și fotografii sunt înlocuite cu indicatori de text, iar conținutul fișierului este salvat pe un server la distanță precum GitHub.com sau GitHub Enterprise.
Vă permite să utilizați Git pentru a versiunea fișiere enorme - de până la câțiva GB în dimensiune - să găzduiți mai multe în depozitele dvs. Git utilizând stocarea externă și să clonați și să preluați mai rapid depozitele de fișiere mari. Când vine vorba de gestionarea datelor, aceasta este o soluție destul de ușoară. Pentru a lucra cu Git, nu aveți nevoie de comenzi suplimentare, sisteme de stocare sau truse de instrumente.
Limitează cantitatea de informații pe care o descărcați. Aceasta înseamnă că clonarea și preluarea fișierelor mari din depozite vor fi mai rapide. Indicatoarele sunt realizate dintr-un material mai ușor și indică LFS.
Ca rezultat, atunci când împingeți depozitul în depozitul principal, acesta se actualizează rapid și ocupă mai puțin spațiu.
Pro-uri
- Se integrează cu ușurință în fluxurile de lucru de dezvoltare ale majorității companiilor.
- Nu este nevoie să gestionați drepturi suplimentare, deoarece folosește aceleași permisiuni ca și depozitul Git.
Contra
- Git LFS necesită utilizarea de servere dedicate pentru a vă stoca datele. Drept urmare, echipele dvs. de știință a datelor vor fi blocate, iar volumul dvs. de muncă de inginerie va crește.
- Foarte specializat și poate necesita utilizarea unei varietăți de instrumente diferite pentru fazele ulterioare ale fluxului de lucru al științei datelor.
Tarif
Este gratuit de utilizat pentru toată lumea.
2. LakeFS
LakeFS este o soluție de versiuni de date open-source care stochează date în S3 sau GCS și are o paradigmă de ramificare și comitere asemănătoare Git care se extinde la petabytes.
Această strategie de ramificare face ca lacul dvs. de date ACID să fie compatibil, permițând să aibă loc schimbări în ramuri distincte care pot fi construite, îmbinate și anulate atomic și instantaneu.
LakeFS permite echipelor să creeze activități de lac de date care sunt repetabile, atomice și versiuni. Este un începător în scenă, dar este o forță de luat în seamă.
Utilizează o abordare de ramificare și control al versiunilor asemănătoare Git pentru a interacționa cu dvs lac de date, scalabil până la Petabytes de date. Pe o scară exabyte, puteți verifica controlul versiunii.
Pro-uri
- Operațiunile asemănătoare Git includ ramificare, comitere, îmbinare și revenire.
- Cârligele pre-commit/merge sunt utilizate pentru verificări CI/CD de date.
- Oferă funcții complexe, cum ar fi tranzacțiile ACID, pentru stocarea simplă în cloud, cum ar fi S3 și GCS, toate rămânând neutru în format.
- Reveniți modificările aduse datelor în timp real.
- Se scalează ușor, permițându-i să găzduiască lacuri de date foarte uriașe. Controlul versiunii poate fi furnizat atât pentru setările de dezvoltare, cât și pentru cele de producție.
Contra
- LakeFS este un produs nou, astfel încât funcționalitatea și documentația se pot schimba mai rapid decât în cazul soluțiilor anterioare.
- Deoarece este axat pe versiunea datelor, va trebui să utilizați o varietate de instrumente suplimentare pentru diferite părți ale fluxului de lucru al științei datelor.
Tarif
Este gratuit de utilizat pentru toată lumea.
3. DVC
Data Version Control este o soluție gratuită de versiune a datelor concepută pentru știința datelor și aplicațiile de învățare automată. Este un program care vă permite să vă definiți pipeline în orice limbă.
Prin gestionarea fișierelor mari, seturi de date, modele de învățare automată, cod și așa mai departe, instrumentul face ca modelele de învățare automată să fie partajate și reproductibile. Programul urmează exemplul lui Git, oferind o linie de comandă simplă care poate fi configurată în doar câțiva pași.
După cum sugerează și numele, DVC nu este doar despre versiunea datelor. De asemenea, facilitează gestionarea conductelor și a modelelor de învățare automată pentru echipe.
În cele din urmă, DVC va ajuta la îmbunătățirea coerenței modelelor echipei tale și a repetabilității acestora. În loc să utilizați sufixe de fișiere complicate și comentarii în cod, profitați de acestea Ramuri Git pentru a încerca idei noi. Pentru a călători, utilizați urmărirea metrică automată în loc de hârtie și creion.
Pentru a transmite pachete consistente de masina de învățare modele, date și cod în producție, computere îndepărtate sau desktop-ul unui coleg, puteți utiliza comenzi push/pull în loc de scripturi ad-hoc.
Pro-uri
- Este ușor, open-source și funcționează cu toate platformele cloud și tipurile de stocare majore.
- Flexibil, agnostic de format și cadru și simplu de implementat.
- Întreaga evoluție a fiecărui model ML poate fi urmărită până la codul sursă și datele sale.
Contra
- Managementul conductelor și controlul versiunilor DVC sunt indisolubil legate. Va exista redundanță dacă echipa dvs. utilizează deja un alt produs pipeline de date.
- Deoarece DVC este ușor, este posibil ca echipa dvs. să fie nevoie să proiecteze manual funcții suplimentare pentru a-l face mai ușor de utilizat.
Tarif
Este gratuit de utilizat pentru toată lumea.
4. DeltaLake
DeltaLake este un strat de stocare open-source care sporește fiabilitatea lacului de date. Delta Lake acceptă tranzacțiile ACID și gestionarea scalabilă a metadatelor, pe lângă procesarea în flux și în loturi de date.
Funcționează cu API-urile Apache Spark și se află pe lacul dvs. de date existent. Delta Sharing este primul protocol deschis din lume pentru partajarea sigură a datelor în afaceri, facilitând schimbul de date cu alte companii independente de sistemele lor informatice.
Delta Lakes sunt capabile să gestioneze petaocteți de date cu ușurință. Metadatele sunt stocate în același mod ca și datele, iar utilizatorii le pot obține folosind metoda Descrie detalii. Delta Lakes are o arhitectură unică care poate citi atât date de flux, cât și date de lot.
Upserturile sunt ușor de făcut folosind Delta. Aceste upserts sau îmbinări în tabelul Delta sunt comparabile cu SQL Merges. Îl puteți folosi pentru a integra date dintr-un alt cadru de date în tabelul dvs. și pentru a efectua actualizări, inserări și ștergeri.
Pro-uri
- Multe capabilități, cum ar fi tranzacțiile ACID și gestionarea robustă a metadatelor, pot fi disponibile în soluția dvs. actuală de stocare a datelor.
- Delta Lake poate gestiona acum fără efort tabele cu miliarde de partiții și fișiere la o scară de petabyte.
- Reduce nevoia de control manual al versiunii datelor și alte probleme legate de date, permițând dezvoltatorilor să se concentreze pe dezvoltarea de produse pe deasupra lacurilor lor de date.
Contra
- Deoarece a fost conceput pentru a funcționa cu Spark și date uriașe, Delta Lake este, în general, suprasolicitat pentru majoritatea sarcinilor.
- Necesită utilizarea unui format de date dedicat, care îi limitează flexibilitatea și îl face incompatibil cu formularele dvs. actuale.
Tarif
Este gratuit de utilizat pentru toată lumea.
5. Dolt
Dolt este o bază de date SQL care face forking, clonare, ramificare, îmbinare, împingere și trage în același mod ca un depozit git. Pentru a îmbunătăți experiența utilizatorului unei baze de date de control al versiunilor, Dolt permite ca datele și structura să se schimbe în sincronizare.
Este un instrument excelent pentru care tu și colegii tăi să colaborezi. Vă puteți conecta la Dolt în același mod în care v-ați face la orice altă bază de date MySQL și puteți executa interogări sau modifica datele folosind comenzi SQL.
Când vine vorba de versiunea datelor, Dolt este unic. Dolt este o bază de date, spre deosebire de unele dintre celelalte soluții care doar versiunea datelor. În timp ce software-ul se află în prezent în fazele sale incipiente, există speranțe de a-l face pe deplin compatibil cu Git și MySQL în viitorul apropiat.
Toate comenzile cu care ești familiarizat cu Git vor funcționa și cu Dolt. Fișiere versiuni Git, tabele versiuni Dolt Folosind interfața de linie de comandă, importați fișiere CSV, confirmați modificările, publicați-le pe o telecomandă și îmbinați modificările coechipierului.
Pro-uri
- Ușoare și open-source în parte.
- În comparație cu opțiunile mai obscure, are o interfață SQL, ceea ce o face mai accesibilă pentru analiștii de date.
Contra
- În comparație cu alte alternative de versiune a bazei de date, Dolt este încă un produs în curs de dezvoltare.
- Deoarece Dolt este o bază de date, trebuie să vă transferați datele în ea pentru a obține beneficii.
Tarif
Toată lumea este binevenită să folosească sesiunea comunității. Platforma nu oferă prețuri premium; în schimb, trebuie să contactați furnizorul.
6. Pachiderm
Pachyderm este un sistem gratuit de control al versiunilor pentru știința datelor, cu o mulțime de caracteristici. Pachyderm Enterprise este o platformă puternică de știință a datelor concepută pentru colaborare la scară largă în medii extrem de sigure.
Pachyderm este una dintre puținele platforme de știință a datelor din listă. Scopul Pachyderm este de a oferi o platformă care gestionează întregul ciclu de date și simplifică duplicarea rezultatelor modelelor de învățare automată. Pachyderm este cunoscut sub numele de „Dockerul datelor” în acest context. Pachyderm vă împachetează mediul de execuție folosind containere Docker. Acest lucru face simplă duplicarea acelorași rezultate.
Oamenii de știință de date și echipele DevOps pot implementa modele cu încredere datorită combinației de date versiuni cu Docker. Datorită unui sistem eficient de stocare, petabytes de date structurate și nestructurate pot fi menținute în timp ce costurile de stocare sunt menținute la minimum.
De-a lungul fazelor de pipeline, versiunea bazată pe fișiere oferă o înregistrare de audit amănunțită pentru toate datele și artefactele, inclusiv ieșirile intermediare. Multe dintre capacitățile instrumentului sunt conduse de acești piloni, care ajută echipele să profite la maximum de el.
Pro-uri
- Pe baza containerelor, mediile dumneavoastră de date vor fi portabile și ușor de transferat între furnizorii de cloud.
- Robuste, cu capacitatea de a scala de la sisteme mici la sisteme extrem de mari.
Contra
- Deoarece există atât de multe elemente în mișcare, cum ar fi serverul Kubernetes necesare pentru a gestiona ediția gratuită a lui Pachyderm, există o curbă de învățare mai abruptă.
- Pachyderm ar putea fi o provocare de încorporat în infrastructura existentă a unei companii din cauza numeroaselor sale componente tehnologice.
Tarif
Puteți începe să utilizați platforma cu sesiunea comunitară, iar pentru ediția enterprise, trebuie să contactați furnizorul.
7. Neptun
Metadatele de construire a modelelor sunt gestionate de magazinul de metadate ML, care este un aspect important al stivei MLOps. Pentru fiecare flux de lucru MLOps, Neptune servește ca stocare centralizată a metadatelor.
Puteți urmări, vizualiza și compara mii de modele de învățare automată, toate într-un singur loc. Include funcții precum urmărirea experimentelor, registrul modelului și monitorizarea modelului, precum și o interfață de colaborare. Include peste 25 de instrumente și biblioteci diferite integrate, inclusiv mai multe instrumente de antrenament de model și de reglare a hiperparametrilor.
Vă puteți înscrie la Neptune fără a vă folosi cardul de credit. Un cont Gmail va fi suficient în locul lui.
Pro-uri
- Integrarea cu orice conductă, flux, bază de cod sau cadru este simplă.
- Vizualizările în timp real, API-ul ușor și suportul rapid
- Cu Neptune, puteți face o „backup” a tuturor datelor experimentelor dvs. într-o singură locație, pe care o puteți recupera ulterior.
Contra
- Deși nu este în întregime open-source, o versiune individuală ar fi probabil suficientă pentru uz privat, deși un astfel de acces este limitat la o lună.
- Există câteva mici defecte de design de găsit.
Tarif
Puteți începe să utilizați platforma cu planul individual, care este gratuit pentru toată lumea. Secțiunea de prețuri începe de la 150 USD/lună.
Concluzie
În această postare, am discutat despre cele mai bune instrumente de versiune a datelor. Fiecare instrument, după cum am văzut, are propriul său set de caracteristici. Unele au fost gratuite, în timp ce altele au cerut plată. Unele se potrivesc bine modelului de afaceri mici, în timp ce altele sunt mai potrivite modelului de afaceri mari.
În consecință, trebuie să selectați cel mai bun software pentru scopurile dvs. după ce ați cântărit avantajele și dezavantajele. Vă recomandăm să testați versiunea de probă gratuită înainte de a cumpăra un produs premium.
Lasă un comentariu