Vedci údajov a odborníci na strojové učenie sa v typickom projekte vedy o údajoch zaoberajú značným počtom údajov rôznych typov. Na dosiahnutie optimálneho výkonu bolo vyvinutých množstvo modelov s rôznymi konfiguráciami a funkciami, ako aj s viacerými iteráciami ladenia parametrov.
V takomto scenári musia byť všetky úpravy údajov a úpravy procesu budovania modelu monitorované a merané, aby bolo možné určiť, čo fungovalo a čo nie. Je tiež dôležité, aby ste sa mohli vrátiť k predchádzajúcemu vydaniu a pozrieť sa na predchádzajúce výsledky.
Jednou z technológií, ktorá nám umožňuje toto všetko monitorovať, je kontrola verzií údajov (DVC), ktorá pomáha pri správe údajov, základného modelu a spúšťaní reprodukovateľných výsledkov.
V tomto príspevku sa podrobne pozrieme na kontrolu verzií údajov a na najlepšie nástroje, ktoré môžete použiť. Poďme začať.
Čo je kontrola verzií údajov?
Verzia sa vyžaduje pre všetky produkčné systémy. Jediný prístupový bod k najaktuálnejším údajom. Každý zdroj, ktorý je často upravovaný, najmä viacerými používateľmi súčasne, potrebuje vytvorenie audit trailu, aby bolo možné sledovať všetky zmeny.
Systém správy verzií je zodpovedný za to, že všetci v tíme sú na rovnakej stránke. Zaručuje, že každý v tíme pracuje na najnovšej verzii súboru, a čo je dôležitejšie, že všetci súčasne spolupracujú na rovnakom projekte.
Ak máte správne vybavenie, môžete to dosiahnuť s minimálnym úsilím!
Ak použijete spoľahlivú stratégiu správy verzií údajov, budete mať konzistentné súbory údajov a dôkladný archív všetkých svojich výskumov. Nástroje na vytváranie verzií údajov sú rozhodujúce pre váš pracovný tok, ak vám záleží na reprodukovateľnosti, sledovateľnosti a histórii modelu ML.
Pomáhajú vám získať verziu položky, ako je hash súboru údajov alebo modelu, ktorý potom môžete použiť na identifikáciu a porovnanie. Táto verzia údajov sa často zadáva do vášho riešenia správy metadát, aby sa zaručilo, že váš model školenia bude verzovaný a opakovateľný.
Najlepšie nástroje na kontrolu verzií údajov
Teraz je čas pozrieť sa na najlepšie dostupné riešenia správy verzií údajov, ktoré môžete použiť na sledovanie každej časti kódu.
1. git-lfs
Použitie projektu Git LFS je bezplatné. V rámci Git sú veľké súbory, ako sú zvukové ukážky, videá, databázy a fotografie, nahradené textovými ukazovateľmi a obsah súboru sa ukladá na vzdialený server, ako je GitHub.com alebo GitHub Enterprise.
Umožňuje vám používať Git na verzie obrovských súborov – až do veľkosti niekoľkých GB – hostiť viac vo vašich úložiskách Git s využitím externého úložiska a rýchlejšie klonovať a získavať veľké úložiská súborov. Pokiaľ ide o správu údajov, je to celkom ľahké riešenie. Na prácu s Git nepotrebujete žiadne ďalšie príkazy, úložné systémy ani sady nástrojov.
Obmedzuje množstvo informácií, ktoré sťahujete. To znamená, že klonovanie a získavanie veľkých súborov z úložísk bude rýchlejšie. Ukazovatele sú vyrobené z ľahšieho materiálu a smerujú k LFS.
Výsledkom je, že keď vložíte svoje úložisko do hlavného úložiska, rýchlo sa aktualizuje a zaberá menej miesta.
Pros
- Ľahko sa integruje do vývojových pracovných postupov väčšiny podnikov.
- Nie je potrebné spracovávať ďalšie práva, pretože používa rovnaké povolenia ako úložisko Git.
Zápory
- Git LFS si vyžaduje použitie dedikovaných serverov na ukladanie vašich údajov. Výsledkom bude, že vaše tímy pre vedu o údajoch budú uzamknuté a vaše inžinierske pracovné zaťaženie sa zvýši.
- Veľmi špecializované a môže si vyžadovať použitie rôznych rôznych nástrojov pre nasledujúce fázy pracovného toku vedy o údajoch.
CENNÍK
Je zadarmo na použitie pre každého.
2. LakeFS
LakeFS je riešenie na vytváranie verzií údajov s otvoreným zdrojom, ktoré ukladá údaje v S3 alebo GCS a má vetvenie a zaväzovanie podobné Gitu, ktoré sa škáluje na petabajty.
Vďaka tejto stratégii vetvenia je vaše dátové jazero kompatibilné s ACID tým, že umožňuje zmeny v odlišných vetvách, ktoré možno skonštruovať, zlúčiť a vrátiť späť atomicky a okamžite.
LakeFS umožňuje tímom vytvárať aktivity dátového jazera, ktoré sú opakovateľné, atómové a verzované. Je to nováčik na scéne, ale je to sila, s ktorou treba počítať.
Na interakciu s vašou aplikáciou používa prístup vetvenia a riadenia verzií podobný Gitu dátové jazero, škálovateľné až na petabajty údajov. Na exabajtovom meradle môžete skontrolovať kontrolu verzií.
Pros
- Operácie podobné Gitu zahŕňajú vetvenie, potvrdenie, zlúčenie a vrátenie.
- Pre-commit/merge hooks sa používajú na kontrolu dát CI/CD.
- Poskytuje komplexné funkcie, ako sú transakcie ACID pre jednoduché cloudové úložisko, ako sú S3 a GCS, pričom všetky zostávajú formátovo neutrálne.
- Vráťte zmeny údajov v reálnom čase.
- Ľahko sa škáluje, čo mu umožňuje prispôsobiť sa veľmi veľkým dátovým jazerám. Kontrola verzií môže byť poskytnutá pre vývojové aj výrobné nastavenia.
Zápory
- LakeFS je nový produkt, takže funkčnosť a dokumentácia sa môžu meniť rýchlejšie ako u predchádzajúcich riešení.
- Keďže sa zameriava na vytváranie verzií údajov, budete musieť využiť množstvo ďalších nástrojov pre rôzne časti pracovného toku vedy o údajoch.
CENNÍK
Je zadarmo na použitie pre každého.
3. rozšírenie DVC
Data Version Control je bezplatné riešenie na vytváranie verzií údajov určené pre aplikácie vedy o údajoch a strojového učenia. Je to program, ktorý vám umožňuje definovať vaše potrubie v akomkoľvek jazyku.
Vďaka správe veľkých súborov, množín údajov, modelov strojového učenia, kódu atď. umožňuje nástroj modely strojového učenia zdieľať a reprodukovať. Program sa riadi vzorom Git a poskytuje jednoduchý príkazový riadok, ktorý možno nastaviť len v niekoľkých krokoch.
Ako už názov napovedá, DVC nie je len o verzii dát. Uľahčuje tiež správu kanálov a modelov strojového učenia pre tímy.
Nakoniec, DVC pomôže zlepšiť konzistentnosť modelov vášho tímu a ich opakovateľnosť. Namiesto používania zložitých prípon súborov a komentárov v kóde, využite Git vetvy vyskúšať nové nápady. Ak chcete cestovať, použite namiesto papiera a ceruzky automatizované sledovanie metrík.
Na prenos konzistentných zväzkov strojové učenie modely, dáta a kód do produkcie, vzdialených počítačov alebo kolegovho desktopu, môžete namiesto ad-hoc skriptov použiť príkazy push/pull.
Pros
- Je ľahký, s otvoreným zdrojom a funguje so všetkými hlavnými cloudovými platformami a druhmi úložísk.
- Flexibilné, agnostické voči formátu a rámcu a jednoduché na implementáciu.
- Celý vývoj každého modelu ML možno vysledovať späť k jeho zdrojovému kódu a údajom.
Zápory
- Manažment potrubia a kontrola verzií DVC sú neoddeliteľne spojené. Ak váš tím už používa iný produkt na prenos údajov, dôjde k nadbytočnosti.
- Keďže DVC je ľahké, váš tím možno bude musieť navrhnúť ďalšie funkcie manuálne, aby bol užívateľsky prívetivejší.
CENNÍK
Je zadarmo na použitie pre každého.
4. DeltaLake
DeltaLake je vrstva s otvoreným zdrojom, ktorá zvyšuje spoľahlivosť dátového jazera. Delta Lake podporuje ACID transakcie a škálovateľnú správu metadát okrem streamovania a dávkového spracovania dát.
Funguje s Apache Spark API a sedí na vašom existujúcom dátovom jazere. Delta Sharing je prvý otvorený protokol na svete pre bezpečné zdieľanie údajov v podnikaní, ktorý uľahčuje výmenu údajov s inými podnikmi nezávisle od ich počítačových systémov.
Delta Lakes dokážu ľahko spracovať petabajty údajov. Metadáta sa ukladajú rovnakým spôsobom ako údaje a používatelia ich môžu získať pomocou metódy Opísať podrobnosti. Delta Lakes má jedinú architektúru, ktorá dokáže čítať prúdové aj dávkové údaje.
Upserts sa robí jednoducho pomocou Delta. Tieto upserts alebo mergers do Delta tabuľky sú porovnateľné s SQL Merges. Môžete ho použiť na integráciu údajov z iného dátového rámca do tabuľky a na vykonávanie aktualizácií, vkladania a odstraňovania.
Pros
- Vo vašom súčasnom riešení na ukladanie údajov môže byť k dispozícii mnoho funkcií, ako sú transakcie ACID a robustná správa metadát.
- Delta Lake teraz dokáže bez námahy spravovať tabuľky s miliardami oddielov a súborov na úrovni petabajtov.
- Znižuje potrebu manuálneho riadenia verzií údajov a iných problémov s údajmi, čo umožňuje vývojárom sústrediť sa na vývoj produktov nad rámec svojich dátových jazier.
Zápory
- Keďže bol navrhnutý na prácu so Sparkom a obrovskými údajmi, Delta Lake je vo všeobecnosti pre väčšinu úloh prehnaný.
- Vyžaduje si to použitie špeciálneho formátu údajov, ktorý obmedzuje jeho flexibilitu a robí ho nekompatibilným s vašimi súčasnými formulármi.
CENNÍK
Je zadarmo na použitie pre každého.
5. Dolt
Dolt je SQL databáza, ktorá robí forking, klonovanie, vetvenie, zlúčenie, pushovanie a ťahanie rovnakým spôsobom ako git repozitár. Na zlepšenie používateľskej skúsenosti s databázou riadenia verzií umožňuje Dolt synchronizáciu údajov a štruktúry.
Je to vynikajúci nástroj pre vás a vašich spolupracovníkov, na ktorom môžete spolupracovať. K Dolt sa môžete pripojiť rovnakým spôsobom ako k akejkoľvek inej databáze MySQL a spúšťať dotazy alebo vykonávať zmeny v údajoch pomocou príkazov SQL.
Pokiaľ ide o vytváranie verzií údajov, Dolt je jediný svojho druhu. Dolt je databáza, na rozdiel od niektorých iných riešení, ktoré iba verzie údajov. Zatiaľ čo softvér je v súčasnosti v počiatočnom štádiu, existuje nádej, že v blízkej budúcnosti bude plne kompatibilný s Git a MySQL.
Všetky príkazy, ktoré poznáte s Git, budú fungovať aj s Dolt. Súbory verzií Git, tabuľky verzií Dolt Pomocou rozhrania príkazového riadka importujte súbory CSV, potvrďte svoje zmeny, publikujte ich na vzdialené a zlúčte zmeny spoluhráča.
Pros
- Ľahký a open source čiastočne.
- V porovnaní s nejasnejšími možnosťami má rozhranie SQL, vďaka čomu je prístupnejší pre analytikov údajov.
Zápory
- V porovnaní s inými alternatívami verzií databáz je Dolt stále vyvíjajúcim sa produktom.
- Keďže Dolt je databáza, musíte do nej preniesť svoje údaje, aby ste získali výhody.
CENNÍK
Každý je vítaný na použitie komunitnej relácie. Platforma neposkytuje prémiové ceny; namiesto toho musíte kontaktovať poskytovateľa.
6. Pachyderm
Pachyderm je bezplatný systém na správu verzií pre vedu údajov s množstvom funkcií. Pachyderm Enterprise je výkonná platforma pre vedu o údajoch navrhnutá pre rozsiahlu spoluprácu vo vysoko bezpečných prostrediach.
Pachyderm je jednou z mála platforiem pre vedu údajov v zozname. Cieľom Pachydermu je poskytnúť platformu, ktorá spravuje celý dátový cyklus a zjednodušuje duplikovanie zistení modelov strojového učenia. Pachyderm je v tomto kontexte známy ako „docker údajov“. Pachyderm zabalí vaše spúšťacie prostredie pomocou kontajnerov Docker. To uľahčuje duplikovanie rovnakých výsledkov.
Dátoví vedci a tímy DevOps môžu s istotou nasadzovať modely vďaka kombinácii údajov s verziou s Dockerom. Vďaka efektívnemu úložnému systému možno udržiavať petabajty štruktúrovaných a neštruktúrovaných údajov, pričom náklady na ukladanie sú obmedzené na minimum.
V priebehu fáz potrubia poskytuje vytváranie verzií na základe súborov dôkladný záznam auditu pre všetky údaje a artefakty, vrátane medzivýstupov. Mnohé z možností tohto nástroja sú poháňané týmito piliermi, ktoré pomáhajú tímom vyťažiť z neho maximum.
Pros
- Na základe kontajnerov budú vaše dátové prostredia prenosné a ľahko prenosné medzi poskytovateľmi cloudu.
- Robustné, s možnosťou škálovania od malých po extrémne veľké systémy.
Zápory
- Keďže existuje toľko pohyblivých prvkov, ako je napríklad server Kubernetes, ktorý je potrebný na spracovanie bezplatnej edície Pachyderm, je tu strmšia krivka učenia.
- Pachyderm môže byť náročné začleniť do existujúcej infraštruktúry spoločnosti kvôli mnohým technologickým komponentom.
CENNÍK
Platformu môžete začať používať v rámci komunitnej relácie a v prípade podnikovej edície musíte kontaktovať predajcu.
7. Neptún
Metadáta vytvárania modelu sú spravované úložiskom metadát ML, čo je dôležitý aspekt zásobníka MLOps. Pre každý pracovný postup MLOps slúži Neptún ako centralizované úložisko metadát.
Na jednom mieste môžete sledovať, vizualizovať a porovnávať tisíce modelov strojového učenia. Zahŕňa funkcie, ako je sledovanie experimentov, register modelov a monitorovanie modelov, ako aj rozhranie pre spoluprácu. Obsahuje viac ako 25 rôznych integrovaných nástrojov a knižníc vrátane niekoľkých nástrojov na školenie modelov a ladenie hyperparametrov.
Môžete sa pripojiť k Neptúnu bez použitia kreditnej karty. Namiesto neho vám postačí účet Gmail.
Pros
- Integrácia s akýmkoľvek potrubím, tokom, kódovou základňou alebo rámcom je jednoduchá.
- Vizualizácie v reálnom čase, jednoduché API a rýchla podpora
- S Neptúnom si môžete vytvoriť „zálohu“ všetkých údajov svojich experimentov na jednom mieste, ktoré môžete neskôr obnoviť.
Zápory
- Aj keď to nie je úplne open source, na súkromné použitie by pravdepodobne stačila individuálna verzia, hoci takýto prístup je obmedzený na jeden mesiac.
- Drobných dizajnových nedostatkov by sa dalo nájsť.
CENNÍK
Platformu môžete začať používať s individuálnym plánom, ktorý môže využívať každý zadarmo. Cenová sekcia začína od 150 $ mesačne.
záver
V tomto príspevku sme diskutovali o najlepších nástrojoch na vytváranie verzií údajov. Každý nástroj, ako sme videli, má svoj vlastný súbor funkcií. Niektoré boli zadarmo, iné vyžadovali platbu. Niektoré sú vhodné pre model malého podnikania, zatiaľ čo iné sú vhodnejšie pre model veľkého podnikania.
V dôsledku toho musíte po zvážení výhod a nevýhod vybrať ten najlepší softvér pre vaše účely. Odporúčame vám, aby ste si pred zakúpením prémiového produktu vyskúšali bezplatnú skúšobnú verziu.
Nechaj odpoveď