Datoví vědci a odborníci na strojové učení se v typickém projektu datové vědy zabývají značným počtem dat různých typů. Pro dosažení optimálního výkonu bylo vyvinuto mnoho modelů s různými konfiguracemi a funkcemi a také s více iteracemi ladění parametrů.
V takovém scénáři musí být všechny úpravy dat a úpravy procesu budování modelu monitorovány a měřeny, aby bylo možné určit, co fungovalo a co ne. Je také důležité mít možnost vrátit se k předchozímu vydání a podívat se na předchozí výsledky.
Jednou z technologií, která nám umožňuje toto vše sledovat, je Data Version Control (DVC), která pomáhá při správě dat, základního modelu a spouštění reprodukovatelných výsledků.
V tomto příspěvku se podrobně podíváme na kontrolu datových verzí a na nejlepší nástroje, které lze použít. Pojďme začít.
Co je kontrola verzí dat?
Verze je vyžadována pro všechny produkční systémy. Jediný přístupový bod k nejaktuálnějším datům. Jakýkoli zdroj, který je často upravován, zejména několika uživateli současně, potřebuje vytvoření auditní stopy, aby bylo možné sledovat všechny změny.
Systém správy verzí je zodpovědný za to, že všichni v týmu jsou na stejné stránce. Zaručuje, že všichni v týmu pracují na nejnovější verzi souboru, a co je důležitější, že všichni současně spolupracují na stejném projektu.
Pokud máte správné vybavení, můžete toho dosáhnout s minimálním úsilím!
Budete-li používat spolehlivou strategii správy verzí dat, budete mít konzistentní datové sady a důkladný archiv všech svých výzkumů. Nástroje pro správu verzí dat jsou pro váš pracovní postup zásadní, pokud vám záleží na reprodukovatelnosti, sledovatelnosti a historii modelu ML.
Pomáhají vám získat verzi položky, jako je hash datové sady nebo modelu, kterou pak můžete použít k identifikaci a porovnání. Tato verze dat se často zadává do vašeho řešení správy metadat, aby bylo zaručeno, že vaše modelové školení bude verzováno a opakovatelné.
Nejlepší nástroje pro kontrolu verzí dat
Nyní je čas podívat se na nejlepší dostupná řešení správy verzí dat, která můžete použít ke sledování každé části kódu.
1. git-lfs
Projekt Git LFS je zdarma k použití. V rámci Git jsou velké soubory, jako jsou zvukové ukázky, videa, databáze a fotografie, nahrazeny textovými ukazateli a obsah souboru je uložen na vzdáleném serveru, jako je GitHub.com nebo GitHub Enterprise.
Umožňuje vám pomocí Gitu verzovat obrovské soubory – až do velikosti několika GB – hostovat více ve vašich úložištích Git s využitím externího úložiště a rychleji klonovat a získávat úložiště velkých souborů. Pokud jde o správu dat, je to docela lehké řešení. Chcete-li pracovat s Git, nepotřebujete žádné další příkazy, úložné systémy nebo sady nástrojů.
Omezuje množství informací, které stahujete. To znamená, že klonování a načítání velkých souborů z úložišť bude rychlejší. Ukazatele jsou vyrobeny z lehčího materiálu a směřují k LFS.
Výsledkem je, že když vložíte repo do hlavního úložiště, rychle se aktualizuje a zabírá méně místa.
Klady
- Snadno se integruje do vývojových pracovních postupů většiny podniků.
- Není potřeba zpracovávat další práva, protože používá stejná oprávnění jako úložiště Git.
Nevýhody
- Git LFS vyžaduje použití dedikovaných serverů pro ukládání vašich dat. V důsledku toho budou vaše týmy datové vědy uzamčeny a vaše inženýrská pracovní zátěž se zvýší.
- Velmi specializované a může vyžadovat použití řady různých nástrojů pro následné fáze pracovního postupu datové vědy.
CENY
Je zdarma k použití pro každého.
2. LakeFS
LakeFS je řešení pro správu verzí dat s otevřeným zdrojovým kódem, které ukládá data v S3 nebo GCS a má větvení a zavazování podobné Gitu, které se škáluje na petabajty.
Díky této strategii větvení je vaše datové jezero kompatibilní s ACID tím, že umožňuje změny v různých větvích, které lze konstruovat, sloučit a atomicky a okamžitě vrátit zpět.
LakeFS umožňuje týmům vytvářet aktivity datového jezera, které jsou opakovatelné, atomické a verzované. Je to nováček na scéně, ale je to síla, se kterou je třeba počítat.
K interakci s vaším používá přístup větvení a řízení verzí podobný Gitu datové jezero, škálovatelné až na petabajty dat. Na exabajtovém měřítku můžete zkontrolovat správu verzí.
Klady
- Operace podobné Gitu zahrnují větvení, potvrzení, sloučení a vrácení.
- Háčky před potvrzením/sloučením se používají pro kontrolu dat CI/CD.
- Poskytuje komplexní funkce, jako jsou transakce ACID, pro jednoduché cloudové úložiště, jako je S3 a GCS, to vše při zachování neutrálního formátu.
- Vrátit změny dat v reálném čase.
- Snadno se škáluje, což mu umožňuje pojmout velmi velká datová jezera. Správa verzí může být poskytnuta pro vývojová i produkční nastavení.
Nevýhody
- LakeFS je nový produkt, takže funkčnost a dokumentace se mohou měnit rychleji než u předchozích řešení.
- Vzhledem k tomu, že je zaměřen na verzování dat, budete muset využít řadu dalších nástrojů pro různé části pracovního postupu datové vědy.
CENY
Je zdarma k použití pro každého.
3. DVC
Data Version Control je bezplatné řešení pro správu verzí dat určené pro datovou vědu a aplikace strojového učení. Je to program, který vám umožní definovat vaše potrubí v libovolném jazyce.
Díky správě velkých souborů, souborů dat, modelů strojového učení, kódu atd. umožňuje tento nástroj modely strojového učení sdílet a reprodukovat. Program se řídí vzorem Git a poskytuje jednoduchý příkazový řádek, který lze nastavit v několika krocích.
Jak již název napovídá, DVC není pouze o verzování dat. Usnadňuje také správu kanálů a modelů strojového učení pro týmy.
A konečně, DVC pomůže zlepšit konzistenci modelů vašeho týmu a jejich opakovatelnost. Namísto použití komplikovaných přípon souborů a komentářů v kódu využijte výhod Větve Git vyzkoušet nové nápady. Chcete-li cestovat, použijte místo papíru a tužky automatizované sledování metrik.
Chcete-li přenášet konzistentní svazky strojové učení modely, data a kód do produkce, vzdálených počítačů nebo na pracovní plochu kolegy, můžete místo ad-hoc skriptů použít příkazy push/pull.
Klady
- Je lehký, s otevřeným zdrojovým kódem a funguje se všemi hlavními cloudovými platformami a druhy úložiště.
- Flexibilní, bez ohledu na formát a rámec a snadno se implementuje.
- Celý vývoj každého modelu ML lze vysledovat zpět k jeho zdrojovému kódu a datům.
Nevýhody
- Správa potrubí a kontrola verzí DVC jsou neoddělitelně propojeny. Pokud váš tým již využívá jiný produkt datového kanálu, dojde k redundanci.
- Protože je DVC lehký, váš tým možná bude muset navrhnout další funkce ručně, aby byl uživatelsky přívětivější.
CENY
Je zdarma k použití pro každého.
4. DeltaLake
DeltaLake je vrstva úložiště s otevřeným zdrojovým kódem, která zvyšuje spolehlivost datového jezera. Delta Lake podporuje ACID transakce a škálovatelnou správu metadat kromě streamování a dávkového zpracování dat.
Funguje s Apache Spark API a sedí na vašem stávajícím datovém jezeře. Delta Sharing je první otevřený protokol na světě pro bezpečné sdílení dat v podnikání, který usnadňuje výměnu dat s jinými podniky nezávislými na jejich počítačových systémech.
Delta Lakes jsou schopna snadno zpracovávat petabajty dat. Metadata se ukládají stejným způsobem jako data a uživatelé je mohou získat pomocí metody Describe Detail. Delta Lakes má jedinou architekturu, která dokáže číst data streamu i dávky.
Upserts se provádí jednoduše pomocí Delta. Tyto upserts nebo sloučení do tabulky Delta jsou srovnatelné s SQL Merges. Můžete jej použít k integraci dat z jiného datového rámce do tabulky a provádění aktualizací, vkládání a odstraňování.
Klady
- Ve vašem současném řešení ukládání dat může být k dispozici mnoho funkcí, jako jsou transakce ACID a robustní správa metadat.
- Delta Lake nyní může bez námahy spravovat tabulky s miliardami oddílů a souborů v měřítku petabajtů.
- Snižuje potřebu ručního řízení verzí dat a dalších problémů s daty, což umožňuje vývojářům soustředit se na vývoj produktů nad rámec jejich datových jezer.
Nevýhody
- Protože byl navržen pro práci se Sparkem a obrovskými daty, je Delta Lake obecně pro většinu úkolů přehnaný.
- Vyžaduje použití vyhrazeného formátu dat, což omezuje jeho flexibilitu a činí jej nekompatibilním s vašimi současnými formuláři.
CENY
Je zdarma k použití pro každého.
5. Hlupák
Dolt je databáze SQL, která dělá větvení, klonování, větvení, slučování, vkládání a stahování stejným způsobem jako úložiště git. Aby se zlepšil uživatelský dojem z databáze správy verzí, Dolt umožňuje synchronizaci dat a struktury.
Je to skvělý nástroj, na kterém můžete vy a vaši spolupracovníci spolupracovat. K Dolt se můžete připojit stejným způsobem jako k jakékoli jiné databázi MySQL a spouštět dotazy nebo provádět změny v datech pomocí příkazů SQL.
Pokud jde o verzování dat, Dolt je jediný svého druhu. Dolt je databáze, na rozdíl od některých jiných řešení, která pouze verzují data. Přestože je software v současné době v rané fázi, existuje naděje, že bude v blízké budoucnosti plně kompatibilní s Git a MySQL.
Všechny příkazy, které znáte s Git, budou fungovat také s Dolt. Soubory verzí Git, tabulky verzí Dolt Pomocí rozhraní příkazového řádku importujte soubory CSV, potvrďte své změny, publikujte je na vzdáleném místě a slučujte změny svého spoluhráče.
Klady
- Lehké a open source částečně.
- Ve srovnání s více obskurními možnostmi má rozhraní SQL, díky čemuž je přístupnější pro datové analytiky.
Nevýhody
- Ve srovnání s jinými alternativami verzování databází je Dolt stále vyvíjející se produkt.
- Protože Dolt je databáze, musíte do ní přenést svá data, abyste získali výhody.
CENY
Komunitní sezení může využít každý. Platforma neposkytuje prémiové ceny; místo toho musíte kontaktovat poskytovatele.
6. Tlustokožec
Pachyderm je bezplatný systém pro správu verzí datové vědy se spoustou funkcí. Pachyderm Enterprise je výkonná platforma pro datovou vědu navržená pro rozsáhlou spolupráci ve vysoce bezpečných prostředích.
Pachyderm je jednou z mála platforem datové vědy v seznamu. Cílem společnosti Pachyderm je poskytnout platformu, která spravuje kompletní datový cyklus a usnadňuje duplikování zjištění modelů strojového učení. Pachyderm je v tomto kontextu známý jako „Docker of Data“. Pachyderm zabalí vaše prováděcí prostředí pomocí kontejnerů Docker. To usnadňuje duplikování stejných výsledků.
Datoví vědci a týmy DevOps mohou nasazovat modely s jistotou díky kombinaci verzovaných dat s Dockerem. Díky efektivnímu úložnému systému lze udržovat petabajty strukturovaných i nestrukturovaných dat, přičemž náklady na úložiště jsou udržovány na minimu.
V průběhu fází potrubí poskytuje verzování založené na souborech důkladný auditní záznam pro všechna data a artefakty, včetně mezivýstupů. Mnoho schopností tohoto nástroje je založeno na těchto pilířích, které pomáhají týmům vytěžit z něj maximum.
Klady
- Na základě kontejnerů budou vaše datová prostředí přenosná a snadno přenosná mezi poskytovateli cloudu.
- Robustní, se schopností škálovat od malých po extrémně velké systémy.
Nevýhody
- Vzhledem k tomu, že existuje tolik pohyblivých prvků, jako je server Kubernetes, který je nezbytný ke zpracování bezplatné edice Pachyderm, je zde strmější křivka učení.
- Pachyderm může být náročné začlenit do stávající infrastruktury společnosti kvůli mnoha technologickým komponentům.
CENY
Platformu můžete začít používat s komunitní relací a v případě podnikové edice musíte kontaktovat dodavatele.
7. Neptun
Metadata pro vytváření modelů jsou spravována úložištěm metadat ML, což je důležitý aspekt zásobníku MLOps. Pro každý pracovní postup MLOps slouží Neptune jako centralizované úložiště metadat.
Na jednom místě můžete sledovat, vizualizovat a porovnávat tisíce modelů strojového učení. Zahrnuje funkce, jako je sledování experimentů, registr modelů a monitorování modelů, stejně jako rozhraní pro spolupráci. Zahrnuje více než 25 různých integrovaných nástrojů a knihoven, včetně několika nástrojů pro školení modelů a ladění hyperparametrů.
Můžete se připojit k Neptunovi bez použití vaší kreditní karty. Na jeho místo vám postačí účet Gmail.
Klady
- Integrace s jakýmkoli kanálem, tokem, kódovou základnou nebo frameworkem je jednoduchá.
- Vizualizace v reálném čase, snadné API a rychlá podpora
- S Neptunem můžete vytvořit „zálohu“ všech dat vašich experimentů na jednom místě, které můžete později obnovit.
Nevýhody
- I když to není zcela open source, pro soukromé použití by pravděpodobně stačila individuální verze, ačkoli takový přístup je omezen na jeden měsíc.
- Najde se pár drobných konstrukčních nedostatků.
CENY
Platformu můžete začít používat s individuálním plánem, který je zdarma pro každého. Cenová sekce začíná od 150 $ měsíčně.
Proč investovat do čističky vzduchu?
V tomto příspěvku jsme diskutovali o nejlepších nástrojích pro správu verzí dat. Každý nástroj, jak jsme viděli, má svou vlastní sadu funkcí. Některé byly zdarma, jiné vyžadovaly platbu. Některé jsou vhodné pro malý obchodní model, zatímco jiné jsou vhodnější pro velký obchodní model.
V důsledku toho musíte po zvážení výhod a nevýhod vybrat ten nejlepší software pro vaše účely. Před zakoupením prémiového produktu doporučujeme vyzkoušet bezplatnou zkušební verzi.
Napsat komentář