Adattudósok a gépi tanulással foglalkozó szakemberek pedig jelentős számú különböző típusú adattal foglalkoznak egy tipikus adattudományi projektben. Számos modellt fejlesztettek ki különféle konfigurációkkal és funkciókkal, valamint a paraméterhangolás többszörös iterációjával az optimális teljesítmény elérése érdekében.
Ebben a forgatókönyvben minden adatmódosítást és modellépítési folyamat kiigazítását figyelemmel kell kísérni és mérni kell annak meghatározásához, hogy mi működött és mi nem. Az is létfontosságú, hogy vissza tudjunk lépni egy korábbi kiadáshoz, és megvizsgáljuk a korábbi eredményeket.
A Data Version Control (DVC), amely segít az adatok kezelésében, az alapul szolgáló modellben és a reprodukálható eredmények futtatásában, az egyik ilyen technológia, amely lehetővé teszi számunkra, hogy mindezt figyelemmel kísérjük.
Ebben a bejegyzésben részletesen megvizsgáljuk az adatverzió-felügyeletet és a legjobban használható eszközöket. Kezdjük.
Mi az az adatverzió-felügyelet?
Verziószámítás minden termelési rendszerhez szükséges. Egyetlen hozzáférési pont a legfrissebb adatokhoz. Minden olyan erőforráshoz, amelyet gyakran módosítanak, különösen egyszerre több felhasználó által, létre kell hozni egy ellenőrzési nyomvonalat az összes változás nyomon követéséhez.
A verziókezelő rendszer felelős azért, hogy a csapatban mindenki ugyanazon az oldalon legyen. Garantálja, hogy a csapat minden tagja a fájl legfrissebb verzióján dolgozik, és ami még fontosabb, hogy egyszerre mindenki ugyanazon a projekten dolgozzon.
Ha rendelkezik megfelelő felszereléssel, akkor ezt minimális erőfeszítéssel megvalósíthatja!
Ha megbízható adatverziókezelési stratégiát alkalmaz, akkor egységes adatkészletekkel és minden kutatásának alapos archívumával fog rendelkezni. Az adatverziós eszközök kritikusak a munkafolyamat szempontjából, ha törődik a reprodukálhatósággal, a nyomon követhetőséggel és az ML-modell előzményeivel.
Segítenek megszerezni egy tétel verzióját, például egy adatkészlet vagy modell hash-jét, amelyet aztán azonosíthat és összehasonlíthat. Ezt az adatverziót gyakran beírják a metaadat-kezelési megoldásba, hogy garantálják a modelltanítás verziószámát és megismételhetőségét.
A legjobb adatverzió-vezérlő eszközök
Most itt az ideje, hogy áttekintse az elérhető legjobb adatverzió-vezérlő megoldásokat, amelyek segítségével nyomon követheti a kód minden részét.
1. git-lfs
A Git LFS projekt ingyenesen használható. A Git-en belül a nagy fájlok, például hangminták, videók, adatbázisok és fényképek szöveges mutatókkal vannak helyettesítve, és a fájl tartalma egy távoli szerverre, például a GitHub.com-ra vagy a GitHub Enterprise-ra kerül mentésre.
Lehetővé teszi a Git használatával hatalmas fájlok verziózását – akár több GB méretű –, hogy több helyet tárolhasson a Git-tárolókban külső tárolót használva, valamint gyorsabban klónozhasson és visszakereshessen nagy fájltárolókat. Ha adatkezelésről van szó, ez egy elég könnyű megoldás. A Git használatához nincs szükség extra parancsokra, tárolórendszerekre vagy eszközkészletekre.
Korlátozza a letöltött információk mennyiségét. Ez azt jelenti, hogy a nagy fájlok klónozása és lekérése a tárolókból gyorsabb lesz. A mutatók könnyebb anyagból készültek, és az LFS-re mutatnak.
Ennek eredményeként, ha a tárhelyet a fő tárolóba tolja, az gyorsan frissül, és kevesebb helyet foglal.
Érvek
- Könnyen integrálható a legtöbb vállalkozás fejlesztési munkafolyamataiba.
- Nincs szükség további jogok kezelésére, mert ugyanazokat az engedélyeket használja, mint a Git-tárház.
Hátrányok
- A Git LFS dedikált szerverek használatát teszi szükségessé az adatok tárolására. Ennek eredményeként az adattudományi csapatok bezáródnak, és nő a mérnöki munkaterhelése.
- Nagyon speciális, és az adattudományi munkafolyamat további fázisaiban különféle eszközök használatát teheti szükségessé.
Árazás
Használata mindenki számára ingyenes.
2. LakeFS
A LakeFS egy nyílt forráskódú adatverziós megoldás, amely S3-ban vagy GCS-ben tárolja az adatokat, és egy Git-szerű elágazási és véglegesítési paradigmával rendelkezik, amely petabájtokra skálázódik.
Ez az elágazási stratégia ACID-kompatibilissá teszi az adattót azáltal, hogy lehetővé teszi a változtatások megtörténtét a különálló ágakban, amelyek atomszerűen és azonnal visszaállíthatók, összevonhatók és visszaállíthatók.
A LakeFS lehetővé teszi a csapatok számára, hogy megismételhető, atomi és verziószámú adattó-tevékenységeket hozzanak létre. Újonc a jelenetben, de számolni kell vele.
Git-szerű elágazási és verziókezelési megközelítést használ az Önnel való interakcióhoz adattó, Petabájt adatig méretezhető. Exabájtos léptékben ellenőrizheti a verziókezelést.
Érvek
- A Git-szerű műveletek közé tartozik az elágazás, a véglegesítés, az összevonás és a visszaállítás.
- A véglegesítés előtti/egyesítési horgok az adatok CI/CD ellenőrzésére szolgálnak.
- Komplex funkciókat biztosít, például ACID-tranzakciókat az egyszerű felhőalapú tároláshoz, mint például az S3 és a GCS, miközben formátumsemleges marad.
- Az adatok módosításainak valós idejű visszaállítása.
- Könnyen skálázható, lehetővé téve nagyon nagy adattavak befogadását. A verzióvezérlés a fejlesztési és a gyártási beállításokhoz egyaránt biztosítható.
Hátrányok
- A LakeFS egy új termék, így a funkcionalitás és a dokumentáció gyorsabban változhat, mint a korábbi megoldásoknál.
- Mivel az adatok verziószámítására összpontosít, számos további eszközt kell használnia az adattudományi munkafolyamat különböző részeihez.
Árazás
Használata mindenki számára ingyenes.
3. DVC bővítmény
A Data Version Control egy ingyenes adatverzió-megoldás, amelyet adattudományi és gépi tanulási alkalmazásokhoz terveztek. Ez egy olyan program, amely lehetővé teszi, hogy bármilyen nyelven meghatározza a folyamatot.
A nagy fájlok, adatkészletek, gépi tanulási modellek, kódok és így tovább kezelésével az eszköz megoszthatóvá és reprodukálhatóvá teszi a gépi tanulási modelleket. A program követi a Git példáját, és egyszerű parancssort biztosít, amelyet csak néhány lépésben lehet beállítani.
Ahogy a neve is sugallja, a DVC nem csak az adatverziókról szól. Ezenkívül megkönnyíti a csővezetékek és a gépi tanulási modellek kezelését a csapatok számára.
Végül a DVC segít javítani csapata modelljeinek konzisztenciáját és megismételhetőségét. Ahelyett, hogy bonyolult fájlutótagokat és megjegyzéseket használna a kódban, használja ki a Git ágak új ötleteket kipróbálni. Utazáshoz használjon automatikus metrikus követést papír és ceruza helyett.
A következetes kötegek továbbításához gépi tanulás modelleket, adatokat és kódot éles környezetben, távoli számítógépeken vagy egy kolléga asztalán, ad-hoc szkriptek helyett push/pull parancsokat is használhat.
Érvek
- Könnyű, nyílt forráskódú, és minden fő felhőplatformmal és tárolótípussal működik.
- Rugalmas, nem ismeri a formátumot és a keretet, és egyszerűen megvalósítható.
- Minden ML modell teljes fejlődése visszavezethető a forráskódra és az adatokra.
Hátrányok
- A csővezeték-kezelés és a DVC-verziókezelés elválaszthatatlanul összefügg. Redundancia lép fel, ha csapata már más adatfolyam-terméket használ.
- Mivel a DVC könnyű, előfordulhat, hogy csapatának további funkciókat kell manuálisan megterveznie, hogy felhasználóbarátabb legyen.
Árazás
Használata mindenki számára ingyenes.
4. DeltaLake
A DeltaLake egy nyílt forráskódú tárolóréteg, amely növeli az adattó megbízhatóságát. A Delta Lake támogatja az ACID-tranzakciókat és a méretezhető metaadatkezelést a streaming és a kötegelt adatfeldolgozás mellett.
Működik az Apache Spark API-kkal, és a meglévő adattárakon ül. A Delta Sharing a világ első nyílt protokollja a biztonságos adatmegosztáshoz az üzleti életben, amely egyszerűvé teszi az adatok cseréjét más vállalkozásokkal a számítógépes rendszerüktől függetlenül.
A Delta Lakes könnyedén képes petabájtnyi adat kezelésére. A metaadatok tárolása ugyanúgy történik, mint az adatok, és a felhasználók a Describe Detail metódussal érhetik el azokat. A Delta Lakes egyetlen architektúrával rendelkezik, amely képes adatfolyam- és kötegadatok olvasására is.
Az upsert egyszerűen elvégezhető a Delta használatával. Ezek a feloldások vagy egyesítések a Delta táblába az SQL-összevonásokhoz hasonlíthatók. Használhatja egy másik adatkeret adatainak táblázatba való integrálására, valamint frissítések, beszúrások és törlések végrehajtására.
Érvek
- Számos lehetőség, például ACID-tranzakciók és robusztus metaadatkezelés, elérhető a jelenlegi adattárolási megoldásban.
- A Delta Lake most már könnyedén kezelheti a több milliárd partíciót és fájlt tartalmazó táblákat petabájt skálán.
- Csökkenti a kézi adatverzió-vezérlés és egyéb adatokkal kapcsolatos problémák szükségességét, lehetővé téve a fejlesztők számára, hogy az adatforrásaik mellett a termékek fejlesztésére összpontosítsanak.
Hátrányok
- Mivel Sparkkal és hatalmas adatokkal való együttműködésre tervezték, a Delta Lake általában túlterhelt a legtöbb feladathoz.
- Ehhez dedikált adatformátum használatára van szükség, ami korlátozza annak rugalmasságát, és összeférhetetlenné teszi a jelenlegi űrlapokkal.
Árazás
Használata mindenki számára ingyenes.
5. Tökfej
A Dolt egy SQL-adatbázis, amely ugyanúgy végez elágazást, klónozást, elágazást, egyesítést, tolást és lehúzást, mint egy git adattár. A verzióvezérlő adatbázis felhasználói élményének javítása érdekében a Dolt lehetővé teszi az adatok és a struktúra szinkronban történő megváltoztatását.
Kiváló eszköz az Ön és munkatársai számára az együttműködéshez. Ugyanúgy csatlakozhat a Dolthoz, mint bármely más MySQL-adatbázishoz, és lekérdezéseket futtathat vagy módosíthatja az adatokat SQL-parancsok segítségével.
Ami az adatverziót illeti, a Dolt egyedülálló. A Dolt egy adatbázis, szemben néhány más megoldással, amely csak verzióadatokat tartalmaz. Noha a szoftver jelenleg a korai szakaszában van, remélik, hogy a közeljövőben teljesen kompatibilissé válik a Git-tel és a MySQL-lel.
A Gitben használt összes parancs a Dolttal is működik. Git versions fájlok, Dolt versions táblák A parancssori felület segítségével importálhat CSV fájlokat, véglegesítheti a változtatásokat, közzéteszi őket egy távoli eszközön, és egyesítse csapattársa módosításait.
Érvek
- Könnyű és nyílt forráskódú részben.
- A homályosabb választásokhoz képest SQL interfésszel rendelkezik, így könnyebben hozzáférhető az adatelemzők számára.
Hátrányok
- Más adatbázisverziós alternatívákkal összehasonlítva a Dolt még mindig fejlesztés alatt álló termék.
- Mivel a Dolt egy adatbázis, az előnyök kihasználásához át kell helyeznie az adatait.
Árazás
Mindenkit szeretettel várunk a közösségi foglalkozásra. A platform nem biztosít prémium árat; ehelyett kapcsolatba kell lépnie a szolgáltatóval.
6. Vastagbőrű
A Pachyderm egy ingyenes adattudományi verzióvezérlő rendszer, számos funkcióval. A Pachyderm Enterprise egy hatékony adattudományi platform, amelyet nagyszabású együttműködésre terveztek rendkívül biztonságos környezetekben.
A Pachyderm a listán szereplő kevés adattudományi platformok egyike. A Pachyderm célja, hogy olyan platformot biztosítson, amely a teljes adatciklust kezeli, és egyszerűvé teszi a gépi tanulási modellek eredményeinek megkettőzését. A Pachyderm ebben az összefüggésben „az adatok dokkolójaként” ismert. A Pachyderm Docker-tárolók segítségével csomagolja a végrehajtási környezetet. Ez megkönnyíti ugyanazon eredmények megkettőzését.
Az adattudósok és a DevOps-csapatok magabiztosan telepíthetik a modelleket a Dockerrel ellátott verziószámú adatok kombinációjának köszönhetően. A hatékony tárolási rendszernek köszönhetően petabájtnyi strukturált és strukturálatlan adat tárolható, miközben a tárolási költségek minimálisak.
A folyamat során a fájlalapú verziókezelés alapos ellenőrzési rekordot biztosít az összes adathoz és műtermékhez, beleértve a közbenső kimeneteket is. Az eszköz sok funkcióját ezek a pillérek vezérlik, amelyek segítenek a csapatoknak a legtöbbet kihozni belőle.
Érvek
- A konténerek alapján az adatkörnyezetek hordozhatóak lesznek, és könnyen átvihetők a felhőszolgáltatók között.
- Robusztus, kicsitől a rendkívül nagy rendszerekig skálázható.
Hátrányok
- Mivel nagyon sok mozgó elem van, mint például a Kubernetes szerver, amely a Pachyderm ingyenes kiadásának kezeléséhez szükséges, a tanulási görbe meredekebb.
- A Pachyderm-et nehéz lehet beépíteni a vállalat meglévő infrastruktúrájába a számos technológiai összetevője miatt.
Árazás
A platform használatát a közösségi munkamenettel kezdheti meg, a vállalati kiadáshoz pedig kapcsolatba kell lépnie a szállítóval.
7. Neptun
A modellépítési metaadatokat az ML metaadattároló kezeli, amely az MLOps verem fontos eleme. Minden MLOps munkafolyamathoz a Neptune központi metaadattárolóként szolgál.
Nyomon követheti, megjelenítheti és összehasonlíthatja több ezer gépi tanulási modellt egy helyen. Olyan funkciókat tartalmaz, mint a kísérletkövetés, a modellnyilvántartás és a modellfigyelés, valamint egy együttműködési felület. Több mint 25 különböző integrált eszközt és könyvtárat tartalmaz, beleértve számos modellképző és hiperparaméter-hangoló eszközt.
A Neptune-hoz hitelkártya használata nélkül is csatlakozhat. Egy Gmail fiók elég lesz a helyére.
Érvek
- Az integráció bármilyen folyamattal, folyamattal, kódbázissal vagy keretrendszerrel egyszerű.
- A valós idejű vizualizációk, az egyszerű API és a gyors támogatás
- A Neptune segítségével egy helyen készíthet „biztonsági másolatot” az összes kísérleti adatról, amelyet később visszaállíthat.
Hátrányok
- Bár nem teljesen nyílt forráskódú, magáncélra feltehetően elegendő lenne egy egyedi verzió is, bár az ilyen hozzáférés egy hónapra korlátozódik.
- Néhány apró tervezési hibát lehet találni.
Árazás
A platform használatát az Egyéni csomaggal kezdheti el, amelyet mindenki ingyenesen használhat. Az árazási szakasz 150 USD/hónaptól indul.
Következtetés
Ebben a bejegyzésben a legjobb adatverziós eszközöket tárgyaltuk. Amint láttuk, minden eszköznek megvannak a maga funkciói. Egyesek ingyenesek voltak, míg mások fizetést igényeltek. Egyesek jól illeszkednek a kis üzleti modellhez, míg mások jobban megfelelnek a nagy üzleti modellnek.
Következésképpen az előnyök és hátrányok mérlegelése után a legjobb szoftvert kell kiválasztania. Javasoljuk, hogy egy prémium termék vásárlása előtt próbálja ki az ingyenes próbaverziót.
Hagy egy Válaszol