Duomenų mokslininkai ir mašininio mokymosi profesionalai, vykdydami tipišką duomenų mokslo projektą, susidoroja su daugybe įvairių tipų duomenų. Buvo sukurta daug modelių su įvairiomis konfigūracijomis ir funkcijomis, taip pat daugybe parametrų derinimo iteracijų, kad būtų pasiektas optimalus našumas.
Esant tokiam scenarijui, visi duomenų pakeitimai ir modelio kūrimo proceso koregavimai turi būti stebimi ir matuojami, kad būtų galima nustatyti, kas veikė, o kas ne. Taip pat labai svarbu turėti galimybę grįžti į ankstesnį leidimą ir pažvelgti į ankstesnius rezultatus.
Duomenų versijos valdymas (DVC), padedantis valdyti duomenis, pagrindinį modelį ir paleisti atkuriamus rezultatus, yra viena iš tokių technologijų, leidžiančių visa tai stebėti.
Šiame įraše atidžiai išnagrinėsime duomenų versijos valdymą ir geriausius naudoti įrankius. Pradėkime.
Kas yra duomenų versijos valdymas?
Visoms gamybos sistemoms reikalinga versija. Vienas prieigos prie naujausių duomenų taškas. Bet kuriam ištekliui, kurį dažnai keičia, ypač kelių vartotojų vienu metu, reikia sukurti audito seką, kad būtų galima sekti visus pakeitimus.
Versijų valdymo sistema yra atsakinga už tai, kad visi komandos nariai būtų tame pačiame puslapyje. Tai garantuoja, kad visi komandos nariai dirba su naujausia failo versija ir, dar svarbiau, kad visi vienu metu bendradarbiauja su tuo pačiu projektu.
Jei turite tinkamą įrangą, tai galite padaryti su minimaliomis pastangomis!
Jei naudosite patikimą duomenų versijų valdymo strategiją, turėsite nuoseklius duomenų rinkinius ir išsamų visų savo tyrimų archyvą. Duomenų versijų kūrimo įrankiai yra labai svarbūs jūsų darbo eigai, jei jums rūpi atkuriamumas, atsekamumas ir ML modelio istorija.
Jie padeda gauti elemento versiją, pvz., duomenų rinkinio ar modelio maišą, kurią galite naudoti identifikuodami ir palygindami. Ši duomenų versija dažnai įvedama į jūsų metaduomenų valdymo sprendimą, siekiant užtikrinti, kad jūsų modelio mokymas būtų su versijomis ir kartojamas.
Geriausi duomenų versijų valdymo įrankiai
Dabar atėjo laikas pažvelgti į geriausius galimus duomenų versijos valdymo sprendimus, kuriuos galite naudoti norėdami sekti kiekvieną kodo dalį.
1. git-lfs
„Git LFS“ projektu galima naudotis nemokamai. „Git“ dideli failai, pvz., garso pavyzdžiai, vaizdo įrašai, duomenų bazės ir nuotraukos, pakeičiami teksto rodyklėmis, o failo turinys išsaugomas nuotoliniame serveryje, pvz., GitHub.com arba GitHub Enterprise.
Tai leidžia naudoti „Git“ didžiulių failų (iki kelių GB dydžio) versijoms priglobti daugiau jūsų Git saugyklose, naudojant išorinę saugyklą, ir greičiau klonuoti bei gauti dideles failų saugyklas. Kalbant apie duomenų valdymą, tai gana lengvas sprendimas. Norint dirbti su „Git“, nereikia jokių papildomų komandų, saugojimo sistemų ar įrankių rinkinių.
Tai riboja atsisiunčiamos informacijos kiekį. Tai reiškia, kad klonavimas ir didelių failų nuskaitymas iš saugyklų bus greitesnis. Rodyklės pagamintos iš lengvesnės medžiagos ir nukreiptos į LFS.
Dėl to, kai perkeliate savo repo į pagrindinę saugyklą, jis greitai atnaujinamas ir užima mažiau vietos.
Argumentai "už"
- Lengvai integruojamas į daugumos įmonių kūrimo darbo eigą.
- Nereikia tvarkyti papildomų teisių, nes ji naudoja tuos pačius leidimus kaip ir „Git“ saugykla.
Trūkumai
- „Git LFS“ jūsų duomenims saugoti reikia naudoti specialius serverius. Dėl to jūsų duomenų mokslo komandos bus uždarytos, o jūsų inžinerijos darbo krūvis padidės.
- Labai specializuotas, todėl tolesniuose duomenų mokslo darbo eigos etapuose gali tekti naudoti įvairius įrankius.
Kainos
Ja naudotis visi gali nemokamai.
2. LakeFS
LakeFS yra atvirojo kodo duomenų versijų kūrimo sprendimas, kuris saugo duomenis S3 arba GCS ir turi į Git panašų šakojimąsi ir įpareigojimo paradigmą, kuri keičiasi iki petabaitų.
Dėl šios šakojimo strategijos jūsų duomenų ežeras suderinamas su ACID, nes leidžia keisti atskiras šakas, kurias galima sukurti, sujungti ir atšaukti atomiškai ir akimirksniu.
„LakeFS“ leidžia komandoms kurti duomenų ežero veiklas, kurios yra pakartojamos, atominės ir versijos. Tai naujokas šioje scenoje, tačiau tai jėga, su kuria reikia atsižvelgti.
Jis naudoja į Git panašų šakojimą ir versijų valdymo metodą, kad galėtų sąveikauti su jūsų duomenų ežeras, keičiamas iki petabaitų duomenų. Eksabaitų skalėje galite patikrinti versijos valdymą.
Argumentai "už"
- „Git“ tipo operacijos apima šakojimą, įsipareigojimą, sujungimą ir grąžinimą.
- Duomenų CI / CD tikrinimui naudojami išankstinio patvirtinimo / sujungimo kabliukai.
- Teikia sudėtingas funkcijas, pvz., ACID operacijas, skirtas paprastam saugojimui debesyje, pvz., S3 ir GCS, išlaikant neutralų formatą.
- Grąžinti duomenų pakeitimus realiuoju laiku.
- Lengvai keičiasi, todėl gali tilpti labai didžiuliai duomenų ežerai. Versijų valdymas gali būti tiek kūrimo, tiek gamybos nustatymams.
Trūkumai
- LakeFS yra naujas produktas, todėl funkcionalumas ir dokumentacija gali keistis greičiau nei naudojant ankstesnius sprendimus.
- Kadangi pagrindinis dėmesys skiriamas duomenų versijų kūrimui, turėsite naudoti daugybę papildomų įrankių įvairioms duomenų mokslo darbo eigos dalims.
Kainos
Ja naudotis visi gali nemokamai.
3. CVD
Duomenų versijos valdymas yra nemokamas duomenų versijų kūrimo sprendimas, skirtas duomenų mokslo ir mašininio mokymosi programoms. Tai programa, leidžianti apibrėžti dujotiekį bet kuria kalba.
Tvarkydamas didelius failus, duomenų rinkinius, mašininio mokymosi modelius, kodą ir pan., įrankis leidžia mašininio mokymosi modelius dalytis ir atkurti. Programa seka Git pavyzdžiu pateikdama paprastą komandų eilutę, kurią galima nustatyti tik keliais žingsniais.
Kaip rodo jo pavadinimas, DVC yra ne tik duomenų versijų kūrimas. Tai taip pat palengvina vamzdynų ir mašininio mokymosi modelių valdymą komandoms.
Galiausiai, DVC padės pagerinti jūsų komandos modelių nuoseklumą ir jų pakartojamumą. Užuot naudoję sudėtingas failų priesagas ir komentarus kode, pasinaudokite Git šakos išbandyti naujas idėjas. Norėdami keliauti, vietoj popieriaus ir pieštuko naudokite automatinį metrikos stebėjimą.
Norėdami perduoti nuoseklius paketus mašininis mokymasis modelius, duomenis ir kodą į gamybinius, tolimus kompiuterius ar kolegos darbalaukį, vietoj specialiųjų scenarijų galite naudoti stumimo/traukimo komandas.
Argumentai "už"
- Tai lengvas, atvirojo kodo ir veikia su visomis pagrindinėmis debesų platformomis ir saugyklomis.
- Lankstus, formato ir sistemos agnostikas ir paprastas įgyvendinti.
- Visą kiekvieno ML modelio raidą galima atsekti iki jo šaltinio kodo ir duomenų.
Trūkumai
- Dujotiekio valdymas ir DVC versijos valdymas yra neatsiejamai susiję. Atsiras perteklius, jei jūsų komanda jau naudoja kitą duomenų srauto produktą.
- Kadangi DVC yra lengvas, jūsų komandai gali tekti rankiniu būdu sukurti papildomų funkcijų, kad ji būtų patogesnė vartotojui.
Kainos
Ja naudotis visi gali nemokamai.
4. DeltaLake
„DeltaLake“ yra atvirojo kodo saugojimo sluoksnis, kuris padidina duomenų ežero patikimumą. „Delta Lake“ palaiko ACID operacijas ir keičiamo dydžio metaduomenų valdymą, be srautinio perdavimo ir paketinio duomenų apdorojimo.
Jis veikia su „Apache Spark“ API ir yra jūsų esamame duomenų ežere. Delta Sharing yra pirmasis pasaulyje atviras protokolas, skirtas saugiai dalytis duomenimis versle, todėl paprasta keistis duomenimis su kitomis įmonėmis, nepriklausomai nuo jų kompiuterinių sistemų.
„Delta Lakes“ gali lengvai apdoroti duomenų petabaitus. Metaduomenys saugomi taip pat, kaip ir duomenys, o vartotojai gali juos gauti naudodami metodą Describe Detail. Delta Lakes turi vieną architektūrą, kuri gali nuskaityti tiek srauto, tiek paketinius duomenis.
Upsert paprasta atlikti naudojant Delta. Šie sujungimai arba sujungimai į Delta lentelę yra panašūs į SQL sujungimus. Jį galite naudoti norėdami integruoti duomenis iš kito duomenų rėmelio į lentelę ir atnaujinti, įterpti bei ištrinti.
Argumentai "už"
- Daugybė galimybių, pvz., ACID operacijos ir patikimas metaduomenų valdymas, gali būti prieinamos jūsų dabartiniame duomenų saugojimo sprendime.
- Delta Lake dabar gali be vargo valdyti lenteles su milijardais skaidinių ir failų petabaitų mastu.
- Sumažėja rankinio duomenų versijų valdymo ir kitų duomenų susirūpinimo poreikis, todėl kūrėjai gali sutelkti dėmesį į produktų kūrimą, papildydami savo duomenų rinkinius.
Trūkumai
- Kadangi jis buvo sukurtas dirbti su „Spark“ ir didžiuliais duomenimis, „Delta Lake“ paprastai yra per daug perkrautas daugeliui užduočių.
- Tam reikia naudoti specialų duomenų formatą, kuris riboja jo lankstumą ir nesuderina su dabartinėmis formomis.
Kainos
Ja naudotis visi gali nemokamai.
5. Dolt
„Dolt“ yra SQL duomenų bazė, kuri atlieka šakojimą, klonavimą, šakojimą, suliejimą, stumimą ir ištraukimą taip pat, kaip tai daro „git“ saugykla. Siekdama pagerinti versijų valdymo duomenų bazės naudotojo patirtį, „Dolt“ leidžia sinchronizuoti duomenis ir struktūrą.
Tai puikus įrankis jums ir jūsų kolegoms bendradarbiauti. Galite prisijungti prie Dolt taip pat, kaip ir prie bet kurios kitos MySQL duomenų bazės ir vykdyti užklausas arba keisti duomenis naudodami SQL komandas.
Kalbant apie duomenų versijų kūrimą, Dolt yra unikalus. „Dolt“ yra duomenų bazė, priešingai nei kai kurie kiti sprendimai, kuriuose tik versijos duomenys. Nors šiuo metu programinė įranga yra ankstyvoje stadijoje, artimiausiu metu tikimasi, kad ji bus visiškai suderinama su „Git“ ir „MySQL“.
Visos komandos, kurias esate susipažinę su Git, taip pat veiks su Dolt. Git versijų failai, Dolt versijų lentelės Naudodami komandų eilutės sąsają importuokite CSV failus, atlikite pakeitimus, paskelbkite juos nuotoliniame pulte ir sujunkite komandos draugo pakeitimus.
Argumentai "už"
- Lengvas ir atviro kodo iš dalies.
- Palyginti su neaiškesniais pasirinkimais, jis turi SQL sąsają, todėl duomenų analitikams ji tampa prieinamesnė.
Trūkumai
- Palyginti su kitomis duomenų bazės versijų kūrimo alternatyvomis, „Dolt“ vis dar yra kuriamas produktas.
- Kadangi „Dolt“ yra duomenų bazė, turite perkelti savo duomenis į ją, kad gautumėte naudos.
Kainos
Visi kviečiami dalyvauti bendruomenės užsiėmime. Platforma nenumato aukščiausios kainos; vietoj to turite susisiekti su paslaugų teikėju.
6. Pachyderm
Pachyderm yra nemokama duomenų mokslo versijų valdymo sistema su daugybe funkcijų. Pachyderm Enterprise yra galinga duomenų mokslo platforma, skirta didelio masto bendradarbiavimui itin saugioje aplinkoje.
Pachyderm yra viena iš nedaugelio sąrašo duomenų mokslo platformų. „Pachyderm“ tikslas – sukurti platformą, kuri valdo visą duomenų ciklą ir leidžia lengvai kopijuoti mašininio mokymosi modelių išvadas. Šiame kontekste Pachyderm yra žinomas kaip „duomenų dokas“. „Pachyderm“ supakuoja jūsų vykdymo aplinką naudodamas „Docker“ konteinerius. Tai leidžia lengvai kopijuoti tuos pačius rezultatus.
Duomenų mokslininkai ir „DevOps“ komandos gali drąsiai diegti modelius dėl duomenų versijų derinio su „Docker“. Veiksmingos saugojimo sistemos dėka galima išlaikyti struktūrinių ir nestruktūruotų duomenų petabaitus, o saugojimo išlaidos yra minimalios.
Visuose konvejerio etapuose failais pagrįsta versijų kūrimas suteikia išsamų visų duomenų ir artefaktų, įskaitant tarpinius rezultatus, audito įrašą. Daugelį įrankio galimybių lemia šie ramsčiai, kurie padeda komandoms išnaudoti visas jo galimybes.
Argumentai "už"
- Remiantis konteineriais, jūsų duomenų aplinka bus nešiojama ir lengvai perduodama tarp debesies paslaugų teikėjų.
- Tvirtas, galintis keistis nuo mažų iki itin didelių sistemų.
Trūkumai
- Kadangi yra tiek daug judančių elementų, pvz., Kubernetes serveris, reikalingas nemokamam Pachyderm leidimui valdyti, mokymosi kreivė yra statesnė.
- Pachyderm gali būti sudėtinga įtraukti į esamą įmonės infrastruktūrą dėl daugybės technologinių komponentų.
Kainos
Galite pradėti naudoti platformą per bendruomenės sesiją, o norėdami gauti įmonės leidimą, turite susisiekti su pardavėju.
7. Neptūnas
Modelio kūrimo metaduomenis valdo ML metaduomenų saugykla, kuri yra svarbus MLOps dėklo aspektas. Kiekvienai MLOps darbo eigai „Neptune“ yra centralizuota metaduomenų saugykla.
Galite stebėti, vizualizuoti ir palyginti tūkstančius mašininio mokymosi modelių vienoje vietoje. Tai apima tokias funkcijas kaip eksperimento stebėjimas, modelių registras ir modelio stebėjimas, taip pat bendradarbiavimo sąsaja. Jame yra daugiau nei 25 skirtingų integruotų įrankių ir bibliotekų, įskaitant kelis modelių mokymo ir hiperparametrų derinimo įrankius.
Galite prisijungti prie „Neptūno“ nenaudodami kredito kortelės. Vietoj jos pakaks „Gmail“ paskyros.
Argumentai "už"
- Integruoti su bet kokiu vamzdynu, srautu, kodų baze ar sistema yra paprasta.
- Vizualizacijos realiuoju laiku, paprasta API ir greitas palaikymas
- Naudodami „Neptūną“ galite sukurti visų savo eksperimentų duomenų „atsarginę kopiją“ vienoje vietoje, kurią vėliau galėsite atkurti.
Trūkumai
- Nors ir ne visiškai atvirojo kodo, privačiam naudojimui tikriausiai pakaktų atskiros versijos, nors tokia prieiga ribojama iki vieno mėnesio.
- Yra keletas nedidelių dizaino trūkumų.
Kainos
Galite pradėti naudotis platforma su individualiu planu, kuriuo gali naudotis visi nemokamai. Kainodaros skyrius prasideda nuo 150 USD per mėnesį.
Išvada
Šiame įraše aptarėme geriausius duomenų versijų kūrimo įrankius. Kiekvienas įrankis, kaip matėme, turi savo funkcijų rinkinį. Kai kurie buvo nemokami, o už kitus reikėjo mokėti. Kai kurie gerai tinka smulkaus verslo modeliui, o kiti labiau tinka dideliam verslo modeliui.
Todėl pasvėrę privalumus ir trūkumus, turite pasirinkti geriausią programinę įrangą savo tikslams. Rekomenduojame išbandyti nemokamą bandomąją versiją prieš perkant aukščiausios kokybės produktą.
Palikti atsakymą