Andmeteadlased ja masinõppe spetsialistid tegelevad tüüpilise andmeteaduse projekti raames suure hulga erinevat tüüpi andmetega. Optimaalse jõudluse saavutamiseks on välja töötatud arvukalt mudeleid, millel on erinevad konfiguratsioonid ja funktsioonid ning parameetrite häälestamise kordused.
Sellise stsenaariumi korral tuleb jälgida ja mõõta kõiki andmete muudatusi ja mudeli koostamise protsessi kohandusi, et teha kindlaks, mis töötas ja mis mitte. Samuti on oluline, et oleks võimalik naasta eelmise väljaande juurde ja uurida varasemaid tulemusi.
Data Version Control (DVC), mis aitab hallata andmeid, aluseks olevat mudelit ja käitada reprodutseeritavaid tulemusi, on üks selline tehnoloogia, mis võimaldab meil kõike seda jälgida.
Selles postituses käsitleme üksikasjalikult andmete versiooni juhtimist ja parimaid tööriistu. Alustagem.
Mis on andmete versioonikontroll?
Kõikide tootmissüsteemide jaoks on vajalik versioon. Üksainus juurdepääsupunkt kõige värskematele andmetele. Iga ressurss, mida sageli muudetakse, eriti mitu kasutajat korraga, vajab kõigi muudatuste jälgimiseks kontrolljälje loomist.
Versioonihaldussüsteem vastutab selle eest, et kõik meeskonnaliikmed oleksid samal lehel. See tagab, et kõik meeskonnaliikmed töötavad faili uusima versiooni kallal ja mis veelgi olulisem, et kõik teevad korraga koostööd sama projekti kallal.
Kui teil on õige varustus, saate seda teha minimaalse pingutusega!
Kui kasutate usaldusväärset andmeversioonihaldusstrateegiat, on teil järjekindlad andmekogumid ja põhjalik arhiiv kogu oma uurimistööst. Andmete versioonide loomise tööriistad on teie töövoo jaoks üliolulised, kui hoolite reprodutseeritavusest, jälgitavusest ja ML-mudelite ajaloost.
Need aitavad teil hankida üksuse versiooni, näiteks andmestiku või mudeli räsi, mida saate seejärel tuvastamiseks ja võrdlemiseks kasutada. See andmeversioon sisestatakse sageli teie metaandmete halduslahendusse, et tagada mudeli koolituse versioon ja korratavus.
Parimad andmete versioonikontrolli tööriistad
Nüüd on aeg vaadata parimaid saadaolevaid andmeversioonikontrolli lahendusi, mida saate kasutada oma koodi iga osa jälgimiseks.
1. git-lfs
Projekti Git LFS kasutamine on tasuta. Gitis asendatakse suured failid, nagu helinäidised, videod, andmebaasid ja fotod, tekstiosutitega ning faili sisu salvestatakse kaugserverisse, nagu GitHub.com või GitHub Enterprise.
See võimaldab teil kasutada Giti tohutute failide (kuni mitme GB suuruse) versioonimiseks, majutada rohkem oma Giti hoidlates, kasutades välist salvestusruumi, ning kloonida ja laadida suuri failihoidlaid kiiremini. Andmehalduse osas on see üsna kerge lahendus. Gitiga töötamiseks ei ole teil vaja täiendavaid käske, salvestussüsteeme ega tööriistakomplekte.
See piirab allalaaditava teabe hulka. See tähendab, et suurte failide kloonimine ja hoidlatest allalaadimine on kiirem. Osutajad on valmistatud kergemast materjalist ja osutavad LFS-ile.
Selle tulemusena värskendatakse oma repo põhihoidlasse kiiresti ja võtab vähem ruumi.
Plusse
- Integreerub hõlpsalt enamiku ettevõtete arendustöövoogudesse.
- Täiendavaid õigusi pole vaja käsitleda, kuna see kasutab samu õigusi kui Giti hoidla.
Miinused
- Git LFS nõuab teie andmete salvestamiseks spetsiaalsete serverite kasutamist. Selle tulemusena on teie andmeteaduse meeskonnad lukustatud ja teie inseneritöökoormus suureneb.
- See on väga spetsialiseerunud ja võib andmeteaduse töövoo järgmistes etappides nõuda mitmesuguste erinevate tööriistade kasutamist.
hinnapoliitika
Selle kasutamine on kõigile tasuta.
2. LakeFS
LakeFS on avatud lähtekoodiga andmete versioonimislahendus, mis salvestab andmed S3-sse või GCS-i ja millel on Giti-sarnane hargnemis- ja sidumisparadigma, mis skaleerub petabaitideks.
See hargnemisstrateegia muudab teie andmejärve ACID-iga ühilduvaks, võimaldades muudatusi erinevates harudes, mida saab konstrueerida, liita ja tagasi kerida aatomiliselt ja koheselt.
LakeFS võimaldab meeskondadel luua andmejärve tegevusi, mis on korratavad, atomaarsed ja versioonidega. See on sündmuskohal uustulnuk, kuid see on jõud, millega tuleb arvestada.
See kasutab teiega suhtlemiseks Giti-laadset hargnemis- ja versioonikontrolli lähenemisviisi andmete järv, skaleeritav kuni petabaitideni andmetega. Eksabaitide skaalal saate kontrollida versioonikontrolli.
Plusse
- Giti-laadsed toimingud hõlmavad hargnemist, sidumist, ühendamist ja tagasipööramist.
- Andmete CI/CD kontrollimiseks kasutatakse eelkinnitus-/ühendamiskonkse.
- Pakub keerulisi funktsioone, nagu ACID-tehingud lihtsaks pilvesalvestuseks, nagu S3 ja GCS, jäädes vormingu neutraalseks.
- Andmete muudatuste ennistamine reaalajas.
- Skaalab kergesti, võimaldades sellel mahutada väga suuri andmejärvi. Versioonikontrolli saab pakkuda nii arendus- kui ka tootmisseadete jaoks.
Miinused
- LakeFS on uus toode, mistõttu funktsionaalsus ja dokumentatsioon võivad muutuda kiiremini kui varasemate lahenduste puhul.
- Kuna see keskendub andmete versioonistamisele, peate andmeteaduse töövoo eri osade jaoks kasutama mitmesuguseid lisatööriistu.
hinnapoliitika
Selle kasutamine on kõigile tasuta.
3. CVD
Data Version Control on tasuta andmete versioonilahendus, mis on loodud andmeteaduse ja masinõppe rakenduste jaoks. See on programm, mis võimaldab teil oma konveieri määratleda mis tahes keeles.
Hallates suuri faile, andmekogumeid, masinõppemudeleid, koodi ja nii edasi, muudab tööriist masinõppemudelid jagatavaks ja reprodutseeritavaks. Programm järgib Giti eeskuju, pakkudes lihtsat käsurida, mille saab seadistada vaid mõne sammuga.
Nagu nimigi viitab, ei tähenda DVC ainult andmete versioonide loomist. Samuti hõlbustab see meeskondade torujuhtmete ja masinõppemudelite haldamist.
Lõpuks aitab DVC parandada teie meeskonna mudelite järjepidevust ja nende korratavust. Selle asemel, et kasutada koodis keerulisi failisufikseid ja kommentaare, kasutage ära Git oksad katsetada uusi ideid. Reisimiseks kasutage paberi ja pliiatsi asemel automaatset mõõdiku jälgimist.
Järjepidevate kimpude edastamiseks masinõpe mudeleid, andmeid ja koodi tootmisse, kaugetesse arvutitesse või kolleegi töölauale, saate ad-hoc skriptide asemel kasutada push/pull käske.
Plusse
- See on kerge, avatud lähtekoodiga ja töötab kõigi suuremate pilveplatvormide ja salvestustüüpidega.
- Paindlik, vormingu ja raamistiku suhtes agnostiline ning lihtsalt rakendatav.
- Iga ML-mudeli kogu evolutsiooni saab jälgida selle lähtekoodi ja andmeteni.
Miinused
- Torujuhtme haldus ja DVC versioonikontroll on lahutamatult seotud. Kui teie meeskond kasutab juba mõnda muud andmekanali toodet, toimub koondamine.
- Kuna DVC on kerge, võib teie meeskond vajada lisafunktsioone käsitsi, et muuta see kasutajasõbralikumaks.
hinnapoliitika
Selle kasutamine on kõigile tasuta.
4. DeltaLake
DeltaLake on avatud lähtekoodiga salvestuskiht, mis suurendab andmejärve töökindlust. Delta Lake toetab ACID-tehinguid ja skaleeritavat metaandmete haldust lisaks voogesituse ja pakettandmete töötlemisele.
See töötab koos Apache Spark API-dega ja asub teie olemasoleval andmejärvel. Delta Sharing on maailma esimene avatud protokoll turvaliseks andmete jagamiseks ettevõttes, mis muudab andmete vahetamise teiste ettevõtetega nende arvutisüsteemidest sõltumatuks lihtsaks.
Delta Lakes on võimeline petabaitide kaupa andmeid hõlpsalt käsitlema. Metaandmeid salvestatakse samamoodi nagu andmeid ja kasutajad saavad need kätte meetodi Describe Detail abil. Delta Lakesil on üks arhitektuur, mis suudab lugeda nii voo- kui ka pakettandmeid.
Ülestõmbeid on Delta abil lihtne teha. Need ümbertõstmised või liitmised Delta tabelisse on võrreldavad SQL-i liitmistega. Saate seda kasutada teise andmeraami andmete integreerimiseks oma tabelisse ning värskendamiseks, lisamiseks ja kustutamiseks.
Plusse
- Paljud võimalused, nagu ACID-tehingud ja tugev metaandmete haldamine, võivad olla saadaval teie praeguses andmesalvestuslahenduses.
- Delta Lake saab nüüd vaevata hallata tabeleid miljardite partitsioonide ja failidega petabaitide skaalal.
- Vähendab vajadust käsitsi andmete versioonikontrolli ja muude andmetega seotud probleemide järele, võimaldades arendajatel keskenduda oma andmejärvede kõrval toodete arendamisele.
Miinused
- Kuna see oli loodud töötama Sparki ja tohutute andmetega, on Delta Lake enamiku ülesannete jaoks üldiselt ülekoormatud.
- See nõuab spetsiaalse andmevormingu kasutamist, mis piirab selle paindlikkust ja muudab selle teie praeguste vormidega kokkusobimatuks.
hinnapoliitika
Selle kasutamine on kõigile tasuta.
5. Dolt
Dolt on SQL-andmebaas, mis teeb hargnemist, kloonimist, hargnemist, ühendamist, lükkamist ja tõmbamist samamoodi nagu git-hoidla. Versioonikontrolli andmebaasi kasutuskogemuse parandamiseks võimaldab Dolt andmeid ja struktuuri sünkroonis muuta.
See on suurepärane tööriist teile ja teie töökaaslastele koostöö tegemiseks. Saate luua ühenduse Doltiga samamoodi nagu mis tahes muu MySQL-i andmebaasiga ja käivitada päringuid või teha andmetes muudatusi SQL-käskude abil.
Andmete versioonide loomisel on Dolt ainulaadne. Dolt on andmebaas, erinevalt mõnest muust lahendusest, mis ainult versiooni andmeid. Kuigi tarkvara on praegu algusjärgus, loodetakse see lähitulevikus täielikult Giti ja MySQL-iga ühilduvaks muuta.
Kõik Gitiga tuttavad käsud töötavad ka Doltiga. Giti versioonide failid, Dolti versioonide tabelid Importige käsurea liidest kasutades CSV-faile, kinnitage oma muudatused, avaldage need kaugjuhtimispuldis ja ühendage oma meeskonnakaaslase muudatused.
Plusse
- Kerge ja avatud lähtekoodiga osaliselt.
- Võrreldes ebaselgemate valikutega on sellel SQL-i liides, mis muudab selle andmeanalüütikutele paremini juurdepääsetavaks.
Miinused
- Võrreldes teiste andmebaasi versioonide loomise alternatiividega on Dolt endiselt arenev toode.
- Kuna Dolt on andmebaas, peate eeliste saamiseks oma andmed sellesse üle kandma.
hinnapoliitika
Kõik on oodatud kogukonna istungit kasutama. Platvorm ei paku lisatasu; selle asemel peate võtma ühendust teenusepakkujaga.
6. Pachüderm
Pachyderm on tasuta andmeteaduse versioonihaldussüsteem, millel on palju funktsioone. Pachyderm Enterprise on võimas andmeteaduse platvorm, mis on loodud suuremahuliseks koostööks väga turvalistes keskkondades.
Pachyderm on üks väheseid andmeteaduse platvorme loendis. Pachydermi eesmärk on pakkuda platvormi, mis haldab kogu andmetsüklit ja muudab masinõppemudelite tulemuste dubleerimise lihtsaks. Pachyderm on selles kontekstis tuntud kui "andmete dokkija". Pachyderm pakendab teie täitmiskeskkonna Dockeri konteinerite abil. See muudab samade tulemuste dubleerimise lihtsaks.
Andmeteadlased ja DevOpsi meeskonnad saavad mudeleid enesekindlalt juurutada tänu versioonide andmete kombineerimisele Dockeriga. Tänu tõhusale salvestussüsteemile saab säilitada petabaite struktureeritud ja struktureerimata andmeid, samal ajal kui salvestuskulud on minimaalsed.
Failipõhine versioonide loomine annab kogu konveieri etappide jooksul põhjaliku auditikirje kõikide andmete ja artefaktide, sealhulgas vaheväljundite kohta. Paljusid tööriista võimalusi juhivad need tugisambad, mis aitavad meeskondadel sellest maksimumi võtta.
Plusse
- Konteinerite alusel on teie andmekeskkonnad teisaldatavad ja pilveteenuse pakkujate vahel hõlpsasti ülekantavad.
- Tugev, võime skaleerida väikestest süsteemidest ülisuurteni.
Miinused
- Kuna Pachydermi tasuta väljaande käsitlemiseks on palju liikuvaid elemente, näiteks Kubernetese server, on õppimiskõver järsem.
- Pachydermi võib olla keeruline lisada ettevõtte olemasolevasse infrastruktuuri, kuna sellel on palju tehnoloogilisi komponente.
hinnapoliitika
Platvormi saate hakata kasutama kogukonna seansiga ja ettevõtte väljaande jaoks peate võtma ühendust müüjaga.
7. Neptuun
Mudeli koostamise metaandmeid haldab ML-i metaandmete pood, mis on MLOps-virna oluline aspekt. Iga MLOps-i töövoo jaoks toimib Neptune tsentraliseeritud metaandmete salvestusruumina.
Saate ühes kohas jälgida, visualiseerida ja võrrelda tuhandeid masinõppemudeleid. See sisaldab selliseid funktsioone nagu katsete jälgimine, mudeliregister ja mudeli jälgimine, aga ka koostööliidest. See sisaldab rohkem kui 25 erinevat integreeritud tööriista ja teeki, sealhulgas mitmeid mudelikoolituse ja hüperparameetrite häälestamise tööriistu.
Saate Neptune'iga liituda ilma krediitkaarti kasutamata. Selle asemel piisab Gmaili kontost.
Plusse
- Integreerimine mis tahes konveieri, voo, koodibaasi või raamistikuga on lihtne.
- Reaalajas visualiseerimine, lihtne API ja kiire tugi
- Neptune'i abil saate teha "varukoopia" kõigist oma katsete andmetest ühes kohas, mida saate hiljem taastada.
Miinused
- Kuigi see pole täiesti avatud lähtekoodiga, piisaks erakasutuseks ilmselt individuaalsest versioonist, kuigi selline juurdepääs on piiratud ühe kuuga.
- Leidub mõningaid väikeseid disainivigu.
hinnapoliitika
Platvormi saate hakata kasutama individuaalse paketiga, mis on kõigile tasuta kasutamiseks. Hinnakujunduse jaotis algab 150 dollarist kuus.
Järeldus
Selles postituses arutasime parimaid andmete versioonide loomise tööriistu. Igal tööriistal, nagu nägime, on oma funktsioonide komplekt. Mõned olid tasuta, teised nõudsid tasumist. Mõned sobivad hästi väikese ärimudeliga, teised aga suurema ärimudeliga.
Seetõttu peate pärast eeliste ja puuduste kaalumist valima oma eesmärkide jaoks parima tarkvara. Soovitame teil enne esmaklassilise toote ostmist tasuta prooviversiooni testida.
Jäta vastus