Tietotieteilijät ja koneoppimisen ammattilaiset käsittelevät huomattavan määrän erityyppistä dataa tyypillisessä datatieteen projektissa. Lukuisia malleja on kehitetty erilaisilla kokoonpanoilla ja ominaisuuksilla sekä useilla parametrien virityksen iteraatioilla optimaalisen suorituskyvyn saavuttamiseksi.
Tällaisessa skenaariossa kaikkia datamuutoksia ja mallinrakennusprosessin säätöjä on seurattava ja mitattava, jotta voidaan määrittää, mikä toimi ja mikä ei. On myös elintärkeää palata edelliseen painokseen ja tarkastella aikaisempia tuloksia.
Data Version Control (DVC), joka auttaa hallitsemaan tietoja, taustalla olevaa mallia ja suorittamaan toistettavia tuloksia, on yksi tällainen tekniikka, jonka avulla voimme valvoa kaikkea tätä.
Tässä viestissä tarkastelemme tarkasti tietojen versionhallintaa ja parhaita työkaluja. Aloitetaanpa.
Mikä on tietojen versionhallinta?
Versio vaaditaan kaikille tuotantojärjestelmille. Yhdestä pääsypisteestä uusimmat tiedot. Kaikille resursseille, joita usein muokataan, erityisesti useiden käyttäjien samanaikaisesti, on luotava kirjausketju kaikkien muutosten seuraamiseksi.
Versionhallintajärjestelmä vastaa siitä, että kaikki tiimin jäsenet ovat samalla sivulla. Se takaa, että kaikki tiimin jäsenet työskentelevät tiedoston uusimman version parissa ja mikä tärkeintä, että kaikki tekevät yhteistyötä samassa projektissa kerrallaan.
Jos sinulla on oikeat laitteet, voit tehdä tämän pienellä vaivalla!
Jos käytät luotettavaa dataversioiden hallintastrategiaa, sinulla on johdonmukaiset tietojoukot ja kattava arkisto kaikista tutkimuksistasi. Tietojen versiointityökalut ovat tärkeitä työnkulussasi, jos välität toistettavuudesta, jäljitettävyydestä ja ML-mallihistoriasta.
Niiden avulla voit hankkia kohteen version, kuten tietojoukon tai mallin tiivisteen, jonka avulla voit sitten tunnistaa ja vertailla. Tämä dataversio syötetään usein metatietojen hallintaratkaisuun, jotta voidaan varmistaa, että mallikoulutuksesi on versioitu ja toistettavissa.
Parhaat tietojen versionhallintatyökalut
Nyt on aika tarkastella parhaita saatavilla olevia dataversionhallintaratkaisuja, joiden avulla voit seurata koodisi jokaista osaa.
1. git-lfs
Git LFS -projekti on ilmainen käyttää. Gitissä suuret tiedostot, kuten ääninäytteet, videot, tietokannat ja valokuvat, korvataan tekstiosoittimilla, ja tiedostojen sisältö tallennetaan etäpalvelimelle, kuten GitHub.com tai GitHub Enterprise.
Sen avulla voit käyttää Gitiä valtavien tiedostojen versioimiseen – jopa usean gigatavun kokoiseen – isännöimään enemmän Git-varastoissasi käyttämällä ulkoista tallennustilaa sekä kloonaamaan ja hakemaan suuria tiedostovarastoja nopeammin. Tietojenhallinnan kannalta tämä on melko kevyt ratkaisu. Gitin kanssa työskenteleminen ei vaadi ylimääräisiä komentoja, tallennusjärjestelmiä tai työkalusarjoja.
Se rajoittaa ladattavan tiedon määrää. Tämä tarkoittaa, että suurten tiedostojen kloonaus ja hakeminen arkistoista on nopeampaa. Osoittimet on valmistettu kevyemmästä materiaalista ja osoittavat LFS:ään.
Tämän seurauksena, kun työnnät arkistosi pääsäilöön, se päivittyy nopeasti ja vie vähemmän tilaa.
Plussat
- Integroituu helposti useimpien yritysten kehitystyönkulkuihin.
- Ylimääräisiä oikeuksia ei tarvitse käsitellä, koska se käyttää samoja käyttöoikeuksia kuin Git-arkisto.
MIINUKSET
- Git LFS edellyttää omistettujen palvelimien käyttöä tietojen tallentamiseen. Tämän seurauksena datatieteen tiimisi lukittuu ja insinöörityömääräsi kasvaa.
- Erittäin erikoistunut ja saattaa edellyttää useiden eri työkalujen käyttöä datatieteen työnkulun myöhemmissä vaiheissa.
Hinnasto
Sen käyttö on ilmaista kaikille.
2. LakeFS
LakeFS on avoimen lähdekoodin tietojen versiointiratkaisu, joka tallentaa tiedot S3:een tai GCS:ään ja jossa on Git-tyyppinen haaroitus- ja sitoutumisparadigma, joka skaalautuu petatavuihin.
Tämä haarautumisstrategia tekee tietojärvestäsi ACID-yhteensopivan sallimalla muutosten tapahtua erillisissä haaroissa, jotka voidaan rakentaa, yhdistää ja palauttaa atomaalisesti ja välittömästi.
LakeFS:n avulla tiimit voivat luoda datajärven toimintoja, jotka ovat toistettavia, atomisia ja versioituja. Se on aloittelija näyttämöllä, mutta se on voima, joka on otettava huomioon.
Se käyttää Git-tyyppistä haaroitus- ja versionhallintatapaa vuorovaikutuksessa sinun kanssasi datajärvi, skaalattavissa petabyyttiin dataa. Exabyte-asteikolla voit tarkistaa versionhallinnan.
Plussat
- Gitin kaltaiset toiminnot sisältävät haarautumisen, sitoutumisen, yhdistämisen ja palautuksen.
- Pre-commit/merge-koukkuja käytetään tietojen CI/CD-tarkistuksiin.
- Tarjoaa monimutkaisia ominaisuuksia, kuten ACID-tapahtumat, yksinkertaista pilvitallennusta varten, kuten S3 ja GCS, säilyttäen silti muotoneutraalin.
- Palauta tietojen muutokset reaaliajassa.
- Skaalautuu helposti, mikä mahdollistaa erittäin valtavien datajärvien vastaanottamisen. Versionhallinta voidaan tarjota sekä kehitys- että tuotantoasetuksiin.
MIINUKSET
- LakeFS on uusi tuote, joten toiminnallisuus ja dokumentaatio voivat muuttua nopeammin kuin aikaisemmissa ratkaisuissa.
- Koska se keskittyy tietojen versiointiin, sinun on käytettävä useita lisätyökaluja datatieteen työnkulun eri osissa.
Hinnasto
Sen käyttö on ilmaista kaikille.
3. DVC
Data Version Control on ilmainen tietojen versiointiratkaisu, joka on suunniteltu datatieteen ja koneoppimisen sovelluksiin. Se on ohjelma, jonka avulla voit määrittää putkistosi millä tahansa kielellä.
Hallitsemalla suuria tiedostoja, tietojoukkoja, koneoppimismalleja, koodia ja niin edelleen työkalu tekee koneoppimismalleista jaettavia ja toistettavia. Ohjelma noudattaa Gitin esimerkkiä tarjoamalla yksinkertaisen komentorivin, joka voidaan määrittää vain muutamassa vaiheessa.
Kuten nimestä voi päätellä, DVC ei ole vain tietojen versiointia. Se helpottaa myös putkien ja koneoppimismallien hallintaa tiimeille.
Lopuksi DVC auttaa parantamaan tiimisi mallien johdonmukaisuutta ja niiden toistettavuutta. Sen sijaan, että käyttäisit monimutkaisia tiedostoliitteitä ja kommentteja koodissa, hyödynnä Git oksat kokeilla uusia ideoita. Matkustaessasi käytä automaattista mittausseurantaa paperin ja kynän sijaan.
Lähettää johdonmukaisia nippuja koneoppiminen malleja, dataa ja koodia tuotantoon, kaukaisiin tietokoneisiin tai työtoverin työpöydälle, voit käyttää push/pull-komentoja ad-hoc-skriptien sijaan.
Plussat
- Se on kevyt, avoimen lähdekoodin ja toimii kaikkien tärkeimpien pilvialustojen ja tallennustyyppien kanssa.
- Joustava, muotoa ja puitteita tuntematon ja helppo toteuttaa.
- Jokaisen ML-mallin koko kehitys voidaan jäljittää sen lähdekoodiin ja tietoihin.
MIINUKSET
- Pipeline-hallinta ja DVC-versionhallinta liittyvät erottamattomasti toisiinsa. Redundanssia esiintyy, jos tiimisi käyttää jo toista dataputkituotetta.
- Koska DVC on kevyt, tiimisi saattaa joutua suunnittelemaan lisäominaisuuksia manuaalisesti tehdäkseen siitä käyttäjäystävällisemmän.
Hinnasto
Sen käyttö on ilmaista kaikille.
4. DeltaLake
DeltaLake on avoimen lähdekoodin tallennuskerros, joka lisää datajärven luotettavuutta. Delta Lake tukee ACID-tapahtumia ja skaalautuvaa metatietojen hallintaa suoratoiston ja erätietojen käsittelyn lisäksi.
Se toimii Apache Spark API -sovellusliittymien kanssa ja sijaitsee olemassa olevassa datajärvessäsi. Delta Sharing on maailman ensimmäinen avoin protokolla turvalliseen tiedon jakamiseen liiketoiminnassa, mikä tekee tietojen vaihtamisesta helppoa muiden yritysten kanssa niiden tietokonejärjestelmistä riippumatta.
Delta Lakes pystyy käsittelemään petatavuja dataa helposti. Metadata tallennetaan samalla tavalla kuin data, ja käyttäjät voivat saada ne Describe Detail -menetelmällä. Delta Lakesilla on yksi arkkitehtuuri, joka voi lukea sekä stream- että erätietoja.
Upsert on helppo tehdä Deltalla. Nämä siirrokset tai sulautukset Delta-taulukkoon ovat verrattavissa SQL-yhdistelmiin. Voit käyttää sitä integroidaksesi tietoja toisesta tietokehyksestä taulukkoosi ja suorittaaksesi päivityksiä, lisäyksiä ja poistoja.
Plussat
- Monet ominaisuudet, kuten ACID-tapahtumat ja vankka metatietojen hallinta, voivat olla käytettävissä nykyisessä tiedontallennusratkaisussasi.
- Delta Lake pystyy nyt hallitsemaan vaivattomasti taulukoita, joissa on miljardeja osioita ja tiedostoja petatavun mittakaavassa.
- Vähentää manuaalisen dataversion hallinnan ja muiden tietoon liittyvien huolenaiheiden tarvetta, jolloin kehittäjät voivat keskittyä tuotteidensa kehittämiseen tietojärviensä lisäksi.
MIINUKSET
- Koska Delta Lake on suunniteltu toimimaan Sparkin ja valtavan datan kanssa, se on yleensä ylikuormitettu useimpiin tehtäviin.
- Se edellyttää erillisen tietomuodon käyttöä, mikä rajoittaa sen joustavuutta ja tekee siitä yhteensopimattoman nykyisten lomakkeiden kanssa.
Hinnasto
Sen käyttö on ilmaista kaikille.
5. Tomppeli
Dolt on SQL-tietokanta, joka tekee haaroittamisen, kloonauksen, haarautumisen, yhdistämisen, työntämisen ja vetämisen samalla tavalla kuin git-tietovarasto. Versionhallintatietokannan käyttökokemuksen parantamiseksi Dolt sallii tietojen ja rakenteen muuttamisen synkronoituna.
Se on loistava työkalu sinulle ja työtovereillesi. Voit muodostaa yhteyden Doltiin samalla tavalla kuin mihin tahansa muuhun MySQL-tietokantaan ja suorittaa kyselyitä tai tehdä muutoksia tietoihin SQL-komennoilla.
Mitä tulee datan versiointiin, Dolt on ainutlaatuinen. Dolt on tietokanta, toisin kuin jotkut muut ratkaisut, jotka käyttävät vain versiotietoja. Vaikka ohjelmisto on tällä hetkellä varhaisessa vaiheessa, sen on tarkoitus tehdä täysin yhteensopiva Gitin ja MySQL:n kanssa lähitulevaisuudessa.
Kaikki Gitin kanssa tutut komennot toimivat myös Doltin kanssa. Git-versiotiedostot, Dolt-versiot -taulukot Tuo CSV-tiedostoja komentorivikäyttöliittymän avulla, tee muutokset, julkaise ne kaukosäätimessä ja yhdistä joukkuetoverisi muutokset.
Plussat
- Kevyt ja avoimen lähdekoodin osittain.
- Verrattuna epäselvämpiin valintoihin, siinä on SQL-käyttöliittymä, mikä tekee siitä helpommin data-analyytikoiden käytettävissä.
MIINUKSET
- Verrattuna muihin tietokannan versiointivaihtoehtoihin Dolt on edelleen kehittyvä tuote.
- Koska Dolt on tietokanta, sinun on siirrettävä tietosi siihen saadaksesi hyödyt.
Hinnasto
Kaikki ovat tervetulleita käyttämään yhteisötilaisuutta. Alusta ei tarjoa ensiluokkaista hinnoittelua; sen sijaan sinun on otettava yhteyttä palveluntarjoajaan.
6. Pachyderm
Pachyderm on ilmainen datatieteen versionhallintajärjestelmä, jossa on paljon ominaisuuksia. Pachyderm Enterprise on tehokas datatieteen alusta, joka on suunniteltu laajamittaiseen yhteistyöhön erittäin turvallisissa ympäristöissä.
Pachyderm on yksi luettelon harvoista datatieteen alustoista. Pachydermin tavoitteena on tarjota alusta, joka hallitsee koko datasykliä ja helpottaa koneoppimismallien tulosten monistamista. Pachyderm tunnetaan tässä yhteydessä "tietojen Dockerina". Pachyderm pakkaa suoritusympäristösi Docker-säilöillä. Tämä tekee samojen tulosten kopioimisesta helppoa.
Tietotutkijat ja DevOps-tiimit voivat ottaa malleja käyttöön luottavaisin mielin Dockerin versioidut tiedot yhdistämällä. Tehokkaan tallennusjärjestelmän ansiosta strukturoitua ja strukturoimatonta dataa voidaan ylläpitää petatavuina säilyttäen samalla tallennuskustannukset mahdollisimman pieninä.
Koko putkivaiheen aikana tiedostopohjainen versiointi tarjoaa perusteellisen tarkastustietueen kaikille tiedoille ja artefakteille, mukaan lukien välitulot. Monet työkalun ominaisuuksista perustuvat näihin pilareihin, jotka auttavat tiimejä saamaan siitä kaiken irti.
Plussat
- Säilöihin perustuen tietoympäristösi ovat kannettavia ja helppoja siirtää pilvipalveluntarjoajien välillä.
- Kestävä, kyky skaalata pienistä erittäin suuriin järjestelmiin.
MIINUKSET
- Koska Pachydermin ilmaisen version käsittelemiseen tarvitaan niin paljon liikkuvia elementtejä, kuten Kubernetes-palvelin, oppimiskäyrä on jyrkempi.
- Pachyderm saattaa olla haastavaa sisällyttää yrityksen olemassa olevaan infrastruktuuriin sen monien teknisten komponenttien vuoksi.
Hinnasto
Voit aloittaa alustan käytön yhteisöistunnon yhteydessä, ja yritysversiota varten sinun on otettava yhteyttä toimittajaan.
7. Neptunus
Mallinrakennusmetatietoja hallinnoi ML-metatietovarasto, joka on tärkeä osa MLOps-pinoa. Jokaisessa MLOps-työnkulussa Neptune toimii keskitettynä metatietojen tallennusvälineenä.
Voit seurata, visualisoida ja vertailla tuhansia koneoppimismalleja yhdessä paikassa. Se sisältää ominaisuuksia, kuten kokeiden seurannan, mallirekisterin ja mallin seurannan, sekä yhteiskäyttöliittymän. Se sisältää yli 25 erilaista työkalua ja kirjastoa integroituna, mukaan lukien useita mallikoulutus- ja hyperparametrien viritystyökaluja.
Voit liittyä Neptunukseen ilman luottokorttiasi. Gmail-tili riittää sen tilalle.
Plussat
- Integrointi minkä tahansa putkilinjan, virran, koodikannan tai kehyksen kanssa on yksinkertaista.
- Reaaliaikaiset visualisoinnit, helppo API ja nopea tuki
- Neptunen avulla voit tehdä "varmuuskopion" kaikista kokeilujen tiedoista yhteen paikkaan, jonka voit palauttaa myöhemmin.
MIINUKSET
- Vaikka ei täysin avoimen lähdekoodin, yksittäinen versio oletettavasti riittäisi yksityiseen käyttöön, vaikka käyttö on rajoitettu kuukauteen.
- Pieniä suunnitteluvirheitä löytyy.
Hinnasto
Voit aloittaa alustan käytön yksilöllisellä paketilla, joka on ilmainen kaikille. Hinnoitteluosio alkaa 150 dollarista/kk.
Yhteenveto
Tässä viestissä keskustelimme parhaista tietojen versiointityökaluista. Kuten olemme nähneet, jokaisella työkalulla on omat ominaisuudet. Jotkut olivat ilmaisia, kun taas toiset vaativat maksua. Jotkut sopivat hyvin pienyritysmalliin, kun taas toiset sopivat paremmin suureen liiketoimintamalliin.
Tämän seurauksena sinun on valittava paras ohjelmisto omiin tarpeisiisi punnittuasi edut ja haitat. Suosittelemme, että testaat ilmaista kokeiluversiota ennen premium-tuotteen ostamista.
Jätä vastaus