Edukien aurkibidea[Ezkutatu][Erakutsi]
Datu zientzialariak eta ikaskuntza automatikoko profesionalek hainbat motatako datu kopuru esanguratsua lantzen dute datu-zientzien proiektu tipiko batean. Eredu ugari garatu dira hainbat konfigurazio eta ezaugarrirekin, baita parametroen sintonizazio anitzekin ere, errendimendu optimoa lortzeko.
Egoera horretan, datuen aldaketa guztiak eta ereduak eraikitzeko prozesuaren doikuntzak kontrolatu eta neurtu behar dira, zerk funtzionatu zuen eta zerk ez zehazteko. Era berean, ezinbestekoa da aurreko edizio batera itzuli eta aurreko emaitzak aztertzea.
Datuen Bertsioen Kontrola (DVC), datuak, azpiko eredua eta emaitza errepikagarriak exekutatzen laguntzen duena, hori guztia kontrolatzeko aukera ematen diguna da.
Argitalpen honetan, datuen bertsioen kontrola eta erabiltzeko tresna onenak aztertuko ditugu. Has gaitezen.
Zer da Datuen Bertsio Kontrola?
Bertsioa beharrezkoa da ekoizpen-sistema guztietan. Datu eguneratuenetarako sarbide-puntu bakarra. Sarritan aldatzen den edozein baliabide, batez ere hainbat erabiltzailek aldi berean, auditoretza-pista bat sortu behar da aldaketa guztien jarraipena egiteko.
Bertsio-kontrol-sistema taldeko guztiak orrialde berean daudela ziurtatzeaz arduratzen da. Taldeko guztiak fitxategiaren azken bertsioan lanean ari direla bermatzen du eta, are garrantzitsuagoa dena, denak aldi berean proiektu berean elkarlanean ari direla bermatzen du.
Ekipamendu egokia baduzu, ahalegin minimoarekin lor dezakezu!
Datu-multzo koherenteak eta zure ikerketa guztien artxibo osoa izango dituzu datuen bertsioak kudeatzeko estrategia fidagarria erabiltzen baduzu. Datuak bertsioatzeko tresnak funtsezkoak dira zure lan-fluxurako, erreproduzigarritasuna, trazabilitatea eta ML ereduaren historia zaintzen badituzu.
Elementu baten bertsio bat eskuratzen laguntzen dizute, datu-multzo edo eredu baten hash bat adibidez, eta gero identifikatzeko eta konparatzeko erabil dezakezu. Datu-bertsio hau zure metadatuak kudeatzeko soluzioan sartzen da maiz zure ereduaren prestakuntza bertsionatua eta errepikagarria dela bermatzeko.
Datuen bertsioak kontrolatzeko tresna onenak
Orain eskuragarri dauden datuen bertsioen kontrolerako soluzio onenak aztertzeko garaia da, zure kodearen zati guztien jarraipena egiteko erabil ditzakezunak.
1. git-lfs
Git LFS proiektua doakoa da. Git-en barruan, audio-laginak, bideoak, datu-baseak eta argazkiak bezalako fitxategi handiak testu-erakusleekin ordezkatzen dira, eta fitxategien edukiak GitHub.com edo GitHub Enterprise bezalako urruneko zerbitzari batean gordetzen dira.
Git erabiltzeko aukera ematen dizu fitxategi izugarriak bertsioratzeko (hainbat GB-ko tamainakoak) zure Git biltegietan gehiago ostatatzeko kanpoko biltegiratzea erabiliz, eta fitxategi-biltegi handiak klonatu eta berreskuratu azkarrago. Datuen kudeaketari dagokionez, nahiko irtenbide arina da. Git-ekin lan egiteko, ez duzu komando, biltegiratze sistema edo tresna-tresna gehigarririk behar.
Deskargatzen duzun informazio kantitatea mugatzen du. Horrek esan nahi du fitxategi handiak biltegietatik klonatzea eta berreskuratzea azkarragoa izango dela. Erakusleak material arinago batez eginda daude eta LFSra seinalatzen dute.
Ondorioz, zure biltegia biltegi nagusira bultzatzen duzunean, azkar eguneratzen da eta leku gutxiago hartzen du.
Pros
- Erraz integratzen da negozio gehienen garapen-fluxuetan.
- Ez dago eskubide gehigarririk kudeatu beharrik, Git biltegiaren baimen berberak erabiltzen dituelako.
Cons
- Git LFS-k zerbitzari dedikatuen erabilera behar du zure datuak gordetzeko. Ondorioz, zure datu-zientzietako taldeak blokeatuta egongo dira eta zure ingeniaritza lan-karga igoko da.
- Oso espezializatua, eta datu-zientzien lan-fluxuaren ondorengo faseetarako hainbat tresna erabiltzea beharrezkoa izan daiteke.
Prezioak
Doakoa da guztiontzat erabiltzeko.
2. LakeFS
LakeFS kode irekiko datuen bertsiorako irtenbide bat da, datuak S3 edo GCS-n gordetzen dituena eta Git-en antzeko adarkatze eta konpromiso paradigma bat du, petabyteetara eskalatzen duena.
Adarkatze-estrategia honek zure datu-lakua ACID betetzen du, atomikoki eta berehalakoan eraiki, batu eta atzera egin daitezkeen adar desberdinetan aldaketak egiteko aukera emanez.
LakeFS-k taldeei datu-lakuaren jarduerak sortzeko aukera ematen die errepikagarriak, atomikoak eta bertsiodunak. Eszenan hasiberria da, baina kontuan hartu beharreko indarra da.
Git antzeko adarkatze eta bertsio kontrolatzeko ikuspegia erabiltzen du zurekin elkarreragiteko datu-lakua, datu Petabyteraino eskalagarria. Exabyte eskalan, bertsio-kontrola egiaztatu dezakezu.
Pros
- Git moduko eragiketak adarkatzea, konprometitzea, batzea eta itzultzea dira.
- Aurre-konpromiso/batze amuak datu CI/CD egiaztapenetarako erabiltzen dira.
- ACID transakzioak bezalako ezaugarri konplexuak eskaintzen ditu hodeiko biltegiratze soilerako S3 eta GCS bezalakoak, formatu neutrala izaten jarraitzen duen bitartean.
- Leheneratu datuen aldaketak denbora errealean.
- Erraz eskalatzen da, datu-laku oso handiak hartzeko aukera emanez. Bertsioen kontrola eman daiteke garapenerako eta ekoizpenerako ezarpenetarako.
Cons
- LakeFS produktu berria da, beraz, funtzionaltasuna eta dokumentazioa aurreko soluzioekin baino azkarrago alda daitezke.
- Datuen bertsiora bideratuta dagoenez, hainbat tresna osagarri erabili beharko dituzu datu-zientzien lan-fluxuaren hainbat ataletarako.
Prezioak
Doakoa da guztiontzat erabiltzeko.
3. DVC
Data Version Control datuen bertsiorako doako irtenbide bat da, datu zientziarako eta ikaskuntza automatikoko aplikazioetarako diseinatua. Zure kanalizazioa edozein hizkuntzatan definitzeko aukera ematen duen programa da.
Fitxategi handiak, datu multzoak, ikaskuntza automatikoko ereduak, kodea eta abar kudeatuz, tresnak ikaskuntza automatikoko ereduak partekagarriak eta erreproduzigarriak bihurtzen ditu. Programak Git-en gidaritza jarraitzen du urrats gutxitan konfigura daitekeen komando-lerro sinple bat eskaintzeko.
Bere izenak dioen bezala, DVC ez da datuen bertsioa soilik. Gainera, taldeentzako kanalizazioen eta ikasketa automatikoen ereduen kudeaketa errazten du.
Azkenik, DVCk zure taldearen ereduen koherentzia eta errepikagarritasuna hobetzen lagunduko du. Kodean fitxategi-atzizki eta iruzkin konplikatuak erabili beharrean, aprobetxa ezazu Git adarrak ideia berriak probatzeko. Bidaiatzeko, erabili jarraipen metriko automatizatua paperaren eta arkatzaren ordez.
-ren sorta koherenteak transmititzeko makina ikaskuntza ereduak, datuak eta kodea ekoizpenean, urruneko ordenagailuetan edo lankide baten mahaigainean, push/pull komandoak erabil ditzakezu ad-hoc scripten ordez.
Pros
- Arina, kode irekikoa da eta hodeiko plataforma eta biltegiratze mota nagusi guztiekin funtzionatzen du.
- Malgua, formatu eta markoarekiko agnostikoa eta inplementatzeko erraza.
- ML eredu bakoitzaren bilakaera osoa bere iturburu-kode eta datuetara bideratu daiteke.
Cons
- Pipeline kudeaketa eta DVC bertsioen kontrola ezinbestean lotuta daude. Erredundantzia izango da zure taldeak beste datu-bidezko produktu bat erabiltzen badu.
- DVC arina denez, baliteke zure taldeak eskuz eginbide gehigarriak diseinatu behar izatea, erabilerrazagoa izan dadin.
Prezioak
Doakoa da guztiontzat erabiltzeko.
4. DeltaLakea
DeltaLake datu-lakuaren fidagarritasuna areagotzen duen kode irekiko biltegiratze-geruza bat da. Delta Lake-k ACID transakzioak eta metadatuen kudeaketa eskalagarriak onartzen ditu, streaming eta batch datuen prozesatzeaz gain.
Apache Spark APIekin funtzionatzen du eta lehendik duzun datu-lakuan kokatzen da. Delta Sharing munduko lehen protokolo irekia da enpresetan datu seguruak partekatzeko, eta erraz egiten du datuak trukatzea beren ordenagailu-sistemetatik independentea den beste enpresekin.
Delta Lakes-ek datu petabyte erraz kudeatzeko gai dira. Metadatuak datuen modu berean gordetzen dira, eta erabiltzaileek Deskribatu Xehetasuna metodoa erabiliz lor ditzakete. Delta Lakes-ek arkitektura bakarra du, korronteen eta loteen datuak irakur ditzakeena.
Upsert-ak Delta erabiliz errazak dira. Delta taulako gorakada edo batuketa hauek SQL Mergesen parekoak dira. Beste datu-marko bateko datuak zure taulan integratzeko eta eguneraketak, txertaketak eta ezabaketak egiteko erabil dezakezu.
Pros
- Gaitasun asko, hala nola ACID transakzioak eta metadatuen kudeaketa sendoa, eskuragarri egon daitezke zure datu biltegiratze irtenbidean.
- Delta Lakek orain esfortzurik gabe kudea ditzake bilioika partizio eta fitxategi dituzten taulak petabyte eskalan.
- Datuen bertsio eskuz kontrolatzeko beharra eta beste datu batzuen kezkak murrizten ditu, garatzaileek datu-lakuen gainean produktuak garatzen kontzentratzeko aukera emanez.
Cons
- Spark eta datu handiekin lan egiteko diseinatu zenez, Delta Lake, oro har, gehiegizkoa da zeregin gehienetarako.
- Datu-formatu dedikatu bat erabiltzea eskatzen du, malgutasuna mugatzen duena eta zure egungo inprimakiekin bateraezina bihurtzen duena.
Prezioak
Doakoa da guztiontzat erabiltzeko.
5. Dolt
Dolt SQL datu-base bat da, git biltegi batek egiten duen moduan bifurkatzea, klonatzea, adarkatzea, batzea, bultzatzea eta tiratzea egiten duena. Bertsio-kontroleko datu-base baten erabiltzailearen esperientzia hobetzeko, Dolt-ek datuak eta egitura sinkronizatzeko aukera ematen du.
Tresna bikaina da zuk eta zure lankideek elkarlanean aritzeko. Dolt-era konekta zaitezke beste edozein MySQL datu-basetara egingo zenukeen modu berean eta kontsultak exekutatu edo datuetan aldaketak egin SQL komandoak erabiliz.
Datuen bertsioari dagokionez, Dolt bakarra da. Dolt datu-base bat da, datuak bertsioa besterik ez duten beste irtenbide batzuen aurrean. Gaur egun softwarea hasierako fasean dagoen arren, etorkizun hurbilean Git eta MySQL-ekin guztiz bateragarria izateko itxaropenak daude.
Git-ekin erabiltzen ezagutzen dituzun komando guztiek Dolt-ekin ere funtzionatuko dute. Git bertsioen fitxategiak, Dolt bertsioen taulak Komando-lerroko interfazea erabiliz, inportatu CSV fitxategiak, konprometitu zure aldaketak, argitaratu urruneko batean eta batu zure taldekidearen aldaketak.
Pros
- Arinak eta kode irekiko neurri batean.
- Aukera ilunagoekin alderatuta, SQL interfazea du, datu-analistentzat eskuragarriago bihurtuz.
Cons
- Datu-baseen bertsioaren beste alternatiba batzuekin alderatuta, Dolt garatzen ari den produktua da oraindik.
- Dolt datu-base bat denez, zure datuak bertara transferitu behar dituzu onurak lortzeko.
Prezioak
Guztiek gonbidatuta daude komunitateko saioa erabiltzera. Plataformak ez du premium preziorik eskaintzen; horren ordez, hornitzailearekin harremanetan jarri behar duzu.
6. Pakidermoa
Pachyderm doako datu zientzien bertsio kontrolatzeko sistema bat da, ezaugarri asko dituena. Pachyderm Enterprise datu zientzien plataforma indartsua da, eskala handiko lankidetzarako diseinatua, ingurune oso seguruetan.
Pachyderm zerrendako datu zientzietako plataforma gutxietako bat da. Pachyderm-en helburua datu-ziklo osoa kudeatzen duen plataforma bat eskaintzea da eta ikaskuntza automatikoko ereduen aurkikuntzak bikoiztea errazten duena. Pachyderm "Datuen Docker" bezala ezagutzen da testuinguru honetan. Pachyderm-ek zure exekuzio ingurunea paketatzen du Docker edukiontziak erabiliz. Honek emaitza berdinak bikoiztea errazten du.
Datuen zientzialariek eta DevOps taldeek konfiantzaz inplementa ditzakete ereduak Dockerrekin bertsiotutako datuen konbinazioari esker. Biltegiratze-sistema eraginkor bati esker, egituratu eta egituratu gabeko datuen petabyte-k mantendu daitezke biltegiratze-kostuak ahalik eta txikienak diren bitartean.
Kanalizazio-faseetan zehar, fitxategietan oinarritutako bertsioak ikuskaritza-erregistro sakona eskaintzen du datu eta artefaktu guztientzat, tarteko irteerak barne. Tresnaren gaitasun asko zutabe horiek bultzatzen dituzte, eta taldeei ahalik eta etekin handiena ateratzen laguntzen diete.
Pros
- Edukiontzietan oinarrituta, zure datu-inguruneak eramangarriak eta errazak izango dira hodeiko hornitzaileen artean transferitzeko.
- Sendoa, sistema txikietatik oso handietara eskalatzeko gaitasuna duena.
Cons
- Elementu mugikor asko daudenez, hala nola, Pachyderm-en doako edizioa kudeatzeko beharrezkoa den Kubernetes zerbitzaria, ikasketa-kurba aldapatsuagoa dago.
- Pachyderm enpresa baten lehendik dagoen azpiegituran sartzea zaila izan daiteke bere osagai teknologiko asko direla eta.
Prezioak
Plataforma erabiltzen has zaitezke komunitateko saioarekin eta enpresaren ediziorako, saltzailearekin harremanetan jarri behar duzu.
7. Neptune
Ereduak sortzeko metadatuak ML metadatuen biltegiak kudeatzen ditu, hau da, MLOps pilaren alderdi garrantzitsu bat. MLOps lan-fluxu bakoitzeko, Neptunek metadatuen biltegiratze zentralizatu gisa balio du.
Ikaskuntza automatikoko milaka ereduren jarraipena egin, ikusi eta konparatu ditzakezu leku bakarrean. Esperimentuen jarraipena, ereduen erregistroa eta ereduen jarraipena bezalako funtzioak barne hartzen ditu, baita lankidetza-interfaze bat ere. 25 tresna eta liburutegi ezberdin baino gehiago integratuta daude, ereduen prestakuntza eta hiperparametroak doitzeko tresna barne.
Neptunerekin bat egin dezakezu zure kreditu txartela erabili gabe. Gmail kontu bat nahikoa izango da bere ordez.
Pros
- Edozein kanalizazio, fluxu, kode-base edo esparrurekin integratzea erraza da.
- Denbora errealeko bistaratzeak, API erraza eta laguntza azkarra
- Neptune-rekin, zure esperimentuen datu guztien "babeskopia" bat egin dezakezu toki bakarrean, gero berreskuratu ahal izateko.
Cons
- Kode irekia guztiz irekia ez den arren, bertsio indibiduala nahikoa izango litzateke erabilera pribaturako, nahiz eta sarbide hori hilabete batera mugatuta dagoen.
- Diseinu akats txiki batzuk aurki daitezke.
Prezioak
Plataforma erabiltzen has zaitezke Banakako planarekin, denek erabiltzeko doan. Prezioen atala $ 150 hilean hasten da.
Ondorioa
Argitalpen honetan, datuak bertsioratzeko tresnarik onenak aztertu ditugu. Tresna bakoitzak, ikusi dugunez, bere ezaugarriak ditu. Batzuk doakoak ziren, beste batzuk ordainketa eskatzen zuten bitartean. Batzuk negozio txikien ereduari ondo egokitzen zaizkio, eta beste batzuk negozio handien ereduari hobeto egokitzen zaizkio.
Ondorioz, zure helburuetarako softwarerik onena hautatu behar duzu abantailak eta desabantailak neurtu ondoren. Premium produktu bat erosi aurretik doako probako bertsioa probatzea gomendatzen dizugu.
Utzi erantzun bat