Data wetenskaplikes en masjienleer-professionals hanteer 'n aansienlike aantal data van verskillende tipes in 'n tipiese datawetenskapprojek. Talle modelle is ontwikkel met verskeie konfigurasies en kenmerke, sowel as veelvuldige herhalings van parameterinstelling om die optimale werkverrigting te kry.
In so 'n scenario moet alle datamodifikasies en modelbouprosesaanpassings gemonitor en gemeet word om te bepaal wat gewerk het en wat nie. Dit is ook noodsaaklik om na 'n vorige uitgawe terug te kan gaan en na vorige uitkomste te kyk.
Data Weergawebeheer (DVC), wat help met die bestuur van die data, die onderliggende model en die uitvoer van herhaalbare uitkomste, is een so 'n tegnologie wat ons in staat stel om dit alles te monitor.
In hierdie pos sal ons noukeurig kyk na dataweergawebeheer en die beste gereedskap om te gebruik. Laat ons begin.
Wat is dataweergawebeheer?
Weergawe word vereis vir alle produksiestelsels. 'n Enkele toegangspunt tot die mees onlangse data. Enige hulpbron wat dikwels gewysig word, veral deur verskeie gebruikers op dieselfde tyd, moet 'n ouditspoor skep om tred te hou met alle veranderinge.
Die weergawebeheerstelsel is daarvoor verantwoordelik om te verseker dat almal in die span op dieselfde bladsy is. Dit waarborg dat almal in die span aan die mees onlangse weergawe van die lêer werk en, nog belangriker, dat almal op 'n slag aan dieselfde projek saamwerk.
As jy die regte toerusting het, kan jy dit met minimale moeite doen!
Jy sal konsekwente datastelle en 'n deeglike argief van al jou navorsing hê as jy 'n betroubare dataweergawebestuurstrategie gebruik. Dataweergawe-nutsgoed is van kritieke belang vir jou werkvloei as jy omgee vir reproduceerbaarheid, naspeurbaarheid en ML-modelgeskiedenis.
Hulle help jou om 'n weergawe van 'n item te verkry, soos 'n hash van 'n datastel of model, wat jy dan kan gebruik om te identifiseer en te vergelyk. Hierdie dataweergawe word dikwels in jou metadata-bestuursoplossing ingevoer om te verseker dat jou modelopleiding weergawe en herhaalbaar is.
Beste dataweergawebeheerinstrumente
Nou is dit tyd om te kyk na die beste dataweergawebeheeroplossings wat beskikbaar is, wat jy kan gebruik om tred te hou met elke deel van jou kode.
1. git-lfs
Die Git LFS-projek is gratis om te gebruik. Binne Git word groot lêers soos oudiomonsters, video's, databasisse en foto's vervang met tekswysers, en die lêerinhoud word op 'n afgeleë bediener soos GitHub.com of GitHub Enterprise gestoor.
Dit laat jou toe om Git te gebruik om enorme lêers te weergawe - tot 'n paar GB groot - meer in jou Git-bewaarplekke te huisves deur eksterne berging te gebruik, en groot lêerbewaarplekke vinniger te kloon en op te haal. Wat databestuur betref, is dit 'n redelik ligte oplossing. Om met Git te werk, het jy geen ekstra opdragte, bergingstelsels of gereedskapstelle nodig nie.
Dit beperk die hoeveelheid inligting wat jy aflaai. Dit impliseer dat die kloning en herwinning van groot lêers uit bewaarplekke vinniger sal wees. Die wysers is gemaak van 'n ligter materiaal en wys na die LFS.
As gevolg hiervan, wanneer u u repo in die hoofbewaarplek druk, word dit vinnig opgedateer en neem dit minder spasie op.
Pros
- Integreer maklik in die ontwikkelingswerkvloei van die meeste besighede.
- Dit is nie nodig om ekstra regte te hanteer nie, want dit gebruik dieselfde toestemmings as die Git-bewaarplek.
Nadele
- Git LFS noodsaak die gebruik van toegewyde bedieners om jou data te stoor. Gevolglik sal jou datawetenskapspanne toegesluit word, en jou ingenieurswerklading sal toeneem.
- Baie gespesialiseerd, en kan die gebruik van 'n verskeidenheid verskillende instrumente vir opvolgende fases in die datawetenskap-werkvloei noodsaak.
pryse
Dit is gratis om te gebruik vir almal.
2. LakeFS
LakeFS is 'n oopbron-dataweergawe-oplossing wat data in S3 of GCS stoor en het 'n Git-agtige vertakkings- en pleegparadigma wat tot petagrepe skaal.
Hierdie vertakkingstrategie maak jou datameer ACID aanpasbaar deurdat veranderinge in verskillende takke kan plaasvind wat atomies en oombliklik gekonstrueer, saamgevoeg en teruggerol kan word.
LakeFS stel spanne in staat om datameeraktiwiteite te skep wat herhaalbaar, atoom en weergawe is. Dit is 'n nuweling op die toneel, maar dit is 'n krag om mee rekening te hou.
Dit gebruik 'n Git-agtige vertakking en weergawe beheer benadering om met jou te kommunikeer data meer, skaalbaar tot Petagrepe data. Op 'n exabyte-skaal kan jy kyk vir weergawebeheer.
Pros
- Git-agtige bedrywighede sluit in vertakking, commit, samesmelting en terugkeer.
- Pre-commit/merge-hakies word gebruik vir data-CI/CD-kontroles.
- Verskaf komplekse kenmerke soos ACID-transaksies vir eenvoudige wolkberging soos S3 en GCS, alles terwyl dit formaatneutraal bly.
- Stel veranderinge aan data intyds terug.
- Skaal maklik, wat dit toelaat om baie groot data-mere te akkommodeer. Weergawebeheer kan verskaf word vir beide ontwikkeling en produksie instellings.
Nadele
- LakeFS is 'n nuwe produk, dus kan funksionaliteit en dokumentasie vinniger verander as met vorige oplossings.
- Aangesien dit op dataweergawe gefokus is, sal jy 'n verskeidenheid bykomende gereedskap vir verskeie dele van die datawetenskap-werkvloei moet gebruik.
pryse
Dit is gratis om te gebruik vir almal.
3. DVC
Data Weergawebeheer is 'n gratis dataweergawe-oplossing wat ontwerp is vir toepassings vir datawetenskap en masjienleer. Dit is 'n program waarmee jy jou pyplyn in enige taal kan definieer.
Deur groot lêers, datastelle, masjienleermodelle, kode, ensovoorts te bestuur, maak die instrument masjienleermodelle deelbaar en reproduseerbaar. Die program volg Git se leiding in die verskaffing van 'n eenvoudige opdragreël wat in slegs 'n paar stappe opgestel kan word.
Soos die naam aandui, gaan DVC nie net oor dataweergawe nie. Dit vergemaklik ook die bestuur van pyplyne en masjienleermodelle vir spanne.
Laastens sal DVC help om die konsekwentheid van jou span se modelle en hul herhaalbaarheid te verbeter. In plaas daarvan om ingewikkelde lêeragtervoegsels en opmerkings in kode te gebruik, maak gebruik van Git takke om nuwe idees uit te probeer. Gebruik outomatiese metrieke nasporing in plaas van papier en potlood om te reis.
Om konsekwente bundels van oor te dra machine learning modelle, data en kode in produksie, verre rekenaars, of 'n kollega se lessenaar, kan jy druk/trek-opdragte gebruik in plaas van ad-hoc-skrifte.
Pros
- Dit is liggewig, oopbron en werk met alle groot wolkplatforms en bergingssoorte.
- Buigsaam, agnosties van formaat en raamwerk, en maklik om te implementeer.
- Elke ML-model se hele evolusie kan teruggevoer word na sy bronkode en data.
Nadele
- Pyplynbestuur en DVC-weergawebeheer is onlosmaaklik verbind. Daar sal oortolligheid wees as jou span reeds 'n ander datapyplynproduk gebruik.
- Aangesien DVC liggewig is, sal jou span dalk bykomende kenmerke met die hand moet ontwerp om dit meer gebruikersvriendelik te maak.
pryse
Dit is gratis om te gebruik vir almal.
4. Deltameer
DeltaLake is 'n oopbron-berginglaag wat die betroubaarheid van die datameer 'n hupstoot gee. Delta Lake ondersteun ACID-transaksies en skaalbare metadatabestuur bykomend tot stroom- en bondeldataverwerking.
Dit werk met Apache Spark API's en sit op jou bestaande datameer. Delta Sharing is die wêreld se eerste oop protokol vir veilige datadeling in besigheid, wat dit maklik maak om data met ander besighede uit te ruil, onafhanklik van hul rekenaarstelsels.
Delta Lakes is in staat om petagrepe data met gemak te hanteer. Metadata word op dieselfde manier as data gestoor, en gebruikers kan dit kry deur die Beskryf Detail-metode te gebruik. Delta Lakes het 'n enkele argitektuur wat beide stroom- en bondeldata kan lees.
Upserts is maklik om te doen met Delta. Hierdie upserts of samesmeltings in die Delta-tabel is vergelykbaar met SQL Merges. Jy kan dit gebruik om data van 'n ander dataraam in jou tabel te integreer en opdaterings, invoegings en verwyderings uit te voer.
Pros
- Baie vermoëns, soos ACID-transaksies en robuuste metadatabestuur, kan in u huidige databergingsoplossing beskikbaar wees.
- Delta Lake kan nou maklik tafels bestuur met miljarde partisies en lêers op 'n petagrepe-skaal.
- Verminder die behoefte aan handmatige dataweergawebeheer en ander datakwessies, wat ontwikkelaars in staat stel om op die ontwikkeling van produkte bo-op hul data-mere te konsentreer.
Nadele
- Aangesien dit ontwerp is om met Spark en groot data te werk, is Delta Lake oor die algemeen oordrewe vir die meeste take.
- Dit noodsaak die gebruik van 'n toegewyde dataformaat, wat die buigsaamheid daarvan beperk en dit onversoenbaar maak met jou huidige vorms.
pryse
Dit is gratis om te gebruik vir almal.
5. Dolt
Dolt is 'n SQL-databasis wat vurk, kloning, vertakking, samevoeging, stoot en trek op dieselfde manier as 'n git-bewaarplek doen. Om die gebruikerservaring van 'n weergawebeheerdatabasis te verbeter, laat Dolt toe dat data en struktuur in sinchronisasie verander.
Dit is 'n uitstekende hulpmiddel vir jou en jou kollegas om aan saam te werk. Jy kan aan Dolt koppel op dieselfde manier as wat jy aan enige ander MySQL-databasis sou doen en navrae uitvoer of veranderinge aan die data aanbring deur gebruik te maak van SQL-opdragte.
Wat dataweergawe betref, is Dolt enig in sy soort. Dolt is 'n databasis, in teenstelling met sommige van die ander oplossings wat net weergawe data. Terwyl die sagteware tans in sy vroeë stadiums is, is daar hoop om dit in die nabye toekoms ten volle versoenbaar te maak met Git en MySQL.
Al die opdragte waarmee jy vertroud is om met Git te gebruik, sal ook met Dolt werk. Git-weergaweslêers, Dolt-weergawestabelle Gebruik die opdragreëlkoppelvlak, voer CSV-lêers in, voer jou veranderinge in, publiseer dit op 'n afstandbeheer en voeg jou spanmaat se veranderinge saam.
Pros
- Liggewig en open source gedeeltelik.
- In vergelyking met meer obskure keuses, het dit 'n SQL-koppelvlak, wat dit meer toeganklik maak vir data-ontleders.
Nadele
- In vergelyking met ander alternatiewe vir databasisweergawes, is Dolt steeds 'n ontwikkelende produk.
- Aangesien Dolt 'n databasis is, moet u u data daarin oordra om die voordele te kry.
pryse
Almal is welkom om die gemeenskapsessie te gebruik. Die platform bied nie premium pryse nie; in plaas daarvan moet jy die verskaffer kontak.
6. Pachyderm
Pachyderm is 'n gratis datawetenskapweergawebeheerstelsel met baie funksies. Pachyderm Enterprise is 'n kragtige datawetenskapplatform wat ontwerp is vir grootskaalse samewerking in hoogs veilige omgewings.
Pachyderm is een van die lys se min datawetenskapplatforms. Pachyderm se doel is om 'n platform te verskaf wat die volledige datasiklus bestuur en dit maklik maak om die bevindinge van masjienleermodelle te dupliseer. Pachyderm staan in hierdie konteks bekend as "die Docker of Data". Pachyderm verpak u uitvoeringsomgewing met Docker-houers. Dit maak dit maklik om dieselfde resultate te dupliseer.
Datawetenskaplikes en DevOps-spanne kan modelle met selfvertroue ontplooi danksy die kombinasie van weergawedata met Docker. Danksy 'n doeltreffende bergingstelsel kan petagrepe gestruktureerde en ongestruktureerde data in stand gehou word terwyl bergingskoste tot 'n minimum beperk word.
Dwarsdeur die pyplynfases bied lêergebaseerde weergawe 'n deeglike ouditrekord vir alle data en artefakte, insluitend intermediêre uitsette. Baie van die instrument se vermoëns word deur hierdie pilare gedryf, wat spanne help om die meeste daaruit te haal.
Pros
- Gebaseer op houers, sal jou data-omgewings draagbaar wees en maklik wees om tussen wolkverskaffers oor te dra.
- Robuust, met die vermoë om van klein tot uiters groot stelsels te skaal.
Nadele
- Aangesien daar soveel bewegende elemente is, soos die Kubernetes-bediener wat nodig is om Pachyderm se gratis uitgawe te hanteer, is daar 'n steiler leerkurwe.
- Pachyderm kan uitdagend wees om in 'n maatskappy se bestaande infrastruktuur te inkorporeer as gevolg van sy baie tegnologiese komponente.
pryse
U kan die platform met die gemeenskapsessie begin gebruik en vir die ondernemingsuitgawe moet u die verkoper kontak.
7. Neptune
Modelbou-metadata word bestuur deur die ML-metadatastoor, wat 'n belangrike aspek van die MLOps-stapel is. Vir elke MLOps-werkvloei dien Neptunus as gesentraliseerde metadataberging.
Jy kan duisende masjienleermodelle op een plek dophou, visualiseer en vergelyk. Dit bevat kenmerke soos eksperimentopsporing, modelregister en modelmonitering, sowel as 'n samewerkende koppelvlak. Dit bevat meer as 25 verskillende instrumente en biblioteke wat geïntegreer is, insluitend verskeie modelopleidings- en hiperparameter-instelgereedskap.
Jy kan aansluit by Neptune sonder om jou kredietkaart te gebruik. 'n Gmail-rekening sal in die plek daarvan voldoende wees.
Pros
- Integrasie met enige pyplyn, vloei, kodebasis of raamwerk is eenvoudig.
- Die intydse visualisasies, die maklike API en die vinnige ondersteuning
- Met Neptunus kan jy 'n "rugsteun" maak van al jou eksperimente se data op een plek, wat jy later kan herstel.
Nadele
- Alhoewel dit nie heeltemal oopbron is nie, sal 'n individuele weergawe vermoedelik voldoende wees vir privaat gebruik, hoewel sodanige toegang tot een maand beperk is.
- Daar is 'n paar klein ontwerpfoute om te vind.
pryse
U kan die platform begin gebruik met die individuele plan wat gratis is om vir almal te gebruik. Die prysafdeling begin vanaf $150 per maand.
Gevolgtrekking
In hierdie pos het ons die beste dataweergawe-instrumente bespreek. Elke instrument, soos ons gesien het, het sy eie stel kenmerke. Sommige was gratis, terwyl ander betaling vereis het. Sommige is goed geskik vir die klein besigheidsmodel, terwyl ander beter geskik is vir die groot besigheidsmodel.
As gevolg hiervan moet u die beste sagteware vir u doeleindes kies nadat u die voordele en nadele opgeweeg het. Ons moedig u aan dat u die gratis proefweergawe toets voordat u 'n premiumproduk koop.
Lewer Kommentaar