Table of Contents[Ferstopje][Toanje]
Gegevenswittenskippers en professionals foar masine-learen omgean mei in signifikant oantal gegevens fan ferskate soarten yn in typysk datawittenskipprojekt. Tal fan modellen binne ûntwikkele mei ferskate konfiguraasjes en funksjes, lykas ek meardere iteraasjes fan parameter tuning om de optimale prestaasjes te krijen.
Yn sa'n senario moatte alle gegevensmodifikaasjes en oanpassingen fan modelbouproses wurde kontrolearre en mjitten om te bepalen wat wurke en wat net. It is ek essinsjeel om werom te kinnen nei in eardere edysje en nei eardere útkomsten te sjen.
Data Ferzjekontrôle (DVC), dy't helpt by it behearen fan de gegevens, it ûnderlizzende model, en it útfieren fan reprodusearjende útkomsten, is sa'n technology dy't ús yn steat stelt om dit alles te kontrolearjen.
Yn dit post sille wy nau ûndersykje nei Data Ferzjekontrôle, en de bêste ark om te brûken. Litte wy begjinne.
Wat is gegevensferzjekontrôle?
Ferzje is fereaske foar alle produksjesystemen. Ien inkeld punt fan tagong ta de meast aktuele gegevens. Elke boarne dy't faak wizige wurdt, benammen troch ferskate brûkers tagelyk, hat it oanmeitsjen fan in kontrôlespoar nedich om alle feroarings by te hâlden.
It ferzjekontrôlesysteem is ferantwurdlik foar it garandearjen dat elkenien yn it team op deselde side is. It garandearret dat elkenien yn it team wurket oan 'e meast resinte ferzje fan it bestân en, noch wichtiger, dat elkenien tagelyk oan itselde projekt gearwurket.
As jo de goede apparatuer hawwe, kinne jo dit mei minimale ynspanning berikke!
Jo sille konsekwinte datasets hawwe en in yngeand argyf fan al jo ûndersyk as jo in betroubere strategy foar behear fan gegevensferzjes brûke. Gegevensferzje-ark binne kritysk foar jo workflow as jo soarchje oer reprodusearberens, traceerberens en ML-modelskiednis.
Se helpe jo in ferzje fan in item te krijen, lykas in hash fan in dataset of model, dy't jo dan kinne brûke om te identifisearjen en te fergelykjen. Dizze gegevensferzje wurdt faak ynfierd yn jo oplossing foar metadatabehear om te garandearjen dat jo modeltraining ferzje en werhelle is.
Bêste ark foar gegevensferzjekontrôle
No is it tiid om te sjen nei de moaiste oplossings foar kontrôle foar gegevensferzjes dy't jo kinne brûke om elk diel fan jo koade by te hâlden.
1. GFS LFS
It Git LFS-projekt is fergees te brûken. Binnen Git wurde grutte bestannen lykas audio-samples, fideo's, databases en foto's ferfongen troch tekstoanwizers, en de bestânynhâld wurdt opslein op in tsjinner op ôfstân lykas GitHub.com of GitHub Enterprise.
It lit jo Git brûke foar ferzje enoarme bestannen - oant ferskate GB yn grutte - host mear yn jo Git-repositories mei gebrûk fan eksterne opslach, en klonen en ophelje grutte bestânrepositories rapper. As it giet om gegevensbehear, is dit in frij ljochte oplossing. Om mei Git te wurkjen hawwe jo gjin ekstra kommando's, opslachsystemen of toolkits nedich.
It beheint de kwantiteit fan ynformaasje dy't jo downloade. Dit ymplisearret dat it klonen en opheljen fan grutte bestannen fan repositories flugger sil wêze. De oanwizers binne makke fan in lichter materiaal en wize op de LFS.
As gefolch, as jo jo repo yn 'e haadrepository triuwe, wurdt it rap bywurke en nimt minder romte yn.
pros
- Yntegreart maklik yn 'e ûntwikkelingswurkflows fan' e measte bedriuwen.
- D'r is gjin ferlet om ekstra rjochten te behanneljen, om't it deselde tagongsrjochten brûkt as it Git-repository.
Cons
- Git LFS fereasket it gebrûk fan tawijd servers om jo gegevens op te slaan. As resultaat sille jo teams foar gegevenswittenskip opsletten wurde, en sil jo wurkdruk yn engineering tanimme.
- Hiel spesjalisearre, en kin it gebrûk fan in ferskaat oan ferskillende ark nedich wêze foar folgjende fazen yn 'e datawittenskiplike workflow.
Pricing
It is fergees te brûken foar elkenien.
2. LakeFS
LakeFS is in oplossing foar iepen boarne gegevensferzje dy't gegevens opslaat yn S3 of GCS en hat in Git-lykas fertakking en ynsette paradigma dat skalen nei petabytes.
Dizze fertakkingstrategy makket jo gegevensmar ACID-kompatibel trochdat feroaringen barre kinne yn ûnderskate tûken dy't atomysk en daliks kinne wurde oanboud, gearfoege en weromrôle.
LakeFS stelt teams yn steat om gegevensmaraktiviteiten te meitsjen dy't repetearber, atoom en ferzje binne. It is in newbie op it toaniel, mar it is in krêft om rekken te hâlden.
It brûkt in Git-like branching- en ferzjekontrôle oanpak om te ynteraksje mei jo data lake, skaalber oant Petabytes oan gegevens. Op in exabyte skaal kinne jo kontrolearje op ferzjekontrôle.
pros
- Git-like operaasjes omfetsje branching, commiting, gearfoegje, en weromsette.
- Pre-commit / gearfoegje heakjes wurde brûkt foar gegevens CI / CD kontrôles.
- Biedt komplekse funksjes lykas ACID-transaksjes foar ienfâldige wolkopslach lykas S3 en GCS, allegear wylst it formaat neutraal bliuwt.
- Feroarje wizigingen yn gegevens yn real-time werom.
- Skaal maklik, wêrtroch it heul enoarme gegevensmarren kin passe. Ferzjekontrôle kin wurde levere foar sawol ûntwikkeling as produksjeynstellingen.
Cons
- LakeFS is in nij produkt, dus funksjonaliteit en dokumintaasje kinne flugger feroarje dan mei eardere oplossingen.
- Om't it rjochte is op ferzjeferzje fan gegevens, sille jo in ferskaat oan ekstra ark moatte brûke foar ferskate dielen fan 'e workflow fan gegevenswittenskip.
Pricing
It is fergees te brûken foar elkenien.
3. DVC
Data Ferzjekontrôle is in fergese oplossing foar gegevensferzje-ferzje ûntworpen foar applikaasjes foar gegevenswittenskip en masine-learen. It is in programma wêrmei jo jo pipeline yn elke taal kinne definiearje.
Troch it behearen fan grutte bestannen, datasets, masine-learmodellen, koade, ensafuorthinne, makket it ark masine-learmodellen te dielen en reprodusearber. It programma folget Git's lieding by it leverjen fan in ienfâldige kommandorigel dy't yn mar in pear stappen kin wurde ynsteld.
Lykas de namme al fermoeden docht, giet DVC net allinich oer gegevensferzje. It fasilitearret ek it behear fan pipelines en masine-learmodellen foar teams.
Uteinlik sil DVC helpe by it ferbetterjen fan de konsistinsje fan 'e modellen fan jo team en har werhelling. Ynstee fan it brûken fan yngewikkelde triem-efterheaksels en opmerkings yn koade, profitearje fan Giet takken om nije ideeën út te probearjen. Om te reizgjen, brûk automatyske metryske tracking ynstee fan papier en potlead.
Te ferstjoeren konsekwint bondels fan masine learen modellen, gegevens en koade yn produksje, fiere kompjûters, of it buroblêd fan in kollega, kinne jo push-/pull-kommando's brûke ynstee fan ad-hoc-skripts.
pros
- It is lichtgewicht, iepen boarne, en wurket mei alle grutte wolkplatfoarms en opslachsoarten.
- Fleksibel, agnostysk fan opmaak en ramt, en ienfâldich te ymplementearjen.
- De heule evolúsje fan elk ML-model kin weromfierd wurde nei syn boarnekoade en gegevens.
Cons
- Pipelinebehear en DVC-ferzjekontrôle binne ûnskiedber keppele. D'r sil redundânsje wêze as jo team al in oar datapipelineprodukt brûkt.
- Om't DVC lichtgewicht is, moat jo team mooglik ekstra funksjes manuell ûntwerpe om it brûkerfreonliker te meitsjen.
Pricing
It is fergees te brûken foar elkenien.
4. DeltaLake
DeltaLake is in iepen-boarne opslachlaach dy't de betrouberens fan gegevensmar fergruttet. Delta Lake stipet ACID-transaksjes en skalberber metadatabehear neist streaming en batchgegevensferwurking.
It wurket mei Apache Spark API's en sit op jo besteande gegevensmar. Delta Sharing is it earste iepen protokol fan 'e wrâld foar feilich dielen fan gegevens yn bedriuw, wêrtroch it ienfâldich is om gegevens te wikseljen mei oare bedriuwen ûnôfhinklik fan har kompjûtersystemen.
Delta Lakes binne yn steat om petabytes oan gegevens mei gemak te behanneljen. Metadata wurde op deselde manier opslein as gegevens, en brûkers kinne it krije mei de Describe Detail-metoade. Delta Lakes hat ien arsjitektuer dy't sawol stream- as batchgegevens kin lêze.
Upserts binne ienfâldich te dwaan mei Delta. Dizze upserts of gearfoegingen yn 'e Delta-tabel binne te fergelykjen mei SQL Merges. Jo kinne it brûke om gegevens fan in oar gegevensframe yn jo tabel te yntegrearjen en updates, ynfoegingen en wiskjen út te fieren.
pros
- In protte mooglikheden, lykas ACID-transaksjes en robúst metadatabehear, kinne beskikber wêze yn jo hjoeddeistige oplossing foar gegevensopslach.
- Delta Lake kin no maklik tabellen beheare mei miljarden partysjes en bestannen op in petabyte-skaal.
- Ferminderet de needsaak foar hânmjittige gegevensferzjekontrôle en oare gegevenssoarch, wêrtroch ûntwikkelders har konsintrearje kinne op it ûntwikkeljen fan produkten boppe op har gegevensmarren.
Cons
- Om't it is ûntworpen om te wurkjen mei Spark en enoarme gegevens, is Delta Lake oer it algemien tefolle foar de measte taken.
- It fereasket it gebrûk fan in tawijd gegevensformaat, wat syn fleksibiliteit beheint en it ynkompatibel makket mei jo hjoeddeistige foarmen.
Pricing
It is fergees te brûken foar elkenien.
5. Dolt
Dolt is in SQL-database dy't forking, cloning, branching, gearfoegje, triuwe en lûke op deselde manier as in git repository docht. Om de brûkersûnderfining fan in databank foar ferzjekontrôle te ferbetterjen, lit Dolt gegevens en struktuer syngronisearje.
It is in poerbêst ark foar jo en jo kollega's om oan te wurkjen. Jo kinne ferbine mei Dolt op deselde wize as jo soene mei in oare MySQL-database en queries útfiere of wizigingen oanmeitsje oan de gegevens mei SQL-kommando's.
As it giet om gegevensferzje, is Dolt ien-of-a-soarte. Dolt is in databank, yn tsjinstelling ta guon fan 'e oare oplossingen dy't gewoan ferzjegegevens. Wylst de software op it stuit yn syn iere stadia is, binne d'r hoop om it yn 'e heine takomst folslein kompatibel te meitsjen mei Git en MySQL.
Alle kommando's dy't jo bekend binne mei it brûken fan Git sille ek wurkje mei Dolt. Git-ferzjebestannen, Dolt-ferzjestabellen Brûk de kommandorigelynterface, ymportearje CSV-bestannen, commit jo wizigingen, publisearje se op in ôfstân, en fusearje de wizigingen fan jo teammate.
pros
- Lichtgewicht en iepen Boarne foar in part.
- Yn ferliking mei mear obskure karren hat it in SQL-ynterface, wêrtroch it tagonkliker is foar gegevensanalisten.
Cons
- Yn ferliking mei oare alternativen foar databankferzje is Dolt noch in ûntwikkeljend produkt.
- Om't Dolt in databank is, moatte jo jo gegevens deryn oerdrage om de foardielen te krijen.
Pricing
Elkenien is wolkom om de mienskipssesje te brûken. It platfoarm jout gjin premium prizen; ynstee, Jo moatte kontakt opnimme mei de provider.
6. Pachyderm
Pachyderm is in fergees kontrôlesysteem foar gegevenswittenskip mei in protte funksjes. Pachyderm Enterprise is in krêftich platfoarm foar gegevenswittenskip ûntworpen foar grutskalige gearwurking yn heul feilige omjouwings.
Pachyderm is ien fan 'e pear platfoarms foar gegevenswittenskip yn' e list. It doel fan Pachyderm is om in platfoarm te leverjen dat de folsleine gegevenssyklus beheart en it ienfâldich makket om de befinings fan masine-learmodellen te duplikearjen. Pachyderm is yn dit ferbân bekend as "de Docker of Data". Pachyderm ferpakt jo útfieringsomjouwing mei Docker-konteners. Dit makket it ienfâldich om deselde resultaten te duplisearje.
Gegevenswittenskippers en DevOps-teams kinne modellen mei fertrouwen ynsette troch de kombinaasje fan ferzjesearre gegevens mei Docker. Mei tank oan in effisjint opslachsysteem kinne petabytes fan strukturearre en net-strukturearre gegevens wurde ûnderhâlden, wylst opslachkosten op in minimum wurde hâlden.
Yn 'e rin fan' e pipeline-fazen leveret bestân-basearre ferzjes in yngeand kontrôlerekord foar alle gegevens en artefakten, ynklusyf tuskenútgongen. In protte fan 'e mooglikheden fan it ark wurde dreaun troch dizze pylders, dy't teams helpe om it measte út te heljen.
pros
- Op grûn fan konteners sille jo gegevensomjouwings draachber wêze en maklik oer te dragen tusken wolkproviders.
- Robuust, mei de mooglikheid om te skaaljen fan lyts nei ekstreem grutte systemen.
Cons
- Om't d'r safolle bewegende eleminten binne, lykas de Kubernetes-tsjinner nedich om de fergese edysje fan Pachyderm te behanneljen, is d'r in steiler learkurve.
- Pachyderm kin in útdaging wêze om yn 'e besteande ynfrastruktuer fan in bedriuw op te nimmen fanwegen syn protte technologyske komponinten.
Pricing
Jo kinne begjinne mei it brûken fan it platfoarm mei de mienskip sesje en foar de ûndernimming edysje, jo moatte kontakt opnimme mei de ferkeaper.
7. Neptun
Metadata foar modelbou wurdt beheard troch de ML-metadatawinkel, wat in wichtich aspekt is fan 'e MLOps-stapel. Foar elke MLOps-workflow tsjinnet Neptunus as sintralisearre metadata-opslach.
Jo kinne tûzenen masine learmodellen byhâlde, visualisearje en fergelykje allegear op ien plak. It omfettet funksjes lykas it folgjen fan eksperiminten, modelregistraasje, en modelmonitoring, lykas ek in gearwurkjende ynterface. It omfettet mear dan 25 ferskillende ark en biblioteken yntegreare, ynklusyf ferskate modeltraining en ark foar tuning fan hyperparameters.
Jo kinne meidwaan oan Neptunus sûnder jo kredytkaart te brûken. In Gmail akkount sil genôch wêze yn syn plak.
pros
- Yntegraasje mei elke pipeline, flow, codebase, as ramt is ienfâldich.
- De real-time fisualisaasjes, de maklike API, en de rappe stipe
- Mei Neptune kinne jo op ien lokaasje in "reservekopy" meitsje fan alle gegevens fan jo eksperiminten, dy't jo letter kinne weromhelje.
Cons
- Hoewol net folslein iepen boarne, soe in yndividuele ferzje nei alle gedachten genôch wêze foar privee gebrûk, hoewol sa'n tagong is beheind ta ien moanne.
- D'r binne in pear lytse ûntwerpflakken te finen.
Pricing
Jo kinne it platfoarm begjinne te brûken mei it Yndividueel plan dat fergees is foar elkenien. De priisseksje begjint fan $ 150 / moanne.
Konklúzje
Yn dit post hawwe wy de bêste ark foar gegevensferzje besprutsen. Elk ark, lykas wy hawwe sjoen, hat syn eigen set funksjes. Guon wiene fergees, wylst oaren betelling easke. Guon binne goed geskikt foar de lytse saaklike model, wylst oaren binne better geskikt foar de grutte saaklike model.
As gefolch moatte jo de moaiste software foar jo doelen selektearje nei it weagjen fan de foardielen en neidielen. Wy moedigje jo oan dat jo de fergese proefferzje testen foardat jo in premium produkt keapje.
Leave a Reply