Gagnafræðingar og vélanámssérfræðingar fást við umtalsverðan fjölda gagna af ýmsum gerðum í dæmigerðu gagnavísindaverkefni. Fjölmargar gerðir hafa verið þróaðar með ýmsum stillingum og eiginleikum, auk margra endurtekninga á breytustillingu til að ná sem bestum árangri.
Í slíkri atburðarás verður að fylgjast með og mæla allar gagnabreytingar og aðlögun líkanagerðarferla til að ákvarða hvað virkaði og hvað ekki. Það er líka mikilvægt að geta farið aftur í fyrri útgáfu og skoðað fyrri útkomu.
Gagnaútgáfustýring (DVC), sem aðstoðar við að stjórna gögnunum, undirliggjandi líkaninu og keyra endurtakanlegar niðurstöður, er ein slík tækni sem gerir okkur kleift að fylgjast með þessu öllu.
Í þessari færslu munum við skoða gagnaútgáfustýringu og bestu verkfærin til að nota. Byrjum.
Hvað er gagnaútgáfustýring?
Útgáfugerð er nauðsynleg fyrir öll framleiðslukerfi. Einn aðgangsstaður að nýjustu gögnunum. Sérhver auðlind sem er oft breytt, sérstaklega af nokkrum notendum á sama tíma, þarf að búa til endurskoðunarslóð til að halda utan um allar breytingar.
Útgáfustýringarkerfið ber ábyrgð á því að allir í teyminu séu á sömu síðu. Það tryggir að allir í teyminu séu að vinna að nýjustu útgáfunni af skránni og það sem meira er, að allir séu að vinna að sama verkefninu í einu.
Ef þú ert með réttan búnað geturðu náð þessu með lágmarks fyrirhöfn!
Þú munt hafa samræmd gagnasett og ítarlegt skjalasafn yfir allar rannsóknir þínar ef þú notar áreiðanlega gagnaútgáfustjórnunarstefnu. Gagnaútgáfutæki eru mikilvæg fyrir vinnuflæðið þitt ef þér er annt um endurgerðanleika, rekjanleika og ML líkanasögu.
Þeir hjálpa þér að eignast útgáfu af hlut, eins og kjötkássa af gagnasafni eða líkani, sem þú getur síðan notað til að bera kennsl á og bera saman. Þessi gagnaútgáfa er oft sett inn í lýsigagnastjórnunarlausnina þína til að tryggja að líkanþjálfunin þín sé útgáfa og endurtekin.
Bestu gagnaútgáfustýringartækin
Nú er kominn tími til að skoða bestu gagnaútgáfustýringarlausnirnar sem völ er á, sem þú getur notað til að fylgjast með hverjum hluta kóðans þíns.
1. git-lfs
Git LFS verkefnið er ókeypis í notkun. Innan Git er stórum skrám eins og hljóðsýnum, myndböndum, gagnagrunnum og myndum skipt út fyrir textabendingar og skráarinnihaldið er vistað á ytri netþjóni eins og GitHub.com eða GitHub Enterprise.
Það gerir þér kleift að nota Git til að gefa út gríðarlegar skrár - allt að nokkur GB að stærð - hýsa fleiri í Git geymslunum þínum með því að nota ytri geymslu og klóna og sækja stórar skráargeymslur hraðar. Þegar kemur að gagnastjórnun er þetta frekar létt lausn. Til að vinna með Git þarftu engar aukaskipanir, geymslukerfi eða verkfærasett.
Það takmarkar magn upplýsinga sem þú halar niður. Þetta þýðir að klónun og endurheimt stórra skráa úr geymslum verður hraðari. Bendarnir eru úr léttara efni og vísa á LFS.
Þar af leiðandi, þegar þú ýtir endurhverfinu þínu inn í aðalgeymsluna, uppfærist það hratt og tekur minna pláss.
Kostir
- Samlagast auðveldlega inn í þróunarvinnuflæði flestra fyrirtækja.
- Það er engin þörf á að meðhöndla aukaréttindi vegna þess að það notar sömu heimildir og Git geymslan.
Gallar
- Git LFS krefst þess að nota sérstaka netþjóna til að geyma gögnin þín. Fyrir vikið verða gagnavísindateymin þín læst inni og verkfræðiálag þitt mun aukast.
- Mjög sérhæft og getur þurft að nota margvísleg mismunandi verkfæri fyrir síðari áfanga í verkflæði gagnavísinda.
Verð
Það er ókeypis í notkun fyrir alla.
2. LakeFS
LakeFS er opinn uppspretta gagnaútgáfulausn sem geymir gögn í S3 eða GCS og hefur Git-líka greiningar- og skuldbindingarmynd sem stækkar í petabæt.
Þessi greiningarstefna gerir gagnavatnið þitt ACID samhæft með því að leyfa breytingum að gerast í aðskildum greinum sem hægt er að smíða, sameina og rúlla til baka í lotukerfinu og samstundis.
LakeFS gerir teymum kleift að búa til gagnavatnsaðgerðir sem eru endurteknar, atómbundnar og útgáfur. Það er nýbyrjaður á vettvangi, en það er kraftur sem þarf að meta.
Það notar Git-líka greiningar- og útgáfustýringaraðferð til að hafa samskipti við þig gagnavatn, skalanlegt upp í Petabytes af gögnum. Á exabæta mælikvarða geturðu athugað útgáfustýringu.
Kostir
- Git-líkar aðgerðir fela í sér greiningu, skuldbindingu, sameiningu og afturköllun.
- Pre-commit/merge krókar eru notaðir fyrir CI/CD athuganir á gögnum.
- Býður upp á flókna eiginleika eins og ACID viðskipti fyrir einfalda skýgeymslu eins og S3 og GCS, allt á meðan það er hlutlaust snið.
- Til baka breytingar á gögnum í rauntíma.
- Skalar auðveldlega, gerir það kleift að taka á móti mjög risastórum gagnavötnum. Útgáfustýring er hægt að veita fyrir bæði þróunar- og framleiðslustillingar.
Gallar
- LakeFS er ný vara, þannig að virkni og skjöl geta breyst hraðar en með fyrri lausnum.
- Þar sem það er einblínt á gagnaútgáfu þarftu að nota margs konar viðbótarverkfæri fyrir ýmsa hluta gagnafræðivinnuflæðisins.
Verð
Það er ókeypis í notkun fyrir alla.
3. DVC
Data Version Control er ókeypis gagnaútgáfulausn hönnuð fyrir gagnavísindi og vélanámsforrit. Það er forrit sem gerir þér kleift að skilgreina leiðsluna þína á hvaða tungumáli sem er.
Með því að stjórna stórum skrám, gagnasöfnum, vélanámslíkönum, kóða og svo framvegis gerir tólið vélnámslíkön deilanleg og endurgerð. Forritið fylgir forystu Git með því að bjóða upp á einfalda skipanalínu sem hægt er að setja upp í aðeins nokkrum skrefum.
Eins og nafnið gefur til kynna snýst DVC ekki aðeins um útgáfu gagna. Það auðveldar einnig stjórnun leiðslna og vélanámslíkana fyrir teymi.
Að lokum mun DVC hjálpa til við að bæta samkvæmni líkana liðsins þíns og endurtekningarhæfni þeirra. Í stað þess að nota flókin skráaviðskeyti og athugasemdir í kóða skaltu nýta þér Git greinar að prófa nýjar hugmyndir. Notaðu sjálfvirka mælikvarða til að ferðast í staðinn fyrir pappír og blýant.
Til að senda samræmda knippi af vél nám módel, gögn og kóða inn í framleiðslu, fjarlægar tölvur eða skrifborð samstarfsmanns, þú getur notað push/pull skipanir í stað tiltekinna forskrifta.
Kostir
- Það er létt, opið og virkar með öllum helstu skýjapöllum og geymslutegundum.
- Sveigjanlegt, óljóst hvað varðar snið og ramma og einfalt í framkvæmd.
- Hægt er að rekja alla þróun hvers ML líkan til frumkóða og gagna.
Gallar
- Leiðslustjórnun og DVC útgáfustýring eru órjúfanlega tengd. Það verður offramboð ef teymið þitt er nú þegar að nota aðra gagnaleiðsluvöru.
- Þar sem DVC er léttur gæti teymið þitt þurft að hanna viðbótareiginleika handvirkt til að gera það notendavænna.
Verð
Það er ókeypis í notkun fyrir alla.
4. DeltaLake
DeltaLake er opinn uppspretta geymslulag sem eykur áreiðanleika gagnavatnsins. Delta Lake styður ACID viðskipti og stigstærð lýsigagnastjórnun auk streymis og lotugagnavinnslu.
Það virkar með Apache Spark API og situr á núverandi gagnavatni þínu. Delta Sharing er fyrsta opna samskiptareglan í heimi fyrir örugga miðlun gagna í viðskiptum, sem gerir það einfalt að skiptast á gögnum við önnur fyrirtæki óháð tölvukerfum þeirra.
Delta Lakes eru fær um að meðhöndla petabytes af gögnum á auðveldan hátt. Lýsigögn eru geymd á sama hátt og gögn og notendur geta fengið þau með aðferðinni Describe Detail. Delta Lakes hefur einn arkitektúr sem getur lesið bæði straum- og lotugögn.
Upserts er einfalt að gera með því að nota Delta. Þessar uppfærslur eða sameiningar í Delta töflunni eru sambærilegar við SQL Merges. Þú getur notað það til að samþætta gögn úr öðrum gagnaramma inn í töfluna þína og framkvæma uppfærslur, innsetningar og eyðingar.
Kostir
- Margir möguleikar, eins og ACID viðskipti og öflug lýsigagnastjórnun, geta verið tiltæk í núverandi gagnageymslulausn þinni.
- Delta Lake getur nú áreynslulaust stjórnað töflum með milljörðum skiptinga og skráa á petabæta mælikvarða.
- Dregur úr þörfinni fyrir handvirka gagnaútgáfustýringu og aðrar áhyggjur af gögnum, sem gerir forriturum kleift að einbeita sér að því að þróa vörur ofan á gagnavötnum sínum.
Gallar
- Þar sem það var hannað til að vinna með Spark og gríðarstór gögn, er Delta Lake yfirleitt of mikið fyrir flest verkefni.
- Það krefst þess að nota sérstakt gagnasnið, sem takmarkar sveigjanleika þess og gerir það ósamrýmanlegt núverandi eyðublöðum þínum.
Verð
Það er ókeypis í notkun fyrir alla.
5. Dolt
Dolt er SQL gagnagrunnur sem gerir gaffal, klónun, greiningu, sameiningu, ýta og toga á sama hátt og git geymsla gerir. Til að bæta notendaupplifun útgáfustýringargagnagrunns leyfir Dolt gögnum og uppbyggingu að breytast samstillt.
Það er frábært tól fyrir þig og vinnufélaga þína til að vinna saman. Þú getur tengst Dolt á sama hátt og þú myndir gera við annan MySQL gagnagrunn og keyrt fyrirspurnir eða gert breytingar á gögnunum með því að nota SQL skipanir.
Þegar kemur að útgáfu gagna er Dolt einstakt. Dolt er gagnagrunnur, öfugt við sumar aðrar lausnir sem eru bara útgáfugögn. Þó að hugbúnaðurinn sé á fyrstu stigum, eru vonir bundnar við að gera hann fullkomlega samhæfan við Git og MySQL í náinni framtíð.
Allar skipanir sem þú kannast við að nota með Git munu einnig virka með Dolt. Git útgáfur skrár, Dolt útgáfur töflur. Notaðu skipanalínuviðmótið, flyttu inn CSV skrár, framkvæmdu breytingar þínar, birtu þær á fjarstýringu og sameinaðu breytingar liðsfélaga þíns.
Kostir
- Léttur og opinn uppspretta að hluta.
- Í samanburði við óljósari valkosti hefur það SQL viðmót, sem gerir það aðgengilegra fyrir gagnafræðinga.
Gallar
- Í samanburði við aðra gagnagrunnsútgáfuvalkosti er Dolt enn vara í þróun.
- Þar sem Dolt er gagnagrunnur verður þú að flytja gögnin þín inn í hann til að fá ávinninginn.
Verð
Allir eru velkomnir að nýta sér félagsfundinn. Vettvangurinn veitir ekki hágæða verðlagningu; í staðinn verður þú að hafa samband við þjónustuveituna.
6. Pachyderm
Pachyderm er ókeypis gagnavísindaútgáfustýringarkerfi með fullt af eiginleikum. Pachyderm Enterprise er öflugur gagnavísindavettvangur hannaður fyrir stórfellda samvinnu í mjög öruggu umhverfi.
Pachyderm er einn af fáum gagnavísindakerfum listans. Markmið Pachyderm er að bjóða upp á vettvang sem stjórnar öllu gagnaferlinu og gerir það einfalt að afrita niðurstöður vélanámslíkana. Pachyderm er þekktur sem „hafnarmaður gagna“ í þessu samhengi. Pachyderm pakkar upp framkvæmdaumhverfinu þínu með því að nota Docker gáma. Þetta gerir það einfalt að afrita sömu niðurstöður.
Gagnafræðingar og DevOps teymi geta sett upp líkön af öryggi þökk sé samsetningu útfærðra gagna með Docker. Þökk sé skilvirku geymslukerfi er hægt að viðhalda petabætum af skipulögðum og ómótuðum gögnum á meðan geymslukostnaði er haldið í lágmarki.
Í gegnum leiðsluáföngin veitir skráarbundin útgáfugerð ítarlega endurskoðunarskrá fyrir öll gögn og gripi, þar með talið milliúttak. Margir möguleikar tólsins eru knúnir áfram af þessum stoðum, sem hjálpa teymum að fá sem mest út úr því.
Kostir
- Byggt á gámum verður gagnaumhverfi þitt færanlegt og auðvelt að flytja á milli skýjaveitna.
- Öflugur, með getu til að skala frá litlum til mjög stórum kerfum.
Gallar
- Þar sem það eru svo margir hreyfanlegir þættir, eins og Kubernetes netþjónninn sem er nauðsynlegur til að takast á við ókeypis útgáfu Pachyderm, er brattari námsferill.
- Pachyderm gæti verið krefjandi að fella inn í núverandi innviði fyrirtækis vegna margra tækniþátta þess.
Verð
Þú getur byrjað að nota vettvanginn með samfélagslotunni og fyrir fyrirtækisútgáfuna þarftu að hafa samband við söluaðilann.
7. Neptune
Lýsigögnum fyrir líkanagerð er stjórnað af ML lýsigagnageymslunni, sem er mikilvægur þáttur í MLOps staflanum. Fyrir hvert MLOps verkflæði þjónar Neptune sem miðlæg lýsigagnageymsla.
Þú getur fylgst með, séð og borið saman þúsundir vélanámslíkana allt á einum stað. Það felur í sér eiginleika eins og tilraunamælingu, líkanaskrá og líkanavöktun, auk samvinnuviðmóts. Það inniheldur yfir 25 mismunandi verkfæri og samþætt bókasöfn, þar á meðal nokkur módelþjálfun og stillingartæki fyrir hyperparameter.
Þú getur skráð þig í Neptune án þess að nota kreditkortið þitt. Gmail reikningur dugar í staðinn.
Kostir
- Samþætting við hvaða leiðslu, flæði, kóðagrunn eða ramma er einföld.
- Rauntíma sjónmyndirnar, auðveld API og skjótur stuðningur
- Með Neptune geturðu búið til „afrit“ af öllum tilraunagögnum þínum á einum stað, sem þú getur endurheimt síðar.
Gallar
- Þó ekki sé algjörlega opinn uppspretta myndi einstök útgáfa væntanlega nægja til einkanota, þó að slíkur aðgangur sé takmarkaður við einn mánuð.
- Það eru nokkra litla hönnunargalla að finna.
Verð
Þú getur byrjað að nota pallinn með einstaklingsáætluninni sem er ókeypis fyrir alla. Verðlagningarhlutinn byrjar frá $150 á mánuði.
Niðurstaða
Í þessari færslu ræddum við bestu gagnaútgáfutækin. Hvert tól, eins og við höfum séð, hefur sitt eigið sett af eiginleikum. Sumir voru ókeypis en aðrir kröfðust greiðslu. Sumt hentar vel fyrir litla viðskiptamódelið en annað hentar betur stóru viðskiptamódelinu.
Þar af leiðandi verður þú að velja besta hugbúnaðinn fyrir tilgang þinn eftir að hafa vegið kosti og galla. Við hvetjum þig til að prófa ókeypis prufuútgáfuna áður en þú kaupir úrvalsvöru.
Skildu eftir skilaboð