Table of Contents[Veşartin][Rêdan]
Zanyarên Data û pisporên fêrbûna makîneyê di projeyek zanistiya daneyê ya tîpîk de bi hejmareke girîng a daneyên cûrbecûr re mijûl dibin. Gelek modelên bi veavakirin û taybetmendiyên cihêreng, û her weha gelek dubareyên birêkûpêkkirina parametreyê hatine pêşve xistin da ku performansa çêtirîn bistînin.
Di senaryoyek weha de, hemî guheztinên daneyê û verastkirinên pêvajoya avakirina modelê divê bêne şopandin û pîvandin da ku were destnîşankirin ka çi kar kiriye û çi nekiriye. Di heman demê de girîng e ku meriv bikaribe vegere çapek berê û li encamên berê binêre.
Kontrola Guhertoya Daneyê (DVC), ku di rêvebirina daneyan, modela bingehîn, û meşandina encamên dubarekirî de dibe alîkar, teknolojiyek wusa ye ku rê dide me ku em van hemîyan bişopînin.
Di vê postê de, em ê ji nêz ve li Kontrola Guhertoya Daneyê, û amûrên çêtirîn ên bikar bînin binêrin. Were em destpêkin.
Kontrola Guhertoya Daneyê çi ye?
Versiyon ji bo hemî pergalên hilberînê hewce ye. Xalek yekane ya gihîştina daneyên herî nûjen. Her çavkaniyek ku pir caran tê guheztin, nemaze ji hêla çend bikarhêneran ve di heman demê de, pêdivî ye ku şopek lênêrînê were afirandin da ku hemî guhertinan bişopîne.
Pergala kontrolkirina guhertoyê berpirsiyar e ku her kes di tîmê de li ser heman rûpelê ye. Ew garantî dike ku her kes di tîmê de li ser guhertoya herî paşîn a pelê dixebite û, ya girîngtir, ku her kes di demekê de li ser heman projeyê hevkariyê dike.
Ger alavên we yên guncan hebin, hûn dikarin bi hewildana hindiktirîn vê yekê pêk bînin!
Ger hûn stratejiyek rêveberiya guhertoya daneya pêbawer bikar bînin hûn ê berhevokên daneya domdar û arşîvek bêkêmasî ya hemî lêkolîna we hebin. Ger hûn bala xwe bidin ji nû ve hilberandin, şopandin, û dîroka modela ML-ê amûrên guhertoya daneyê ji bo xebata we krîtîk in.
Ew ji we re dibin alîkar ku hûn guhertoyek babetekê, mîna hashek danegehek an modelek bidest bixin, ku hûn dûv re dikarin bikar bînin da ku nas bikin û berhev bikin. Vê guhertoya daneyê bi gelemperî têxe nav çareseriya rêveberiya metadata we da ku garantî bike ku perwerdehiya modela we guherto û dubare dibe.
Amûrên Kontrola Guhertoya Daneyên çêtirîn
Naha ew dem e ku meriv li çareseriyên herî baş ên kontrolkirina guhertoya daneyê ya berdest binêre, ku hûn dikarin bikar bînin da ku her beşek koda xwe bişopînin.
1. GF LFS
Projeya Git LFS karanîna belaş e. Di hundurê Git de, pelên mezin ên mîna nimûneyên deng, vîdyoy, databas û wêneyan bi nîşangirên nivîsê têne cîh kirin, û naveroka pelê li ser serverek dûr a mîna GitHub.com an GitHub Enterprise têne tomar kirin.
Ew dihêle hûn Git-ê ji bo guhertoya pelên pir mezin-bi mezinahiya çend GB-an bikar bînin- di depoyên Git-a xwe de ku hilanîna derveyî bikar tînin bêtir mêvandar bikin, û depoyên pelên mezin zûtir klon bikin û bistînin. Dema ku dor tê ser rêveberiya daneyê, ev çareseriyek pir sivik e. Ji bo ku hûn bi Git-ê re bixebitin, hûn ne hewce ne ku emrên zêde, pergalên hilanînê, an amûran.
Ew mîqdara agahdariya ku hûn dakêşin sînor dike. Ev tê vê wateyê ku klonkirin û derxistina pelên mezin ji depoyan dê zûtir be. Nîşanger ji materyalek siviktir têne çêkirin û berbi LFS-ê ve têne destnîşan kirin.
Wekî encamek, gava ku hûn depoya xwe bixin nav depoya sereke, ew zû nûve dike û cîhê kêmtir digire.
Pros
- Bi hêsanî di nav tevgerên pêşkeftinê yên pir karsaziyan de yek dibe.
- Ne hewce ye ku mafên zêde bi dest bixe ji ber ku ew heman destûrên wekî depoya Git bikar tîne.
Stewrê
- Git LFS ji bo hilanîna daneyên we pêdivî bi karanîna serverên diyarkirî hewce dike. Wekî encamek, tîmên zanistiya daneya we dê tê de bêne girtin, û barê xebata weya endezyariyê dê bilind bibe.
- Pir pispor e, û dibe ku ji bo qonaxên paşîn di xebata zanistiya daneyê de pêdivî bi karanîna cûrbecûr amûrên cihêreng hebe.
Pricing
Bikaranîna wê ji bo her kesî belaş e.
2. LakeFS
LakeFS çareseriyek guhertoya daneya çavkaniyek vekirî ye ku daneyan di S3 an GCS de hilîne û xwedan şaxek Git-ê ye û paradîgmayek pejirandî ye ku digihîje petabytes.
Ev stratejiya şaxkirinê bi rê ve dibe ku guhartin di şaxên cihêreng ên ku dikarin bi atomî û tavilê werin çêkirin, werin hev kirin û paşde bizivirin ACID-ê daneya we lihevhatî dike.
LakeFS rê dide tîmê ku çalakiyên gola daneyê yên ku dubare, atomî, û versiyonê ne biafirînin. Ew di dîmenê de nûjen e, lê ew hêzek e ku meriv jê re tête hesibandin.
Ew rêgezek şax û guhertoyek mîna Git-ê bikar tîne da ku bi we re têkilî daynin gola daneyê, heta Petabytesê daneyê mezin dibe. Li ser pîvanek exabyte, hûn dikarin ji bo kontrola guhertoyê kontrol bikin.
Pros
- Operasyonên mîna Git-ê şaxkirin, girêdan, hevgirtin û vegerandin hene.
- Ji bo kontrolên daneya CI/CD-ê çengên pêş-komkirin/hevgirtinê têne bikar anîn.
- Taybetmendiyên tevlihev ên mîna danûstendinên ACID-ê ji bo hilanîna ewr a hêsan ên mîna S3 û GCS peyda dike, hemî dema ku formata bêalî dimîne.
- Guhertinên di dema rast de li daneyan vegerînin.
- Bi hêsanî hûr dibe, dihêle ku ew golên daneya pir mezin bicîh bike. Kontrola guhertoyê hem ji bo mîhengên pêşkeftinê û hem jî ji bo hilberînê dikare were peyda kirin.
Stewrê
- LakeFS hilberek nû ye, ji ber vê yekê fonksiyon û belgekirin dibe ku ji çareseriyên berê zûtir biguhezin.
- Ji ber ku ew li ser guhertoya daneyê hûr dibe, hûn ê hewce bikin ku ji bo beşên cihêreng ên xebata zanistiya daneyê cûrbecûr amûrên pêvek bikar bînin.
Pricing
Bikaranîna wê ji bo her kesî belaş e.
3. DVC
Kontrola guhertoya daneyê çareseriyek guhertoya daneya belaş e ku ji bo serîlêdanên zanistiya daneyê û fêrbûna makîneyê hatî çêkirin. Ew bernameyek e ku dihêle hûn bi her zimanî rêzika xwe diyar bikin.
Bi rêvebirina pelên mezin, berhevokên daneyê, modelên fêrbûna makîneyê, kod û hwd, amûr modelên fêrbûna makîneyê parvekirî û dubare dike. Bername di peydakirina rêzek fermanê ya hêsan de ku tenê di çend gavan de were saz kirin rêberiya Git dişopîne.
Wekî ku navê wê diyar dike, DVC ne tenê di derbarê guhertoya daneyê de ye. Ew di heman demê de rêveberiya boriyan û modelên fêrbûna makîneyê ji bo tîmê hêsan dike.
Di dawiyê de, DVC dê di baştirkirina hevgirtina modelên tîmê we û dubarebûna wan de bibe alîkar. Li şûna ku hûn di kodê de paşgirên pelan û şîroveyên tevlihev bikar bînin, jê sûd werbigirin Git şaxên ku ramanên nû biceribînin. Ji bo rêwîtiyê, li şûna kaxez û qelemê şopandina metrîkê ya otomatîkî bikar bînin.
Ji bo veguheztina pakêtên hevgirtî yên fêrbûna makîneyê model, dane û kod di hilberandinê, komputerên dûr, an sermaseya hevkarek de, hûn dikarin li şûna nivîsarên ad-hoc fermanên push/kişandinê bikar bînin.
Pros
- Ew sivik e, çavkaniya vekirî ye, û bi hemî platformên ewr ên sereke û celebên hilanînê re dixebite.
- Pêkhatî, agnostîk ji form û çarçoweyê, û ji bo pêkanîna hêsan e.
- Tevahiya pêşkeftina her modela ML dikare li koda çavkaniyê û daneyên wê vegere.
Stewrê
- Rêvebiriya lûleyê û kontrola guhertoya DVC bi hevûdu ve girêdayî ne. Ger tîmê we jixwe hilberek din a lûleya daneyê bikar tîne dê zêdebûn hebe.
- Ji ber ku DVC sivik e, dibe ku tîmê we hewce bike ku taybetmendiyên din bi destan dîzayn bike da ku ew bikarhêner-hevaltir bike.
Pricing
Bikaranîna wê ji bo her kesî belaş e.
4. DeltaLake
DeltaLake qatek hilanînê-çavkaniyek vekirî ye ku pêbaweriya gola daneyê zêde dike. Delta Lake ji bilî guheztin û berhevkirina daneya berhevokê piştgirî dide danûstendinên ACID û rêveberiya metadata berbelav.
Ew bi API-yên Apache Spark re dixebite û li ser gola daneyên weya heyî rûniştiye. Parvekirina Delta yekem protokola vekirî ya cîhanê ye ji bo parvekirina daneyên ewle di karsaziyê de, ku danûstandina daneyan bi karsaziyên din ên serbixwe ji pergalên wan ên komputerê re hêsan dike.
Golên Delta dikarin bi hêsanî petabytes daneyan bi rê ve bibin. Metadata bi heman awayê daneyê têne hilanîn, û bikarhêner dikarin wê bi karanîna rêbaza Detail Detail bistînin. Golên Delta xwedan mîmariyek yekane ye ku dikare hem daneya herik û hem jî berhevokê bixwîne.
Bi karanîna Delta-yê jordan hêsan e. Van hilberandin an hevgirtinên di tabloya Delta de bi SQL Merges re têne berhev kirin. Hûn dikarin wê bikar bînin da ku daneyên ji çarçoveyek daneya din di tabloya xwe de yek bikin û nûvekirin, têxistin û jêbirinê pêk bînin.
Pros
- Gelek jêhatîbûn, mîna danûstendinên ACID û rêveberiya metadata bihêz, dikarin di çareseriya hilanîna daneya weya heyî de hebin.
- Delta Lake naha dikare tabloyên bi mîlyaran dabeş û pelan li ser pîvanek petabyte bi hêsanî birêve bibe.
- Pêdiviya kontrolkirina guhertoya daneya destan û fikarên din ên daneyê kêm dike, rê dide pêşdebiran ku li ser pêşdebirina hilberan li ser golên daneya xwe hûr bibin.
Stewrê
- Ji ber ku ew hate sêwirandin ku bi Spark û daneyên mezin re bixebite, Gola Delta bi gelemperî ji bo pir karan zêde tê kuştin.
- Pêdivî ye ku ew pêdivî ye ku formatek daneya diyarkirî bikar bîne, ku nermbûna wê sînordar dike û wê bi formên weyên heyî re hevaheng dike.
Pricing
Bikaranîna wê ji bo her kesî belaş e.
5. Dolt
Dolt databasek SQL ye ku bi heman awayê ku depoyek git dike çeqandin, klonkirin, şaxkirin, hevgirtin, pêxistin û kişandinê dike. Ji bo baştirkirina ezmûna bikarhêner a databasek kontrolkirina guhertoyê, Dolt dihêle ku dane û avahî bi hevdemkirinê biguhezin.
Ew ji bo we û hevkarên we amûrek hêja ye ku hûn li ser hevkariyê bikin. Hûn dikarin bi heman awayê ku hûn bi databasek din a MySQL-ê re têkildar bi Dolt-ê ve girêdin û bi karanîna fermanên SQL pirsan bimeşînin an jî daneyan biguhezînin.
Dema ku dor tê guhertoya daneyê, Dolt yek-cûre ye. Dolt databasek e, berevajî hin çareseriyên din ên ku tenê daneya guhertoyê ne. Dema ku nermalava niha di qonaxên xwe yên destpêkê de ye, hêvî hene ku di pêşerojek nêzîk de wê bi Git û MySQL re bi tevahî hevaheng be.
Hemî emrên ku hûn bi karanîna Git re nas dikin dê bi Dolt re jî bixebitin. Pelên guhertoyên Git, tabloyên guhertoyên Dolt Bi karanîna navbeynkariya rêzika fermanê, pelên CSV-ê derxînin, guheztinên xwe bicîh bînin, wan li ser dûr biweşînin, û guheztinên hevalbendê xwe bikin yek.
Pros
- Sivik û çavkaniya vekirî bi qismî.
- Li gorî bijarteyên nezelaltir, ew xwedan navgînek SQL ye, ku wê ji analîstên daneyê re bigihîje.
Stewrê
- Li gorî alternatîfên din ên guhertoya databasê, Dolt hîn jî hilberek pêşkeftî ye.
- Ji ber ku Dolt databasek e, divê hûn daneyên xwe di nav wê de veguhezînin da ku berjewendiyan bistînin.
Pricing
Her kes bi xêr hatî ku rûniştina civatê bikar bîne. Platform nirxa premium peyda nake; li şûna wê, divê hûn bi pêşkêşkerê re têkilî daynin.
6. Pachyderm
Pachyderm pergalek kontrolkirina guhertoya zanistiya daneya belaş e ku bi gelek taybetmendiyan re heye. Pachyderm Enterprise platformek zanistiya daneyê ya hêzdar e ku ji bo hevkariyek mezin di hawîrdorên pir ewledar de hatî çêkirin.
Pachyderm yek ji çend platformên zanistiya daneyê ye. Armanca Pachyderm ev e ku platformek peyda bike ku çerxa daneya tevahî rêve dibe û dubarekirina vedîtinên modelên fêrbûna makîneyê hêsan dike. Pachyderm di vê çarçoveyê de wekî "Docker of Data" tê zanîn. Pachyderm hawîrdora darvekirina we bi karanîna konteynerên Docker pak dike. Ev hêsan dike ku heman encaman dubare bike.
Zanyarên daneyê û tîmên DevOps bi saya berhevoka daneya guhertoya bi Docker re dikarin modelan bi pêbawerî bicîh bikin. Bi saya pergalek hilanînê ya bikêrhatî, petabytes daneyên birêkûpêk û nesazkirî dikare were domandin dema ku lêçûnên hilanînê herî kêm têne girtin.
Di seranserê qonaxên boriyê de, guhertoya-bingeha pelan ji bo hemî dane û berheman, tevî derketinên navîn, tomarek kontrolê ya bêkêmasî peyda dike. Gelek kapasîteyên amûrê ji hêla van stûnan ve têne rêve kirin, ku alîkariya tîmê dikin ku herî zêde jê sûd werbigirin.
Pros
- Li ser bingeha konteyneran, hawîrdorên daneyên we dê di navbera pêşkêşkerên ewr de veguhezbar û hêsan bin.
- Zexm, bi şiyana mezinbûna ji pergalên piçûk berbi pir mezin.
Stewrê
- Ji ber ku gelek hêmanên tevgerê hene, wek servera Kubernetes ku ji bo birêvebirina weşana belaş a Pachyderm hewce ye, kelek fêrbûnê ya hişktir heye.
- Dibe ku Pachyderm ji ber gelek hêmanên wê yên teknolojîk di nav binesaziya heyî ya pargîdaniyek de tevlihev be.
Pricing
Hûn dikarin bi danişîna civakê re dest bi karanîna platformê bikin û ji bo çapa pargîdaniyê, divê hûn bi firoşkarê re têkilî daynin.
7. Neptune
Metadata avakirina modelê ji hêla dikana metadata ML ve tê rêvebirin, ku ew aliyek girîng a stûna MLOps e. Ji bo her xebata MLOps, Neptune wekî hilanîna metadata navendîkirî kar dike.
Hûn dikarin bi hezaran modelên fêrbûna makîneyê li yek cîhek bişopînin, xuyang bikin û bidin ber hev. Ew taybetmendiyên wekî şopandina ceribandinê, qeydkirina modelê, û çavdêriya modelê, û her weha navgînek hevkariyê vedihewîne. Zêdetirî 25 amûr û pirtûkxaneyên cihêreng ên yekbûyî vedihewîne, di nav de gelek perwerdehiya modelê û amûrên tunekirina hîperparametre.
Hûn dikarin bêyî karanîna qerta krediya xwe beşdarî Neptune bibin. Hesabek Gmail dê li şûna wê têrê bike.
Pros
- Yekbûnek bi her boriyek, herikîn, bingeha kodê, an çarçoveyê re hêsan e.
- Dîmenên rast-ê, API-ya hêsan, û piştevaniya bilez
- Bi Neptune re, hûn dikarin hemî daneyên ceribandinên xwe li yek cîhek "paşgir" çêbikin, ku hûn dikarin paşê vegerînin.
Stewrê
- Her çend ne bi tevahî çavkaniyek vekirî be jî, guhertoyek kesane ji bo karanîna taybetî têrê dike, her çend gihîştina wusa bi mehekê ve sînorkirî ye.
- Hin kêmasiyên sêwiranê yên piçûk hene ku têne dîtin.
Pricing
Hûn dikarin dest bi karanîna platformê bi plansaziya Kesane ya ku ji bo her kesî belaş e bikar bînin. Beşa bihayê ji 150 $ / mehê dest pê dike.
Xelasî
Di vê postê de, me çêtirîn amûrên guhertoya daneyê nîqaş kir. Her amûrek, wekî ku me dît, taybetmendiyên xwe hene. Hin belaş bûn, hinên din jî hewceyê dravdanê bûn. Hin ji modela karsaziya piçûk re baş in, lê yên din ji modela karsaziya mezin re çêtir in.
Wekî encamek, divê hûn ji bo mebestên xwe nermalava herî xweş hilbijêrin piştî ku avantaj û dezawantajan nirxand. Em teşwîq dikin ku hûn berî kirîna hilberek premium guhertoya ceribandina belaş biceribînin.
Leave a Reply