Տվյալների գիտնականներ և մեքենայական ուսուցման մասնագետները զբաղվում են տարբեր տեսակի տվյալների զգալի քանակով տիպիկ տվյալների գիտության նախագծում: Բազմաթիվ մոդելներ են մշակվել տարբեր կոնֆիգուրացիաներով և առանձնահատկություններով, ինչպես նաև պարամետրերի թյունինգի բազմակի կրկնություններով՝ օպտիմալ կատարողականություն ստանալու համար:
Նման սցենարի դեպքում տվյալների բոլոր փոփոխությունները և մոդելի կառուցման գործընթացի ճշգրտումները պետք է վերահսկվեն և չափվեն՝ որոշելու համար, թե ինչն է աշխատել և ինչը՝ ոչ: Կարևոր է նաև, որ կարողանաք վերադառնալ նախորդ հրատարակությանը և ուսումնասիրել նախորդ արդյունքները:
Տվյալների տարբերակի վերահսկումը (DVC), որն օգնում է կառավարել տվյալները, հիմքում ընկած մոդելը և գործարկել վերարտադրելի արդյունքները, այդպիսի տեխնոլոգիաներից մեկն է, որը մեզ հնարավորություն է տալիս վերահսկել այս ամենը:
Այս գրառման մեջ մենք ուշադիր կանդրադառնանք Տվյալների տարբերակի վերահսկմանը և օգտագործման լավագույն գործիքներին: Եկեք սկսենք.
Ի՞նչ է տվյալների տարբերակի վերահսկումը:
Տարբերակումը պահանջվում է բոլոր արտադրական համակարգերի համար: Ամենաժամանակակից տվյալների հասանելիության մեկ կետ: Ցանկացած ռեսուրս, որը հաճախ փոփոխվում է, հատկապես մի քանի օգտվողների կողմից միաժամանակ, կարիք ունի աուդիտի հետքի ստեղծման՝ բոլոր փոփոխություններին հետևելու համար:
Տարբերակների վերահսկման համակարգը պատասխանատու է թիմում բոլորը նույն էջում լինելու համար: Այն երաշխավորում է, որ թիմում բոլորն աշխատում են ֆայլի ամենավերջին տարբերակի վրա և, որ ավելի կարևոր է, որ բոլորը միաժամանակ համագործակցում են նույն նախագծի վրա:
Եթե ունեք համապատասխան սարքավորումներ, կարող եք դա անել նվազագույն ջանքերով:
Դուք կունենաք տվյալների հետևողական հավաքածուներ և ձեր բոլոր հետազոտությունների մանրակրկիտ արխիվը, եթե օգտագործեք տվյալների վարկածի կառավարման հուսալի ռազմավարություն: Տվյալների տարբերակման գործիքները չափազանց կարևոր են ձեր աշխատանքային հոսքի համար, եթե ձեզ հետաքրքրում է վերարտադրելիությունը, հետագծելիությունը և ML մոդելի պատմությունը:
Դրանք օգնում են ձեզ ձեռք բերել տարրի տարբերակ, օրինակ՝ տվյալների բազայի կամ մոդելի հեշ, որը կարող եք օգտագործել՝ նույնականացնելու և համեմատելու համար: Տվյալների այս տարբերակը հաճախ մուտքագրվում է ձեր մետատվյալների կառավարման լուծման մեջ՝ երաշխավորելու, որ ձեր մոդելային ուսուցումը տարբերակված է և կրկնվող:
Տվյալների տարբերակի վերահսկման լավագույն գործիքները
Այժմ ժամանակն է դիտարկել տվյալների տարբերակների կառավարման լավագույն լուծումները, որոնք կարող եք օգտագործել ձեր կոդի յուրաքանչյուր մասին հետևելու համար:
1. git-lfs
Git LFS նախագիծն անվճար է օգտագործման համար: Git-ում մեծ ֆայլերը, ինչպիսիք են աուդիո նմուշները, տեսանյութերը, տվյալների բազաները և լուսանկարները, փոխարինվում են տեքստային ցուցիչներով, և ֆայլի բովանդակությունը պահվում է հեռավոր սերվերի վրա, ինչպիսին է GitHub.com-ը կամ GitHub Enterprise-ը:
Այն թույլ է տալիս օգտագործել Git-ը հսկայական ֆայլերի՝ մինչև մի քանի ԳԲ չափի տարբերակների համար, ավելի շատ հյուրընկալելու ձեր Git պահոցներում՝ օգտագործելով արտաքին պահոց, և ավելի արագ կլոնավորել և առբերել մեծ ֆայլերի պահեստները: Երբ խոսքը վերաբերում է տվյալների կառավարմանը, սա բավականին թեթև լուծում է: Git-ի հետ աշխատելու համար ձեզ հարկավոր չեն լրացուցիչ հրամաններ, պահեստավորման համակարգեր կամ գործիքակազմեր:
Այն սահմանափակում է ձեր ներբեռնած տեղեկատվության քանակը: Սա ենթադրում է, որ պահեստներից մեծ ֆայլերի կլոնավորումն ու առբերումն ավելի արագ կլինի: Սլաքները պատրաստված են ավելի թեթև նյութից և ուղղված են դեպի LFS:
Արդյունքում, երբ ձեր ռեպոն մղում եք հիմնական պահոց, այն արագ թարմացվում է և ավելի քիչ տեղ է զբաղեցնում:
Կոալիցիայում
- Հեշտությամբ ինտեգրվում է բիզնեսի մեծ մասի զարգացման աշխատանքային հոսքերին:
- Լրացուցիչ իրավունքները կարգավորելու կարիք չկա, քանի որ այն օգտագործում է նույն թույլտվությունները, ինչ Git պահոցը:
Դեմ
- Git LFS-ը պահանջում է հատուկ սերվերների օգտագործում՝ ձեր տվյալները պահելու համար: Արդյունքում, ձեր տվյալների գիտության թիմերը կփակվեն, և ձեր ինժեներական ծանրաբեռնվածությունը կբարձրանա:
- Շատ մասնագիտացված է և կարող է անհրաժեշտ լինել տվյալների գիտության աշխատանքային հոսքի հետագա փուլերի համար մի շարք տարբեր գործիքների օգտագործում:
գնագոյացում
Այն անվճար է օգտագործել բոլորի համար:
2. LakeFS
LakeFS-ը բաց կոդով տվյալների տարբերակման լուծում է, որը պահում է տվյալները S3 կամ GCS-ում և ունի Git-ի նման ճյուղավորվող և կատարվող պարադիգմ, որը մասշտաբներով հասնում է մինչև petabytes:
Այս ճյուղավորման ռազմավարությունը ձեր տվյալների լճի ACID-ին համապատասխան է դարձնում՝ թույլ տալով փոփոխություններ կատարել տարբեր ճյուղերում, որոնք կարող են կառուցվել, միաձուլվել և հետ գլորվել ատոմային և ակնթարթորեն:
LakeFS-ը թիմերին հնարավորություն է տալիս ստեղծել տվյալների լճային գործողություններ, որոնք կրկնվող, ատոմային և տարբերակված են: Դա դեպքի վայրում նորեկ է, բայց դա ուժ է, որի հետ պետք է հաշվի նստել:
Այն օգտագործում է Git-ի նման ճյուղավորման և տարբերակի վերահսկման մոտեցում՝ ձեր հետ շփվելու համար տվյալների լիճ, ընդարձակելի մինչև Petabytes տվյալների։ Էկզաբայթի սանդղակով կարող եք ստուգել տարբերակի վերահսկումը:
Կոալիցիայում
- Git-ի նման գործողությունները ներառում են ճյուղավորումը, հավատարմությունը, միաձուլումը և հետադարձումը:
- Pre-commit/միաձուլման կեռիկներն օգտագործվում են տվյալների CI/CD ստուգումների համար:
- Ապահովում է բարդ առանձնահատկություններ, ինչպիսիք են ACID գործարքները պարզ ամպային պահեստավորման համար, ինչպիսիք են S3-ը և GCS-ը, բոլորը՝ չեզոք ձևաչափով:
- Վերադարձեք փոփոխությունները տվյալների վրա իրական ժամանակում:
- Կշեռքները հեշտությամբ, ինչը թույլ է տալիս նրան տեղավորել շատ հսկայական տվյալների լճեր: Տարբերակի կառավարումը կարող է տրամադրվել ինչպես մշակման, այնպես էլ արտադրության պարամետրերի համար:
Դեմ
- LakeFS-ը նոր արտադրանք է, ուստի ֆունկցիոնալությունը և փաստաթղթերը կարող են ավելի արագ փոխվել, քան նախորդ լուծումների դեպքում:
- Քանի որ այն կենտրոնացած է տվյալների տարբերակման վրա, դուք պետք է օգտագործեք մի շարք լրացուցիչ գործիքներ տվյալների գիտության աշխատանքային հոսքի տարբեր մասերի համար:
գնագոյացում
Այն անվճար է օգտագործել բոլորի համար:
3. DVC
Data Version Control-ը տվյալների տարբերակման անվճար լուծում է, որը նախատեսված է տվյալների գիտության և մեքենայական ուսուցման հավելվածների համար: Դա մի ծրագիր է, որը թույլ է տալիս սահմանել ձեր խողովակաշարը ցանկացած լեզվով:
Կառավարելով մեծ ֆայլեր, տվյալների հավաքածուներ, մեքենայական ուսուցման մոդելներ, կոդը և այլն, գործիքը մեքենայական ուսուցման մոդելները դարձնում է համօգտագործելի և վերարտադրելի: Ծրագիրը հետևում է Git-ի օրինակին` տրամադրելով պարզ հրամանի տող, որը կարող է ստեղծվել ընդամենը մի քանի քայլով:
Ինչպես ենթադրում է իր անունը, DVC-ն միայն տվյալների տարբերակման մասին չէ: Այն նաև հեշտացնում է խողովակաշարերի և մեքենայական ուսուցման մոդելների կառավարումը թիմերի համար:
Վերջապես, DVC-ն կօգնի բարելավել ձեր թիմի մոդելների հետևողականությունը և դրանց կրկնելիությունը: Կոդում բարդ ֆայլի վերջածանցներ և մեկնաբանություններ օգտագործելու փոխարեն, օգտվեք Git ճյուղեր փորձարկել նոր գաղափարներ: Ճանապարհորդելու համար օգտագործեք մետրային ավտոմատ հետևում թղթի և մատիտի փոխարեն:
Հետևողական փաթեթներ փոխանցելու համար Machine Learning մոդելների, տվյալների և կոդերի արտադրություն, հեռավոր համակարգիչներ կամ գործընկերների աշխատասեղան, դուք կարող եք օգտագործել push/pull հրամանները՝ հատուկ սկրիպտների փոխարեն:
Կոալիցիայում
- Այն թեթև է, բաց կոդով և աշխատում է բոլոր հիմնական ամպային հարթակների և պահեստավորման տեսակների հետ:
- Ճկուն, ձևաչափի և շրջանակի ագնոստիկ և պարզ իրագործելի:
- Յուրաքանչյուր ML մոդելի ամբողջ էվոլյուցիան կարելի է հետագծել իր սկզբնական կոդը և տվյալները:
Դեմ
- Խողովակաշարերի կառավարումը և DVC տարբերակի վերահսկումը անքակտելիորեն կապված են: Կլինեն ավելորդություն, եթե ձեր թիմն արդեն օգտագործում է տվյալների խողովակաշարի այլ արտադրանք:
- Քանի որ DVC-ն թեթև է, ձեր թիմին կարող է անհրաժեշտ լինել ձեռքով նախագծել լրացուցիչ հնարավորություններ՝ այն ավելի հարմարավետ դարձնելու համար:
գնագոյացում
Այն անվճար է օգտագործել բոլորի համար:
4. Դելտա լիճ
DeltaLake-ը բաց կոդով պահեստավորման շերտ է, որը բարձրացնում է տվյալների լճի հուսալիությունը: Delta Lake-ն աջակցում է ACID գործարքներին և մասշտաբային մետատվյալների կառավարմանը՝ ի լրումն հոսքային և խմբաքանակային տվյալների մշակման:
Այն աշխատում է Apache Spark API-ների հետ և տեղակայված է ձեր առկա տվյալների լճի վրա: Delta Sharing-ը բիզնեսում տվյալների անվտանգ փոխանակման աշխարհում առաջին բաց արձանագրությունն է, որը հեշտացնում է տվյալների փոխանակումը այլ ձեռնարկությունների հետ՝ անկախ նրանց համակարգչային համակարգերից:
Դելտա լճերը կարող են հեշտությամբ մշակել petabytes տվյալները: Մետատվյալները պահվում են այնպես, ինչպես տվյալները, և օգտատերերը կարող են ստանալ դրանք՝ օգտագործելով Describe Detail մեթոդը: Delta Lakes-ն ունի մեկ ճարտարապետություն, որը կարող է կարդալ ինչպես հոսքի, այնպես էլ խմբաքանակի տվյալները:
Վերևները հեշտ է անել Delta-ի միջոցով: Դելտա աղյուսակի այս վերարտադրումները կամ միաձուլումները համեմատելի են SQL Merges-ի հետ: Դուք կարող եք օգտագործել այն՝ ձեր աղյուսակում մեկ այլ տվյալների շրջանակից տվյալներ ինտեգրելու և թարմացումներ, ներդիրներ և ջնջումներ կատարելու համար:
Կոալիցիայում
- Շատ հնարավորություններ, ինչպիսիք են ACID գործարքները և մետատվյալների կայուն կառավարումը, կարող են հասանելի լինել ձեր ներկայիս տվյալների պահպանման լուծումում:
- Delta Lake-ն այժմ կարող է առանց ջանքերի կառավարել աղյուսակները՝ միլիարդավոր բաժանմունքներով և ֆայլերով՝ petabyte մասշտաբով:
- Նվազեցնում է ձեռքով տվյալների տարբերակի վերահսկման և տվյալների այլ մտահոգությունների անհրաժեշտությունը՝ թույլ տալով ծրագրավորողներին կենտրոնանալ իրենց տվյալների լճերի վերևում գտնվող արտադրանքի մշակման վրա:
Դեմ
- Քանի որ այն նախագծված էր Spark-ի և հսկայական տվյալների հետ աշխատելու համար, Delta Lake-ը հիմնականում գերծանրաբեռնված է առաջադրանքների մեծ մասի համար:
- Դա պահանջում է հատուկ տվյալների ձևաչափի օգտագործում, որը սահմանափակում է դրա ճկունությունը և անհամատեղելի է դարձնում ձեր ներկա ձևերի հետ:
գնագոյացում
Այն անվճար է օգտագործել բոլորի համար:
5. Դոլթ
Dolt-ը SQL տվյալների բազա է, որը կատարում է ճյուղավորում, կլոնավորում, ճյուղավորում, միաձուլում, հրում և քաշում նույն ձևով, ինչ անում է git պահեստը: Տարբերակների վերահսկման տվյալների բազայի օգտատերերի փորձը բարելավելու համար Dolt-ը թույլ է տալիս տվյալների և կառուցվածքի համաժամեցմամբ փոխվել:
Դա հիանալի գործիք է ձեր և ձեր գործընկերների համար համագործակցելու համար: Դուք կարող եք միանալ Dolt-ին այնպես, ինչպես կկապվեք MySQL-ի ցանկացած այլ տվյալների բազայի հետ և գործարկեք հարցումներ կամ փոփոխություններ կատարեք տվյալների մեջ՝ օգտագործելով SQL հրամանները:
Երբ խոսքը վերաբերում է տվյալների տարբերակմանը, Dolt-ը եզակի է: Dolt-ը տվյալների բազա է, ի տարբերություն որոշ այլ լուծումների, որոնք պարզապես տարբերակում են տվյալները: Թեև ծրագրաշարը ներկայումս գտնվում է իր վաղ փուլերում, հույսեր կան, որ մոտ ապագայում այն լիովին համատեղելի կլինի Git-ի և MySQL-ի հետ:
Բոլոր հրամանները, որոնք դուք ծանոթ եք Git-ի օգտագործմանը, նույնպես կաշխատեն Dolt-ի հետ: Git տարբերակների ֆայլեր, Dolt տարբերակների աղյուսակներ Օգտագործելով հրամանի տողի միջերեսը, ներմուծեք CSV ֆայլեր, կատարեք ձեր փոփոխությունները, հրապարակեք դրանք հեռակառավարման վահանակում և միացրեք ձեր թիմակցի փոփոխությունները:
Կոալիցիայում
- Թեթև և բաց աղբյուր մասամբ.
- Ավելի անհասկանալի ընտրությունների համեմատ, այն ունի SQL ինտերֆեյս, որն ավելի հասանելի է դարձնում տվյալների վերլուծաբաններին:
Դեմ
- Համեմատած այլ տվյալների բազայի տարբերակման այլընտրանքների հետ՝ Dolt-ը դեռ զարգացող արտադրանք է:
- Քանի որ Dolt-ը տվյալների բազա է, դուք պետք է ձեր տվյալները փոխանցեք դրա մեջ՝ առավելությունները ստանալու համար:
գնագոյացում
Բոլորը կարող են օգտվել համայնքի նիստից: Պլատֆորմը չի տրամադրում պրեմիում գնագոյացում. փոխարենը, դուք պետք է կապվեք մատակարարի հետ:
6. Պաչիդերմ
Pachyderm-ը տվյալների գիտության տարբերակի վերահսկման անվճար համակարգ է՝ բազմաթիվ հնարավորություններով: Pachyderm Enterprise-ը տվյալների գիտության հզոր հարթակ է, որը նախատեսված է խիստ անվտանգ միջավայրերում լայնածավալ համագործակցության համար:
Pachyderm-ը տվյալների գիտության սակավաթիվ հարթակներից մեկն է: Pachyderm-ի նպատակն է ապահովել հարթակ, որը կկառավարի տվյալների ամբողջական ցիկլը և հեշտացնում է մեքենայական ուսուցման մոդելների բացահայտումների կրկնօրինակումը: Pachyderm-ը այս համատեքստում հայտնի է որպես «Տվյալների դոկեր»: Pachyderm-ը փաթեթավորում է ձեր կատարողական միջավայրը՝ օգտագործելով Docker բեռնարկղերը: Սա հեշտացնում է նույն արդյունքները կրկնօրինակելը:
Տվյալների գիտնականները և DevOps-ի թիմերը կարող են վստահորեն տեղակայել մոդելները՝ Docker-ի հետ տարբերակված տվյալների համակցության շնորհիվ: Արդյունավետ պահեստավորման համակարգի շնորհիվ կառուցվածքային և չկառուցված տվյալների փետաբայթները կարող են պահպանվել, մինչդեռ պահպանման ծախսերը նվազագույնի են հասցվում:
Խողովակաշարի փուլերի ընթացքում ֆայլերի վրա հիմնված տարբերակները ապահովում են բոլոր տվյալների և արտեֆակտների, ներառյալ միջանկյալ արդյունքների, աուդիտի մանրակրկիտ գրառումը: Գործիքի շատ հնարավորություններ առաջնորդվում են այս սյուներով, որոնք օգնում են թիմերին առավելագույն օգուտ քաղել դրանից:
Կոալիցիայում
- Կոնտեյներների հիման վրա ձեր տվյալների միջավայրերը կլինեն շարժական և հեշտ փոխանցվող ամպային մատակարարների միջև:
- Առողջ, փոքր համակարգերից մինչև չափազանց մեծ համակարգեր սանդղելու ունակությամբ:
Դեմ
- Քանի որ կան շատ շարժվող տարրեր, ինչպիսիք են Kubernetes սերվերը, որն անհրաժեշտ է Pachyderm-ի անվճար հրատարակությունը վարելու համար, կա ավելի կտրուկ ուսուցման կոր:
- Pachyderm-ը կարող է դժվար լինել ընկերության առկա ենթակառուցվածքում ընդգրկվելու համար՝ իր բազմաթիվ տեխնոլոգիական բաղադրիչների պատճառով:
գնագոյացում
Դուք կարող եք սկսել օգտագործել հարթակը համայնքի նիստի հետ, իսկ ձեռնարկության հրատարակության համար դուք պետք է կապվեք վաճառողի հետ:
7. Neptune
Մոդելների ստեղծման մետատվյալները կառավարվում են ML մետատվյալների խանութի կողմից, որը MLOps-ի կույտի կարևոր կողմն է: MLOps-ի յուրաքանչյուր աշխատանքային հոսքի համար Neptune-ը ծառայում է որպես կենտրոնացված մետատվյալների պահեստավորում:
Դուք կարող եք հետևել, պատկերացնել և համեմատել մեքենայական ուսուցման հազարավոր մոդելներ՝ բոլորը մեկ տեղում: Այն ներառում է այնպիսի առանձնահատկություններ, ինչպիսիք են փորձերի հետագծումը, մոդելների գրանցումը և մոդելի մոնիտորինգը, ինչպես նաև համատեղ ինտերֆեյսը: Այն ներառում է ավելի քան 25 տարբեր գործիքներ և գրադարաններ, ներառյալ մի քանի մոդելային ուսուցման և հիպերպարամետրային թյունինգի գործիքներ:
Դուք կարող եք միանալ Neptune-ին առանց ձեր վարկային քարտի օգտագործման: Դրա փոխարեն Gmail հաշիվը բավական կլինի:
Կոալիցիայում
- Ինտեգրումը ցանկացած խողովակաշարի, հոսքի, կոդի բազայի կամ շրջանակի հետ պարզ է:
- Իրական ժամանակի պատկերացումները, հեշտ API-ն և արագ աջակցությունը
- Neptune-ի միջոցով դուք կարող եք «պահուստավորել» ձեր բոլոր փորձերի տվյալները մեկ վայրում, որը կարող եք վերականգնել ավելի ուշ:
Դեմ
- Թեև ոչ ամբողջովին բաց կոդով, անհատական տարբերակը, ենթադրաբար, բավարար կլինի մասնավոր օգտագործման համար, թեև այդպիսի մուտքը սահմանափակվում է մեկ ամսով:
- Դիզայնի մի քանի փոքր թերություններ կարելի է գտնել:
գնագոյացում
Դուք կարող եք սկսել օգտագործել հարթակը Անհատական պլանով, որն անվճար է բոլորի համար: Գնային բաժինը սկսվում է $150/ամսականից:
Եզրափակում
Այս գրառման մեջ մենք քննարկեցինք տվյալների տարբերակման լավագույն գործիքները: Յուրաքանչյուր գործիք, ինչպես տեսանք, ունի իր առանձնահատկությունները: Ոմանք անվճար էին, իսկ մյուսները վճարում էին: Ոմանք լավ են համապատասխանում փոքր բիզնեսի մոդելին, իսկ մյուսները ավելի լավ են համապատասխանում խոշոր բիզնես մոդելին:
Որպես հետևանք, դուք պետք է ընտրեք ձեր նպատակների համար լավագույն ծրագրակազմը՝ առավելություններն ու թերությունները կշռելուց հետո: Մենք խրախուսում ենք, որ նախքան պրեմիում ապրանք գնելը փորձարկեք անվճար փորձնական տարբերակը:
Թողնել գրառում