Мэдээлэл судлаачид болон машин сургалтын мэргэжилтнүүд ердийн өгөгдлийн шинжлэх ухааны төсөлд янз бүрийн төрлийн нэлээд тооны өгөгдөлтэй ажилладаг. Төрөл бүрийн тохиргоо, функц бүхий олон тооны загваруудыг боловсруулсан бөгөөд хамгийн оновчтой гүйцэтгэлийг авахын тулд параметрийн тохируулгын олон давталт хийгдсэн.
Ийм нөхцөлд юу ажиллаж, юу нь болохгүй байгааг тодорхойлохын тулд бүх өгөгдлийн өөрчлөлт, загвар бүтээх үйл явцын тохируулгыг хянаж, хэмжих ёстой. Өмнөх хэвлэл рүү буцаж, өмнөх үр дүнг харах боломжтой байх нь бас чухал юм.
Өгөгдлийн хувилбарын хяналт (DVC) нь өгөгдөл, үндсэн загварыг удирдах, дахин давтагдах үр дүнг гаргахад тусалдаг нь энэ бүхнийг хянах боломжийг бидэнд олгодог ийм технологийн нэг юм.
Энэ нийтлэлд бид өгөгдлийн хувилбарын хяналт, ашиглах хамгийн сайн хэрэгслүүдийг нарийвчлан авч үзэх болно. Эхэлцгээе.
Өгөгдлийн хувилбарын хяналт гэж юу вэ?
Бүх үйлдвэрлэлийн системд хувилбар гаргах шаардлагатай. Хамгийн сүүлийн үеийн өгөгдөлд хандах нэг цэг. Нэгэн зэрэг хэд хэдэн хэрэглэгч байнга өөрчлөгддөг аливаа нөөц нь бүх өөрчлөлтийг хянахын тулд аудитын мөр үүсгэх шаардлагатай байдаг.
Хувилбарын хяналтын систем нь багийн бүх хүмүүсийг нэг хуудсанд байлгах үүрэгтэй. Энэ нь багийн бүх хүмүүс файлын хамгийн сүүлийн хувилбар дээр ажиллаж байгаа бөгөөд хамгийн чухал нь бүгд нэг төсөл дээр нэгэн зэрэг хамтран ажиллаж байгааг баталгаажуулдаг.
Хэрэв танд зохих тоног төхөөрөмж байгаа бол та үүнийг хамгийн бага хүчин чармайлтаар хийж чадна!
Хэрэв та найдвартай өгөгдлийн хувилбарын менежментийн стратеги ашигладаг бол та тогтвортой өгөгдлийн багц, бүх судалгааныхаа бүрэн архивтай байх болно. Хэрэв та хуулбарлах чадвар, мөрдөх чадвар, ML загварын түүхэнд санаа тавьдаг бол өгөгдлийн хувилбар гаргах хэрэгслүүд нь таны ажлын урсгалд чухал ач холбогдолтой.
Эдгээр нь танд өгөгдлийн багц эсвэл загварын хэш гэх мэт зүйлийн хувилбарыг олж авахад тусалдаг бөгөөд та үүнийг тодорхойлж, харьцуулахдаа ашиглаж болно. Энэ өгөгдлийн хувилбар нь таны загварын сургалтыг хувилбартай, давтагдах боломжтой болгохын тулд таны мета өгөгдлийн удирдлагын шийдэлд ихэвчлэн ордог.
Шилдэг мэдээллийн хувилбарын хяналтын хэрэгсэл
Одоо та кодын хэсэг бүрийг хянахын тулд ашиглаж болох мэдээллийн хувилбарын хяналтын шилдэг шийдлүүдийг үзэх цаг болжээ.
1. GF LFS
Git LFS төслийг ашиглахад үнэ төлбөргүй байдаг. Git дотор аудио жишээ, видео, мэдээллийн сан, зураг зэрэг том файлуудыг текст заагчаар сольж, файлын агуулгыг GitHub.com эсвэл GitHub Enterprise зэрэг алсын серверт хадгалдаг.
Энэ нь танд Git-г ашиглан хэд хэдэн ГБ хүртэлх хэмжээтэй асар том файлуудыг гадаад санах ой ашиглан Git репозиторууддаа илүү ихээр байршуулах, мөн том файлын агуулахыг илүү хурдан хуулбарлах, сэргээх боломжийг олгоно. Өгөгдлийн менежментийн тухайд гэвэл энэ нь нэлээд хөнгөн шийдэл юм. Git-тэй ажиллахын тулд танд нэмэлт тушаал, хадгалах систем, багаж хэрэгсэл хэрэггүй.
Энэ нь таны татаж авах мэдээллийн хэмжээг хязгаарладаг. Энэ нь агуулахаас том файлуудыг хуулбарлах, татаж авах нь илүү хурдан болно гэсэн үг юм. Заагч нь хөнгөн материалаар хийгдсэн бөгөөд LFS-ийг зааж өгдөг.
Үүний үр дүнд та репогоо үндсэн репозитор руу түлхэхэд хурдан шинэчлэгдэж, бага зай эзэлнэ.
Давуу тал
- Ихэнх бизнесүүдийн хөгжлийн ажлын урсгалд хялбархан нэгтгэгддэг.
- Энэ нь Git репозитортой ижил зөвшөөрлийг ашигладаг тул нэмэлт эрхүүдийг зохицуулах шаардлагагүй.
Байг
- Git LFS нь таны өгөгдлийг хадгалахад зориулагдсан серверүүдийг ашиглах шаардлагатай болдог. Үүний үр дүнд таны мэдээллийн шинжлэх ухааны багууд түгжигдэж, инженерийн ажлын ачаалал нэмэгдэх болно.
- Маш нарийн мэргэшсэн бөгөөд мэдээллийн шинжлэх ухааны ажлын урсгалын дараагийн үе шатанд янз бүрийн хэрэгслийг ашиглах шаардлагатай байж магадгүй юм.
үнийн
Үүнийг хүн бүрт үнэ төлбөргүй ашиглах боломжтой.
2. LakeFS
LakeFS нь S3 эсвэл GCS-д өгөгдлийг хадгалдаг нээлттэй эх сурвалжийн өгөгдөл хувилбарын шийдэл бөгөөд петабайт хүртэл цар хүрээтэй Git-тэй төстэй салбарлах, гүйцэтгэх парадигмтай.
Энэхүү салаалсан стратеги нь атомын болон агшин зуурт үүсгэж, нэгтгэж, буцаан эргүүлэх боломжтой өөр өөр салбаруудад өөрчлөлт оруулах боломжийг олгосноор таны мэдээллийн нуурыг ACID-д нийцдэг.
LakeFS нь багууд давтагдах, атомын болон хувилбарт өгөгдөл нуурын үйл ажиллагааг бий болгох боломжийг олгодог. Энэ бол шинэхэн хүн боловч энэ нь анхаарал татахуйц хүч юм.
Энэ нь таныхтай харьцахын тулд Git-тэй төстэй салаалсан болон хувилбарын хяналтын аргыг ашигладаг мэдээллийн нуур, өгөгдлийн петабайт хүртэл өргөжүүлэх боломжтой. Эксабайт масштаб дээр та хувилбарын хяналтыг шалгаж болно.
Давуу тал
- Гиттэй төстэй үйлдлүүд нь салбарлах, гүйцэтгэх, нэгтгэх, буцаах зэрэг орно.
- Өгөгдлийн CI/CD-г шалгахын тулд урьдчилан гүйцэтгэх/нэгтгэх дэгээг ашигладаг.
- S3 болон GCS зэрэг энгийн үүлэн хадгалахад зориулсан ACID гүйлгээ гэх мэт нарийн төвөгтэй функцуудыг саармаг форматаар хангадаг.
- Өгөгдлийн өөрчлөлтийг бодит цаг хугацаанд буцаах.
- Хэмжээг нь хялбарчилж, маш том дата нууруудыг багтаах боломжийг олгодог. Хувилбарын хяналтыг хөгжүүлэлт болон үйлдвэрлэлийн тохиргооны аль алинд нь өгч болно.
Байг
- LakeFS бол шинэ бүтээгдэхүүн тул үйл ажиллагаа, баримт бичиг нь өмнөх шийдлүүдээс илүү хурдан өөрчлөгдөж магадгүй юм.
- Энэ нь өгөгдлийн хувилбар гаргахад чиглэгддэг тул та мэдээллийн шинжлэх ухааны ажлын урсгалын янз бүрийн хэсэгт янз бүрийн нэмэлт хэрэгслийг ашиглах шаардлагатай болно.
үнийн
Үүнийг хүн бүрт үнэ төлбөргүй ашиглах боломжтой.
3. DVC
Өгөгдлийн хувилбарын хяналт нь өгөгдлийн шинжлэх ухаан болон машин сургалтын програмуудад зориулагдсан үнэгүй өгөгдлийн хувилбарын шийдэл юм. Энэ бол ямар ч хэлээр дамжуулах шугамаа тодорхойлох боломжийг олгодог програм юм.
Энэ хэрэгсэл нь том файлууд, өгөгдлийн багц, машин сургалтын загвар, код гэх мэтийг удирдан чиглүүлснээр машин сургалтын загваруудыг хуваалцах, хуулбарлах боломжтой болгодог. Энэхүү програм нь Git-ийн удирдамжийг дагаж, хэдхэн алхамаар тохируулж болох энгийн тушаалын мөрийг өгдөг.
Нэрнээс нь харахад DVC нь зөвхөн өгөгдлийн хувилбар биш юм. Энэ нь дамжуулах хоолой, машин сургалтын загваруудыг багуудад удирдахад тусалдаг.
Эцэст нь, DVC нь танай багийн загваруудын уялдаа холбоо, тэдгээрийн давтагдах чадварыг сайжруулахад туслах болно. Код дахь төвөгтэй файлын дагавар, тайлбарыг ашиглахын оронд давуу талыг ашиглаарай Git салбарууд шинэ санааг туршиж үзэх. Аялахын тулд цаас, харандаа биш автомат хэмжүүр ашиглана уу.
Тогтвортой багцуудыг дамжуулах машин суралцах загвар, өгөгдөл, кодыг үйлдвэрлэл, алс холын компьютер эсвэл хамт ажиллагсдынхаа ширээний компьютерт оруулах бол түр зуурын скриптийн оронд түлхэх/татах командуудыг ашиглаж болно.
Давуу тал
- Энэ нь хөнгөн жинтэй, нээлттэй эх сурвалжтай бөгөөд бүх томоохон үүлэн платформууд болон хадгалах сангуудтай ажилладаг.
- Уян хатан, формат, хүрээг үл тоомсорлодог, хэрэгжүүлэхэд хялбар.
- ML загвар бүрийн бүх хувьслыг эх код болон өгөгдлөөс нь харж болно.
Байг
- Дамжуулах хоолойн удирдлага болон DVC хувилбарын удирдлага нь салшгүй холбоотой. Хэрэв танай баг өөр өгөгдөл дамжуулах бүтээгдэхүүн ашиглаж байгаа бол цомхотгол үүснэ.
- DVC нь хөнгөн тул хэрэглэгчдэд ээлтэй болгохын тулд танай баг нэмэлт функцуудыг гараар зохион бүтээх шаардлагатай болж магадгүй юм.
үнийн
Үүнийг хүн бүрт үнэ төлбөргүй ашиглах боломжтой.
4. DeltaLake
DeltaLake нь мэдээллийн нуурын найдвартай байдлыг нэмэгдүүлдэг нээлттэй эхийн хадгалах давхарга юм. Delta Lake нь дамжуулалт болон багц өгөгдөл боловсруулахаас гадна ACID гүйлгээ, масштабтай мета өгөгдлийн менежментийг дэмждэг.
Энэ нь Apache Spark API-тай ажилладаг бөгөөд таны одоо байгаа дата нуур дээр суудаг. Delta Sharing нь бизнест аюулгүй мэдээлэл солилцох дэлхийн анхны нээлттэй протокол бөгөөд бусад бизнесүүдтэй компьютерийн системээс хамааралгүйгээр мэдээлэл солилцоход хялбар болгодог.
Delta Lakes нь петабайт өгөгдлийг хялбархан зохицуулах чадвартай. Мета өгөгдөл нь өгөгдлийн нэгэн адил хадгалагддаг бөгөөд хэрэглэгчид үүнийг Describe Detail аргыг ашиглан авах боломжтой. Delta Lakes нь урсгал болон багц өгөгдлийг хоёуланг нь унших боломжтой нэг архитектуртай.
Дельта ашиглан дээш өргөлтийг хийхэд хялбар байдаг. Эдгээр нэмэлтүүд эсвэл Delta хүснэгтэд нэгтгэгдэх нь SQL Merges-тэй харьцуулж болно. Та үүнийг ашиглан өөр өгөгдлийн хүрээн дэх өгөгдлийг өөрийн хүснэгтэд нэгтгэж, шинэчлэх, оруулах, устгах боломжтой.
Давуу тал
- ACID гүйлгээ, баттай мета өгөгдлийн менежмент гэх мэт олон боломжуудыг таны одоогийн өгөгдөл хадгалах шийдэлд ашиглах боломжтой.
- Delta Lake одоо хэдэн тэрбум хуваалт, файл бүхий хүснэгтүүдийг петабайтын хэмжээтэй хялбархан удирдах боломжтой.
- Өгөгдлийн хувилбарын гарын авлагын хяналт болон бусад өгөгдлийн асуудлуудыг багасгаж, хөгжүүлэгчид өөрсдийн мэдээллийн нөөц дээр бүтээгдэхүүн боловсруулахад анхаарлаа төвлөрүүлэх боломжийг олгодог.
Байг
- Энэ нь Spark болон асар том өгөгдөлтэй ажиллахад зориулагдсан тул Дельта нуур ихэнх ажлыг гүйцэтгэхэд хэт ачаалалтай байдаг.
- Энэ нь тусгай зориулалтын өгөгдлийн форматыг ашиглахыг шаарддаг бөгөөд энэ нь түүний уян хатан байдлыг хязгаарлаж, одоогийн хэлбэрүүдтэй нийцэхгүй болгодог.
үнийн
Үүнийг хүн бүрт үнэ төлбөргүй ашиглах боломжтой.
5. Долт
Dolt нь git репозитортой ижил аргаар салаалах, хуваах, салбарлах, нэгтгэх, түлхэх, татах зэрэг үйлдлийг гүйцэтгэдэг SQL мэдээллийн сан юм. Хувилбарын хяналтын өгөгдлийн сангийн хэрэглэгчийн туршлагыг сайжруулахын тулд Dolt нь өгөгдөл, бүтцийг синхрончлолд өөрчлөх боломжийг олгодог.
Энэ нь танд болон танай хамт олонд хамтран ажиллах маш сайн хэрэгсэл юм. Та бусад MySQL өгөгдлийн сантай ижил аргаар Dolt-тэй холбогдож, SQL командыг ашиглан асуулга ажиллуулж эсвэл өгөгдөлд өөрчлөлт оруулах боломжтой.
Өгөгдлийн хувилбарын тухай ярихад Dolt бол цорын ганц зүйл юм. Dolt бол өгөгдлийн хувилбарыг гаргадаг бусад шийдлүүдээс ялгаатай нь мэдээллийн сан юм. Одоогоор уг программ хангамж нь эхний шатандаа байгаа ч ойрын ирээдүйд Git болон MySQL-тэй бүрэн нийцдэг болно гэж найдаж байна.
Таны Git-д ашигладаг бүх командууд Dolt-тэй ажиллах болно. Git хувилбарын файлууд, Dolt хувилбаруудын хүснэгтүүд Тушаалын мөрийн интерфейсийг ашиглан CSV файлуудыг импортлох, өөрчлөлтөө хийх, алсын удирдлагад нийтлэх, багийнхаа өөрчлөлтийг нэгтгэх.
Давуу тал
- Хөнгөн ба нээлттэй эх хэсэгчлэн.
- Илүү ойлгомжгүй сонголтуудтай харьцуулахад энэ нь SQL интерфэйстэй тул өгөгдлийн шинжээчдэд илүү хүртээмжтэй болгодог.
Байг
- Өгөгдлийн сангийн хувилбарын бусад хувилбаруудтай харьцуулахад Dolt нь хөгжиж буй бүтээгдэхүүн хэвээр байна.
- Dolt нь мэдээллийн сан учраас ашиг тусыг нь авахын тулд та өгөгдлөө түүнд шилжүүлэх ёстой.
үнийн
Хүн бүр олон нийтийн сессийг ашиглахыг урьж байна. Платформ нь дээд зэргийн үнийг санал болгодоггүй; Үүний оронд та үйлчилгээ үзүүлэгчтэй холбоо барих ёстой.
6. Пахидерм
Pachyderm бол маш олон функц бүхий мэдээллийн шинжлэх ухааны хувилбарын хяналтын систем юм. Pachyderm Enterprise нь өндөр аюулгүй орчинд томоохон хэмжээний хамтын ажиллагаанд зориулагдсан хүчирхэг мэдээллийн шинжлэх ухааны платформ юм.
Pachyderm бол жагсаалтын цөөн тооны мэдээллийн шинжлэх ухааны платформуудын нэг юм. Pachyderm-ийн зорилго бол өгөгдлийн бүрэн мөчлөгийг удирдан чиглүүлдэг платформоор хангах бөгөөд машин сургалтын загваруудын ололтыг хуулбарлахад хялбар болгох явдал юм. Пачидермийг энэ хүрээнд "өгөгдлийн докер" гэж нэрлэдэг. Pachyderm нь Docker контейнер ашиглан таны гүйцэтгэх орчныг багцалдаг. Энэ нь ижил үр дүнг хуулбарлахад хялбар болгодог.
Мэдээллийн судлаачид болон DevOps-ийн багууд Docker-тэй хувилбартай өгөгдлийг хослуулсаны ачаар загваруудаа итгэлтэйгээр байрлуулж чадна. Үр ашигтай хадгалах системийн ачаар петабайтын бүтэцтэй болон бүтэцгүй өгөгдлийг хадгалахын зэрэгцээ хадгалах зардлыг хамгийн бага байлгах боломжтой.
Дамжуулах хоолойн бүх үе шатанд файлд суурилсан хувилбар нь завсрын гаралтыг оруулаад бүх өгөгдөл, олдворуудад аудитын бүрэн бүртгэлийг өгдөг. Хэрэгслийн олон чадавхийг эдгээр тулгуур багана удирддаг бөгөөд энэ нь багуудад хамгийн их ашиг тусыг нь авахад тусалдаг.
Давуу тал
- Контейнер дээр үндэслэн таны өгөгдлийн орчин зөөврийн бөгөөд үүлэн үйлчилгээ үзүүлэгчдийн хооронд дамжуулахад хялбар байх болно.
- Бат бөх, жижиг системээс маш том систем хүртэл масштаблах чадвартай.
Байг
- Pachyderm-ийн үнэгүй хувилбарыг боловсруулахад шаардлагатай Kubernetes сервер зэрэг маш олон хөдөлгөөнт элементүүд байдаг тул суралцах муруй илүү огцом байна.
- Pachyderm нь олон технологийн бүрэлдэхүүн хэсгүүдээс шалтгаалан компанийн одоо байгаа дэд бүтцэд нэгдэх нь бэрхшээлтэй байж магадгүй юм.
үнийн
Та платформыг олон нийтийн сессээр ашиглаж эхлэх боломжтой бөгөөд энтерпрайз хувилбарын хувьд та борлуулагчтай холбоо барина уу.
7. Далай ван
Загвар бүтээх мета өгөгдлийг ML мета өгөгдлийн сан удирддаг бөгөөд энэ нь MLOps стекийн чухал хэсэг юм. MLOps ажлын урсгал бүрийн хувьд Нептун нь төвлөрсөн мета өгөгдлийн хадгалалтын үүрэг гүйцэтгэдэг.
Та олон мянган машин сургалтын загваруудыг нэг дороос хянах, дүрслэх, харьцуулах боломжтой. Энэ нь туршилтыг хянах, загварын бүртгэл, загвар хянах зэрэг функцуудыг багтаасан бөгөөд хамтын интерфейстэй. Үүнд хэд хэдэн загварын сургалт, гиперпараметр тааруулах хэрэгслүүд зэрэг 25 гаруй өөр хэрэгсэл, сангуудыг нэгтгэсэн болно.
Та Neptune-д кредит карт ашиглахгүйгээр нэгдэж болно. Түүний оронд Gmail данс хангалттай байх болно.
Давуу тал
- Аливаа дамжуулах хоолой, урсгал, кодын бааз эсвэл хүрээтэй нэгтгэх нь энгийн зүйл юм.
- Бодит цагийн дүрслэл, хялбар API, хурдан дэмжлэг
- Далай вангийн тусламжтайгаар та туршилтынхаа бүх өгөгдлийн "нөөцлөлтийг" нэг байршилд хийж, дараа нь сэргээх боломжтой.
Байг
- Хэдийгээр бүрэн нээлттэй эх сурвалж биш ч гэсэн хувийн хэрэглээнд ганцаарчилсан хувилбар нь хангалттай байх болно, гэхдээ ийм хандалт нь нэг сараар хязгаарлагддаг.
- Хэд хэдэн жижиг дизайны алдааг олж мэдэх хэрэгтэй.
үнийн
Та платформыг хүн бүрт үнэ төлбөргүй ашиглах боломжтой Хувь хүний төлөвлөгөөгөөр ашиглаж эхлэх боломжтой. Үнийн хэсэг нь сард 150 доллараас эхэлдэг.
Дүгнэлт
Энэ нийтлэлд бид өгөгдлийн хувилбар гаргах шилдэг хэрэгслүүдийн талаар ярилцсан. Бидний харж байгаагаар хэрэгсэл бүр өөрийн гэсэн онцлог шинж чанартай байдаг. Зарим нь үнэ төлбөргүй байсан бол зарим нь төлбөр төлөх шаардлагатай байв. Зарим нь жижиг бизнесийн загварт сайн тохирдог бол зарим нь том бизнесийн загварт илүү тохиромжтой.
Үүний үр дүнд та давуу болон сул талуудыг жинлэж үзсэний дараа зорилгодоо тохирсон хамгийн сайн програм хангамжийг сонгох хэрэгтэй. Дээд зэрэглэлийн бүтээгдэхүүн худалдаж авахаасаа өмнө үнэгүй туршилтын хувилбарыг туршиж үзэхийг бид зөвлөж байна.
хариу үлдээх