Nhà khoa học dữ liệu và các chuyên gia học máy xử lý một số lượng đáng kể dữ liệu thuộc nhiều loại khác nhau trong một dự án khoa học dữ liệu điển hình. Nhiều mô hình đã được phát triển với nhiều cấu hình và tính năng khác nhau, cũng như nhiều lần lặp lại điều chỉnh tham số để có được hiệu suất tối ưu.
Trong trường hợp như vậy, tất cả các sửa đổi dữ liệu và điều chỉnh quy trình xây dựng mô hình phải được theo dõi và đo lường để xác định điều gì hiệu quả và điều gì không. Điều quan trọng nữa là có thể quay lại phiên bản trước và xem xét các kết quả trước đó.
Kiểm soát phiên bản dữ liệu (DVC), hỗ trợ quản lý dữ liệu, mô hình cơ bản và chạy các kết quả có thể tái tạo, là một trong những công nghệ cho phép chúng tôi giám sát tất cả những điều này.
Trong bài đăng này, chúng tôi sẽ xem xét kỹ hơn về Kiểm soát phiên bản dữ liệu và các công cụ tốt nhất để sử dụng. Hãy bắt đầu nào.
Kiểm soát phiên bản dữ liệu là gì?
Việc tạo phiên bản là bắt buộc đối với tất cả các hệ thống sản xuất. Một điểm truy cập duy nhất vào dữ liệu cập nhật nhất. Bất kỳ tài nguyên nào thường được sửa đổi, đặc biệt là bởi một số người dùng cùng một lúc, cần tạo ra một dấu vết kiểm tra để theo dõi tất cả các thay đổi.
Hệ thống kiểm soát phiên bản có trách nhiệm đảm bảo rằng mọi người trong nhóm đều ở trên cùng một trang. Nó đảm bảo rằng mọi người trong nhóm đang làm việc trên phiên bản mới nhất của tệp và quan trọng hơn là mọi người đều đang cộng tác trong cùng một dự án tại một thời điểm.
Nếu bạn có thiết bị phù hợp, bạn có thể thực hiện điều này với nỗ lực tối thiểu!
Bạn sẽ có các tập dữ liệu nhất quán và một kho lưu trữ kỹ lưỡng về tất cả các nghiên cứu của mình nếu bạn sử dụng chiến lược quản lý phiên bản dữ liệu đáng tin cậy. Các công cụ tạo phiên bản dữ liệu rất quan trọng đối với quy trình làm việc của bạn nếu bạn quan tâm đến khả năng tái tạo, truy xuất nguồn gốc và lịch sử mô hình ML.
Chúng giúp bạn có được phiên bản của một mục, chẳng hạn như hàm băm của tập dữ liệu hoặc mô hình, sau đó bạn có thể sử dụng để xác định và so sánh. Phiên bản dữ liệu này thường được nhập vào giải pháp quản lý siêu dữ liệu của bạn để đảm bảo rằng khóa đào tạo mô hình của bạn được tạo phiên bản và có thể lặp lại.
Công cụ kiểm soát phiên bản dữ liệu tốt nhất
Bây giờ đã đến lúc xem xét các giải pháp kiểm soát phiên bản dữ liệu tốt nhất hiện có mà bạn có thể sử dụng để theo dõi mọi phần mã của mình.
1. git-lfs
Dự án Git LFS được sử dụng miễn phí. Trong Git, các tệp lớn như mẫu âm thanh, video, cơ sở dữ liệu và ảnh được thay thế bằng con trỏ văn bản và nội dung tệp được lưu trên máy chủ từ xa như GitHub.com hoặc GitHub Enterprise.
Nó cho phép bạn sử dụng Git để phiên bản các tệp lớn — dung lượng lên đến vài GB — lưu trữ nhiều hơn trong kho Git của bạn bằng cách sử dụng bộ nhớ ngoài, sao chép và truy xuất các kho tệp lớn nhanh hơn. Khi nói đến quản lý dữ liệu, đây là một giải pháp khá nhẹ nhàng. Để làm việc với Git, bạn không yêu cầu thêm bất kỳ lệnh, hệ thống lưu trữ hoặc bộ công cụ nào.
Nó giới hạn số lượng thông tin bạn tải xuống. Điều này ngụ ý rằng việc sao chép và truy xuất các tệp lớn từ các kho lưu trữ sẽ nhanh hơn. Các con trỏ được làm bằng vật liệu nhẹ hơn và trỏ đến LFS.
Do đó, khi bạn đẩy kho lưu trữ của mình vào kho lưu trữ chính, nó sẽ cập nhật nhanh chóng và chiếm ít dung lượng hơn.
Ưu điểm
- Dễ dàng tích hợp vào quy trình làm việc phát triển của hầu hết các doanh nghiệp.
- Không cần phải xử lý các quyền bổ sung vì nó sử dụng các quyền tương tự như kho lưu trữ Git.
Nhược điểm
- Git LFS đòi hỏi phải sử dụng các máy chủ chuyên dụng để lưu trữ dữ liệu của bạn. Do đó, các nhóm khoa học dữ liệu của bạn sẽ bị khóa và khối lượng công việc kỹ thuật của bạn sẽ tăng lên.
- Rất chuyên biệt và có thể cần sử dụng nhiều công cụ khác nhau cho các giai đoạn tiếp theo trong quy trình khoa học dữ liệu.
GIÁ CẢ
Nó là miễn phí để sử dụng cho tất cả mọi người.
2. HồFS
LakeFS là một giải pháp lập phiên bản dữ liệu mã nguồn mở lưu trữ dữ liệu trong S3 hoặc GCS và có mô hình phân nhánh và cam kết giống Git có quy mô đến petabyte.
Chiến lược phân nhánh này làm cho hồ dữ liệu của bạn tuân thủ ACID bằng cách cho phép các thay đổi xảy ra trong các nhánh riêng biệt có thể được xây dựng, hợp nhất và khôi phục lại nguyên tử và tức thì.
LakeFS cho phép các nhóm tạo các hoạt động trong hồ dữ liệu có thể lặp lại, nguyên tử và được tạo phiên bản. Đó là một người mới đến hiện trường, nhưng đó là một lực lượng cần phải tính đến.
Nó sử dụng phương pháp điều khiển phiên bản và phân nhánh giống như Git để tương tác với hồ dữ liệu, có thể mở rộng lên đến Petabyte dữ liệu. Trên quy mô exabyte, bạn có thể kiểm tra kiểm soát phiên bản.
Ưu điểm
- Các hoạt động giống như Git bao gồm phân nhánh, cam kết, hợp nhất và hoàn nguyên.
- Các móc hợp nhất / cam kết trước được sử dụng để kiểm tra CI / CD dữ liệu.
- Cung cấp các tính năng phức tạp như giao dịch ACID để lưu trữ đám mây đơn giản như S3 và GCS, tất cả trong khi vẫn giữ nguyên định dạng trung tính.
- Hoàn nguyên các thay đổi đối với dữ liệu trong thời gian thực.
- Cân dễ dàng, cho phép nó chứa các hồ dữ liệu rất lớn. Kiểm soát phiên bản có thể được cung cấp cho cả cài đặt phát triển và sản xuất.
Nhược điểm
- LakeFS là một sản phẩm mới, do đó, chức năng và tài liệu có thể thay đổi nhanh hơn so với các giải pháp trước đó.
- Vì nó tập trung vào lập phiên bản dữ liệu, bạn sẽ cần sử dụng nhiều công cụ bổ sung cho các phần khác nhau của quy trình khoa học dữ liệu.
GIÁ CẢ
Nó là miễn phí để sử dụng cho tất cả mọi người.
3. mở rộng DVC
Kiểm soát phiên bản dữ liệu là một giải pháp lập phiên bản dữ liệu miễn phí được thiết kế cho các ứng dụng khoa học dữ liệu và máy học. Đó là một chương trình cho phép bạn xác định đường dẫn của mình bằng bất kỳ ngôn ngữ nào.
Bằng cách quản lý các tệp lớn, tập dữ liệu, mô hình học máy, mã, v.v., công cụ này làm cho các mô hình học máy có thể chia sẻ và tái tạo được. Chương trình đi theo sự dẫn dắt của Git trong việc cung cấp một dòng lệnh đơn giản có thể được thiết lập chỉ trong vài bước.
Như tên gọi của nó, DVC không chỉ về lập phiên bản dữ liệu. Nó cũng tạo điều kiện thuận lợi cho việc quản lý các đường ống và mô hình học máy cho các nhóm.
Cuối cùng, DVC sẽ hỗ trợ cải thiện tính nhất quán của các mô hình của nhóm bạn và khả năng lặp lại của chúng. Thay vì sử dụng các hậu tố và nhận xét tệp phức tạp trong mã, hãy tận dụng Git chi nhánh để thử những ý tưởng mới. Để đi du lịch, hãy sử dụng theo dõi số liệu tự động thay vì giấy và bút chì.
Để truyền các gói nhất quán của học máy mô hình, dữ liệu và mã vào sản xuất, máy tính ở xa hoặc máy tính để bàn của đồng nghiệp, bạn có thể sử dụng các lệnh đẩy / kéo thay vì các tập lệnh đặc biệt.
Ưu điểm
- Nó nhẹ, mã nguồn mở và hoạt động với tất cả các nền tảng đám mây và các loại lưu trữ chính.
- Linh hoạt, không có định dạng và khuôn khổ, và đơn giản để thực hiện.
- Toàn bộ quá trình phát triển của mô hình ML có thể được truy ngược lại mã nguồn và dữ liệu của nó.
Nhược điểm
- Quản lý đường ống và kiểm soát phiên bản DVC được liên kết chặt chẽ với nhau. Sẽ có sự dư thừa nếu nhóm của bạn đang sử dụng một sản phẩm đường ống dữ liệu khác.
- Vì DVC nhẹ, nhóm của bạn có thể cần thiết kế các tính năng bổ sung theo cách thủ công để làm cho nó thân thiện hơn với người dùng.
GIÁ CẢ
Nó là miễn phí để sử dụng cho tất cả mọi người.
4. Đồng BằngHồ
DeltaLake là một lớp lưu trữ mã nguồn mở giúp tăng độ tin cậy của hồ dữ liệu. Delta Lake hỗ trợ các giao dịch ACID và quản lý siêu dữ liệu có thể mở rộng ngoài luồng và xử lý dữ liệu hàng loạt.
Nó hoạt động với các API Apache Spark và nằm trên hồ dữ liệu hiện có của bạn. Delta Sharing là giao thức mở đầu tiên trên thế giới để chia sẻ dữ liệu an toàn trong kinh doanh, giúp việc trao đổi dữ liệu với các doanh nghiệp khác trở nên đơn giản, không phụ thuộc vào hệ thống máy tính của họ.
Delta Lakes có khả năng xử lý hàng petabyte dữ liệu một cách dễ dàng. Siêu dữ liệu được lưu trữ theo cách giống như dữ liệu và người dùng có thể lấy nó bằng phương pháp Mô tả chi tiết. Delta Lakes có một kiến trúc duy nhất có thể đọc cả dữ liệu luồng và dữ liệu hàng loạt.
Việc nâng cấp rất đơn giản để thực hiện bằng cách sử dụng Delta. Những bổ sung hoặc hợp nhất này vào bảng Delta có thể so sánh với Hợp nhất SQL. Bạn có thể sử dụng nó để tích hợp dữ liệu từ một khung dữ liệu khác vào bảng của mình và thực hiện cập nhật, chèn và xóa.
Ưu điểm
- Nhiều khả năng, như giao dịch ACID và quản lý siêu dữ liệu mạnh mẽ, có thể có sẵn trong giải pháp lưu trữ dữ liệu hiện tại của bạn.
- Delta Lake hiện có thể dễ dàng quản lý các bảng với hàng tỷ phân vùng và tệp trên quy mô petabyte.
- Giảm nhu cầu kiểm soát phiên bản dữ liệu thủ công và các mối quan tâm khác về dữ liệu, cho phép các nhà phát triển tập trung phát triển sản phẩm trên các hồ dữ liệu của họ.
Nhược điểm
- Vì nó được thiết kế để hoạt động với Spark và dữ liệu khổng lồ, Delta Lake thường được sử dụng quá nhiều cho hầu hết các nhiệm vụ.
- Nó đòi hỏi phải sử dụng một định dạng dữ liệu chuyên dụng, điều này hạn chế tính linh hoạt của nó và làm cho nó không tương thích với các biểu mẫu hiện tại của bạn.
GIÁ CẢ
Nó là miễn phí để sử dụng cho tất cả mọi người.
5. dot
Dolt là một cơ sở dữ liệu SQL thực hiện phân nhánh, nhân bản, phân nhánh, hợp nhất, đẩy và kéo theo cách tương tự như kho lưu trữ git. Để cải thiện trải nghiệm người dùng của cơ sở dữ liệu kiểm soát phiên bản, Dolt cho phép dữ liệu và cấu trúc thay đổi đồng bộ.
Đó là một công cụ tuyệt vời để bạn và đồng nghiệp của bạn cộng tác. Bạn có thể kết nối với Dolt theo cách giống như cách bạn kết nối với bất kỳ cơ sở dữ liệu MySQL nào khác và chạy các truy vấn hoặc thực hiện các thay đổi đối với dữ liệu bằng các lệnh SQL.
Khi nói đến lập phiên bản dữ liệu, Dolt là một trong những đặc điểm nổi bật. Dolt là một cơ sở dữ liệu, trái ngược với một số giải pháp khác chỉ phiên bản dữ liệu. Mặc dù phần mềm hiện đang ở giai đoạn đầu, nhưng có nhiều hy vọng sẽ làm cho nó tương thích hoàn toàn với Git và MySQL trong tương lai gần.
Tất cả các lệnh mà bạn quen thuộc với Git cũng sẽ hoạt động với Dolt. Các tệp phiên bản Git, bảng phiên bản Dolt Sử dụng giao diện dòng lệnh, nhập tệp CSV, cam kết các thay đổi của bạn, xuất bản chúng lên một điều khiển từ xa và hợp nhất các thay đổi của đồng đội của bạn.
Ưu điểm
- Nhẹ và mã nguồn mở một phần.
- So với các lựa chọn khó hiểu hơn, nó có giao diện SQL, giúp các nhà phân tích dữ liệu dễ tiếp cận hơn.
Nhược điểm
- So với các lựa chọn thay thế lập phiên bản cơ sở dữ liệu khác, Dolt vẫn là một sản phẩm đang phát triển.
- Vì Dolt là một cơ sở dữ liệu, bạn phải chuyển dữ liệu của mình vào đó để nhận được những lợi ích.
GIÁ CẢ
Mọi người đều được hoan nghênh sử dụng phiên cộng đồng. Nền tảng không cung cấp giá cao cấp; thay vào đó, bạn phải liên hệ với nhà cung cấp.
6. da bì
Pachyderm là một hệ thống kiểm soát phiên bản khoa học dữ liệu miễn phí với rất nhiều tính năng. Pachyderm Enterprise là một nền tảng khoa học dữ liệu mạnh mẽ được thiết kế để cộng tác quy mô lớn trong môi trường bảo mật cao.
Pachyderm là một trong số ít nền tảng khoa học dữ liệu trong danh sách. Mục tiêu của Pachyderm là cung cấp một nền tảng quản lý chu trình dữ liệu hoàn chỉnh và giúp việc sao chép các phát hiện của các mô hình học máy trở nên đơn giản. Trong bối cảnh này, Pachyderm được biết đến với cái tên “Người phá hủy dữ liệu”. Pachyderm đóng gói môi trường thực thi của bạn bằng các vùng chứa Docker. Điều này làm cho việc sao chép các kết quả giống nhau trở nên đơn giản.
Các nhà khoa học dữ liệu và nhóm DevOps có thể tự tin triển khai các mô hình nhờ sự kết hợp của dữ liệu đã được phiên bản hóa với Docker. Nhờ một hệ thống lưu trữ hiệu quả, các petabyte dữ liệu có cấu trúc và phi cấu trúc có thể được duy trì trong khi chi phí lưu trữ được giữ ở mức tối thiểu.
Trong suốt các giai đoạn của quy trình, lập phiên bản dựa trên tệp cung cấp hồ sơ kiểm tra kỹ lưỡng cho tất cả dữ liệu và hiện vật, bao gồm cả đầu ra trung gian. Nhiều khả năng của công cụ được thúc đẩy bởi các trụ cột này, giúp các nhóm tận dụng tối đa.
Ưu điểm
- Dựa trên các vùng chứa, môi trường dữ liệu của bạn sẽ di động và dễ dàng chuyển giữa các nhà cung cấp đám mây.
- Mạnh mẽ, có khả năng mở rộng quy mô từ hệ thống nhỏ đến cực lớn.
Nhược điểm
- Vì có rất nhiều yếu tố chuyển động, chẳng hạn như máy chủ Kubernetes cần thiết để xử lý phiên bản miễn phí của Pachyderm, nên có một đường cong học tập dốc hơn.
- Pachyderm có thể gặp khó khăn trong việc kết hợp vào cơ sở hạ tầng hiện có của công ty do có nhiều thành phần công nghệ.
GIÁ CẢ
Bạn có thể bắt đầu sử dụng nền tảng này với phiên cộng đồng và đối với phiên bản doanh nghiệp, bạn phải liên hệ với nhà cung cấp.
7. Neptune
Siêu dữ liệu xây dựng mô hình được quản lý bởi kho siêu dữ liệu ML, đây là một khía cạnh quan trọng của ngăn xếp MLOps. Đối với mọi quy trình làm việc MLOps, Neptune đóng vai trò là nơi lưu trữ siêu dữ liệu tập trung.
Bạn có thể theo dõi, trực quan hóa và so sánh hàng nghìn mô hình học máy tại một nơi. Nó bao gồm các tính năng như theo dõi thử nghiệm, đăng ký mô hình và giám sát mô hình, cũng như giao diện cộng tác. Nó bao gồm hơn 25 công cụ và thư viện khác nhau được tích hợp, bao gồm một số công cụ đào tạo mô hình và điều chỉnh siêu tham số.
Bạn có thể tham gia Neptune mà không cần sử dụng thẻ tín dụng. Tài khoản Gmail sẽ đủ ở vị trí của nó.
Ưu điểm
- Tích hợp với bất kỳ đường ống, luồng, cơ sở mã hoặc khuôn khổ nào rất đơn giản.
- Hình ảnh trực quan thời gian thực, API dễ dàng và hỗ trợ nhanh chóng
- Với Neptune, bạn có thể tạo "bản sao lưu" của tất cả dữ liệu thí nghiệm của mình ở một vị trí, bạn có thể khôi phục dữ liệu này sau.
Nhược điểm
- Mặc dù không hoàn toàn là mã nguồn mở, một phiên bản riêng lẻ có lẽ sẽ đủ để sử dụng cho mục đích riêng tư, mặc dù quyền truy cập đó bị giới hạn trong một tháng.
- Có một vài lỗi thiết kế nhỏ được tìm thấy.
GIÁ CẢ
Bạn có thể bắt đầu sử dụng nền tảng này với gói Cá nhân được sử dụng miễn phí cho tất cả mọi người. Phần giá bắt đầu từ $ 150 / tháng.
Kết luận
Trong bài đăng này, chúng tôi đã thảo luận về các công cụ lập phiên bản dữ liệu tốt nhất. Mỗi công cụ, như chúng ta đã thấy, có một bộ tính năng riêng. Một số là miễn phí, trong khi những người khác yêu cầu thanh toán. Một số rất phù hợp với mô hình kinh doanh nhỏ, trong khi một số khác phù hợp hơn với mô hình kinh doanh lớn.
Do đó, bạn phải chọn phần mềm tốt nhất cho mục đích của mình sau khi cân nhắc các ưu điểm và nhược điểm. Chúng tôi khuyến khích bạn kiểm tra phiên bản dùng thử miễn phí trước khi mua một sản phẩm cao cấp.
Bình luận