25 Bộ dữ liệu đào tạo AI thay thế tốt nhất (2024)

Ngày nay, hầu hết chúng ta đều tập trung vào việc phát triển các mô hình học máy và AI và giải quyết các vấn đề bằng cách sử dụng các bộ dữ liệu hiện tại. Nhưng trước tiên, chúng ta phải xác định một tập dữ liệu, tầm quan trọng và vai trò của nó trong việc phát triển các giải pháp AI và ML mạnh mẽ.

Ngày nay, chúng ta có rất nhiều bộ dữ liệu mã nguồn mở để tiến hành nghiên cứu hoặc phát triển các ứng dụng để giải quyết các vấn đề trong thế giới thực trong nhiều lĩnh vực khác nhau.

Tuy nhiên, sự khan hiếm của các bộ dữ liệu định lượng chất lượng cao là một nguồn đáng lo ngại. Dữ liệu đã tăng rất nhiều và sẽ tiếp tục mở rộng với tốc độ nhanh hơn trong tương lai.

Trong bài đăng này, chúng tôi sẽ đề cập đến các bộ dữ liệu có sẵn miễn phí mà bạn có thể sử dụng để phát triển dự án AI tiếp theo của mình.

1. Tập dữ liệu thuộc tính CelebFaces

Bộ dữ liệu thuộc tính CelebFaces (CelebA) chứa hơn 200 nghìn ảnh người nổi tiếng và 40 chú thích thuộc tính cho mỗi ảnh, làm cho nó trở thành điểm khởi đầu tuyệt vời cho các dự án như nhận dạng khuôn mặt, phát hiện khuôn mặt, định vị mốc (hoặc thành phần khuôn mặt) cũng như chỉnh sửa & tổng hợp khuôn mặt. Hơn nữa, các bức ảnh trong bộ sưu tập này chứa nhiều biến thể về vị trí và sự lộn xộn của phông nền.

2. DOTA

DOTA (Tập dữ liệu của Phát hiện đối tượng trong Ảnh trên không) là một tập dữ liệu quy mô lớn để phát hiện đối tượng bao gồm 15 danh mục phổ biến (ví dụ: tàu, máy bay, ô tô, v.v.), 1411 hình ảnh để đào tạo và 458 hình ảnh để xác nhận.

3. Tập dữ liệu so sánh Biểu hiện trên khuôn mặt của Google

Bộ dữ liệu so sánh biểu hiện khuôn mặt của Google chứa khoảng 500,000 bộ ba hình ảnh, trong đó có 156,000 ảnh khuôn mặt. Cần lưu ý rằng mỗi bộ ba trong tập dữ liệu này được chú thích bởi ít nhất sáu người xếp hạng con người.

Bộ dữ liệu này hữu ích cho các dự án liên quan đến phân tích biểu cảm khuôn mặt, chẳng hạn như truy xuất hình ảnh dựa trên biểu cảm, phân loại cảm xúc, tổng hợp biểu cảm, v.v. Để có được quyền truy cập vào tập dữ liệu, một biểu mẫu ngắn gọn phải được hoàn thành.

4. Bộ gen thị giác

Dữ liệu trả lời câu hỏi trực quan trong môi trường nhiều lựa chọn có sẵn trong Visual Genome. Nó được tạo thành từ 101,174 bức ảnh MSCOCO với 1.7 triệu cặp QA, với trung bình 17 câu hỏi cho mỗi bức ảnh.

So với tập dữ liệu Trả lời câu hỏi bằng hình ảnh, tập dữ liệu Visual Genome có sự phân bổ công bằng hơn cho sáu loại câu hỏi: Cái gì, Ở đâu, Khi nào, Ai, Tại sao và Bằng cách nào.

Ngoài ra, tập dữ liệu Bộ gen trực quan bao gồm 108K ảnh đã được gắn thẻ nhiều với các đối tượng, thuộc tính và kết nối.

5. Thư việnBài phát biểu

Kho tài liệu LibriSpeech là một bộ sưu tập sách nói khoảng 1,000 giờ từ dự án LibriVox. Phần lớn sách nói bắt nguồn từ Project Gutenberg.

Dữ liệu đào tạo được chia thành ba phân vùng gồm các bộ 100 giờ, 360 giờ và 500 giờ, trong khi dữ liệu của nhà phát triển và thử nghiệm có độ dài âm thanh khoảng 5 giờ.

6. Các không gian thành phố

Một trong những cơ sở dữ liệu quy mô lớn nổi tiếng nhất về video âm thanh nổi với khung cảnh đô thị được gọi là The Cityscapes.

Với các chú thích chính xác đến từng pixel bao gồm vị trí GPS, nhiệt độ ngoài trời, dữ liệu chuyển động bản ngã và phối cảnh âm thanh nổi phù hợp, nó bao gồm các bản ghi âm từ 50 thành phố khác nhau của Đức.

7. Tập dữ liệu động học

Một trong những tập dữ liệu video nổi tiếng nhất để ghi nhận hoạt động của con người trên quy mô lớn và với chất lượng tốt là tập dữ liệu Kinetics. Có ít nhất 600 video clip cho mỗi lớp trong số 600 lớp hoạt động của con người, tổng cộng hơn 500,000.

Các bộ phim được lấy từ YouTube; mỗi cái dài khoảng 10 giây và chỉ có một lớp hoạt động được liệt kê.

8. CelebAMask-HQ

CelebAMask-HQ là bộ sưu tập 30,000 ảnh khuôn mặt có độ phân giải cao với mặt nạ được chú thích cẩn thận và 19 lớp bao gồm các thành phần trên khuôn mặt như da, mũi, mắt, lông mày, tai, miệng, môi, tóc, mũ, kính, bông tai, vòng cổ, cổ, chất liệu.

Bộ dữ liệu có thể được sử dụng để kiểm tra và huấn luyện nhận dạng khuôn mặt, phân tích cú pháp khuôn mặt và GAN cho các thuật toán chỉnh sửa và tạo khuôn mặt.

9. Penn Treebank

Một trong những kho ngữ liệu đáng chú ý nhất và thường được sử dụng để đánh giá các mô hình gắn thẻ trình tự là kho ngữ liệu Penn Treebank (PTB) tiếng Anh, đặc biệt là phần ngữ liệu tương ứng với các bài báo của Wall Street Journal.

Mỗi từ phải được gắn thẻ phần lời nói của nó như một thành phần của nhiệm vụ. Cấp độ ký tự và cấp độ từ mô hình ngôn ngữ cũng thường xuyên sử dụng kho ngữ liệu.

10. VoxCeleb

VoxCeleb là tập dữ liệu nhận dạng giọng nói quy mô lớn được tạo tự động từ phương tiện mã nguồn mở. VoxCeleb có hơn một triệu lời phát biểu từ hơn 6 nghìn người nói.

Vì tập dữ liệu bao gồm cả âm thanh-hình ảnh, nên nó có thể được sử dụng cho nhiều ứng dụng bổ sung, bao gồm tổng hợp giọng nói trực quan, tách giọng nói, chuyển đa phương thức từ khuôn mặt sang giọng nói hoặc ngược lại và đào tạo nhận dạng khuôn mặt từ video để bổ sung cho tính năng nhận dạng khuôn mặt hiện tại bộ dữ liệu.

11. tia SIX

Bộ dữ liệu SIXray bao gồm 1,059,231 hình ảnh tia X thu thập được từ các ga tàu điện ngầm và được các thanh tra an ninh con người chú thích để phát hiện sáu loại vật phẩm bị cấm chính: súng lục, dao, cờ lê, kìm, kéo và búa. Hơn nữa, các hộp giới hạn cho mỗi mục không được phép đã được thêm theo cách thủ công vào bộ thử nghiệm để đánh giá hiệu suất của bản địa hóa đối tượng.

12. Tai nạn Hoa Kỳ

Nội dung của dự án đã được tiết lộ qua tên của tập dữ liệu, Tai nạn Hoa Kỳ. Bộ dữ liệu về các vụ tai nạn ô tô trên toàn quốc này bao gồm thông tin từ tháng 2016 năm 2021 đến tháng 49 năm XNUMX và bao gồm XNUMX tiểu bang ở Hoa Kỳ.

Khoảng 1.5 triệu hồ sơ tai nạn hiện có mặt trong bộ sưu tập này. Nó được thu thập trong thời gian thực bằng cách sử dụng một số API lưu lượng truy cập.

Các API này truyền thông tin giao thông được thu thập từ nhiều nguồn khác nhau, bao gồm camera giao thông, các tổ chức thực thi pháp luật, các sở giao thông vận tải của Hoa Kỳ và các bang.

13. Nhận biết bệnh mắt

Cơ sở dữ liệu nhãn khoa có tổ chức Nhận dạng Thông minh Bệnh mắt (ODIR) chứa thông tin về 5,000 bệnh nhân, bao gồm tuổi của họ, màu sắc của quầng mắt trái và phải của họ và các từ khóa chẩn đoán của các chuyên gia y tế.

Bộ dữ liệu này là tập hợp dữ liệu thực tế của bệnh nhân từ các bệnh viện và cơ sở y tế khác nhau ở Trung Quốc mà Công ty TNHH Công nghệ Y tế Shanggong đã mua lại. Với quản lý kiểm soát chất lượng, chú thích đã được gắn thẻ bởi những người đọc có kỹ năng.

14. Bệnh tim

Bộ dữ liệu Bệnh tim này hỗ trợ xác định sự tồn tại của bệnh tim ở bệnh nhân dựa trên 76 thông số như tuổi, giới tính, loại đau ngực, huyết áp khi nghỉ ngơi, v.v.

Với 303 trường hợp, cơ sở dữ liệu tìm cách đơn giản phân biệt sự tồn tại của một căn bệnh (giá trị 1,2,3,4) với sự vắng mặt của nó (giá trị 0).

15. SẠCH

Tập dữ liệu CLEVR (Ngôn ngữ tổng hợp và Lập luận bằng hình ảnh sơ cấp) bắt chước câu trả lời bằng hình ảnh. Nó bao gồm các bức ảnh chụp các đối tượng được kết xuất 3D, với mỗi bức ảnh đi kèm với một loạt các câu hỏi về bố cục cao được chia thành nhiều loại.

Đối với tất cả các hình ảnh và câu hỏi về đào tạo và xác thực, tập dữ liệu bao gồm 70,000 bức ảnh và 700,000 câu hỏi để đào tạo, 15,000 hình ảnh và 150,000 câu hỏi để xác nhận, 15,000 hình ảnh và 150,000 câu hỏi để kiểm tra liên quan đến các đối tượng, câu trả lời, biểu đồ cảnh và các chương trình chức năng.

16. Sự phụ thuộc chung

Dự án Phụ thuộc Chung (UD) nhằm mục đích tạo ra hình thái đồng nhất về mặt ngôn ngữ và chú thích ngân hàng cú pháp cho nhiều ngôn ngữ. Phiên bản 2.7, được phát hành vào năm 2020, có 183 ngân hàng cây bằng 104 ngôn ngữ.

Chú thích được tạo thành từ các thẻ POW phổ quát, đầu phụ thuộc và nhãn phụ thuộc chung.

17. KITTI - 360

Một trong những bộ dữ liệu thường được sử dụng nhất cho rô bốt di động và lái xe tự trị là KITTI (Viện Công nghệ Karlsruhe và Viện Công nghệ Toyota).

Nó được tạo thành từ các kịch bản giao thông trị giá hàng giờ được ghi lại bằng cách sử dụng một loạt các phương thức cảm biến, chẳng hạn như RGB độ phân giải cao, âm thanh nổi thang độ xám và máy ảnh quét laser 3D. Tập dữ liệu đã được cải tiến theo thời gian bởi một số nhà nghiên cứu đã chú thích thủ công các phần khác nhau của nó để phù hợp với nhu cầu của họ.

18. MOT (Theo dõi nhiều đối tượng)

MOT (Theo dõi nhiều đối tượng) là một tập dữ liệu để theo dõi nhiều đối tượng bao gồm các cảnh trong nhà và ngoài trời của các địa điểm công cộng bao gồm người đi bộ là đối tượng quan tâm. Video của mỗi cảnh được chia thành hai phần, một để đào tạo và một để thử nghiệm.

Bộ dữ liệu bao gồm phát hiện đối tượng trong các khung video bằng ba bộ dò: SDP, Faster-RCNN và DPM.

19. PASCAL 3D +

Bộ dữ liệu đa chế độ xem Pascal3D + được tạo thành từ các bức ảnh được thu thập trong môi trường hoang dã, tức là ảnh của các danh mục mục có độ thay đổi cao, được chụp trong những trường hợp không được kiểm soát, trong môi trường đông đúc và ở nhiều vị trí khác nhau. Pascal3D + bao gồm 12 danh mục đối tượng cứng được rút ra từ bộ dữ liệu PASCAL VOC 2012.

Các mục này có đánh dấu thông tin tư thế (phương vị, độ cao và khoảng cách đến máy ảnh). Pascal3D + cũng bao gồm các ảnh có chú thích tạo dáng từ bộ sưu tập ImageNet trong 12 danh mục này.

20. Mô hình biến dạng khuôn mặt của động vật

Mục tiêu của dự án Các mô hình động vật có thể biến dạng khuôn mặt (FDMA) là thách thức các phương pháp luận hiện tại trong việc xác định và theo dõi các mốc trên khuôn mặt người và phát triển các thuật toán mới có thể đối phó với sự biến đổi lớn hơn đáng kể vốn là đặc điểm của các đặc điểm trên khuôn mặt động vật.

Các thuật toán của dự án đã chứng minh khả năng nhận dạng và theo dõi các điểm mốc trên khuôn mặt người trong khi xử lý các sai lệch do thay đổi cảm xúc hoặc vị trí trên khuôn mặt, khớp cắn một phần và ánh sáng.

21. Bộ dữ liệu bài đăng của con người MPII

Bộ dữ liệu tư thế người MPII chứa khoảng 25K ảnh, 15K trong số đó là các mẫu huấn luyện, 3K trong số đó là các mẫu xác nhận và 7K trong số đó là các mẫu thử nghiệm.

Các vị trí được dán nhãn thủ công với tối đa 16 khớp trên cơ thể và các bức ảnh được chụp từ các bộ phim YouTube bao gồm 410 hoạt động khác nhau của con người.

22. UCF101

Bộ dữ liệu UCF101 chứa 13,320 video clip được sắp xếp thành 101 danh mục. 101 loại này được chia thành năm loại: chuyển động của cơ thể, tương tác giữa con người với con người, tương tác giữa con người và vật thể, chơi nhạc cụ và thể thao.

Các video này từ YouTube và có thời lượng 27 giờ.

23. Bộ thính giác

Audioset là tập dữ liệu sự kiện âm thanh được tạo thành từ hơn 2 triệu đoạn video 10 giây do con người chú thích. Để chú thích dữ liệu này, bản thể luận phân cấp bao gồm 632 loại sự kiện được sử dụng, ngụ ý rằng cùng một âm thanh có thể được gắn nhãn khác nhau.

24. Suy luận ngôn ngữ tự nhiên Stanford

Tập dữ liệu SNLI (Suy luận Ngôn ngữ Tự nhiên của Stanford) chứa 570 nghìn cặp câu đã được phân loại theo cách thủ công là câu vướng mắc, mâu thuẫn hoặc trung lập.

Tiền đề là các mô tả hình ảnh trên Flickr30k, trong khi các giả thuyết được phát triển bởi các nhà chú giải có nguồn gốc từ đám đông, những người đã được cung cấp tiền đề và hướng dẫn để tạo ra các tuyên bố lôi cuốn, mâu thuẫn và trung lập.

25. Trả lời câu hỏi trực quan

Trả lời câu hỏi bằng hình ảnh (VQA) là một tập dữ liệu chứa các câu hỏi mở liên quan đến hình ảnh. Để trả lời những câu hỏi này, bạn cần nắm bắt được tầm nhìn, ngôn ngữ và cách hiểu thông thường.

Kết luận

Khi máy học và trí tuệ nhân tạo (AI) trở nên phổ biến hơn trong thực tế mọi doanh nghiệp và trong cuộc sống hàng ngày của chúng ta, thì số lượng tài nguyên và thông tin có sẵn về chủ đề này cũng tăng theo.

Các bộ dữ liệu công khai được tạo sẵn cung cấp một điểm khởi đầu tuyệt vời để phát triển các mô hình AI đồng thời cho phép các lập trình viên ML dày dạn kinh nghiệm tiết kiệm thời gian và tập trung vào các yếu tố khác trong dự án của họ.

Tập dữ liệu đào tạo AI thay thế tốt nhất

25 Bộ dữ liệu đào tạo AI thay thế tốt nhất

1. Tập dữ liệu thuộc tính CelebFaces

2. DOTA

3. Tập dữ liệu so sánh Biểu hiện trên khuôn mặt của Google

4. Bộ gen thị giác

5. Thư việnBài phát biểu

6. Các không gian thành phố

7. Tập dữ liệu động học

8. CelebAMask-HQ

9. Penn Treebank

10. VoxCeleb

11. tia SIX

12. Tai nạn Hoa Kỳ

13. Nhận biết bệnh mắt

14. Bệnh tim

15. SẠCH

16. Sự phụ thuộc chung

17. KITTI - 360

18. MOT (Theo dõi nhiều đối tượng)

19. PASCAL 3D +

20. Mô hình biến dạng khuôn mặt của động vật

21. Bộ dữ liệu bài đăng của con người MPII

22. UCF101

23. Bộ thính giác

24. Suy luận ngôn ngữ tự nhiên Stanford

25. Trả lời câu hỏi trực quan

Kết luận

Giới thiệu Jay

Các bài viết khác trên HashDork:

Cách giảm ảo giác trong AI của bạn

Colossyan vs Heygen

Bản tin công nghệ tương lai này không hấp dẫn

25 Bộ dữ liệu đào tạo AI thay thế tốt nhất

1. Tập dữ liệu thuộc tính CelebFaces

2. DOTA

3. Tập dữ liệu so sánh Biểu hiện trên khuôn mặt của Google

4. Bộ gen thị giác

5. Thư việnBài phát biểu

6. Các không gian thành phố

7. Tập dữ liệu động học

8. CelebAMask-HQ

9. Penn Treebank

10. VoxCeleb

11. tia SIX

12. Tai nạn Hoa Kỳ

13. Nhận biết bệnh mắt

14. Bệnh tim

15. SẠCH

16. Sự phụ thuộc chung

17. KITTI - 360

18. MOT (Theo dõi nhiều đối tượng)

19. PASCAL 3D +

20. Mô hình biến dạng khuôn mặt của động vật

21. Bộ dữ liệu bài đăng của con người MPII

22. UCF101

23. Bộ thính giác

24. Suy luận ngôn ngữ tự nhiên Stanford

25. Trả lời câu hỏi trực quan

Kết luận

Giới thiệu Jay

Các bài viết khác trên HashDork:

Cách giảm ảo giác trong AI của bạn

10 công cụ AI tốt nhất cho truyền thông xã hội

Colossyan vs Heygen

10 công cụ tạo video hoạt hình AI tốt nhất

Tương tác người đọc

Bình luận Hủy bỏ trả lời

Bản tin công nghệ tương lai này không hấp dẫn