14 Bộ dữ liệu tốt nhất cho Học máy

Mục lục[Ẩn giấu][Chỉ]

Khái niệm cơ bản về tập dữ liệu
Bộ dữ liệu cho ML+-
Nền tảng để tìm các tập dữ liệu khác+-
Kết luận

Mọi dự án Học máy đều dựa trên một tập dữ liệu tốt. Chính tập dữ liệu lớn này sẽ cho phép bạn đào tạo và xác nhận mô hình ML của mình. Vì vậy, một phần quan trọng của công việc trong một dự án ML là tìm ra tập dữ liệu hoàn hảo cho nhu cầu của bạn. Tuy nhiên, không phải lúc nào bạn cũng có thể tìm được một lựa chọn phù hợp với tham vọng của mình, vì cuối cùng thì nhiều tệp trông có vẻ thú vị nhưng lại không như vậy.

Việc lãng phí thời gian tải xuống vô số bộ dữ liệu cho đến khi bạn có được bộ lý tưởng có thể khiến bạn nản lòng. Với ý nghĩ đó, chúng tôi đã tập hợp một số tùy chọn có vẻ thú vị và có thể giúp bạn phát triển dự án ML của mình. Lưu ý rằng một số được dành cho mục đích cá nhân thay vì sử dụng cho mục đích thương mại, vì vậy hãy xem các tùy chọn này như một cách để tích lũy kinh nghiệm trong vũ trụ ML.

Khái niệm cơ bản về tập dữ liệu

Trước khi đề cập đến bộ dữ liệu, chúng ta nên xác định một số thuật ngữ. Trong các dự án Trí tuệ nhân tạo, đặc biệt Machine Learning, một lượng lớn dữ liệu được yêu cầu, sẽ được sử dụng để huấn luyện thuật toán. Lượng dữ liệu này được tập hợp trong một cơ sở dữ liệu, vô cùng hữu ích để dạy một thuật toán.

Với dữ liệu này, thuật toán được huấn luyện - cũng được thử nghiệm - và có thể tìm ra các mẫu, thiết lập các mối quan hệ và do đó đưa ra quyết định một cách tự chủ. Không cần đào tạo, Machine Learning các thuật toán không thể thực hiện bất kỳ hành động nào. Do đó, dữ liệu huấn luyện càng tốt thì mô hình sẽ hoạt động tốt hơn. Để một cơ sở dữ liệu hữu ích cho dự án, nó không phải là về số lượng: nó còn là về phân loại.

Tốt nhất, dữ liệu nên được dán nhãn tốt. Hãy nghĩ về trường hợp của chatbots: việc chèn ngôn ngữ là quan trọng, nhưng phải phân tích cú pháp cẩn thận để thuật toán được tạo ra có thể hiểu được khi nào người đối thoại đang sử dụng tiếng lóng. Chỉ khi đó, trợ lý ảo mới có thể đưa ra câu trả lời theo những gì người dùng yêu cầu.

Tập dữ liệu có thể được tạo từ các cuộc khảo sát, dữ liệu mua hàng của người dùng, đánh giá về dịch vụ và theo nhiều cách khác cho phép thu thập thông tin hữu ích được tổ chức thành các cột và hàng trong tệp CSV.

Trước khi bắt đầu tìm kiếm bộ dữ liệu hoàn hảo, điều quan trọng là bạn phải biết mục đích của dự án của mình, đặc biệt nếu nó đến từ một khu vực cụ thể, chẳng hạn như thời tiết, tài chính, sức khỏe, v.v. Điều này sẽ quy định nguồn mà bạn sẽ lấy tập dữ liệu.

Bộ dữ liệu cho ML

Đào tạo chatbot

Một chatbot hiệu quả đòi hỏi một lượng lớn dữ liệu đào tạo để có thể nhanh chóng giải quyết các thắc mắc của người dùng mà không cần sự can thiệp của con người. Tuy nhiên, điểm nghẽn chính trong quá trình phát triển chatbot là lấy dữ liệu hộp thoại thực tế, theo định hướng nhiệm vụ để đào tạo các hệ thống dựa trên Machine Learning này.

Tập dữ liệu hội thoại thu thập dữ liệu ở định dạng câu hỏi và câu trả lời. Đó là lý tưởng để đào tạo các chatbot sẽ đưa ra các câu trả lời tự động cho khán giả. Nếu không có dữ liệu này, chatbot sẽ không thể nhanh chóng giải quyết các thắc mắc của người dùng hoặc trả lời các câu hỏi của người dùng mà không cần sự can thiệp của con người.

Sử dụng các bộ dữ liệu này, các doanh nghiệp có thể tạo ra một công cụ cung cấp câu trả lời nhanh chóng cho khách hàng 24/7 và rẻ hơn đáng kể so với việc có một nhóm người làm công việc hỗ trợ khách hàng.

1. Tập dữ liệu câu hỏi-trả lời

Tập dữ liệu này cung cấp một tập hợp các bài viết Wikipedia, câu hỏi và câu trả lời được tạo thủ công tương ứng. Đây là bộ dữ liệu được thu thập từ năm 2008 đến 2010 để sử dụng trong nghiên cứu học thuật.

2. Dữ liệu ngôn ngữ

Dữ liệu ngôn ngữ là cơ sở dữ liệu do Yahoo quản lý với thông tin được tạo ra từ một số dịch vụ của công ty, chẳng hạn như Yahoo! Trả lời, hoạt động như một cộng đồng mở để người dùng đăng câu hỏi và câu trả lời.

Tập dữ liệu 1

3. WikiQA

Tập tài liệu WikiQA cũng bao gồm một bộ câu hỏi và câu trả lời. Nguồn của các câu hỏi là Bing, trong khi các câu trả lời liên kết đến một trang Wikipedia có khả năng giải quyết câu hỏi ban đầu.

Tập dữ liệu 2 Tổng cộng, có hơn 3,000 câu hỏi và một tập hợp 29,258 câu trong bộ dữ liệu, trong đó có khoảng 1,400 câu đã được phân loại là câu trả lời cho một câu hỏi tương ứng.

Dữ liệu chính phủ

Tập dữ liệu do các chính phủ tạo ra mang lại dữ liệu nhân khẩu học, là đầu vào tuyệt vời cho các dự án liên quan đến việc tìm hiểu xu hướng xã hội, tạo chính sách công và cải thiện xã hội. Điều này có thể hữu ích cho các chiến dịch chính trị, quảng cáo được nhắm mục tiêu hoặc phân tích thị trường.

Các tập dữ liệu này thường chứa dữ liệu ẩn danh, vì vậy mặc dù các mô hình có thể truy cập vào dữ liệu thô, nhưng không có vi phạm quyền riêng tư cá nhân.

4. Dữ liệu

Ra mắt vào năm 2009, Data.gov là nguồn dữ liệu Bắc Mỹ. Danh mục của nó rất ấn tượng: hơn 218,000 bộ dữ liệu cho phép phân đoạn theo định dạng, thẻ, loại và chủ đề.

5. Cổng dữ liệu mở của Liên minh Châu Âu

Cổng dữ liệu mở của EU cung cấp quyền truy cập vào dữ liệu mở được chia sẻ bởi các tổ chức của Liên minh châu Âu. Đây là những dữ liệu có thể được sử dụng cho mục đích thương mại và phi thương mại. Người dùng có thể sử dụng hơn 15.5 nghìn bộ dữ liệu, bao gồm các chủ đề như sức khỏe, năng lượng, môi trường, văn hóa và giáo dục.

Dữ liệu sức khỏe

Trong bối cảnh cuộc khủng hoảng y tế đang diễn ra trên toàn thế giới, các bộ dữ liệu do các tổ chức y tế tạo ra là điều cần thiết để phát triển các giải pháp hiệu quả để cứu sống. Các bộ dữ liệu này có thể giúp xác định các yếu tố nguy cơ, tìm ra các mô hình lây truyền bệnh và tăng tốc độ chẩn đoán.

Các bộ dữ liệu này bao gồm hồ sơ sức khỏe, nhân khẩu học của bệnh nhân, tỷ lệ hiện mắc bệnh, cách sử dụng thuốc, giá trị dinh dưỡng, v.v.

6. Đài quan sát sức khỏe toàn cầu

Bộ dữ liệu này là sáng kiến của Tổ chức Y tế Thế giới (WHO). Nó cung cấp dữ liệu công khai liên quan đến các lĩnh vực y tế khác nhau, được sắp xếp theo các chủ đề như hệ thống y tế, kiểm soát sử dụng thuốc lá, thai sản, HIV / AIDS, v.v. Ngoài ra, còn có tùy chọn tham khảo dữ liệu về COVID-19.

7. DÂY-19

CORD-19 là tập hợp các ấn phẩm học thuật về COVID-19 và các bài báo khác về coronavirus mới. Đây là một tập dữ liệu mở nhằm tạo ra những hiểu biết mới về COVID-19.

Tập dữ liệu7

Dữ liệu kinh tế

Các tập dữ liệu liên quan đến môi trường tài chính thường thu thập một lượng lớn thông tin, vì thông thường chúng đã được thu thập trong một thời gian dài. Chúng rất lý tưởng để tạo ra các dự đoán kinh tế hoặc thiết lập các xu hướng đầu tư.

Với bộ dữ liệu tài chính phù hợp, Mô hình học máy có thể dự đoán hành vi của một nội dung nhất định. Đó là lý do tại sao ngành tài chính đang làm mọi thứ trong khả năng của mình để tạo ra một mô hình ML hiệu quả, vì bất cứ thứ gì có thể dự đoán một cách hợp lý đều có khả năng tạo ra hàng triệu đô la. Máy học đã dự đoán hành vi của công dân, điều này đang tác động đến cách các nhà hoạch định chính sách đang thực hiện công việc của họ.

8. Quỹ Tiền tệ quốc tế

Bộ dữ liệu của IMF chứa một loạt các chỉ số kinh tế và tài chính, số liệu thống kê của các quốc gia thành viên cũng như các dữ liệu về khoản vay và tỷ giá hối đoái khác.

9. Ngân hàng Thế giới

Kho lưu trữ của Ngân hàng Thế giới chứa các bộ dữ liệu khác nhau với thông tin kinh tế từ các quốc gia khác nhau. Có hơn 17,000 bộ dữ liệu được phân chia theo các châu lục.

88 bộ dữ liệu7

Đánh giá sản phẩm và dịch vụ

Phân tích cảm xúc đã tìm thấy các ứng dụng của nó trong các lĩnh vực khác nhau, hiện đang giúp các doanh nghiệp ước tính và học hỏi từ khách hàng hoặc khách hàng của họ một cách chính xác. Phân tích cảm xúc ngày càng được sử dụng nhiều hơn để theo dõi mạng xã hội, giám sát thương hiệu, tiếng nói của khách hàng (VoC), dịch vụ khách hàng và nghiên cứu thị trường.

Phân tích tình cảm sử dụng NLP (lập trình ngôn ngữ thần kinh) các phương pháp và thuật toán dựa trên quy tắc, kết hợp hoặc dựa trên các kỹ thuật Máy học để học dữ liệu từ tập dữ liệu.

Dữ liệu cần thiết trong phân tích tình cảm phải chuyên biệt và được yêu cầu với số lượng lớn. Phần thách thức nhất trong quá trình đào tạo phân tích tình cảm không phải là tìm kiếm dữ liệu với số lượng lớn; thay vào đó, nó là để tìm các bộ dữ liệu có liên quan. Các tập dữ liệu này phải bao gồm một khu vực rộng lớn của các ứng dụng và trường hợp sử dụng phân tích tình cảm.

10. Amazon Nhận xét

Bộ dữ liệu này chứa khoảng 35 triệu đánh giá Amazon, kéo dài 18 năm thông tin được thu thập. Nó là một tập dữ liệu về sản phẩm, người dùng và nội dung đánh giá.

11. Bài đánh giá trên Yelp

Yelp cũng cung cấp một tập dữ liệu dựa trên thông tin thu thập được từ dịch vụ của mình. Có hơn 8 triệu đánh giá, 1 triệu mẹo, cộng với gần 1.5 triệu thuộc tính liên quan đến doanh nghiệp, chẳng hạn như giờ mở cửa và tình trạng còn hàng.

12. Đánh giá IMDB

Cơ sở dữ liệu này chứa một tập hợp hơn 25 nghìn bài đánh giá phim để đào tạo và 25 nghìn bài khác cho các bài kiểm tra được lấy không chính thức từ trang IMDB, chuyên về xếp hạng phim. Nó cũng cung cấp dữ liệu không được gắn nhãn như một phần bổ sung.

Tập dữ liệu cho các bước đầu tiên trong ML

13. Bộ dữ liệu chất lượng rượu

Bộ dữ liệu này cung cấp thông tin liên quan đến rượu vang, cả màu đỏ và màu xanh lá cây, được sản xuất ở miền bắc Bồ Đào Nha. Mục đích là xác định chất lượng rượu dựa trên các xét nghiệm hóa lý. Thú vị cho những ai muốn thực hành tạo một hệ thống dự đoán.

14. Tập dữ liệu Titanic

Bộ dữ liệu này thu thập dữ liệu từ 887 hành khách thực sự trên tàu Titanic, với mỗi cột xác định xem họ có sống sót hay không, tuổi, hạng hành khách, giới tính và phí lên máy bay mà họ đã trả. Bộ dữ liệu này là một phần của thử thách do nền tảng Kaggle đưa ra, với mục đích là tạo ra một mô hình có thể dự đoán hành khách nào sống sót sau vụ đắm tàu Titanic.

Nền tảng để tìm các tập dữ liệu khác

Nếu bạn muốn đi xa hơn và tìm tập dữ liệu của riêng mình, cách tốt nhất là duyệt qua các kho lưu trữ nổi tiếng nhất của Machine Learning Vũ trụ:

Kaggle

Kaggle, một công ty con của Google LLC, là một cộng đồng trực tuyến gồm các nhà khoa học dữ liệu và chuyên gia Máy học. Kaggle cho phép người dùng tìm và xuất bản bộ dữ liệu, khám phá và tạo mô hình trong môi trường khoa học dữ liệu dựa trên web; làm việc với các nhà khoa học dữ liệu khác và Kỹ sư máy họcvà tham gia các cuộc thi để giải quyết các thách thức về khoa học dữ liệu.

Kaggle bắt đầu vào năm 2010 bằng cách tổ chức các cuộc thi về Học máy và hiện cũng tổ chức nền tảng dữ liệu, một bàn làm việc dựa trên đám mây dành cho giáo dục khoa học dữ liệu và Trí tuệ nhân tạo.

Tìm kiếm tập dữ liệu

Dataset Search là một công cụ tìm kiếm của Google giúp các nhà nghiên cứu định vị dữ liệu trực tuyến có sẵn miễn phí để sử dụng. Trên khắp các trang web, có hàng triệu bộ dữ liệu về gần như bất kỳ chủ đề nào mà bạn quan tâm.

Nếu bạn đang tìm mua một con chó con, bạn có thể tìm thấy bộ dữ liệu tổng hợp các phàn nàn của người mua chó con hoặc các nghiên cứu về nhận thức của chó con. Hoặc nếu bạn thích trượt tuyết, bạn có thể tìm thấy dữ liệu về doanh thu của các khu nghỉ mát trượt tuyết hoặc tỷ lệ thương tật và số người tham gia. Dataset Search đã lập chỉ mục gần 25 triệu tập dữ liệu này, giúp bạn có một nơi duy nhất để tìm kiếm tập dữ liệu và tìm các liên kết đến vị trí của dữ liệu.

Kho lưu trữ máy học UCI

Kho lưu trữ Máy học UCI là tập hợp các cơ sở dữ liệu, lý thuyết miền và trình tạo dữ liệu được cộng đồng Máy học sử dụng để phân tích thực nghiệm các thuật toán Máy học. Kho lưu trữ được tạo ra dưới dạng một kho lưu trữ ftp vào năm 1987 bởi David Aha và các sinh viên tốt nghiệp khác tại UC Irvine.

Kể từ thời điểm đó, nó đã được sử dụng rộng rãi bởi sinh viên, nhà giáo dục và nhà nghiên cứu trên toàn thế giới như một nguồn chính của bộ dữ liệu ML. Như một dấu hiệu về tác động của kho lưu trữ, nó đã được trích dẫn hơn 1000 lần, khiến nó trở thành một trong 100 “bài báo” được trích dẫn nhiều nhất trong tất cả các ngành khoa học máy tính.

quandl

Quandl là một nền tảng cung cấp cho người dùng các tập dữ liệu kinh tế, tài chính và các tập dữ liệu thay thế. Người dùng có thể tải xuống dữ liệu miễn phí, mua dữ liệu trả phí hoặc bán dữ liệu cho Quandl. Nó có thể là một công cụ hữu ích để phát triển thuật toán giao dịch, ví dụ.

Kết luận

Bằng cách khám phá những công cụ này, bạn chắc chắn sẽ tìm thấy những thông tin đầu vào tuyệt vời cho các dự án của mình. Đảm bảo chọn tập dữ liệu phù hợp nhất cho nhu cầu cụ thể của bạn và luôn ghi nhớ: không chỉ về số lượng mà còn là chất lượng. Tập dữ liệu là cơ sở của bất kỳ Dự án máy học và điều cần thiết là phải xây dựng dựa trên dữ liệu chất lượng để tránh rủi ro đưa ra kết luận sai lầm.

14 Bộ dữ liệu tốt nhất cho Học máy

Khái niệm cơ bản về tập dữ liệu