모든 기계 학습 프로젝트는 좋은 데이터 세트에 의존합니다. ML 모델을 훈련하고 검증할 수 있는 것은 이 대규모 데이터 세트입니다. 따라서 ML 프로젝트 작업의 큰 부분은 요구 사항에 맞는 완벽한 데이터 세트를 찾는 것입니다. 그러나 흥미롭게 보이는 많은 파일이 결국에는 그렇지 않기 때문에 야망에 맞는 옵션을 찾는 것이 항상 가능한 것은 아닙니다.
이상적인 세트에 도달할 때까지 수많은 데이터 세트를 다운로드하는 데 시간을 낭비하는 것은 벅찰 수 있습니다. 이를 염두에 두고 흥미롭고 ML 프로젝트를 개발하는 데 도움이 될 수 있는 몇 가지 옵션을 수집했습니다. 일부는 상업용이 아닌 개인용이므로 ML 세계에서 경험을 쌓기 위한 방법으로 이러한 옵션을 살펴보십시오.
데이터세트의 기초
데이터 세트를 언급하기 전에 몇 가지 용어를 정의해야 합니다. 특히 인공 지능 프로젝트에서 기계 학습, 알고리즘을 훈련하는 데 사용되는 많은 양의 데이터가 필요합니다. 이 양의 데이터는 데이터베이스에 수집되어 알고리즘을 가르치는 데 매우 유용합니다.
이 데이터를 사용하여 알고리즘이 훈련되고 테스트를 거쳐 패턴을 찾고 관계를 설정하여 자율적으로 결정을 내릴 수 있게 됩니다. 훈련 없이, 기계 학습 알고리즘은 어떤 작업도 수행할 수 없습니다. 따라서 훈련 데이터가 좋을수록 모델이 더 잘 수행됩니다. 데이터베이스가 프로젝트에 유용하려면 수량에 관한 것이 아니라 분류에 관한 것이기도 합니다.
이상적으로는 데이터에 레이블이 잘 지정되어야 합니다. 챗봇의 경우를 생각해 보세요. 언어 삽입도 중요하지만 생성된 알고리즘이 대화 상대가 은어를 사용하는 경우를 이해할 수 있도록 구문 분석에 주의해야 합니다. 그래야만 가상 비서가 사용자가 요청한 내용에 따라 답변을 시작할 수 있습니다.
데이터 세트는 설문 조사, 사용자 구매 데이터, 서비스에 남겨진 평가 및 CSV 파일의 열과 행으로 구성된 유용한 정보를 수집할 수 있는 다양한 방법으로 생성할 수 있습니다.
완벽한 데이터 세트를 찾기 시작하기 전에 프로젝트의 목적을 아는 것이 중요합니다. 특히 날씨, 금융, 건강 등과 같은 특정 영역의 프로젝트인 경우 프로젝트의 목적을 아는 것이 중요합니다. 데이터 세트.
ML용 데이터세트
챗봇 교육
효과적인 챗봇은 사람의 개입 없이 사용자 문의를 신속하게 해결하기 위해 방대한 양의 교육 데이터가 필요합니다. 그러나 챗봇 개발의 주요 병목 현상은 이러한 기계 학습 기반 시스템을 훈련하기 위해 현실적이고 작업 지향적인 대화 데이터를 얻는 것입니다.
대화형 데이터세트는 질문과 답변 형식으로 데이터를 수집합니다. 청중에게 자동 답변을 제공하는 챗봇 교육에 이상적입니다. 이 데이터가 없으면 챗봇은 사람의 개입 없이 사용자 질문을 신속하게 해결하거나 사용자 질문에 답변하지 못합니다.
이러한 데이터 세트를 사용하여 기업은 연중무휴 24시간 고객에게 빠른 답변을 제공하는 도구를 만들 수 있으며 고객 지원 팀을 구성하는 것보다 훨씬 저렴합니다.
1. 질문 답변 데이터 세트
이 데이터 세트는 일련의 Wikipedia 기사, 질문 및 각각 수동으로 생성된 답변을 제공합니다. 2008년에서 2010년 사이에 수집된 데이터 세트입니다. 학술 연구.
2. 언어 데이터
언어 데이터는 Yahoo!와 같은 회사의 일부 서비스에서 생성된 정보로 Yahoo에서 관리하는 데이터베이스입니다. 사용자가 질문과 답변을 게시할 수 있는 개방형 커뮤니티 역할을 하는 Answer.
3. 위키QA
WikiQA 말뭉치도 일련의 질문과 답변으로 구성됩니다. 질문의 출처는 Bing이며 답변은 초기 질문을 해결할 가능성이 있는 Wikipedia 페이지로 연결됩니다.
총 3,000개 이상의 질문과 29,258개의 문장 세트가 데이터 세트에 있으며 그 중 약 1,400개가 해당 질문에 대한 답변으로 분류되었습니다.
정부 데이터
정부에서 생성한 데이터 세트는 인구 통계학적 데이터를 가져오며, 이는 사회 동향 이해, 공공 정책 수립 및 사회 개선과 관련된 프로젝트에 대한 훌륭한 입력입니다. 이는 정치 캠페인, 타겟 광고 또는 시장 분석에 유용할 수 있습니다.
이러한 데이터 세트에는 일반적으로 익명화된 데이터가 포함되어 있으므로 모델이 원시 데이터에 액세스할 수 있지만 개인 정보를 침해하지 않습니다.
4. Data.gov
2009년에 시작된 Data.gov는 북미 데이터 소스입니다. 카탈로그는 인상적입니다. 형식, 태그, 유형 및 주제별로 세분화할 수 있는 218,000개 이상의 데이터 세트가 있습니다.
5. EU 오픈 데이터 포털
EU Open Data Portal은 유럽 연합 기관에서 공유하는 공개 데이터에 대한 액세스를 제공합니다. 상업적 및 비상업적 용도로 사용할 수 있는 데이터입니다. 사용자는 건강, 에너지, 환경, 문화 및 교육과 같은 주제를 다루는 15.5개 이상의 데이터 세트를 마음대로 사용할 수 있습니다.
건강 데이터
전 세계적으로 진행 중인 건강 위기의 여파로 의료 기관에서 생성한 데이터 세트는 생명을 구하기 위한 효과적인 솔루션을 개발하는 데 필수적입니다. 이러한 데이터 세트는 위험 요소를 식별하고 질병 전파 패턴을 파악하며 진단 속도를 높이는 데 도움이 될 수 있습니다.
이 데이터 세트는 건강 기록, 환자의 인구 통계, 질병 유병률, 의약 사용량, 영양가 등으로 구성됩니다.
6. 지구보건관측소
이 데이터 세트는 세계 보건 기구(WHO)의 이니셔티브입니다. 건강 시스템, 담배 사용 통제, 출산, HIV/AIDS 등과 같은 주제별로 구성된 다양한 건강 영역과 관련된 공개 데이터를 제공합니다. COVID-19에 대한 데이터를 참조할 수도 있습니다.
7. 코드-19
CORD-19는 COVID-19에 대한 학술 출판물과 새로운 코로나바이러스에 대한 기타 기사의 모음입니다. COVID-19에 대한 새로운 통찰력을 생성하기 위한 개방형 데이터 세트입니다.
경제 데이터
금융환경과 관련된 데이터셋은 장기간 수집되는 것이 일반적이기 때문에 일반적으로 방대한 양의 정보를 수집합니다. 경제 예측을 생성하거나 투자 동향을 수립하는 데 이상적입니다.
올바른 재무 데이터 세트를 사용하면 기계 학습 모델 주어진 자산의 행동을 예측할 수 있습니다. 이것이 바로 금융 부문이 효과적인 ML 모델을 만들기 위해 최선을 다하는 이유입니다. 합리적으로 잘 예측할 수 있는 모든 것이 수백만 달러를 창출할 가능성이 있기 때문입니다. 머신 러닝은 이미 시민의 행동을 예측하고 있으며, 이는 정책 입안자들이 업무를 수행하는 방식에 영향을 미치고 있습니다.
8. 국제 통화 기금
IMF 데이터 세트는 다양한 경제 및 금융 지표, 회원국 통계, 기타 대출 및 환율 데이터를 보유하고 있습니다.
9. 세계 은행 (World Bank)
세계 은행의 리포지토리에는 여러 국가의 경제 정보가 포함된 다양한 데이터 세트가 포함되어 있습니다. 대륙별로 나누어진 17,000개 이상의 데이터 세트가 있습니다.
제품 및 서비스 리뷰
감정 분석은 이제 기업이 고객 또는 고객으로부터 올바르게 평가하고 학습하는 데 도움이 되는 다양한 분야에서 응용 프로그램을 찾았습니다. 감성 분석은 소셜 미디어 모니터링, 브랜드 모니터링, 고객의 소리(VoC), 고객 서비스, 시장 조사에 점점 더 많이 활용되고 있습니다.
감정 분석은 NLP를 사용합니다. (신경 언어 프로그래밍) 규칙 기반, 하이브리드 또는 기계 학습 기술에 의존하여 데이터 세트에서 데이터를 학습하는 방법 및 알고리즘입니다.
감성분석에 필요한 데이터는 전문화되어야 하며 대량으로 요구된다. 감정 분석 교육 과정에서 가장 어려운 부분은 많은 양의 데이터를 찾는 것이 아닙니다. 대신 관련 데이터 세트를 찾는 것입니다. 이러한 데이터 세트는 광범위한 감정 분석 애플리케이션 및 사용 사례를 다루어야 합니다.
10. Amazon 리뷰
이 데이터 세트에는 35년 동안 수집된 정보에 걸쳐 약 18만 개의 Amazon 리뷰가 포함되어 있습니다. 제품, 사용자, 리뷰 콘텐츠의 데이터세트입니다.
11. Yelp 리뷰
Yelp는 또한 서비스에서 수집한 정보를 기반으로 데이터 세트를 제공합니다. 8만 개 이상의 리뷰, 1만 개의 팁, 영업 시간 및 가용성과 같은 비즈니스와 관련된 거의 1.5만 개의 속성이 있습니다.
12. IMDB 리뷰
이 데이터베이스에는 교육을 위한 25개 이상의 영화 리뷰 세트와 영화 등급을 전문으로 하는 IMDB 페이지에서 비공식적으로 수행한 테스트에 대한 25개 이상의 리뷰 세트가 포함되어 있습니다. 또한 레이블이 지정되지 않은 데이터를 추가로 제공합니다.
ML의 첫 번째 단계를 위한 데이터세트
13. 와인 품질 데이터세트
이 데이터 세트는 포르투갈 북부에서 생산되는 레드 및 그린 와인과 관련된 정보를 제공합니다. 목표는 물리화학적 테스트를 기반으로 와인 품질을 정의하는 것입니다. 예측 시스템 생성을 연습하려는 사람들에게 흥미롭습니다.
14. 타이타닉 데이터세트
이 데이터세트는 타이타닉호의 실제 승객 887명의 데이터를 가져오며, 각 열은 생존 여부, 나이, 승객 등급, 성별, 지불한 탑승료를 정의합니다. 이 데이터 세트는 타이타닉호 침몰에서 살아남은 승객을 예측할 수 있는 모델을 만드는 것을 목표로 하는 Kaggle 플랫폼에서 시작한 과제의 일부였습니다.
다른 데이터 세트를 찾기 위한 플랫폼
더 나아가 자신만의 데이터 세트를 찾으려면 가장 좋은 방법은 가장 유명한 저장소를 탐색하는 것입니다. 기계 학습 우주:
카글
Google LLC의 자회사인 Kaggle은 데이터 과학자와 기계 학습 전문가의 온라인 커뮤니티입니다. Kaggle을 사용하면 웹 기반 데이터 과학 환경에서 데이터 세트를 찾고 게시하고 모델을 탐색 및 생성할 수 있습니다. 다른 데이터 과학자와 협력하고 기계 학습 엔지니어, 데이터 과학 문제를 해결하기 위한 콘테스트에 참여합니다.
Kaggle은 2010년 Machine Learning 콘테스트를 제공하여 시작했으며 현재는 공개 데이터 플랫폼, 데이터 과학 및 인공 지능 교육을 위한 클라우드 기반 워크벤치.
데이터세트 검색
데이터세트 검색은 연구자들이 자유롭게 사용할 수 있는 온라인 데이터를 찾는 데 도움이 되는 Google의 검색 엔진입니다. 웹에는 관심 있는 거의 모든 주제에 대한 수백만 개의 데이터 세트가 있습니다.
강아지를 구입하려는 경우 강아지 구매자의 불만이나 강아지 인지에 대한 연구를 수집한 데이터 세트를 찾을 수 있습니다. 또는 스키를 좋아하는 경우 스키 리조트 수익 또는 부상률 및 참여 수에 대한 데이터를 찾을 수 있습니다. Dataset Search는 이러한 데이터 세트 중 거의 25만 개를 인덱싱하여 데이터 세트를 검색하고 데이터가 있는 위치에 대한 링크를 찾을 수 있는 단일 위치를 제공합니다.
UCI 머신 러닝 리포지토리
UCI Machine Learning Repository는 Machine Learning 알고리즘의 경험적 분석을 위해 Machine Learning 커뮤니티에서 사용하는 데이터베이스, 도메인 이론 및 데이터 생성기의 모음입니다. 아카이브는 1987년 David Aha와 UC Irvine의 동료 대학원생이 ftp 아카이브로 만들었습니다.
그 이후로 전 세계의 학생, 교육자 및 연구원이 ML 데이터 세트의 기본 소스로 널리 사용되었습니다. 아카이브의 영향을 나타내는 지표로 1000번 이상 인용되었으며 모든 컴퓨터 과학에서 가장 많이 인용된 100대 "논문" 중 하나입니다.
Quandl
Quandl은 사용자에게 경제, 금융 및 대체 데이터 세트를 제공하는 플랫폼입니다. 사용자는 무료 데이터를 다운로드하거나 유료 데이터를 구매하거나 Quandl에 데이터를 판매할 수 있습니다. 의 개발에 유용한 도구가 될 수 있습니다. 거래 알고리즘예를 들어.
결론
이러한 도구를 탐색하면 프로젝트에 대한 훌륭한 입력을 찾을 수 있습니다. 특정 요구 사항에 가장 적합한 데이터 세트를 선택하고 항상 염두에 두십시오. 양뿐만 아니라 품질도 중요합니다. 데이터 세트는 모든 머신러닝 프로젝트 그리고 잘못된 결론에 도달할 위험을 피하기 위해 양질의 데이터를 구축하는 것이 필수적입니다.
댓글을 남겨주세요.