차례[숨다][보여 주다]
오늘날 우리 대부분은 기계 학습 및 AI 모델을 개발하고 현재 데이터 세트를 사용하여 문제를 해결하는 데 집중하고 있습니다. 그러나 먼저 강력한 AI 및 ML 솔루션을 개발하는 데 있어 데이터 세트, 그 중요성, 역할을 정의해야 합니다.
오늘날 우리는 다양한 분야의 실제 문제를 해결하기 위해 연구를 수행하거나 응용 프로그램을 개발하는 데 사용할 수 있는 수많은 오픈 소스 데이터 세트를 보유하고 있습니다.
그러나 고품질의 정량적 데이터 세트의 부족이 우려의 원인입니다. 데이터는 엄청나게 증가했으며 앞으로 더 빠른 속도로 계속 확장될 것입니다.
이 게시물에서는 다음 AI 프로젝트를 개발하는 데 사용할 수 있는 무료로 사용할 수 있는 데이터 세트를 다룹니다.
1. CelebFaces 속성 데이터 세트
CelebFaces Attributes Dataset(CelebA)에는 200개 이상의 유명인 사진과 각 이미지에 대한 40개의 속성 주석이 포함되어 있어 다음과 같은 프로젝트를 위한 훌륭한 출발점이 됩니다. 얼굴 인식, 얼굴 감지, 랜드마크(또는 얼굴 구성 요소) 현지화, 얼굴 편집 및 합성. 또한 이 컬렉션의 사진에는 다양한 위치 변형과 배경 혼란이 포함되어 있습니다.
2. 도타
DOTA(데이터세트 객체 감지 항공 사진에서)는 15개의 공통 범주(예: 선박, 비행기, 자동차 등), 교육용 이미지 1411개, 검증용 이미지 458개를 포함하는 객체 감지를 위한 대규모 데이터 세트입니다.
3. Google 얼굴 표정 비교 데이터 세트
Google 얼굴 표정 비교 데이터 세트에는 500,000개의 얼굴 사진을 포함하여 약 156,000개의 삼중 사진이 포함되어 있습니다. 이 데이터 세트의 각 XNUMX항에는 최소 XNUMX명의 평가자가 주석을 달았다는 점은 주목할 가치가 있습니다.
이 데이터 세트는 표정 기반 사진 검색, 감정 분류, 표정 합성 등과 같은 얼굴 표정 분석과 관련된 프로젝트에 유용합니다. 데이터 세트에 액세스하려면 간단한 양식을 작성해야 합니다.
4. 비주얼 게놈
객관식 환경의 Visual Question Answering 데이터는 Visual Genome에서 사용할 수 있습니다. 101,174개의 MSCOCO 사진과 1.7만 개의 QA 쌍으로 구성되어 있으며 이미지당 평균 17개의 질문이 있습니다.
Visual Question Answering 데이터 세트와 비교하여 Visual Genome 데이터 세트는 What, Where, When, Who, Why, How의 XNUMX가지 질문 유형에 걸쳐 더 공정하게 분포되어 있습니다.
또한 Visual Genome 데이터 세트에는 개체, 속성 및 연결로 태그가 많이 지정된 108K 사진이 포함되어 있습니다.
5. 리브리스피치
LibriSpeech 말뭉치는 LibriVox 프로젝트의 약 1,000시간 분량의 오디오북 모음입니다. 대부분의 오디오북은 Project Gutenberg에서 제작되었습니다.
훈련 데이터는 100hr, 360hr 및 500hr 세트의 세 파티션으로 나뉘며 개발 및 테스트 데이터는 오디오 길이가 약 5시간입니다.
6. 도시공간
도시 경관이 포함된 스테레오 비디오의 가장 잘 알려진 대규모 데이터베이스 중 하나는 Cityscapes입니다.
GPS 위치, 실외 온도, 자아 움직임 데이터 및 올바른 스테레오 관점을 포함하는 픽셀 단위의 정확한 주석과 함께 독일 50개 도시의 녹음이 포함됩니다.
7. 역학 데이터세트
대규모의 우수한 품질로 인간 활동을 인식하는 가장 잘 알려진 비디오 데이터 세트 중 하나는 Kinetics 데이터 세트입니다. 600개의 휴먼 액티비티 클래스 각각에 대해 최소 600개의 비디오 클립이 있으며 총 500,000개가 넘습니다.
영화는 YouTube에서 가져왔습니다. 각각의 길이는 약 10초이며 나열된 활동 클래스는 하나만 있습니다.
8. CelebAmask-HQ
CelebAMask-HQ는 마스크와 피부, 코, 눈, 눈썹, 귀, 입, 입술, 머리카락, 모자, 안경, 귀걸이, 목걸이, 목, 소재.
데이터 세트는 얼굴 생성 및 편집 알고리즘을 위한 얼굴 인식, 얼굴 구문 분석 및 GAN을 테스트하고 훈련하는 데 사용할 수 있습니다.
9. 펜 트리뱅크
시퀀스 태깅을 위한 모델 평가를 위해 가장 유명하고 자주 사용되는 말뭉치 중 하나는 English Penn Treebank(PTB) 말뭉치, 특히 월스트리트 저널 기사에 해당하는 말뭉치 부분입니다.
각 단어에는 작업의 구성 요소로 태그가 지정된 품사가 있어야 합니다. 문자 수준 및 단어 수준 언어 모델링 또한 말뭉치를 자주 사용합니다.
10. 복스셀럽
VoxCeleb는 다음에서 자동으로 생성된 대규모 음성 식별 데이터 세트입니다. 오픈 소스 미디어. VoxCeleb는 6명이 넘는 화자들로부터 백만 개 이상의 발언을 했습니다.
데이터 세트에는 시청각이 포함되어 있으므로 시각적 음성 합성, 음성 분리, 얼굴에서 음성으로 또는 그 반대로 교차 모드 전송, 현재 얼굴 인식을 보완하기 위해 비디오에서 얼굴 인식 훈련 등 다양한 추가 응용 프로그램에 사용할 수 있습니다. 데이터 세트.
11. 식스레이
SIXray 데이터 세트에는 지하철 역에서 수집한 1,059,231개의 X선 사진이 포함되어 있으며 보안 검사관이 주석을 달아 XNUMX가지 주요 금지 품목(권총, 칼, 렌치, 펜치, 가위, 망치)을 감지합니다. 또한 개체 현지화 성능을 평가하기 위해 허용되지 않는 각 항목의 경계 상자를 테스트 세트에 수동으로 추가했습니다.
12. 미국 사고
프로젝트의 내용은 이미 데이터 세트의 이름인 US Accidents로 밝혀졌습니다. 전국 자동차 사고에 대한 이 데이터 세트에는 2016년 2021월부터 49년 XNUMX월까지의 정보가 포함되어 있으며 미국의 XNUMX개 주를 포함합니다.
현재 이 컬렉션에는 약 1.5만 개의 사고 기록이 있습니다. 여러 트래픽 API를 활용하여 실시간으로 수집되었습니다.
이러한 API는 교통 카메라, 법 집행 기관, 미국 및 주 교통부 등 다양한 출처에서 수집한 교통 정보를 전송합니다.
13. 안질환 인식
조직화된 안과 데이터베이스 Ocular Disease Intelligent Recognition(ODIR)에는 5,000명의 환자에 대한 연령, 좌우 눈의 안저 색깔, 의료 전문가의 진단 키워드 등의 정보가 포함되어 있습니다.
이 데이터 세트는 Shanggong Medical Technology Co., Ltd.가 인수한 중국의 다양한 병원 및 의료 시설의 환자 데이터를 실제 수집한 것입니다. 와 함께 품질 관리 관리, 주석은 숙련된 독자가 태그했습니다.
14. 심장병
이 심장 질환 데이터 세트는 연령, 성별, 흉통 종류, 안정시 혈압 등의 76개 매개변수를 기반으로 환자의 심장 질환 존재를 식별하는 데 도움이 됩니다.
303개의 사례에서 데이터베이스는 질병의 존재(값 1,2,3,4)와 질병의 부재(값 0)를 단순히 구별하려고 합니다.
15. 클레브르
CLEVR 데이터 세트(구성 언어 및 기초 시각적 추론)는 시각적 질문 답변을 모방합니다. 3D로 렌더링된 물체의 사진으로 구성되어 있으며, 각 사진에는 여러 범주로 나누어진 일련의 고도로 구성적인 질문이 수반됩니다.
모든 훈련 및 검증 사진과 질문에 대해 데이터 세트는 훈련을 위한 70,000개의 사진과 700,000개의 질문, 검증을 위한 15,000개의 이미지와 150,000개의 질문, 객체, 응답, 장면 그래프 및 기능 프로그램과 관련된 테스트를 위한 15,000개의 이미지와 150,000개의 질문으로 구성됩니다.
16. 범용 종속성
UD(Universal Dependencies) 프로젝트는 여러 언어에 대해 교차 언어적으로 균일한 형태 및 구문 트리뱅크 주석을 만드는 것을 목표로 합니다. 2.7년에 출시된 버전 2020에는 183개 언어로 된 104개의 트리뱅크가 있습니다.
주석은 범용 POW 태그, 종속성 헤드 및 범용 종속성 레이블로 구성됩니다.
17. 키티 – 360
모바일 로봇에 가장 자주 사용되는 데이터 세트 중 하나이며 자율 주행 KITTI(Karlsruhe Institute of Technology 및 Toyota Technological Institute)입니다.
고해상도 RGB, 그레이스케일 스테레오 및 3D 레이저 스캐너 카메라와 같은 다양한 센서 방식을 사용하여 캡처한 몇 시간 분량의 교통 시나리오로 구성됩니다. 데이터 세트는 필요에 맞게 데이터 세트의 다양한 부분에 수동으로 주석을 추가한 여러 연구원에 의해 시간이 지남에 따라 개선되었습니다.
18. MOT(다중 물체 추적)
MOT(Multiple Object Tracking)는 보행자를 관심 대상으로 포함하는 공공 장소의 실내외 풍경을 포함하는 다중 물체 추적용 데이터세트입니다. 각 장면의 비디오는 두 부분으로 나뉩니다. 하나는 훈련용이고 다른 하나는 테스트용입니다.
데이터 세트에는 다음이 포함됩니다. 물체 감지 SDP, Faster-RCNN 및 DPM의 세 가지 검출기를 사용하여 비디오 프레임에서.
19. 파스칼 3D+
Pascal3D+ 멀티뷰 데이터셋은 야생에서 수집된 사진, 즉 가변성이 높은 항목 범주의 이미지로 구성되며 통제되지 않은 상황, 혼잡한 환경 및 다양한 위치에서 캡처됩니다. Pascal3D+에는 PASCAL VOC 12 데이터세트에서 가져온 2012개의 강체 범주가 포함되어 있습니다.
이러한 항목에는 자세 정보(방위각, 고도 및 카메라까지의 거리)가 표시되어 있습니다. Pascal3D+에는 이 12개 카테고리의 ImageNet 컬렉션에서 포즈 주석이 달린 사진이 추가로 포함됩니다.
20. 동물의 얼굴 변형 가능한 모델
FDMA(Facial Deformable Models of Animals) 프로젝트의 목표는 인간의 안면 랜드마크 식별 및 추적에서 현재의 방법론에 도전하고 동물 얼굴 특성의 특징인 훨씬 더 큰 변동성을 처리할 수 있는 새로운 알고리즘을 개발하는 것입니다.
이 프로젝트의 알고리즘은 얼굴 감정이나 위치, 부분 폐색 및 조명의 변화로 인해 발생하는 변화를 처리하면서 사람 얼굴의 랜드마크를 인식하고 추적하는 기능을 보여주었습니다.
21. MPII 휴먼 포스트 데이터세트
MPII 인간 포즈 데이터 세트에는 약 25K 사진이 포함되어 있으며 그 중 15K는 훈련 샘플, 3K는 검증 샘플, 7K는 테스트 샘플입니다.
위치는 최대 16개의 신체 관절로 수동으로 표시되며 사진은 410개의 다양한 인간 활동을 다루는 YouTube 영화에서 가져옵니다.
22. UCF101
UCF101 데이터 세트에는 13,320개의 카테고리로 구성된 101개의 비디오 클립이 포함되어 있습니다. 이 101개 범주는 신체 동작, 인간-인간 상호 작용, 인간-물체 상호 작용, 악기 연주 및 스포츠의 XNUMX개 범주로 나뉩니다.
동영상은 YouTube에서 가져왔으며 27시간 길이로 구성되어 있습니다.
23. 오디오 세트
Audioset은 2백만 개 이상의 사람이 주석을 추가한 10초 비디오 세그먼트로 구성된 오디오 이벤트 데이터 세트입니다. 이 데이터에 주석을 달기 위해 632개의 이벤트 유형으로 구성된 계층적 온톨로지가 사용됩니다. 이는 동일한 사운드에 다른 레이블이 지정될 수 있음을 의미합니다.
24. 스탠포드 자연어 추론
SNLI 데이터 세트(Stanford Natural Language Inference)에는 수반, 모순 또는 중립으로 수동으로 분류된 570k 문장 쌍이 포함되어 있습니다.
전제는 Flickr30k 그림 설명인 반면 가설은 전제를 제공하고 수반하고 모순되며 중립적인 진술을 생성하도록 지시받은 크라우드 소싱 주석가에 의해 개발되었습니다.
25. 시각적 질문 답변
VQA(Visual Question Answering)는 그림에 대한 개방형 질문을 포함하는 데이터세트입니다. 이러한 질문에 답하려면 비전, 언어 및 상식을 파악해야 합니다.
결론
머신 러닝과 인공 지능(AI)이 거의 모든 비즈니스와 일상 생활에서 보편화됨에 따라 해당 주제에 대해 사용할 수 있는 리소스와 정보의 수도 늘어나고 있습니다.
기성품 공개 데이터 세트는 AI 모델을 개발하기 위한 훌륭한 출발점을 제공하는 동시에 노련한 ML 프로그래머가 시간을 절약하고 프로젝트의 다른 요소에 집중할 수 있도록 합니다.
댓글을 남겨주세요.