如今,我們大多數人都專注於開發機器學習和 AI 模型,並使用當前數據集解決問題。 但首先,我們必須定義一個數據集、它的重要性以及它在開發強大的 AI 和 ML 解決方案中的作用。
今天,我們擁有大量的開源數據集,可以在這些數據集上進行研究或開發應用程序,以解決各個領域的現實問題。
然而,高質量定量數據集的稀缺令人擔憂。 數據大幅增長,未來還將繼續以更快的速度擴展。
在這篇文章中,我們將介紹可用於開發下一個 AI 項目的免費數據集。
1. CelebFaces 屬性數據集
CelebFaces 屬性數據集 (CelebA) 包含超過 200 萬張名人照片和每張圖像的 40 個屬性註釋,使其成為項目的絕佳起點,例如 人臉識別、人臉檢測、地標(或面部成分)定位以及人臉編輯和合成。 此外,此系列中的照片包含各種位置變化和背景混亂。
2. 刀塔
DOTA(數據集 物體檢測 in Aerial Photos) 是一個用於對象檢測的大規模數據集,包括 15 個常見類別(例如,船舶、飛機、汽車等)、1411 個用於訓練的圖像和 458 個用於驗證的圖像。
3. 谷歌面部表情比較數據集
谷歌面部表情比較數據集包含大約 500,000 張圖片三元組,其中包括 156,000 張面部照片。 值得注意的是,該數據集中的每個三元組都由至少六名人工評分者進行了註釋。
該數據集對於涉及人臉表情分析的項目非常有用,例如基於表情的圖片檢索、情感分類、表情合成等。 要訪問數據集,必須填寫一份簡短的表格。
4. 視覺基因組
Visual Genome 中提供了多項選擇環境中的視覺問答數據。 它由 101,174 張 MSCOCO 照片和 1.7 萬對 QA 組成,每張圖像平均有 17 個問題。
與 Visual Question Answering 數據集相比,Visual Genome 數據集在六種問題類型中分佈更為公平:What、Where、When、Who、Why 和 How。
此外,Visual Genome 數據集包括 108K 張照片,這些照片被大量標記為對象、屬性和連接。
5. 圖書館演講
LibriSpeech 語料庫是來自 LibriVox 項目的大約 1,000 小時有聲讀物的集合。 大多數有聲讀物來自古騰堡計劃。
訓練數據分為 100hr、360hr 和 500hr 三個分區,而 dev 和 test 數據的音頻長度大約為 5hr。
6. 城市空間
最著名的大型城市景觀立體視頻數據庫之一稱為 The Cityscapes。
通過包括 GPS 位置、室外溫度、自我運動數據和正確立體視角的像素精確註釋,它包括來自 50 個不同德國城市的記錄。
7. 動力學數據集
Kinetics 數據集是用於大規模和高質量識別人類活動的最著名的視頻數據集之一。 600 個人類活動類別中的每個類別至少有 600 個視頻剪輯,總計超過 500,000 個。
這些電影是從 YouTube 上撤下來的; 每一個大約 10 秒長,並且只列出一個活動類。
8. CelebAMask-總部
CelebAMask-HQ 是 30,000 張高分辨率面部照片的集合,帶有經過仔細註釋的面具和 19 個類別,其中包括皮膚、鼻子、眼睛、眉毛、耳朵、嘴巴、嘴唇、頭髮、帽子、眼鏡、耳環、項鍊、脖子, 材料.
該數據集可用於測試和訓練人臉識別、人臉解析以及用於人臉生成和編輯算法的 GAN。
9. 賓夕法尼亞樹庫
用於評估序列標記模型的最著名和最常用的語料庫之一是英語 Penn Treebank (PTB) 語料庫,特別是對應於華爾街日報文章的語料庫部分。
每個單詞都必須將其詞性標記為任務的組成部分。 字符級和單詞級 語言建模 也經常使用語料庫。
10. 名人之聲
VoxCeleb 是一個自動生成的大規模語音識別數據集 開源媒體. VoxCeleb 擁有來自 6k 多位演講者的超過 XNUMX 萬條話語。
由於數據集包括視聽,它可以用於各種附加應用,包括視覺語音合成、語音分離、從人臉到語音的跨模態轉換,以及從視頻訓練人臉識別以補充當前的人臉識別數據集。
11. 六線
SIXray 數據集包括從地鐵站收集的 1,059,231 張 X 射線照片,並由人類安全檢查員進行註釋,以檢測六種主要的違禁物品:手槍、刀具、扳手、鉗子、剪刀和錘子。 此外,每個不允許的項目的邊界框已手動添加到測試集中,以評估對象定位的性能。
12. 美國事故
數據集的名稱 US Accidents 已經揭示了該項目的實質。 該全國性汽車事故數據集包括 2016 年 2021 月至 49 年 XNUMX 月的信息,涵蓋美國 XNUMX 個州。
該集合中現在存在大約 1.5 萬條事故記錄。 它是通過利用幾個流量 API 實時收集的。
這些 API 傳輸從各種來源收集的交通信息,包括交通攝像頭、執法機構以及美國和州的交通部門。
13. 眼部疾病識別
有組織的眼科數據庫眼科疾病智能識別 (ODIR) 包含有關 5,000 名患者的信息,包括他們的年齡、左右眼眼底的顏色以及醫療專業人員的診斷關鍵詞。
該數據集是上工醫療科技有限公司收購的中國多家醫院和醫療機構的患者數據的實際集合。 和 質量控制管理, 註釋由熟練的人類讀者標記。
14. 心臟疾病
該心髒病數據集有助於根據年齡、性別、胸痛種類、靜息血壓等 76 個參數來識別患者是否存在心髒病。
對於 303 個病例,數據庫試圖簡單地區分疾病的存在(值 1,2,3,4、0、XNUMX、XNUMX)和不存在(值 XNUMX)。
15. 聰明的
CLEVR 數據集(組合語言和初級視覺推理)模仿視覺問答。 它由 3D 渲染對象的照片組成,每張照片都伴隨著一系列高度組合的問題,分為幾類。
對於所有訓練和驗證圖片和問題,數據集包括 70,000 張照片和 700,000 個訓練問題、15,000 張圖像和 150,000 個驗證問題,以及 15,000 張圖像和 150,000 個測試問題,涉及對象、回复、場景圖和功能程序。
16. 通用依賴
Universal Dependencies (UD) 項目旨在為多種語言創建跨語言統一的形態和語法樹庫註釋。 2.7 版於 2020 年發布,擁有 183 種語言的 104 個樹庫。
註釋由通用 POW 標籤、依賴頭和通用依賴標籤組成。
17. 基蒂 – 360
移動機器人和移動機器人最常用的數據集之一 自動駕駛 是KITTI(卡爾斯魯厄理工學院和豐田技術學院)。
它由使用各種傳感器模式(例如高分辨率 RGB、灰度立體和 3D 激光掃描儀相機)捕獲的數小時的交通場景組成。 隨著時間的推移,一些研究人員對數據集進行了改進,他們手動註釋了數據集的各個部分以滿足他們的需求。
18. MOT(多目標跟踪)
MOT(Multiple Object Tracking)是一個用於多對象跟踪的數據集,包括公共場所的室內和室外風景,其中包括作為感興趣對象的行人。 每個場景的視頻都分為兩部分,一部分用於訓練,另一部分用於測試。
數據集包括 物體檢測 在視頻幀中使用三個檢測器:SDP、Faster-RCNN 和 DPM。
19. 帕斯卡 3D+
Pascal3D+ 多視圖數據集由在野外收集的照片組成,即具有高度可變性的項目類別的圖像,在不受控制的情況下、在擁擠的環境中以及在各種位置上捕獲。 Pascal3D+ 包括從 PASCAL VOC 12 數據集中提取的 2012 個剛性對像類別。
這些項目上標有姿勢信息(方位角、仰角和到相機的距離)。 Pascal3D+ 還包括這 12 個類別中來自 ImageNet 集合的姿勢註釋照片。
20. 動物面部可變形模型
動物面部可變形模型 (FDMA) 項目的目標是挑戰當前人類面部標誌識別和跟踪的方法,並開發新的算法來處理動物面部特徵的較大可變性。
該項目的算法展示了識別和跟踪人臉上地標的能力,同時處理由面部情緒或位置、部分遮擋和照明變化引起的變化。
21. MPII 人類郵政數據集
MPII Human Pose Dataset 包含大約 25K 張照片,其中 15K 是訓練樣本,其中 3K 是驗證樣本,其中 7K 是測試樣本。
這些位置由多達 16 個身體關節手動標記,照片取自 YouTube 電影,涵蓋 410 種不同的人類活動。
22. UCF101
UCF101 數據集包含 13,320 個視頻剪輯,分為 101 個類別。 這101個類別分為五類:身體動作、人與人互動、人與物互動、樂器演奏和運動。
這些視頻來自 YouTube,時長為 27 小時。
23. 音頻集
Audioset 是一個音頻事件數據集,由超過 2 萬個人工註釋的 10 秒視頻片段組成。 為了註釋這些數據,使用了包含 632 個事件類型的分層本體,這意味著相同的聲音可能被不同地標記。
24. 斯坦福自然語言推理
SNLI 數據集(斯坦福自然語言推理)包含 570k 個句子配對,這些配對已被手動分類為蘊涵、矛盾或中性。
前提是 Flickr30k 圖片描述,而假設是由眾包註釋者開發的,他們提供了一個前提並被指示生成包含、矛盾和中性的陳述。
25. 視覺問答
視覺問答 (VQA) 是一個包含有關圖片的開放式問題的數據集。 要回答這些問題,您需要掌握視覺、語言和常識。
結論
隨著機器學習和人工智能 (AI) 在幾乎所有業務和我們的日常生活中變得越來越普遍,有關該主題的可用資源和信息的數量也在增加。
現成的公共數據集為開發 AI 模型提供了一個很好的起點,同時還允許經驗豐富的 ML 程序員節省時間並專注於他們項目的其他元素。
發表評論