目次[隠す][見せる]
- 1. CelebFaces 属性データセット
- 2.DOTA
- 3. Google 表情比較データセット
- 4.ビジュアルゲノム
- 5. リブスピーチ
- 6. シティスペース
- 7. 動態データセット
- 8.セレブアマスクHQ
- 9. ペン・ツリーバンク
- 10. ヴォックスセレブ
- 11. シックスレイ
- 12. 米国の事故
- 13. 眼疾患の認識
- 14 心臓病
- 15. クレバー
- 16. 普遍的な依存関係
- 17. キティ – 360
- 18. MOT(複数物体追跡)
- 19. パスカル 3D+
- 20. 動物の顔の変形可能なモデル
- 21. MPII ヒューマンポストデータセット
- 22.UCF101
- 23. オーディオセット
- 24. スタンフォード自然言語推論
- 25.視覚的な質問応答
- まとめ
今日、私たちのほとんどは、機械学習と AI モデルを開発し、現在のデータセットを使用して問題に対処することに集中しています。 しかし、最初に、強力な AI および ML ソリューションの開発におけるデータセット、その重要性、役割を定義する必要があります。
現在、さまざまな分野で現実世界の問題に取り組むための研究やアプリケーションの開発に使用できるオープンソースのデータセットが数多くあります。
ただし、高品質の定量的データセットが不足していることは心配の種です。 データは非常に増加しており、今後もより速い速度で拡大し続けるでしょう。
この投稿では、次の AI プロジェクトの開発に利用できる、無料で入手できるデータセットについて説明します。
1. CelebFaces 属性データセット
CelebFaces Attributes Dataset (CelebA) には、200 万枚を超える有名人の写真と各画像の 40 の属性注釈が含まれており、次のようなプロジェクトの優れた出発点となっています。 顔認識、顔検出、ランドマーク (または顔のコンポーネント) の位置特定、顔の編集と合成。 さらに、このコレクションの写真には、さまざまな位置のバリエーションと背景の混乱が含まれています。
2. DOTA
DOTA (のデータセット オブジェクト検出 航空写真) は、15 の一般的なカテゴリ (船、飛行機、車など)、トレーニング用の 1411 枚の画像、および検証用の 458 枚の画像を含む、オブジェクト検出用の大規模なデータセットです。
3. Google 表情比較データセット
Google の表情比較データセットには、500,000 枚の顔写真を含む約 156,000 枚の写真トリプレットが含まれています。 このデータセットの各トリプレットは、少なくとも XNUMX 人の評価者によって注釈が付けられていることに注意してください。
このデータセットは、表情に基づく画像の検索、感情の分類、表情の合成など、顔の表情の分析を含むプロジェクトに役立ちます。 データセットにアクセスするには、簡単なフォームに記入する必要があります。
4. ビジュアルゲノム
多肢選択環境での視覚的質問応答データは、Visual Genome で利用できます。 これは、101,174 万の QA ペアを含む 1.7 枚の MSCOCO の写真で構成されており、画像ごとに平均 17 の質問があります。
Visual Question Answering データセットと比較して、Visual Genome データセットは、What、Where、When、Who、Why、および How の XNUMX つの質問タイプにわたってより公平に分布しています。
さらに、Visual Genome データセットには、オブジェクト、プロパティ、接続でタグ付けされた 108 枚の写真が含まれています。
5. Libriスピーチ
LibriSpeech コーパスは、LibriVox プロジェクトからの約 1,000 時間のオーディオブックのコレクションです。 オーディオブックの大部分は、Project Gutenberg に由来します。
トレーニング データは 100 時間、360 時間、および 500 時間のセットの 5 つのパーティションに分割されますが、開発およびテスト データはオーディオの長さが約 XNUMX 時間です。
6. シティスペース
都市景観を含むステレオ ビデオの最も有名な大規模データベースの XNUMX つは、The Cityscapes と呼ばれます。
GPS 位置情報、屋外温度、エゴ モーション データ、正しい立体視を含むピクセル単位の正確な注釈とともに、ドイツの 50 の異なる都市からの録音が含まれています。
7. 動態データセット
人間の活動を大規模かつ高品質で認識するための最も有名なビデオ データセットの 600 つは、Kinetics データセットです。 600 の人間活動クラスのそれぞれに少なくとも 500,000 のビデオ クリップがあり、合計で XNUMX を超えます。
映画はYouTubeから引っ張られました。 それぞれの長さは約 10 秒で、リストされているアクティビティ クラスは XNUMX つだけです。
8. CelebAMask-HQ
CelebAMask-HQ は 30,000 枚の高解像度の顔写真のコレクションで、慎重に注釈が付けられたマスクと、皮膚、鼻、目、眉、耳、口、唇、髪、帽子、眼鏡、イヤリング、ネックレスなどの顔のコンポーネントを含む 19 のクラスがあります。ネック、素材。
このデータセットは、顔認識、顔解析、および顔生成および編集アルゴリズムの GAN のテストとトレーニングに利用できます。
9. ペンツリーバンク
配列タグ付けのモデルを評価するために最も注目され、頻繁に使用されるコーパスの XNUMX つは、English Penn Treebank (PTB) コーパス、特にウォール ストリート ジャーナルの記事に対応するコーパスの部分です。
各単語には、タスクのコンポーネントとしてタグ付けされた品詞が必要です。 文字レベルと単語レベル 言語モデリング コーパスもよく利用します。
10. ヴォックスセレブ
VoxCeleb は、から自動的に生成された大規模な音声識別データセットです。 オープンソース メディア. VoxCeleb には、6 を超えるスピーカーからの XNUMX 万を超える発話があります。
データセットには視聴覚が含まれているため、視覚的な音声合成、音声分離、顔から音声またはその逆へのクロスモーダル転送、現在の顔認識を補うためのビデオからの顔認識のトレーニングなど、さまざまな追加アプリケーションに使用できます。データセット。
11. シックスレイ
SIXray データセットには、地下鉄の駅から収集された 1,059,231 枚の X 線写真が含まれており、ピストル、ナイフ、レンチ、ペンチ、ハサミ、ハンマーの XNUMX 種類の主な禁止アイテムを検出するために人間のセキュリティ検査官によって注釈が付けられています。 さらに、オブジェクトのローカリゼーションのパフォーマンスを評価するために、許可されていない各アイテムの境界ボックスが手動でテスト セットに追加されています。
12. 米国の事故
このプロジェクトの内容は、データセットの名前である US Accidents によってすでに明らかにされています。 全国的な自動車事故に関するこのデータセットには、2016 年 2021 月から 49 年 XNUMX 月までの情報が含まれており、米国の XNUMX 州をカバーしています。
現在、このコレクションには約 1.5 万件の事故記録が存在します。 いくつかのトラフィック API を利用してリアルタイムで収集されました。
これらの API は、交通カメラ、法執行機関、米国および州の運輸省など、さまざまなソースから収集された交通情報を送信します。
13. 眼疾患の認識
組織化された眼科データベース Ocular Disease Intelligent Recognition (ODIR) には、患者の年齢、左右の眼底の色、医療専門家の診断キーワードなど、5,000 人の患者に関する情報が含まれています。
このデータセットは、Shanggong Medical Technology Co., Ltd.が取得した中国のさまざまな病院や医療施設から実際に収集された患者データです。 と 品質管理管理、注釈は熟練した人間の読者によってタグ付けされました。
14. 心臓病
この心疾患データセットは、年齢、性別、胸痛の種類、安静時血圧などの 76 個のパラメーターに基づいて、患者の心疾患の存在を特定するのに役立ちます。
303 のケースで、データベースは病気の存在 (値 1,2,3,4、0、XNUMX、XNUMX) とその不在 (値 XNUMX) を単純に区別しようとします。
15. クレバー
CLEVR データセット (Compositional Language and Elementary Visual Reasoning) は、Visual Question Answering を模倣しています。 これは、3D レンダリングされたオブジェクトの写真で構成され、各写真には、いくつかのカテゴリに分けられた高度に構成された一連の質問が付随しています。
すべてのトレーニングと検証の写真と質問について、データセットはトレーニング用の 70,000 枚の写真と 700,000 の質問、検証用の 15,000 枚の画像と 150,000 の質問、およびオブジェクト、応答、シーン グラフ、機能プログラムを含むテスト用の 15,000 の画像と 150,000 の質問で構成されます。
16. 普遍的な依存関係
Universal Dependencies (UD) プロジェクトは、多くの言語に対して言語間で統一された形態と構文のツリーバンク アノテーションを作成することを目的としています。 2.7 年にリリースされたバージョン 2020 には、183 の言語で 104 のツリーバンクがあります。
注釈は、ユニバーサル POW タグ、依存ヘッド、およびユニバーサル依存ラベルで構成されます。
17. キティ-360
移動ロボット用に最もよく使用されるデータセットの XNUMX つ 自動運転 KITTI(カールスルーエ工科大学・豊田工業大学)です。
これは、高解像度 RGB、グレースケール ステレオ、3D レーザー スキャナー カメラなど、さまざまなセンサー モダリティを使用してキャプチャされた数時間分の交通シナリオで構成されています。 データセットは、ニーズに合わせてさまざまな部分に手動で注釈を付けた数人の研究者によって、時間の経過とともに改善されてきました。
18. MOT(複数物体追跡)
MOT (Multiple Object Tracking) は、対象オブジェクトとして歩行者を含む公共の場所の屋内および屋外の風景を含む、複数のオブジェクト トラッキング用のデータセットです。 各シーンのビデオは、トレーニング用とテスト用の XNUMX つの部分に分かれています。
データセットには以下が含まれます 物体検出 SDP、Faster-RCNN、および DPM の XNUMX つの検出器を使用して、ビデオ フレームで検出します。
19. パスカル 3D+
Pascal3D+ マルチビュー データセットは、野生で収集された写真、つまり、制御されていない状況、混雑した環境、およびさまざまな位置でキャプチャされた変動性の高いアイテム カテゴリの画像で構成されています。 Pascal3D+ には、PASCAL VOC 12 データセットから抽出された 2012 の剛体カテゴリが含まれています。
これらのアイテムには、姿勢情報 (方位角、仰角、カメラまでの距離) がマークされています。 Pascal3D+ には、これらの 12 のカテゴリの ImageNet コレクションからのポーズ注釈付きの写真がさらに含まれています。
20. 動物の顔の変形可能なモデル
顔の変形可能な動物モデル (FDMA) プロジェクトの目標は、人間の顔のランドマークの識別と追跡における現在の方法論に挑戦し、動物の顔の特徴の特徴であるかなり大きな変動性に対処できる新しいアルゴリズムを開発することです。
プロジェクトのアルゴリズムは、顔の感情や位置の変化、部分的な閉塞、および照明によって引き起こされる変動に対処しながら、人間の顔のランドマークを認識して追跡する能力を実証しました。
21. MPII ヒューマン ポスト データセット
MPII ヒューマン ポーズ データセットには約 25 枚の写真が含まれており、そのうち 15 枚はトレーニング サンプル、3 枚は検証サンプル、7 枚はテスト サンプルです。
位置には最大 16 個の身体の関節が手動でラベル付けされ、写真は 410 のさまざまな人間の活動をカバーする YouTube フィルムから取得されます。
22. UCF101
UCF101 データセットには、13,320 のカテゴリに分類された 101 のビデオ クリップが含まれています。 これらの 101 のカテゴリは、身体の動き、人間と人間の相互作用、人間と物体の相互作用、楽器の演奏、およびスポーツの XNUMX つのカテゴリに分類されます。
動画は YouTube からのもので、所要時間は 27 時間です。
23. オーディオセット
Audioset は、人間が注釈を付けた 2 万を超える 10 秒のビデオ セグメントで構成されるオーディオ イベント データセットです。 このデータに注釈を付けるために、632 のイベント タイプで構成される階層的なオントロジーが使用されます。これは、同じサウンドに異なるラベルが付けられる可能性があることを意味します。
24. スタンフォード自然言語推論
SNLI データセット (Stanford Natural Language Inference) には、含意、矛盾、または中立として手動で分類された 570 の文のペアが含まれています。
前提は Flickr30k の写真の説明であり、仮説は前提を提供され、内包的で矛盾した中立的なステートメントを生成するように指示されたクラウドソースのアノテーターによって開発されました。
25. ビジュアル質問応答
Visual Question Answering (VQA) は、写真に関する自由回答形式の質問を含むデータセットです。 これらの質問に答えるには、ビジョン、言語、および常識を把握する必要があります。
まとめ
機械学習と人工知能 (AI) がほぼすべてのビジネスや日常生活で普及するにつれて、この分野で利用できるリソースや情報の数も増えています。
既製の公開データセットは、AI モデルを開発するための優れた出発点を提供すると同時に、経験豊富な ML プログラマーが時間を節約し、プロジェクトの他の要素に集中できるようにします。
コメントを残す