25 の代替 AI トレーニングデータセット (2024 年)

今日、私たちのほとんどは、機械学習と AI モデルを開発し、現在のデータセットを使用して問題に対処することに集中しています。しかし、最初に、強力な AI および ML ソリューションの開発におけるデータセット、その重要性、役割を定義する必要があります。

現在、さまざまな分野で現実世界の問題に取り組むための研究やアプリケーションの開発に使用できるオープンソースのデータセットが数多くあります。

ただし、高品質の定量的データセットが不足していることは心配の種です。データは非常に増加しており、今後もより速い速度で拡大し続けるでしょう。

この投稿では、次の AI プロジェクトの開発に利用できる、無料で入手できるデータセットについて説明します。

1. CelebFaces 属性データセット

CelebFaces Attributes Dataset (CelebA) には、200 万枚を超える有名人の写真と各画像の 40 の属性注釈が含まれており、次のようなプロジェクトの優れた出発点となっています。顔認識、顔検出、ランドマーク (または顔のコンポーネント) の位置特定、顔の編集と合成。さらに、このコレクションの写真には、さまざまな位置のバリエーションと背景の混乱が含まれています。

2. DOTA

DOTA (のデータセットオブジェクト検出航空写真) は、15 の一般的なカテゴリ (船、飛行機、車など)、トレーニング用の 1411 枚の画像、および検証用の 458 枚の画像を含む、オブジェクト検出用の大規模なデータセットです。

3. Google 表情比較データセット

Google の表情比較データセットには、500,000 枚の顔写真を含む約 156,000 枚の写真トリプレットが含まれています。このデータセットの各トリプレットは、少なくとも XNUMX 人の評価者によって注釈が付けられていることに注意してください。

このデータセットは、表情に基づく画像の検索、感情の分類、表情の合成など、顔の表情の分析を含むプロジェクトに役立ちます。データセットにアクセスするには、簡単なフォームに記入する必要があります。

4. ビジュアルゲノム

多肢選択環境での視覚的質問応答データは、Visual Genome で利用できます。これは、101,174 万の QA ペアを含む 1.7 枚の MSCOCO の写真で構成されており、画像ごとに平均 17 の質問があります。

Visual Question Answering データセットと比較して、Visual Genome データセットは、What、Where、When、Who、Why、および How の XNUMX つの質問タイプにわたってより公平に分布しています。

さらに、Visual Genome データセットには、オブジェクト、プロパティ、接続でタグ付けされた 108 枚の写真が含まれています。

5. Libriスピーチ

LibriSpeech コーパスは、LibriVox プロジェクトからの約 1,000 時間のオーディオブックのコレクションです。オーディオブックの大部分は、Project Gutenberg に由来します。

トレーニングデータは 100 時間、360 時間、および 500 時間のセットの 5 つのパーティションに分割されますが、開発およびテストデータはオーディオの長さが約 XNUMX 時間です。

6. シティスペース

都市景観を含むステレオビデオの最も有名な大規模データベースの XNUMX つは、The Cityscapes と呼ばれます。

GPS 位置情報、屋外温度、エゴモーションデータ、正しい立体視を含むピクセル単位の正確な注釈とともに、ドイツの 50 の異なる都市からの録音が含まれています。

7. 動態データセット

人間の活動を大規模かつ高品質で認識するための最も有名なビデオデータセットの 600 つは、Kinetics データセットです。 600 の人間活動クラスのそれぞれに少なくとも 500,000 のビデオクリップがあり、合計で XNUMX を超えます。

映画はYouTubeから引っ張られました。それぞれの長さは約 10 秒で、リストされているアクティビティクラスは XNUMX つだけです。

8. CelebAMask-HQ

CelebAMask-HQ は 30,000 枚の高解像度の顔写真のコレクションで、慎重に注釈が付けられたマスクと、皮膚、鼻、目、眉、耳、口、唇、髪、帽子、眼鏡、イヤリング、ネックレスなどの顔のコンポーネントを含む 19 のクラスがあります。ネック、素材。

このデータセットは、顔認識、顔解析、および顔生成および編集アルゴリズムの GAN のテストとトレーニングに利用できます。

9. ペンツリーバンク

配列タグ付けのモデルを評価するために最も注目され、頻繁に使用されるコーパスの XNUMX つは、English Penn Treebank (PTB) コーパス、特にウォールストリートジャーナルの記事に対応するコーパスの部分です。

各単語には、タスクのコンポーネントとしてタグ付けされた品詞が必要です。文字レベルと単語レベル言語モデリングコーパスもよく利用します。

10. ヴォックスセレブ

VoxCeleb は、から自動的に生成された大規模な音声識別データセットです。オープンソースメディア. VoxCeleb には、6 を超えるスピーカーからの XNUMX 万を超える発話があります。

データセットには視聴覚が含まれているため、視覚的な音声合成、音声分離、顔から音声またはその逆へのクロスモーダル転送、現在の顔認識を補うためのビデオからの顔認識のトレーニングなど、さまざまな追加アプリケーションに使用できます。データセット。

SIXray データセットには、地下鉄の駅から収集された 1,059,231 枚の X 線写真が含まれており、ピストル、ナイフ、レンチ、ペンチ、ハサミ、ハンマーの XNUMX 種類の主な禁止アイテムを検出するために人間のセキュリティ検査官によって注釈が付けられています。さらに、オブジェクトのローカリゼーションのパフォーマンスを評価するために、許可されていない各アイテムの境界ボックスが手動でテストセットに追加されています。

12. 米国の事故

このプロジェクトの内容は、データセットの名前である US Accidents によってすでに明らかにされています。全国的な自動車事故に関するこのデータセットには、2016 年 2021 月から 49 年 XNUMX 月までの情報が含まれており、米国の XNUMX 州をカバーしています。

現在、このコレクションには約 1.5 万件の事故記録が存在します。いくつかのトラフィック API を利用してリアルタイムで収集されました。

これらの API は、交通カメラ、法執行機関、米国および州の運輸省など、さまざまなソースから収集された交通情報を送信します。

13. 眼疾患の認識

組織化された眼科データベース Ocular Disease Intelligent Recognition (ODIR) には、患者の年齢、左右の眼底の色、医療専門家の診断キーワードなど、5,000 人の患者に関する情報が含まれています。

このデータセットは、Shanggong Medical Technology Co., Ltd.が取得した中国のさまざまな病院や医療施設から実際に収集された患者データです。と品質管理管理、注釈は熟練した人間の読者によってタグ付けされました。

14. 心臓病

この心疾患データセットは、年齢、性別、胸痛の種類、安静時血圧などの 76 個のパラメーターに基づいて、患者の心疾患の存在を特定するのに役立ちます。

303 のケースで、データベースは病気の存在 (値 1,2,3,4、0、XNUMX、XNUMX) とその不在 (値 XNUMX) を単純に区別しようとします。

15. クレバー

CLEVR データセット (Compositional Language and Elementary Visual Reasoning) は、Visual Question Answering を模倣しています。これは、3D レンダリングされたオブジェクトの写真で構成され、各写真には、いくつかのカテゴリに分けられた高度に構成された一連の質問が付随しています。

すべてのトレーニングと検証の写真と質問について、データセットはトレーニング用の 70,000 枚の写真と 700,000 の質問、検証用の 15,000 枚の画像と 150,000 の質問、およびオブジェクト、応答、シーングラフ、機能プログラムを含むテスト用の 15,000 の画像と 150,000 の質問で構成されます。

16. 普遍的な依存関係

Universal Dependencies (UD) プロジェクトは、多くの言語に対して言語間で統一された形態と構文のツリーバンクアノテーションを作成することを目的としています。 2.7 年にリリースされたバージョン 2020 には、183 の言語で 104 のツリーバンクがあります。

注釈は、ユニバーサル POW タグ、依存ヘッド、およびユニバーサル依存ラベルで構成されます。

17. キティ-360

移動ロボット用に最もよく使用されるデータセットの XNUMX つ自動運転 KITTI（カールスルーエ工科大学・豊田工業大学）です。

これは、高解像度 RGB、グレースケールステレオ、3D レーザースキャナーカメラなど、さまざまなセンサーモダリティを使用してキャプチャされた数時間分の交通シナリオで構成されています。データセットは、ニーズに合わせてさまざまな部分に手動で注釈を付けた数人の研究者によって、時間の経過とともに改善されてきました。

18. MOT（複数物体追跡）

MOT (Multiple Object Tracking) は、対象オブジェクトとして歩行者を含む公共の場所の屋内および屋外の風景を含む、複数のオブジェクトトラッキング用のデータセットです。各シーンのビデオは、トレーニング用とテスト用の XNUMX つの部分に分かれています。

データセットには以下が含まれます物体検出 SDP、Faster-RCNN、および DPM の XNUMX つの検出器を使用して、ビデオフレームで検出します。

19. パスカル 3D+

Pascal3D+ マルチビューデータセットは、野生で収集された写真、つまり、制御されていない状況、混雑した環境、およびさまざまな位置でキャプチャされた変動性の高いアイテムカテゴリの画像で構成されています。 Pascal3D+ には、PASCAL VOC 12 データセットから抽出された 2012 の剛体カテゴリが含まれています。

これらのアイテムには、姿勢情報 (方位角、仰角、カメラまでの距離) がマークされています。 Pascal3D+ には、これらの 12 のカテゴリの ImageNet コレクションからのポーズ注釈付きの写真がさらに含まれています。

20. 動物の顔の変形可能なモデル

顔の変形可能な動物モデル (FDMA) プロジェクトの目標は、人間の顔のランドマークの識別と追跡における現在の方法論に挑戦し、動物の顔の特徴の特徴であるかなり大きな変動性に対処できる新しいアルゴリズムを開発することです。

プロジェクトのアルゴリズムは、顔の感情や位置の変化、部分的な閉塞、および照明によって引き起こされる変動に対処しながら、人間の顔のランドマークを認識して追跡する能力を実証しました。

21. MPII ヒューマンポストデータセット

MPII ヒューマンポーズデータセットには約 25 枚の写真が含まれており、そのうち 15 枚はトレーニングサンプル、3 枚は検証サンプル、7 枚はテストサンプルです。

位置には最大 16 個の身体の関節が手動でラベル付けされ、写真は 410 のさまざまな人間の活動をカバーする YouTube フィルムから取得されます。

22. UCF101

UCF101 データセットには、13,320 のカテゴリに分類された 101 のビデオクリップが含まれています。これらの 101 のカテゴリは、身体の動き、人間と人間の相互作用、人間と物体の相互作用、楽器の演奏、およびスポーツの XNUMX つのカテゴリに分類されます。

動画は YouTube からのもので、所要時間は 27 時間です。

まとめ

機械学習と人工知能 (AI) がほぼすべてのビジネスや日常生活で普及するにつれて、この分野で利用できるリソースや情報の数も増えています。

既製の公開データセットは、AI モデルを開発するための優れた出発点を提供すると同時に、経験豊富な ML プログラマーが時間を節約し、プロジェクトの他の要素に集中できるようにします。

25 の最高の代替 AI トレーニングデータセット

1. CelebFaces 属性データセット

2. DOTA

3. Google 表情比較データセット

4. ビジュアルゲノム

5. Libriスピーチ

6. シティスペース

7. 動態データセット

8. CelebAMask-HQ

9. ペンツリーバンク

10. ヴォックスセレブ

11. シックスレイ

12. 米国の事故

13. 眼疾患の認識

14. 心臓病

15. クレバー

16. 普遍的な依存関係

17. キティ-360

18. MOT（複数物体追跡）

19. パスカル 3D+

20. 動物の顔の変形可能なモデル

21. MPII ヒューマンポストデータセット

22. UCF101

23. オーディオセット

24. スタンフォード自然言語推論

25. ビジュアル質問応答

まとめ

私たちについてジェイ

HashDorkに関するその他の記事：

AI の幻覚を軽減する方法

コロシアン vs ヘイゲン

この未来の技術ニュースレターは吸い込まない

25 の最高の代替 AI トレーニング データセット

1. CelebFaces 属性データセット

2. DOTA

3. Google 表情比較データセット

4. ビジュアルゲノム

5. Libriスピーチ

6. シティスペース

7. 動態データセット

8. CelebAMask-HQ

9. ペンツリーバンク

10. ヴォックスセレブ

11. シックスレイ

12. 米国の事故

13. 眼疾患の認識

14. 心臓病

15. クレバー

16. 普遍的な依存関係

17. キティ-360

18. MOT（複数物体追跡）

19. パスカル 3D+

20. 動物の顔の変形可能なモデル

21. MPII ヒューマン ポスト データセット

22. UCF101

23. オーディオセット

24. スタンフォード自然言語推論

25. ビジュアル質問応答

まとめ

私たちについて ジェイ

HashDorkに関するその他の記事：

AI の幻覚を軽減する方法

ソーシャルメディア向けのベスト AI ツール 10 選

コロシアン vs ヘイゲン

AIアニメーションビデオ作成ツールベスト10

リーダーの相互作用

コメントを残す 返信をキャンセル

この未来の技術ニュースレターは吸い込まない

25 の最高の代替 AI トレーニングデータセット

21. MPII ヒューマンポストデータセット

私たちについてジェイ

コメントを残す返信をキャンセル