すべての機械学習プロジェクトは、優れたデータセットに依存しています。 MLモデルのトレーニングと検証を可能にするのは、この大規模なデータセットです。 したがって、MLプロジェクトでの作業の大部分は、ニーズに最適なデータセットを見つけることです。 ただし、最終的には面白そうなファイルの多くはそうではないため、自分の野心に合ったオプションを見つけることが常に可能であるとは限りません。
理想的なセットに到達するまで、無数のデータセットをダウンロードするのに時間を浪費するのは気が遠くなるかもしれません。 そのことを念頭に置いて、興味深いと思われるいくつかのオプションを集め、MLプロジェクトの開発に役立てることができます。 一部は商用ではなく個人的な使用を目的としているため、MLユニバースで経験を積む方法としてこれらのオプションを検討してください。
データセットの基本
データセットについて言及する前に、いくつかの用語を定義する必要があります。 人工知能プロジェクト、特に 機械学習、アルゴリズムのトレーニングに使用される大量のデータが必要です。 この量のデータはデータベースに収集されます。これは、アルゴリズムを教えるのに非常に役立ちます。
このデータを使用して、アルゴリズムがトレーニングされ、テストも行われ、パターンを見つけ、関係を確立し、自律的に意思決定を行うことができるようになります。 トレーニングなしで、 機械学習 アルゴリズムはアクションを実行できません。 したがって、トレーニングデータが優れているほど、モデルのパフォーマンスは向上します。 データベースがプロジェクトに役立つためには、それは量ではなく、分類でもあります。
理想的には、データには適切なラベルを付ける必要があります。 チャットボットの場合を考えてみてください。言語の挿入は重要ですが、対話者がスラングを使用していることを作成されたアルゴリズムが理解できるように、慎重な構文解析を行う必要があります。 そうして初めて、仮想アシスタントはユーザーの要求に応じて回答を起動できるようになります。
データセットは、調査、ユーザー購入データ、サービスに残された評価、およびCSVファイルの列と行に編成された有用な情報を収集できる他の多くの方法から生成できます。
完璧なデータセットの検索に着手する前に、プロジェクトの目的を知っておくことが重要です。特に、天気、金融、健康などの特定の地域からのものである場合は、これにより、ソースを調達するソースが決まります。データセット。
MLのデータセット
チャットボットトレーニング
効果的なチャットボットは、人間の介入なしにユーザーの問い合わせを迅速に解決するために、大量のトレーニングデータを必要とします。 ただし、チャットボット開発の主なボトルネックは、これらの機械学習ベースのシステムをトレーニングするための現実的なタスク指向のダイアログデータを取得することです。
会話型データセットは、質問と回答の形式でデータを収集します。 聴衆に自動応答を提供するチャットボットのトレーニングに最適です。 このデータがないと、チャットボットは人間の介入を必要とせずに、ユーザーの問い合わせをすばやく解決したり、ユーザーの質問に答えたりすることができません。
これらのデータセットを使用して、企業は顧客に24時間年中無休で迅速な回答を提供し、顧客サポートを行うチームを持つよりも大幅に安価なツールを作成できます。
1. 質疑応答データセット
このデータセットは、一連のウィキペディアの記事、質問、およびそれぞれ手動で生成された回答を提供します。 で使用するために 2008 年から 2010 年の間に収集されたデータセットです。 学術研究.
2. 言語データ
言語データは、Yahoo!などの一部のサービスから生成された情報を使用してYahooが管理するデータベースです。 Answer。ユーザーが質問と回答を投稿するためのオープンコミュニティとして機能します。
3. ウィキQA
WikiQAコーパスも、一連の質問と回答で構成されています。 質問のソースはBingですが、回答は最初の質問を解決する可能性のあるWikipediaページにリンクしています。
データセットには、合計で3,000を超える質問と29,258の文のセットがあり、そのうち約1,400が対応する質問への回答として分類されています。
政府データ
政府によって生成されたデータセットは、人口統計データをもたらします。これは、社会的傾向の理解、公共政策の作成、および社会の改善に関連するプロジェクトへの優れた入力です。 これは、政治キャンペーン、ターゲットを絞った広告、または市場分析に役立ちます。
これらのデータセットには通常、匿名化されたデータが含まれているため、モデルは生データにアクセスできますが、個人のプライバシーを侵害することはありません。
4. Data.gov
2009年に立ち上げられたData.govは、北米のデータソースです。 そのカタログは印象的です。フォーマット、タグ、タイプ、トピックによるセグメンテーションを可能にする218,000を超えるデータセット。
5. EUオープンデータポータル
EUオープンデータポータルは、欧州連合の機関によって共有されるオープンデータへのアクセスを提供します。 これらは、商用および非商用の使用を目的としたデータです。 ユーザーが自由に使えるのは、健康、エネルギー、環境、文化、教育などのトピックをカバーする15.5千を超えるデータセットです。
健康データ
世界中で進行中の健康危機をきっかけに、健康組織によって生成されたデータセットは、命を救うための効果的なソリューションを開発するために不可欠です。 これらのデータセットは、危険因子を特定し、病気の感染パターンを解明し、診断をスピードアップするのに役立ちます。
これらのデータセットは、健康記録、患者の人口統計、病気の有病率、薬の使用法、栄養価などで構成されています。
6. グローバルヘルスオブザーバトリー
このデータセットは、世界保健機関(WHO)のイニシアチブです。 医療制度、たばこ使用管理、出産、HIV / AIDSなどのテーマ別に整理された、さまざまな健康分野に関連する公開データを提供します。COVID-19に関するデータを参照するオプションもあります。
7. コード-19
CORD-19は、COVID-19に関する学術出版物および新しいコロナウイルスに関するその他の記事のコーパスです。 これは、COVID-19に関する新しい洞察を生み出すことを目的としたオープンデータセットです。
経済学データ
金融環境に関連するデータセットは、長い間収集されていることが一般的であるため、通常、膨大な量の情報を収集します。 それらは、経済予測を作成したり、投資トレンドを確立したりするのに理想的です。
適切な財務データセットがあれば、 機械学習モデル 特定のアセットの動作を予測できる場合があります。 そのため、金融セクターは効果的な ML モデルを作成するために全力を尽くしています。合理的に予測できるものは何百万ドルも生み出す可能性があるからです。 機械学習はすでに市民の行動を予測しており、政策立案者の仕事のやり方に影響を与えています。
8. 国際通貨基金
IMFデータセットには、さまざまな経済および財務指標、加盟国の統計、その他のローンおよび為替レートのデータが含まれています。
9. 世界銀行
世界銀行のリポジトリには、さまざまな国の経済情報を含むさまざまなデータセットが含まれています。 大陸で分割された17,000を超えるデータセットがあります。
製品とサービスのレビュー
感情分析は、企業がクライアントや顧客から正しく見積もり、学習するのに役立つさまざまな分野でのアプリケーションを発見しました。 感情分析は、ソーシャルメディアの監視、ブランドの監視、顧客の声(VoC)、顧客サービス、および市場調査にますます使用されています。
感情分析はNLPを使用します (神経言語プログラミング)ルールベース、ハイブリッド、またはデータセットからデータを学習するために機械学習技術に依存する方法とアルゴリズム。
感情分析に必要なデータは特殊化されている必要があり、大量に必要です。 感情分析のトレーニングプロセスで最も難しいのは、大量のデータを見つけられないことです。 代わりに、関連するデータセットを見つけることです。 これらのデータセットは、幅広い感情分析アプリケーションとユースケースをカバーする必要があります。
10. Amazonのレビュー
このデータセットには、収集された情報の35年間にわたる、約18万件のAmazonレビューが含まれています。 これは、製品、ユーザー、およびレビューのコンテンツのデータセットです。
11. Yelpレビュー
また、Yelpは、そのサービスから収集した情報に基づいたデータセットを提供しています。 8万件を超えるレビュー、1万件のヒントに加えて、営業時間や空き状況など、ビジネスに関連する約1.5万件の属性があります。
12. IMDBレビュー
このデータベースには、トレーニング用の25を超える映画レビューと、映画の評価に特化したIMDBページから非公式に取得したテスト用の25を超える映画レビューのセットが含まれています。 追加として、ラベルのないデータも提供します。
MLの最初のステップのデータセット
13. ワイン品質データセット
このデータセットは、ポルトガル北部で生産された赤と緑の両方のワインに関連する情報を提供します。 目標は、物理化学的テストに基づいてワインの品質を定義することです。 予測システムの作成を練習したい人にとっては興味深いものです。
14. タイタニックデータセット
このデータセットは、タイタニック号からの887人の実際の乗客からのデータをもたらします。各列は、彼らが生き残ったかどうか、年齢、乗客クラス、性別、および支払った搭乗料金を定義します。 このデータセットは、タイタニック号の沈没を生き延びた乗客を予測できるモデルを作成することを目的としたKaggleプラットフォームによって開始された課題の一部でした。
他のデータセットを見つけるためのプラットフォーム
さらに進んで独自のデータセットを見つけたい場合は、最も有名なリポジトリを参照するのが最善の方法です。 機械学習 宇宙:
Kaggle
Google LLCの子会社であるKaggleは、データサイエンティストと機械学習の専門家のオンラインコミュニティです。 Kaggleを使用すると、ユーザーはデータセットを検索して公開し、Webベースのデータサイエンス環境でモデルを探索および作成できます。 他のデータサイエンティストと協力して 機械学習エンジニア、およびデータサイエンスの課題を解決するためのコンテストに参加します。
Kaggleは2010年に機械学習コンテストを提供することから始まり、現在は一般向けのコンテストも提供しています データプラットフォーム、データサイエンスと人工知能教育のためのクラウドベースのワークベンチ。
データセット検索
データセット検索は、研究者が自由に使用できるオンラインデータを見つけるのに役立つGoogleの検索エンジンです。 ウェブ全体に、興味のあるほぼすべての主題に関する何百万ものデータセットがあります。
子犬の購入を検討している場合は、子犬の購入者の苦情や子犬の認知に関する研究をまとめたデータセットを見つけることができます。 または、スキーが好きな場合は、スキーリゾートの収益や負傷率、参加者数に関するデータを見つけることができます。 Dataset Searchは、これらのデータセットのほぼ25万にインデックスを付けており、データセットを検索し、データがある場所へのリンクを見つけるための単一の場所を提供します。
UCI機械学習リポジトリ
UCI Machine Learning Repositoryは、機械学習アルゴリズムの経験的分析のために機械学習コミュニティによって使用されるデータベース、ドメイン理論、およびデータジェネレーターのコレクションです。 このアーカイブは、1987年にDavidAhaとカリフォルニア大学アーバイン校の大学院生によってftpアーカイブとして作成されました。
それ以来、MLデータセットの主要なソースとして、世界中の学生、教育者、研究者によって広く使用されています。 アーカイブの影響を示すものとして、1000回以上引用されており、すべてのコンピュータサイエンスで最も引用されている「論文」のトップ100のXNUMXつになっています。
カンドル
Quandlは、ユーザーに経済的、財務的、および代替のデータセットを提供するプラットフォームです。 ユーザーは、無料のデータをダウンロードしたり、有料のデータを購入したり、Quandlにデータを販売したりできます。 それはの開発のための便利なツールになることができます 取引アルゴリズム、 例えば。
まとめ
これらのツールを探索することで、プロジェクトへの優れたインプットを確実に見つけることができます。 特定のニーズに最も適したデータセットを選択するようにしてください。常に心に留めておいてください。量だけでなく、質も重要です。 データセットは、 機械学習プロジェクト そして、誤った結論に達するリスクを回避するために、質の高いデータに基づいて構築することが不可欠です。
コメントを残す