初心者向け機械学習プロジェクトトップ 15

目次[隠す][見せる]

1 タイタニック
2. アイルランドの花の分類
3.ボストンの住宅価格予測
4. ワインの品質検査
5. 株式市場の予測
6. おすすめの映画
7. 負荷適格性の予測
8. Twitterデータを活用した感情分析
9. 今後の売上予測
10. フェイクニュースの検出
11. クーポン購入予測
12. 顧客離れの予測
13. ウォールマートの売上予測
14. ウーバーのデータ分析
15。 Covid-19分析
まとめ

機械学習は、高レベルで提示された特定のジョブを徐々に改善するためにコンピュータープログラムまたはアルゴリズムを教育する方法に関する単純な研究です。画像識別、不正検出、推奨システム、その他の機械学習アプリケーションは、すでに人気があることが証明されています。

ML ジョブは人間の作業をシンプルかつ効率的にし、時間を節約し、高品質の結果を保証します。世界で最も人気のある検索エンジンである Google でさえ、機械学習.

ユーザーのクエリを分析し、その結果に基づいて結果を変更することから、クエリに関連するトレンドのトピックや広告を表示することまで、さまざまなオプションが利用可能です。

知覚的で自己修正的なテクノロジーが実現するのも、そう遠くない将来のことです。

始めるための最も優れた方法の 15 つは、実際にプロジェクトを設計してみることです。そこで、初心者向けに、すぐに始められるトップ XNUMX の機械学習プロジェクトのリストをまとめました。

1. タイタニック

これは、機械学習について詳しく学びたい人にとって、最も素晴らしく楽しいタスクの XNUMX つであると考えられています。タイタニックチャレンジは人気のある機械学習プロジェクトであり、Kaggle データサイエンスプラットフォームについて知る良い方法としても機能します。タイタニック号のデータセットは、不運な船の沈没から得られた本物のデータで構成されています。

それには、その人の年齢、社会経済的地位、性別、船室番号、出発港、そして最も重要なことに、生存したかどうかなどの詳細が含まれています。

K-Nearest Neighbor 手法とデシジョンツリー分類器が、このプロジェクトで最良の結果を生み出すと判断されました。あなたがあなたを改善するための速い週末の挑戦を探しているなら機械学習能力、Kaggle のこれはあなたのためです。

タイタニック

2. アイルランドの花の分類

アヤメの花の分類プロジェクトは初心者に人気があり、機械学習が初めての場合は、ここから始めるのが最適です。アイリスの花はがく片と花びらの長さによって他の種と区別されます。このプロジェクトの目的は、花をバージニア、セトーサ、バーシカラーの XNUMX 種に分けることです。

分類の演習では、プロジェクトではアヤメの花のデータセットが使用されており、学習者が数値とデータの扱いの基礎を学ぶのに役立ちます。アヤメの花のデータセットは、スケーリングを必要とせずにメモリに保存できる小さなデータセットです。

アイルランドの花の分類

3. ボストンの住宅価格予測

別の有名な機械学習の初心者向けのデータセットボストンハウジングのデータです。その目標は、ボストンのさまざまな地域の住宅価格を予測することです。これには、年齢、固定資産税率、犯罪率、さらには職業センターへの近さなどの重要な統計が含まれており、これらはすべて住宅価格に影響を与える可能性があります。

データセットはシンプルで小さいため、初心者でも簡単に実験できます。ボストンの不動産価格に影響を与える要因を解明するために、さまざまなパラメータに対して回帰手法が多用されています。回帰テクニックを練習し、それがどの程度うまく機能するかを評価するのに最適な場所です。

ボストンの住宅価格予測

4. ワインの品質検査

ワインは何年にもわたる発酵を必要とする珍しいアルコール飲料です。そのため、アンティークボトルのワインは高価で高品質なワインとなります。理想的なワインのボトルを選択するには、長年にわたるワインテイスティングの知識が必要であり、当たり外れが生じる可能性があります。

ワイン品質試験プロジェクトでは、アルコール度、固定酸度、密度、pH、その他の要素などの物理化学的試験を使用してワインを評価します。このプロジェクトでは、ワインの品質基準と数量も決定されます。その結果、ワインの購入が簡単になります。

ワインの品質

5. 株式市場の予測

この取り組みは、金融業界で働いているかどうかに関係なく、興味深いものです。株式市場のデータは学者、企業、さらには副収入源としても広く研究されています。時系列データを研究して探索するデータサイエンティストの能力も重要です。株式市場のデータは出発点として最適です。

この取り組みの本質は、株式の将来の価値を予測することです。これは、現在の市場パフォーマンスと過去数年間の統計に基づいています。 Kaggle は 50 年から NIFTY-2000 インデックスに関するデータを収集しており、現在は毎週更新されています。 1 年 2000 月 50 日以来、XNUMX 以上の組織の株価が含まれています。

株式市場の予測

6. おすすめの映画

良い映画を観た後は、きっとそんな気持ちになったことがあると思います。似たような映画を一気に観て、五感を刺激したいという衝動を感じたことはありますか?

Netflix などの OTT サービスがレコメンデーションシステムを大幅に改善したことはわかっています。機械学習の学生は、そのようなアルゴリズムが好みやレビューに基づいてどのようにクライアントをターゲットにするかを理解する必要があります。

Kaggle の IMDB データセットはおそらく最も完全なものの XNUMX つであり、映画のタイトル、顧客評価、ジャンル、その他の要素に基づいて推奨モデルを推測できます。これは、コンテンツベースのフィルタリングと特徴量エンジニアリングについて学ぶための優れた方法でもあります。

映画のおすすめ

7. ロード適格性の予測

世界はローンを中心に回っています。銀行の主な収益源は融資の利息です。したがって、それらは彼らの基本的なビジネスです。

個人または個人のグループは、将来の価値の上昇を期待して企業に資金を投資することによってのみ経済を拡大できます。このようなリスクを負い、さらには特定の世俗的な楽しみを享受できるようにするために、融資を求めることも時には重要です。

通常、銀行はローンが承認される前に、かなり厳格なプロセスに従う必要があります。ローンは多くの人々の生活にとって非常に重要な側面であるため、誰かが申請するローンの適格性を予測することは非常に有益であり、ローンの承認または拒否を超えてより適切な計画を立てることができます。

ロード適格性予測

8. Twitterデータを活用した感情分析

おかげソーシャルメディアネットワーク Twitter、Facebook、Reddit のように、意見やトレンドを推測するのはかなり簡単になりました。この情報は、イベント、人物、スポーツ、その他のトピックに関する意見を排除するために使用されます。意見マイニング関連の機械学習の取り組みは、政治キャンペーンや Amazon 製品の評価など、さまざまな環境で応用されています。

このプロジェクトはあなたのポートフォリオで素晴らしいものになるでしょう! 感情検出とアスペクトベースの分析では、サポートベクターマシン、回帰、分類アルゴリズムなどの技術を幅広く使用できます (事実と意見の検索)。

9. 今後の売上予測

大手 B2C 企業や販売者は、在庫内の各製品がいくらで売れるかを知りたいと考えています。売上予測は、ビジネスオーナーがどの商品の需要が高いかを判断するのに役立ちます。正確な売上予測により、無駄が大幅に削減されると同時に、将来の予算への増分影響も決定されます。

Walmart、IKEA、Big Basket、Big Bazaar などの小売業者は、売上予測を使用して製品の需要を推定しています。このような ML プロジェクトを構築するには、生データをクレンジングするさまざまな手法に精通している必要があります。また、回帰分析、特に単純な線形回帰をよく理解している必要があります。

この種のタスクでは、Dora、Scrubadub、Pandas、NumPy などのライブラリを使用する必要があります。

今後の売上予測

10. フェイクニュースの検出

これも学童を対象とした最先端の機械学習の取り組みです。誰もが知っているように、フェイクニュースは山火事のように広まっています。個人間のつながりから毎日のニュースの閲覧まで、あらゆるものがソーシャルメディアで利用できます。

その結果、最近では誤ったニュースを検出することがますます困難になっています。 Facebook や Twitter などの多くの大手ソーシャルメディアネットワークは、投稿やフィード内の偽のニュースを検出するアルゴリズムをすでに導入しています。

誤ったニュースを特定するには、このタイプの ML プロジェクトでは、複数の NLP アプローチと分類アルゴリズム (PassiveAggressiveClassifier または Naive Bayes 分類器) を完全に理解する必要があります。

フェイクニュースの検出

11. クーポン購入予測

2020 年にコロナウイルスが地球を襲ったとき、顧客はオンライン購入を検討するようになりました。その結果、ショッピング施設はビジネスをオンラインに移行することを余儀なくされました。

一方、顧客は店舗でのときと同様に素晴らしいオファーを求めており、超お買い得なクーポンをますます探し求めています。そのような顧客向けにクーポンを作成することに特化した Web サイトもあります。このプロジェクトでは、機械学習におけるデータマイニング、データを視覚化するための棒グラフ、円グラフ、ヒストグラムの作成、および特徴量エンジニアリングについて学ぶことができます。

予測を生成するには、NA 値と変数のコサイン類似性を管理するためのデータ代入アプローチを検討することもできます。

クーポン購入予測

12. 顧客チャーン予測

消費者は企業にとって最も重要な資産であり、収益の向上と消費者との長期的な有意義なつながりの構築を目指すあらゆるビジネスにとって、消費者を維持することは極めて重要です。

さらに、新規顧客を獲得するコストは、既存顧客を維持するコストの XNUMX 倍になります。顧客の離脱/減少は、顧客または加入者がサービスまたは会社との取引を停止する、よく知られたビジネス上の問題です。

理想的には、彼らはもはや有料顧客ではなくなります。顧客が会社と最後にやり取りしてから一定の時間が経過した場合、顧客は解約したとみなされます。顧客が離脱するかどうかを特定すること、および顧客維持を目的とした関連情報を迅速に提供することは、離脱率を下げるために重要です。

私たちの脳には、何百万もの顧客の離職率を予測することはできません。ここで機械学習が役に立ちます。

顧客チャーン予測

13. ウォールマートの売上予測

機械学習の最も顕著な用途の XNUMX つは販売予測です。これには、製品の販売に影響を与える特性を検出し、将来の販売量を予測することが含まれます。

この機械学習の調査では、45 か所の販売データを含む Walmart データセットが使用されています。データセットには、週単位の店舗別、カテゴリ別の売上が含まれています。この機械学習プロジェクトの目的は、各販売店の各部門の売上を予測して、データに基づいたチャネルの最適化と在庫計画の決定をより適切に行えるようにすることです。

Walmart データセットの操作は、売上に影響を与える考慮すべき選択された値下げイベントが含まれているため、困難です。

ウォルマートの売上予測

14. ウーバーのデータ分析

機械学習とディープラーニングをアプリに実装して統合するという点では、人気のライドシェアサービスも負けていません。毎年、数十億件の旅行を処理し、通勤者が昼夜を問わずいつでも旅行できるようにしています。

非常に大規模な顧客ベースを抱えているため、消費者の苦情にできるだけ早く対処するための優れた顧客サービスが必要です。

Uber には、何百万もの乗車のデータセットがあり、顧客の乗車を分析および表示して洞察を明らかにし、顧客エクスペリエンスを向上させるために使用できます。

ウーバーのデータ分析

15. 新型コロナウイルス感染症の分析

今日、新型コロナウイルス感染症（COVID-19）は単にパンデミックという意味ではなく、世界中を席巻しています。医療専門家は効果的なワクチンを開発し、世界中に予防接種を施すことに集中していますが、データサイエンティストそれほど遅れていません。

新規感染者数、毎日の活動者数、死亡者数、検査統計はすべて公表されている。予測は、前世紀の SARS の発生に基づいて毎日行われます。このために、回帰分析を使用し、ベクターマシンベースの予測モデルをサポートできます。

新型コロナウイルス感染症（Covid-19）の分析

まとめ

要約すると、機械学習プログラミングのテストとそのアイデアと実装の把握に役立つ、いくつかの主要な ML プロジェクトについて説明しました。テクノロジーがあらゆる業界で普及するにつれて、機械学習を統合する方法を知ることは、専門分野での進歩に役立ちます。

機械学習を学習する際には、概念を練習し、すべてのアルゴリズムを作成することをお勧めします。学習中にアルゴリズムを作成することは、プロジェクトを実行するよりも重要であり、主題を適切に理解する上でも有利になります。

初心者向けの機械学習プロジェクトトップ15

1. タイタニック

2. アイルランドの花の分類

3. ボストンの住宅価格予測

4. ワインの品質検査

5. 株式市場の予測

6. おすすめの映画

7. ロード適格性の予測

8. Twitterデータを活用した感情分析

9. 今後の売上予測

10. フェイクニュースの検出

11. クーポン購入予測

12. 顧客チャーン予測

13. ウォールマートの売上予測

14. ウーバーのデータ分析

15. 新型コロナウイルス感染症の分析

まとめ

私たちについてジェイ

HashDorkに関するその他の記事：

強化学習: 間違いから学ぶ AI

学ぶべきトップ10のMLOpsツール

初心者のためのトピックモデリング入門

機械学習エンジニアに必要な5つのスキル

この未来の技術ニュースレターは吸い込まない

初心者向けの機械学習プロジェクトトップ15

1. タイタニック

2. アイルランドの花の分類

3. ボストンの住宅価格予測

4. ワインの品質検査

5. 株式市場の予測

6. おすすめの映画

7. ロード適格性の予測

8. Twitterデータを活用した感情分析

9. 今後の売上予測

10. フェイクニュースの検出

11. クーポン購入予測

12. 顧客チャーン予測

13. ウォールマートの売上予測

14. ウーバーのデータ分析

15. 新型コロナウイルス感染症の分析

まとめ

私たちについて ジェイ

HashDorkに関するその他の記事：

強化学習: 間違いから学ぶ AI

学ぶべきトップ10のMLOpsツール

初心者のためのトピックモデリング入門

機械学習エンジニアに必要な5つのスキル

リーダーの相互作用

コメントを残す 返信をキャンセル

この未来の技術ニュースレターは吸い込まない

私たちについてジェイ

コメントを残す返信をキャンセル