机器学习是关于如何教育计算机程序或算法以逐步改进高水平呈现的特定工作的简单研究。 图像识别、欺诈检测、推荐系统和其他机器学习应用程序已被证明很受欢迎。
机器学习作业使人类工作变得简单高效,节省了时间并确保了高质量的结果。 甚至世界上最受欢迎的搜索引擎谷歌也使用 机器学习.
从分析用户的查询和根据结果更改结果到显示与查询相关的趋势主题和广告,有多种可用选项。
既能感知又能自我纠正的技术在未来并不遥远。
最好的入门方法之一是亲身实践并设计一个项目。 因此,我们为初学者编制了 15 个顶级机器学习项目的列表,以帮助您入门。
1. 泰坦尼克号
对于任何有兴趣了解更多机器学习的人来说,这通常被认为是最伟大、最令人愉快的任务之一。 泰坦尼克号挑战赛是一个流行的机器学习项目,也是熟悉 Kaggle 数据科学平台的好方法。 泰坦尼克号数据集由命运多舛的船沉没的真实数据组成。
它包括诸如此人的年龄、社会经济地位、性别、客舱号码、出发港等详细信息,最重要的是,他们是否幸存下来!
K-Nearest Neighbor 技术和决策树分类器被确定为该项目产生最佳结果。 如果你正在寻找一个快速的周末挑战来提高你的 机器学习能力,Kaggle 上的这个是给你的。
2. 爱尔兰花卉分类
初学者喜欢鸢尾花分类项目,如果您不熟悉机器学习,这是一个很好的起点。 萼片和花瓣的长度将鸢尾花与其他物种区分开来。 该项目的目的是将花朵分为三个品种:Virginia、setosa 和 Versicolor。
对于分类练习,该项目使用鸢尾花数据集,帮助学习者学习处理数值和数据的基础知识。 鸢尾花数据集是一个很小的数据集,可以存储在内存中而无需缩放。
3. 波士顿房价预测
另一个众所周知的 机器学习新手数据集 是波士顿住房数据。 它的目标是预测波士顿各个街区的房屋价值。 它包括重要的统计数据,例如年龄、财产税率、犯罪率,甚至与就业中心的距离,所有这些都可能影响房价。
数据集简单而小巧,让新手很容易进行实验。 为了找出影响波士顿房地产价格的因素,回归技术大量用于各种参数。 这是练习回归技术并评估它们的工作情况的好地方。
4. 葡萄酒质量检测
葡萄酒是一种不寻常的酒精饮料,需要多年发酵。 因此,这瓶古董酒是一种昂贵而优质的酒。 选择一瓶理想的葡萄酒需要多年的品酒知识,这可能是一个成败的过程。
葡萄酒质量测试项目使用物理化学测试来评估葡萄酒,例如酒精度、固定酸度、密度、pH 值和其他因素。 该项目还确定了葡萄酒的质量标准和数量。 因此,购买葡萄酒变得轻而易举。
5. 股市预测
无论您是否在金融部门工作,这一举措都很有趣。 股票市场数据被学者、企业广泛研究,甚至作为二次收入的来源。 数据科学家研究和探索时间序列数据的能力也很重要。 来自股票市场的数据是一个很好的起点。
努力的本质是预测股票的未来价值。 这是基于当前的市场表现以及前几年的统计数据。 自 50 年以来,Kaggle 一直在收集 NIFTY-2000 指数的数据,目前每周更新一次。 自 1 年 2000 月 50 日以来,它已包含 XNUMX 多个组织的股票价格。
6. 电影推荐
我相信你在看过一部好电影后会有这种感觉。 你有没有想过通过狂看类似的电影来刺激你的感官的冲动?
我们知道,像 Netflix 这样的 OTT 服务已经显着改进了他们的推荐系统。 作为一名机器学习学生,您需要了解此类算法如何根据客户的偏好和评论来定位客户。
Kaggle 上的 IMDB 数据集可能是最完整的数据集之一,它允许根据电影标题、客户评分、类型和其他因素推断推荐模型。 这也是学习基于内容的过滤和特征工程的绝佳方法。
7. 负载资格预测
世界以贷款为中心。 银行的主要利润来源是贷款利息。 因此,它们是他们的基本业务。
个人或个人团体只能通过向一家公司投资以期看到其在未来升值的方式来扩大经济。 有时,重要的是寻求贷款,以便能够承担这种性质的风险,甚至参与某些世俗的快乐。
在接受贷款之前,银行通常需要遵循相当严格的流程。 由于贷款是许多人生活中如此重要的方面,因此预测某人申请贷款的资格将非常有益,可以在接受或拒绝贷款之外进行更好的计划。
8. 使用 Twitter 数据进行情绪分析
由于 社交媒体网络 像 Twitter、Facebook 和 Reddit 一样,推断观点和趋势变得相当容易。 此信息用于消除对事件、人物、运动和其他主题的意见。 与意见挖掘相关的机器学习计划正在各种环境中应用,包括政治运动和亚马逊产品评估。
这个项目在你的投资组合中看起来很棒! 对于情绪检测和基于方面的分析,可以广泛使用支持向量机、回归和分类算法等技术(查找事实和意见)。
9. 未来销售预测
大型 B2C 企业和商家想知道库存中每种产品的销量。 销售预测有助于企业主确定哪些商品需求量很大。 准确的销售预测将显着减少浪费,同时确定对未来预算的增量影响。
沃尔玛、宜家、Big Basket 和 Big Bazaar 等零售商使用销售预测来估计产品需求。 您必须熟悉各种清理原始数据的技术才能构建此类 ML 项目。 此外,还需要很好地掌握回归分析,尤其是简单的线性回归。
对于这些类型的任务,您需要使用 Dora、Scrubadub、Pandas、NumPy 等库。
10. 假新闻检测
这是针对学童的另一项尖端机器学习工作。 众所周知,假新闻正像野火一样蔓延。 从连接个人到阅读每日新闻,一切都可以在社交媒体上获得。
因此,如今检测虚假新闻变得越来越困难。 许多大型社交媒体网络,例如 Facebook 和 Twitter,已经有适当的算法来检测帖子和提要中的虚假新闻。
为了识别假新闻,这类机器学习项目需要对多种 NLP 方法和分类算法(PassiveAggressiveClassifier 或 Naive Bayes 分类器)有透彻的了解。
11. 优惠券购买预测
当 2020 年冠状病毒袭击地球时,客户越来越多地考虑在线购买。因此,购物场所被迫将业务转移到网上。
另一方面,顾客仍然在寻求优惠,就像他们在商店里一样,并且越来越多地寻找超级优惠券。 甚至还有专门为此类客户创建优惠券的网站。 您可以通过此项目了解机器学习中的数据挖掘、生成条形图、饼图和直方图以可视化数据以及特征工程。
要生成预测,您还可以研究用于管理变量的 NA 值和余弦相似度的数据插补方法。
12. 客户流失预测
消费者是公司最重要的资产,留住他们对于任何旨在增加收入并与他们建立长期有意义联系的企业来说都是至关重要的。
此外,获得新客户的成本是维持现有客户成本的五倍。 客户流失/流失是一个众所周知的业务问题,其中客户或订户停止与服务或公司开展业务。
理想情况下,他们将不再是付费客户。 如果自客户上次与公司互动以来已经过了特定时间,则该客户被视为流失。 确定客户是否会流失,以及迅速提供旨在留住客户的相关信息,对于降低客户流失率至关重要。
我们的大脑无法预测数百万客户的客户流失率; 这就是机器学习可以提供帮助的地方。
13. 沃尔玛销售预测
机器学习最突出的应用之一是销售预测,它涉及检测影响产品销售的特征并预测未来的销售量。
Walmart 数据集包含来自 45 个地点的销售数据,用于本机器学习研究。 数据集中包括每周按类别划分的每家商店的销售额。 这个机器学习项目的目的是预测每个门店每个部门的销售额,以便他们能够做出更好的数据驱动的渠道优化和库存计划决策。
使用沃尔玛数据集很困难,因为它包含对销售有影响的选定降价事件,应予以考虑。
14. 优步数据分析
在他们的应用程序中实施和集成机器学习和深度学习时,流行的拼车服务也不甘落后。 每年,它处理数十亿次旅行,让通勤者可以在白天或晚上的任何时间旅行。
因为它拥有如此庞大的客户群,它需要卓越的客户服务来尽快解决消费者的投诉。
Uber 拥有一个包含数百万次接送服务的数据集,可用于分析和显示客户行程,以发现洞察并改善客户体验。
15. Covid-19 分析
今天,COVID-19 已席卷全球,而不仅仅是在大流行的意义上。 在医学专家专注于产生有效的疫苗接种和免疫世界的同时, 数据科学家 不远了。
新病例、每日活跃人数、死亡人数和检测统计数据都将公开。 根据上个世纪的 SARS 爆发,每天进行预测。 为此,您可以使用回归分析和基于支持向量机的预测模型。
结论
总而言之,我们讨论了一些顶级 ML 项目,它们将帮助您测试机器学习编程以及掌握其想法和实现。 随着技术在每个行业中的应用,了解如何集成机器学习可以帮助您在职业中取得进步。
在学习机器学习时,我们建议您练习您的概念并编写所有算法。 在学习的同时编写算法比执行项目更重要,它还为您正确理解主题提供了优势。
发表评论