目录[隐藏][展示]
- 1. 解释机器学习、人工智能和深度学习之间的区别。
- 2. 请描述不同类型的机器学习。
- 3.什么是偏差与方差的权衡?
- 4. 机器学习算法随着时间的推移发生了显着变化。 如何选择正确的算法来利用给定的数据集?
- 5. 协方差和相关性有何不同?
- 6. 在机器学习中,聚类是什么意思?
- 7.您首选的机器学习算法是什么?
- 8. 机器学习中的线性回归:它是什么?
- 9. 描述 KNN 和 k-means 聚类的区别。
- 10. “选择偏差”对您意味着什么?
- 11. 贝叶斯定理到底是什么?
- 12. 在机器学习模型中,什么是“训练集”和“测试集”?
- 13. 什么是机器学习中的假设?
- 14. 机器学习过拟合是什么意思,如何预防?
- 15. Naive Bayes 分类器到底是什么?
- 16. 成本函数和损失函数是什么意思?
- 17. 生成模型与判别模型有何区别?
- 18. 描述类型 I 和类型 II 错误之间的差异。
- 19. 在机器学习中,什么是集成学习技术?
- 20. 参数模型到底是什么? 举个例子。
- 21. 描述协同过滤。 以及基于内容的过滤?
- 22. 你所说的时间序列到底是什么意思?
- 23. 描述梯度提升和随机森林算法之间的差异。
- 24. 为什么需要混淆矩阵? 它是什么?
- 25. 究竟什么是主成分分析?
- 26. 为什么成分轮换对 PCA(主成分分析)如此重要?
- 27. 正则化和归一化有何不同?
- 28. 标准化和标准化有何不同?
- 29.“方差膨胀因子”究竟是什么意思?
- 30. 根据训练集的大小,如何选择分类器?
- 31. 机器学习中的什么算法被称为“惰性学习器”,为什么?
- 32.什么是ROC曲线和AUC?
- 33.什么是超参数? 是什么让它们在模型参数中与众不同?
- 34. F1 分数、召回率和准确率是什么意思?
- 35. 什么是交叉验证?
- 36. 假设您发现您的模型存在显着差异。 您认为哪种算法最适合处理这种情况?
- 37. Ridge 回归与 Lasso 回归的区别是什么?
- 38.哪个更重要:模型性能还是模型精度? 哪一个,为什么你会喜欢它?
- 39. 你将如何管理不等式的数据集?
- 40. 如何区分 boosting 和 bagging?
- 41. 解释归纳学习和演绎学习的区别。
- 结论
企业正在利用人工智能 (AI) 和机器学习等尖端技术来提高个人对信息和服务的可访问性。
这些技术正在被各种行业采用,包括银行、金融、零售、制造和医疗保健。
利用 AI 最受欢迎的组织角色之一是数据科学家、人工智能工程师、机器学习工程师和数据分析师。
这篇文章将引导你完成各种 机器学习 面试问题,从基本到复杂,帮助您准备好在寻找理想工作时可能被问到的任何问题。
1. 解释机器学习、人工智能和深度学习之间的区别。
人工智能采用各种机器学习和深度学习方法,使计算机系统能够利用具有逻辑和规则的类人智能来执行任务。
机器学习使用各种统计数据和深度学习方法,使机器能够从之前的表现中学习,并更擅长在没有人工监督的情况下自行完成某些任务。
深度学习是一组算法,允许软件自我学习并执行各种商业功能,例如语音和图片识别。
暴露其多层的系统 神经网络 大量的学习数据能够进行深度学习。
2. 请描述不同类型的机器学习。
机器学习大致存在三种不同的类型:
- 监督学习:模型在监督机器学习中使用标记或历史数据创建预测或判断。 为了增加其意义而被标记或标记的数据集称为标记数据。
- 无监督学习:我们没有用于无监督学习的标记数据。 在传入的数据中,模型可以找到模式、奇点和相关性。
- 强化学习:模型可以 通过强化学习 学习及其先前行为所获得的奖励。
3.什么是偏差与方差的权衡?
过度拟合是偏差的结果,偏差是模型拟合数据的程度。 偏见是由你的不正确或过于简单的假设引起的 机器学习算法.
方差是指由您的 ML 算法的复杂性引起的错误,这会导致对训练数据和过度拟合的较大程度的方差敏感。
方差是模型根据输入变化的程度。
换句话说,基本模型具有极大的偏差但稳定(低方差)。 过度拟合是复杂模型的一个问题,尽管它们仍然捕捉了模型的现实(低偏差)。
为了防止高变化和高偏差,偏差和方差之间的权衡对于最好的误差减少是必要的。
4. 机器学习算法随着时间的推移发生了显着变化。 如何选择正确的算法来利用给定的数据集?
应该使用的机器学习技术仅取决于特定数据集中的数据类型。
当数据是线性时,使用线性回归。 如果数据表明非线性,bagging 方法会表现得更好。 如果必须出于商业目的评估或解释数据,我们可以使用决策树或 SVM。
如果数据集包括照片、视频和音频,神经网络可能有助于获得准确的答案。
针对特定情况或数据收集的算法选择不能仅仅基于单一的衡量标准。
为了开发最佳拟合方法,我们必须首先使用探索性数据分析(EDA)检查数据并理解利用数据集的目标。
5. 协方差和相关性有何不同?
协方差评估两个变量如何相互连接,以及一个变量如何响应另一个变量的变化而变化。
如果结果为正,则表明变量之间存在直接联系,假设所有其他条件保持不变,则变量会随着基础变量的增加或减少而上升或下降。
相关性衡量两个随机变量之间的联系,并且只有三个不同的值:1、0 和 -1。
6. 在机器学习中,聚类是什么意思?
将数据点组合在一起的无监督学习方法称为聚类。 通过数据点的集合,可以应用聚类技术。
您可以使用此策略根据其功能对所有数据点进行分组。
属于同一类别的数据点的特征和质量是相似的,而属于不同分组的数据点的特征和质量是不同的。
这种方法可用于分析统计数据。
7.您首选的机器学习算法是什么?
你有机会在这个问题中展示你的偏好和独特的才能,以及你对众多机器学习技术的全面了解。
以下是一些需要考虑的典型机器学习算法:
- 线性回归
- 逻辑回归
- 朴素贝叶斯
- 决策树
- K代表
- 随机森林算法
- K-最近邻(KNN)
8. 机器学习中的线性回归:它是什么?
有监督的机器学习算法是线性回归。
它用于预测分析以确定因变量和自变量之间的线性联系。
线性回归的方程如下:
Y = A + BX
其中:
- 输入或自变量称为 X。
- 因变量或输出变量是 Y。
- X的系数为b,截距为a。
9. 描述 KNN 和 k-means 聚类的区别。
主要区别在于 KNN(一种分类方法,监督学习)需要标记点,而 k-means 不需要(聚类算法,无监督学习)。
您可以使用 K-Nearest Neighbors 将标记的数据分类为未标记的点。 K-means 聚类使用点之间的平均距离来学习如何对未标记的点进行分组。
10. “选择偏差”对您意味着什么?
实验抽样阶段的偏差是由于统计不准确造成的。
由于不准确,一个样本组比实验中的其他组更频繁地被选择。
如果不承认选择偏差,可能会导致错误的结论。
11. 贝叶斯定理到底是什么?
当我们知道其他概率时,我们可以使用贝叶斯定理来确定概率。 换句话说,它基于先验信息提供了发生的后验概率。
该定理提供了一种估计条件概率的可靠方法。
在开发分类预测建模问题并将模型拟合到训练时 机器学习中的数据集,应用贝叶斯定理(即朴素贝叶斯,贝叶斯最优分类器)。
12. 在机器学习模型中,什么是“训练集”和“测试集”?
训练集:
- 训练集由发送到模型进行分析和学习的实例组成。
- 这是将用于训练模型的标记数据。
- 通常,总数据的 70% 用作训练数据集。
测试集:
- 测试集用于评估模型的假设生成准确性。
- 我们在没有标记数据的情况下进行测试,然后使用标签来确认结果。
- 剩下的 30% 用作测试数据集。
13. 什么是机器学习中的假设?
机器学习可以使用现有数据集来更好地理解将输入与输出联系起来的给定函数。 这称为函数逼近。
在这种情况下,必须对未知目标函数采用近似值,以尽可能最好的方式根据给定情况传递所有可能的观察结果。
在机器学习中,假设是帮助估计目标函数和完成适当的输入到输出映射的模型。
算法的选择和设计允许定义可以由模型表示的可能假设的空间。
对于单个假设,使用小写 h (h),但大写 h (H) 用于正在搜索的整个假设空间。 我们将简要回顾这些符号:
- 假设 (h) 是促进输入到输出的映射的特定模型,该模型随后可用于评估和预测。
- 假设集 (H) 是可用于将输入映射到输出的假设的可搜索空间。 问题框架、模型和模型配置是一般限制的几个示例。
14. 机器学习过拟合是什么意思,如何预防?
当机器试图从不充分的数据集中学习时,就会发生过拟合。
因此,过拟合与数据量成反比。 交叉验证方法可以避免小数据集的过度拟合。 在此方法中,数据集分为两部分。
用于测试和训练的数据集将由这两部分组成。 训练数据集用于创建模型,而测试数据集用于使用不同的输入评估模型。
这是防止过拟合的方法。
15. Naive Bayes 分类器到底是什么?
各种分类方法构成了朴素贝叶斯分类器。 一组称为这些分类器的算法都基于相同的基本思想。
朴素贝叶斯分类器的假设是一个特征的存在与否与另一个特征的存在与否无关。
换句话说,这就是我们所说的“幼稚”,因为它假设每个数据集属性都同样重要和独立。
分类是使用朴素贝叶斯分类器完成的。 当独立性前提为真时,它们易于使用并且比更复杂的预测器产生更好的结果。
在文本分析、垃圾邮件过滤和推荐系统中,它们被使用。
16. 成本函数和损失函数是什么意思?
短语“损失函数”是指仅考虑一条数据时计算损失的过程。
相反,我们利用成本函数来确定大量数据的错误总数。 不存在显着区别。
换句话说,虽然成本函数聚合了整个训练数据集的差异,但损失函数旨在捕获单个记录的实际值和预测值之间的差异。
17. 生成模型与判别模型有何区别?
判别模型学习几个数据类别之间的差异。 生成模型会处理不同的数据类型。
在分类问题上,判别模型通常优于其他模型。
18. 描述类型 I 和类型 II 错误之间的差异。
误报属于 I 类错误,而误报属于 II 类错误(声称实际上没有发生任何事情)。
19. 在机器学习中,什么是集成学习技术?
一种称为集成学习的技术混合了许多机器学习模型以产生更有效的模型。
模型可以因各种原因而变化。 几个原因是:
- 不同的人群
- 各种假设
- 多种建模方法
我们在使用模型的训练和测试数据时会遇到一个问题。 偏差、方差和不可约误差是这种错误的可能类型。
现在,我们将模型中偏差和方差之间的这种平衡称为偏差-方差权衡,它应该始终存在。 这种权衡是通过使用集成学习来实现的。
尽管有各种可用的集成方法,但有两种常见的组合许多模型的策略:
- 一种称为 bagging 的本地方法使用训练集来生成额外的训练集。
- Boosting,一种更复杂的技术:与 bagging 非常相似,boosting 用于为训练集找到理想的加权公式。
20. 参数模型到底是什么? 举个例子。
参数模型中的参数数量有限。 要预测数据,您只需要知道模型的参数即可。
以下是典型示例:逻辑回归、线性回归和线性 SVM。 非参数模型很灵活,因为它们可以包含无限数量的参数。
数据预测需要模型的参数和观测数据的状态。 以下是一些典型的例子: 主题模型、决策树和 k 最近邻。
21. 描述协同过滤。 以及基于内容的过滤?
创建定制内容建议的一种行之有效的方法是协同过滤。
一种称为协同过滤的推荐系统通过平衡用户偏好和共同兴趣来预测新鲜材料。
用户偏好是基于内容的推荐系统唯一考虑的事情。 根据用户先前的选择,从相关材料中提供新的推荐。
22. 你所说的时间序列到底是什么意思?
时间序列是按升序排列的数字集合。 在预定的时间段内,它监控所选数据点的移动并定期捕获数据点。
时间序列没有最小或最大时间输入。
分析师经常使用时间序列来根据他们的独特要求分析数据。
23. 描述梯度提升和随机森林算法之间的差异。
随机森林:
- 大量的决策树最终汇集在一起,称为随机森林。
- 梯度提升产生的每棵树都独立于其他树,而随机森林一次只构建一棵树。
- 多类 目标检测 适用于随机森林。
梯度提升:
- 随机森林在过程结束时加入决策树,而梯度提升机则从一开始就将它们结合起来。
- 如果适当调整参数,梯度提升在结果方面优于随机森林,但如果数据集有很多异常值、异常或噪声,则它不是一个明智的选择,因为它可能导致模型变得过拟合。
- 当存在不平衡的数据时,就像在实时风险评估中一样,梯度提升表现良好。
24. 为什么需要混淆矩阵? 它是什么?
一个称为混淆矩阵的表,有时也称为误差矩阵,被广泛用于显示分类模型或分类器在一组已知实际值的测试数据上的执行情况。
它使我们能够了解模型或算法的执行情况。 它使我们很容易发现各种课程之间的误解。
它是一种评估模型或算法执行情况的方法。
分类模型的预测被编译成混淆矩阵。 每个类标签的计数值用于分解正确和错误预测的总数。
它提供了分类器产生的错误以及分类器引起的不同类型错误的详细信息。
25. 究竟什么是主成分分析?
通过最小化彼此相关的变量的数量,目标是最小化数据收集的维度。 但重要的是尽可能保持多样性。
这些变量被更改为一组全新的变量,称为主成分。
这些 PC 是正交的,因为它们是协方差矩阵的特征向量。
26. 为什么成分轮换对 PCA(主成分分析)如此重要?
旋转在 PCA 中至关重要,因为它优化了每个分量获得的方差之间的分离,使分量解释更简单。
如果组件不旋转,我们需要扩展组件来表达组件变化。
27. 正则化和归一化有何不同?
正常化:
数据在标准化过程中被更改。 如果数据的尺度差异很大,尤其是从低到高,您应该对数据进行规范化。 调整每一列,使基本统计数据都兼容。
为了确保不损失精度,这可能很有用。 在忽略噪声的情况下检测信号是模型训练的目标之一。
如果对模型进行完全控制以减少错误,则可能会出现过度拟合。
正则化:
在正则化中,预测函数被修改。 这需要通过正则化进行一些控制,这有利于更简单的拟合函数而不是复杂的拟合函数。
28. 标准化和标准化有何不同?
两种最广泛使用的特征缩放技术是标准化和标准化。
正常化:
- 重新调整数据以适应 [0,1] 范围称为标准化。
- 当所有参数必须具有相同的正尺度时,归一化是有帮助的,但会丢失数据集的异常值。
正则化:
- 作为标准化过程的一部分(单位方差),数据被重新调整为平均值为 0,标准差为 1
29.“方差膨胀因子”究竟是什么意思?
模型的方差与只有一个自变量的模型的方差之比称为变异膨胀因子(VIF)。
VIF 估计一组几个回归变量中存在的多重共线性的数量。
具有一个自变量方差的模型方差 (VIF) 模型
30. 根据训练集的大小,如何选择分类器?
高偏差、低方差模型对于较短的训练集表现更好,因为过拟合的可能性较小。 朴素贝叶斯就是一个例子。
为了表示大型训练集的更复杂的交互,具有低偏差和高方差的模型是可取的。 逻辑回归就是一个很好的例子。
31. 机器学习中的什么算法被称为“惰性学习器”,为什么?
KNN 是一个缓慢的学习者,是一种机器学习算法。 由于 K-NN 每次希望分类时都会动态计算距离,而不是从训练数据中学习任何机器学习的值或变量,因此它会记住训练数据集。
这使得 K-NN 成为一个懒惰的学习者。
32.什么是ROC曲线和AUC?
ROC 曲线以图形方式表示分类模型在所有阈值下的性能。 它具有真阳性率和假阳性率标准。
简单地说,ROC曲线下的面积称为AUC(Area Under the ROC Curve)。 ROC 曲线从 (0,0) 到 AUC 的二维面积被测量为 (1,1)。 为了评估二元分类模型,它被用作性能统计。
33.什么是超参数? 是什么让它们在模型参数中与众不同?
模型的内部变量称为模型参数。 利用训练数据,一个参数的值是近似的。
模型不知道,超参数是一个变量。 该值无法从数据中确定,因此它们经常用于计算模型参数。
34. F1 分数、召回率和准确率是什么意思?
混淆度量是用来衡量分类模型有效性的指标。 以下短语可用于更好地解释混淆度量:
TP:真阳性——这些是正确预期的阳性值。 它表明投影类和实际类的值都是正的。
TN: True Negatives - 这些是准确预测的不利值。 它表明实际类别的价值和预期类别的价值都是负的。
当您的实际班级与预期班级不同时,就会出现这些值(误报和误报)。
现在,
真阳性率 (TP) 与在实际班级中所做的所有观察的比率称为召回率,也称为灵敏度。
召回是 TP/(TP+FN)。
精度是阳性预测值的度量,它将模型真正预测的阳性数与其准确预测的正确阳性数进行比较。
精度为 TP/(TP + FP)
最容易理解的性能指标是准确度,它只是正确预测的观测值与所有观测值的比例。
精度等于 (TP+TN)/(TP+FP+FN+TN)。
精确率和召回率被加权和平均以提供 F1 分数。 因此,该分数同时考虑了误报和误报。
F1 通常比准确性更有价值,特别是如果您的班级分布不均,即使直觉上它不像准确性那么容易理解。
当误报和误报的成本相当时,可以获得最佳准确性。 如果与误报和误报相关的成本差异显着,则最好同时包括精确率和召回率。
35. 什么是交叉验证?
机器学习中称为交叉验证的统计重采样方法使用多个数据集子集在多轮中训练和评估机器学习算法。
使用交叉验证对未用于训练模型的新一批数据进行测试,以查看模型对其预测的好坏。 通过交叉验证防止数据过拟合。
K-Fold 最常用的重采样方法将整个数据集拆分为 K 个大小相等的集合。 它被称为交叉验证。
36. 假设您发现您的模型存在显着差异。 您认为哪种算法最适合处理这种情况?
管理高可变性
对于变化很大的问题,我们应该使用 bagging 技术。
装袋算法将使用随机数据的重复采样将数据划分为子组。 一旦数据被划分,我们可以利用随机数据和特定的训练程序来生成规则。
之后,可以使用轮询来结合模型的预测。
37. Ridge 回归与 Lasso 回归的区别是什么?
两种广泛使用的正则化方法是 Lasso(也称为 L1)和 Ridge(有时称为 L2)回归。 它们用于防止数据的过度拟合。
为了发现最佳解决方案并最小化复杂性,这些技术被用来惩罚系数。 通过惩罚系数的绝对值的总和,Lasso 回归运行。
岭回归或 L2 回归中的惩罚函数来自系数的平方和。
38.哪个更重要:模型性能还是模型精度? 哪一个,为什么你会喜欢它?
这是一个欺骗性的问题,因此首先应该了解什么是模型性能。 如果性能被定义为速度,那么它依赖于应用程序的类型; 任何涉及实时情况的应用程序都需要高速作为关键组件。
例如,如果查询结果需要很长时间才能到达,那么最好的搜索结果将变得不那么有价值。
如果将性能用作为什么精度和召回率应优先于准确性的理由,那么在展示任何不平衡数据集的业务案例时,F1 分数将比准确性更有用。
39. 你将如何管理不等式的数据集?
不平衡的数据集可以从采样技术中受益。 采样可以采用欠采样或过采样方式进行。
欠采样允许我们缩小多数类的大小以匹配少数类,这有助于提高存储和运行时执行的速度,但也可能导致有价值数据的丢失。
为了解决过采样导致的信息丢失问题,我们对 Minority 类进行了上采样; 然而,这导致我们遇到过拟合问题。
其他策略包括:
- 基于聚类的过采样——在这种情况下,少数类和多数类实例分别受到 K-means 聚类技术的影响。 这样做是为了找到数据集集群。 然后,对每个集群进行过采样,以使所有类具有相同的大小,并且一个类中的所有集群具有相同数量的实例。
- SMOTE: Synthetic Minority Over-sampling Technique - 使用来自少数类的数据切片作为示例,然后生成与其相当的额外人工实例并将其添加到原始数据集中。 此方法适用于数字数据点。
40. 如何区分 boosting 和 bagging?
Ensemble Techniques 有称为 bagging 和 boosting 的版本。
装袋-
对于变化较大的算法,bagging 是一种用于降低方差的技术。 一个容易产生偏差的分类器家族是决策树家族。
训练决策树的数据类型对其性能有重大影响。 正因为如此,即使进行了非常高的微调,结果的概括有时也很难在其中获得。
如果改变决策树的训练数据,结果会发生很大的变化。
因此,使用了 bagging,其中创建了许多决策树,每个决策树都使用原始数据的样本进行训练,最终结果是所有这些不同模型的平均值。
提升:
Boosting 是一种使用 n 弱分类器系统进行预测的技术,其中每个弱分类器都可以弥补其强分类器的不足。 我们将在给定数据集上表现不佳的分类器称为“弱分类器”。
Boosting 显然是一个过程而不是算法。 逻辑回归和浅层决策树是弱分类器的常见示例。
Adaboost、Gradient Boosting 和 XGBoost 是两种最流行的提升算法,但还有更多。
41. 解释归纳学习和演绎学习的区别。
当从一组观察到的例子中通过例子学习时,模型使用归纳学习来得出一个概括的结论。 另一方面,通过演绎学习,模型在形成自己的结果之前使用结果。
归纳学习是从观察中得出结论的过程。
演绎学习是基于推理创建观察的过程。
结论
恭喜! 这些是您现在知道答案的前 40 个及以上机器学习面试问题。 数据科学和 人工智能 随着技术的进步,对职业的需求将继续存在。
更新他们对这些尖端技术的知识并提高他们的技能组合的候选人可以找到具有竞争力的薪酬的各种就业机会。
既然您已经对如何回答一些被广泛提出的机器学习面试问题有了深入的了解,那么您就可以继续回答面试了。
根据您的目标,采取以下步骤。 通过访问 Hashdork's 为面试做准备 采访系列.
发表评论