目錄[隱藏][顯示]
- 1. 解釋機器學習、人工智能和深度學習之間的區別。
- 2. 請描述不同類型的機器學習。
- 3.什麼是偏差與方差的權衡?
- 4. 機器學習算法隨著時間的推移發生了顯著變化。 如何選擇正確的算法來利用給定的數據集?
- 5. 協方差和相關性有何不同?
- 6. 在機器學習中,聚類是什麼意思?
- 7.您首選的機器學習算法是什麼?
- 8. 機器學習中的線性回歸:它是什麼?
- 9. 描述 KNN 和 k-means 聚類的區別。
- 10. “選擇偏差”對您意味著什麼?
- 11. 貝葉斯定理到底是什麼?
- 12. 在機器學習模型中,什麼是“訓練集”和“測試集”?
- 13. 什麼是機器學習中的假設?
- 14. 機器學習過擬合是什麼意思,如何預防?
- 15. Naive Bayes 分類器到底是什麼?
- 16. 成本函數和損失函數是什麼意思?
- 17. 生成模型與判別模型有何區別?
- 18. 描述類型 I 和類型 II 錯誤之間的差異。
- 19. 在機器學習中,什麼是集成學習技術?
- 20. 參數模型到底是什麼? 舉個例子。
- 21. 描述協同過濾。 以及基於內容的過濾?
- 22. 你所說的時間序列到底是什麼意思?
- 23. 描述梯度提升和隨機森林算法之間的差異。
- 24. 為什麼需要混淆矩陣? 它是什麼?
- 25. 究竟什麼是主成分分析?
- 26. 為什麼成分輪換對 PCA(主成分分析)如此重要?
- 27. 正則化和歸一化有何不同?
- 28. 標準化和標準化有何不同?
- 29.“方差膨脹因子”究竟是什麼意思?
- 30. 根據訓練集的大小,如何選擇分類器?
- 31. 機器學習中的什麼算法被稱為“惰性學習器”,為什麼?
- 32.什麼是ROC曲線和AUC?
- 33. 什麼是超參數? 是什麼讓它們在模型參數中與眾不同?
- 34. F1 分數、召回率和準確率是什麼意思?
- 35. 什麼是交叉驗證?
- 36. 假設您發現您的模型存在顯著差異。 您認為哪種算法最適合處理這種情況?
- 37. Ridge 回歸與 Lasso 回歸的區別是什麼?
- 38. 哪個更重要:模型性能還是模型精度? 哪一個,為什麼你會喜歡它?
- 39. 你將如何管理不等式的數據集?
- 40. 如何區分 boosting 和 bagging?
- 41. 解釋歸納學習和演繹學習的區別。
- 結論
企業正在利用人工智能 (AI) 和機器學習等尖端技術來提高個人信息和服務的可訪問性。
這些技術正在被各種行業採用,包括銀行、金融、零售、製造和醫療保健。
利用 AI 最受歡迎的組織角色之一是數據科學家、人工智能工程師、機器學習工程師和數據分析師。
這篇文章將引導你完成各種 機器學習 面試問題,從基本到復雜,幫助您為尋找理想工作時可能被問到的任何問題做好準備。
1. 解釋機器學習、人工智能和深度學習之間的區別。
人工智能採用各種機器學習和深度學習方法,使計算機系統能夠利用具有邏輯和規則的類人智能來執行任務。
機器學習使用各種統計數據和深度學習方法,使機器能夠從之前的表現中學習,並更擅長在沒有人工監督的情況下自行完成某些任務。
深度學習是一組算法,允許軟件自我學習並執行各種商業功能,例如語音和圖片識別。
暴露其多層的系統 神經網絡 大量的學習數據能夠進行深度學習。
2. 請描述不同類型的機器學習。
機器學習大致存在三種不同的類型:
- 監督學習:模型在監督機器學習中使用標記或歷史數據創建預測或判斷。 為了增加其意義而被標記或標記的數據集稱為標記數據。
- 無監督學習:我們沒有用於無監督學習的標記數據。 在傳入的數據中,模型可以找到模式、奇點和相關性。
- 強化學習:模型可以 通過強化學習 學習及其先前行為所獲得的獎勵。
3.什麼是偏差與方差的權衡?
過度擬合是偏差的結果,偏差是模型擬合數據的程度。 偏見是由你的不正確或過於簡單的假設引起的 機器學習算法.
方差是指由您的 ML 算法的複雜性引起的錯誤,這會導致對訓練數據和過度擬合的較大程度的方差敏感。
方差是模型根據輸入變化的程度。
換句話說,基本模型具有極大的偏差但穩定(低方差)。 過度擬合是複雜模型的一個問題,儘管它們仍然捕捉了模型的現實(低偏差)。
為了防止高變化和高偏差,偏差和方差之間的權衡對於最好的誤差減少是必要的。
4. 機器學習算法隨著時間的推移發生了顯著變化。 如何選擇正確的算法來利用給定的數據集?
應該使用的機器學習技術僅取決於特定數據集中的數據類型。
當數據是線性時,使用線性回歸。 如果數據表明非線性,bagging 方法會表現得更好。 如果必須出於商業目的評估或解釋數據,我們可以使用決策樹或 SVM。
如果數據集包括照片、視頻和音頻,神經網絡可能有助於獲得準確的答案。
針對特定情況或數據收集的算法選擇不能僅僅基於單一的衡量標準。
為了開發最佳擬合方法,我們必須首先使用探索性數據分析(EDA)檢查數據並理解利用數據集的目標。
5. 協方差和相關性有何不同?
協方差評估兩個變量如何相互連接,以及一個變量如何響應另一個變量的變化而變化。
如果結果為正,則表明變量之間存在直接聯繫,假設所有其他條件保持不變,則變量會隨著基礎變量的增加或減少而上升或下降。
相關性衡量兩個隨機變量之間的聯繫,並且只有三個不同的值:1、0 和 -1。
6. 在機器學習中,聚類是什麼意思?
將數據點組合在一起的無監督學習方法稱為聚類。 通過數據點的集合,可以應用聚類技術。
您可以使用此策略根據其功能對所有數據點進行分組。
屬於同一類別的數據點的特徵和質量是相似的,而屬於不同分組的數據點的特徵和質量是不同的。
這種方法可用於分析統計數據。
7.您首選的機器學習算法是什麼?
你有機會在這個問題上展示你的偏好和獨特的才能,以及你對眾多機器學習技術的全面了解。
以下是一些需要考慮的典型機器學習算法:
- 線性回歸
- 邏輯回歸
- 樸素貝葉斯
- 決策樹
- K 表示
- 隨機森林算法
- K-最近鄰(KNN)
8. 機器學習中的線性回歸:它是什麼?
有監督的機器學習算法是線性回歸。
它用於預測分析以確定因變量和自變量之間的線性關係。
線性回歸的方程如下:
Y = A + BX
其中:
- 輸入或自變量稱為 X。
- 因變量或輸出變量是 Y。
- X的係數為b,截距為a。
9. 描述 KNN 和 k-means 聚類的區別。
主要區別在於 KNN(一種分類方法,監督學習)需要標記點,而 k-means 不需要(聚類算法,無監督學習)。
您可以使用 K-Nearest Neighbors 將標記的數據分類為未標記的點。 K-means 聚類使用點之間的平均距離來學習如何對未標記的點進行分組。
10. “選擇偏差”對您意味著什麼?
實驗抽樣階段的偏差是由於統計不准確造成的。
由於不准確,一個樣本組比實驗中的其他組更頻繁地被選擇。
如果不承認選擇偏差,可能會導致錯誤的結論。
11. 貝葉斯定理到底是什麼?
當我們知道其他概率時,我們可以使用貝葉斯定理來確定概率。 換句話說,它基於先驗信息提供了發生的後驗概率。
該定理提供了一種估計條件概率的可靠方法。
在開發分類預測建模問題並將模型擬合到訓練時 機器學習中的數據集,應用貝葉斯定理(即樸素貝葉斯,貝葉斯最優分類器)。
12. 在機器學習模型中,什麼是“訓練集”和“測試集”?
訓練集:
- 訓練集由發送到模型進行分析和學習的實例組成。
- 這是將用於訓練模型的標記數據。
- 通常,總數據的 70% 用作訓練數據集。
測試集:
- 測試集用於評估模型的假設生成準確性。
- 我們在沒有標記數據的情況下進行測試,然後使用標籤來確認結果。
- 剩下的 30% 用作測試數據集。
13. 什麼是機器學習中的假設?
機器學習可以使用現有數據集來更好地理解將輸入與輸出聯繫起來的給定函數。 這稱為函數逼近。
在這種情況下,必須對未知目標函數使用近似值,以便根據給定情況以可能的最佳方式傳遞所有可能的觀察結果。
在機器學習中,假設是幫助估計目標函數和完成適當的輸入到輸出映射的模型。
算法的選擇和設計允許定義可以由模型表示的可能假設的空間。
對於單個假設,使用小寫 h (h),但大寫 h (H) 用於正在搜索的整個假設空間。 我們將簡要回顧這些符號:
- 假設 (h) 是促進輸入到輸出的映射的特定模型,該模型隨後可用於評估和預測。
- 假設集 (H) 是可用於將輸入映射到輸出的假設的可搜索空間。 問題框架、模型和模型配置是一般限制的幾個示例。
14. 機器學習過擬合是什麼意思,如何預防?
當機器試圖從不充分的數據集中學習時,就會發生過擬合。
因此,過擬合與數據量成反比。 交叉驗證方法可以避免小數據集的過度擬合。 在此方法中,數據集分為兩部分。
用於測試和訓練的數據集將由這兩部分組成。 訓練數據集用於創建模型,而測試數據集用於使用不同的輸入評估模型。
這是防止過擬合的方法。
15. Naive Bayes 分類器到底是什麼?
各種分類方法構成了樸素貝葉斯分類器。 一組稱為這些分類器的算法都基於相同的基本思想。
樸素貝葉斯分類器的假設是,一個特徵的存在與否與另一個特徵的存在與否無關。
換句話說,這就是我們所說的“幼稚”,因為它假設每個數據集屬性都同樣重要和獨立。
分類是使用樸素貝葉斯分類器完成的。 當獨立性前提為真時,它們易於使用並且比更複雜的預測器產生更好的結果。
在文本分析、垃圾郵件過濾和推薦系統中,它們被使用。
16. 成本函數和損失函數是什麼意思?
短語“損失函數”是指僅考慮一條數據時計算損失的過程。
相反,我們利用成本函數來確定大量數據的錯誤總數。 不存在顯著區別。
換句話說,雖然成本函數聚合了整個訓練數據集的差異,但損失函數旨在捕獲單個記錄的實際值和預測值之間的差異。
17. 生成模型與判別模型有何區別?
判別模型學習幾個數據類別之間的差異。 生成模型會處理不同的數據類型。
在分類問題上,判別模型通常優於其他模型。
18. 描述類型 I 和類型 II 錯誤之間的差異。
誤報屬於 I 類錯誤,而誤報屬於 II 類錯誤(聲稱實際上沒有發生任何事情)。
19. 在機器學習中,什麼是集成學習技術?
一種稱為集成學習的技術混合了許多機器學習模型以產生更有效的模型。
模型可以因各種原因而變化。 幾個原因是:
- 不同的人群
- 各種假設
- 多種建模方法
我們在使用模型的訓練和測試數據時會遇到一個問題。 偏差、方差和不可約誤差是這種錯誤的可能類型。
現在,我們將模型中偏差和方差之間的這種平衡稱為偏差-方差權衡,它應該始終存在。 這種權衡是通過使用集成學習來實現的。
儘管有各種可用的集成方法,但有兩種常見的組合許多模型的策略:
- 一種稱為 bagging 的本地方法使用訓練集來生成額外的訓練集。
- Boosting,一種更複雜的技術:與 bagging 非常相似,boosting 用於為訓練集找到理想的加權公式。
20. 參數模型到底是什麼? 舉個例子。
參數模型中的參數數量有限。 要預測數據,您只需要知道模型的參數即可。
以下是典型示例:邏輯回歸、線性回歸和線性 SVM。 非參數模型很靈活,因為它們可以包含無限數量的參數。
數據預測需要模型的參數和觀測數據的狀態。 以下是一些典型的例子: 主題模型、決策樹和 k 最近鄰。
21. 描述協同過濾。 以及基於內容的過濾?
創建定制內容建議的一種行之有效的方法是協同過濾。
一種稱為協同過濾的推薦系統通過平衡用戶偏好和共同興趣來預測新鮮材料。
用戶偏好是基於內容的推薦系統唯一考慮的事情。 根據用戶先前的選擇,從相關材料中提供新的推薦。
22. 你所說的時間序列到底是什麼意思?
時間序列是按升序排列的數字集合。 在預定的時間段內,它監控所選數據點的移動並定期捕獲數據點。
時間序列沒有最小或最大時間輸入。
分析師經常使用時間序列來根據他們的獨特要求分析數據。
23. 描述梯度提升和隨機森林算法之間的差異。
隨機森林:
- 大量的決策樹最終匯集在一起,稱為隨機森林。
- 梯度提升產生的每棵樹都獨立於其他樹,而隨機森林一次只構建一棵樹。
- 多類 目標檢測 適用於隨機森林。
梯度提升:
- 隨機森林在過程結束時加入決策樹,而梯度提昇機則從一開始就將它們結合起來。
- 如果參數經過適當調整,梯度提昇在結果方面優於隨機森林,但如果數據集有很多異常值、異常或噪聲,則它不是一個明智的選擇,因為它可能導致模型變得過擬合。
- 當存在不平衡的數據時,就像在實時風險評估中一樣,梯度提升表現良好。
24. 為什麼需要混淆矩陣? 它是什麼?
一個稱為混淆矩陣的表,有時也稱為誤差矩陣,被廣泛用於顯示分類模型或分類器在一組已知實際值的測試數據上的執行情況。
它使我們能夠了解模型或算法的執行情況。 它使我們很容易發現各種課程之間的誤解。
它是一種評估模型或算法執行情況的方法。
分類模型的預測被編譯成混淆矩陣。 每個類標籤的計數值用於分解正確和錯誤預測的總數。
它提供了分類器產生的錯誤以及分類器引起的不同類型錯誤的詳細信息。
25. 究竟什麼是主成分分析?
通過最小化彼此相關的變量的數量,目標是最小化數據收集的維度。 但重要的是盡可能保持多樣性。
這些變量被更改為一組全新的變量,稱為主成分。
這些 PC 是正交的,因為它們是協方差矩陣的特徵向量。
26. 為什麼成分輪換對 PCA(主成分分析)如此重要?
旋轉在 PCA 中至關重要,因為它優化了每個分量獲得的方差之間的分離,使分量解釋更簡單。
如果組件不旋轉,我們需要擴展組件來表達組件變化。
27. 正則化和歸一化有何不同?
正常化:
數據在標準化過程中被更改。 如果數據的尺度差異很大,尤其是從低到高,您應該對數據進行規範化。 調整每一列,使基本統計數據都兼容。
為了確保不損失精度,這可能很有用。 在忽略噪聲的情況下檢測信號是模型訓練的目標之一。
如果對模型進行完全控制以減少錯誤,則可能會出現過度擬合。
正則化:
在正則化中,預測函數被修改。 這需要通過正則化進行一些控制,這有利於更簡單的擬合函數而不是複雜的擬合函數。
28. 標準化和標準化有何不同?
兩種最廣泛使用的特徵縮放技術是標準化和標準化。
正常化:
- 重新調整數據以適應 [0,1] 範圍稱為標準化。
- 當所有參數必須具有相同的正尺度時,歸一化是有幫助的,但會丟失數據集的異常值。
正則化:
- 作為標準化過程的一部分(單位方差),數據被重新調整為平均值為 0,標準差為 1
29.“方差膨脹因子”究竟是什麼意思?
模型的方差與只有一個自變量的模型的方差之比稱為變異膨脹因子(VIF)。
VIF 估計一組幾個回歸變量中存在的多重共線性的數量。
具有一個自變量方差的模型方差 (VIF) 模型
30. 根據訓練集的大小,如何選擇分類器?
高偏差、低方差模型對於較短的訓練集表現更好,因為過擬合的可能性較小。 樸素貝葉斯就是一個例子。
為了表示大型訓練集的更複雜的交互,具有低偏差和高方差的模型是可取的。 邏輯回歸就是一個很好的例子。
31. 機器學習中的什麼算法被稱為“惰性學習器”,為什麼?
KNN 是一個緩慢的學習者,是一種機器學習算法。 因為 K-NN 每次希望分類時都會動態計算距離,而不是從訓練數據中學習任何機器學習的值或變量,所以它會記住訓練數據集。
這使得 K-NN 成為一個懶惰的學習者。
32.什麼是ROC曲線和AUC?
ROC 曲線以圖形方式表示分類模型在所有閾值下的性能。 它具有真陽性率和假陽性率標準。
簡單地說,ROC曲線下的面積稱為AUC(Area Under the ROC Curve)。 ROC 曲線從 (0,0) 到 AUC 的二維面積被測量為 (1,1)。 為了評估二元分類模型,它被用作性能統計。
33. 什麼是超參數? 是什麼讓它們在模型參數中與眾不同?
模型的內部變量稱為模型參數。 利用訓練數據,一個參數的值是近似的。
模型不知道,超參數是一個變量。 該值無法從數據中確定,因此它們經常用於計算模型參數。
34. F1 分數、召回率和準確率是什麼意思?
混淆度量是用來衡量分類模型有效性的指標。 以下短語可用於更好地解釋混淆度量:
TP:真陽性——這些是正確預期的陽性值。 它表明投影類和實際類的值都是正的。
TN: True Negatives - 這些是準確預測的不利值。 它表明實際類別的價值和預期類別的價值都是負的。
當您的實際班級與預期班級不同時,就會出現這些值(誤報和誤報)。
現在,
真陽性率 (TP) 與在實際班級中所做的所有觀察的比率稱為召回率,也稱為靈敏度。
召回是 TP/(TP+FN)。
精度是陽性預測值的度量,它將模型真正預測的陽性數與其準確預測的正確陽性數進行比較。
精度為 TP/(TP + FP)
最容易理解的性能指標是準確度,它只是正確預測的觀測值與所有觀測值的比例。
精度等於 (TP+TN)/(TP+FP+FN+TN)。
精確率和召回率被加權和平均以提供 F1 分數。 因此,該分數同時考慮了誤報和誤報。
F1 通常比準確性更有價值,特別是如果您的班級分佈不均,即使直覺上它不像準確性那麼容易理解。
當誤報和誤報的成本相當時,可以獲得最佳準確性。 如果與誤報和誤報相關的成本差異很大,則最好同時包括精確率和召回率。
35. 什麼是交叉驗證?
機器學習中稱為交叉驗證的統計重採樣方法使用多個數據集子集在多輪中訓練和評估機器學習算法。
使用交叉驗證對未用於訓練模型的新一批數據進行測試,以查看模型對其預測的好壞。 通過交叉驗證防止數據過擬合。
K-Fold 最常用的重採樣方法將整個數據集拆分為 K 個大小相等的集合。 它被稱為交叉驗證。
36. 假設您發現您的模型存在顯著差異。 您認為哪種算法最適合處理這種情況?
管理高可變性
對於變化很大的問題,我們應該使用 bagging 技術。
裝袋算法將使用隨機數據的重複採樣將數據劃分為子組。 一旦數據被劃分,我們可以利用隨機數據和特定的訓練程序來生成規則。
之後,可以使用輪詢來結合模型的預測。
37. Ridge 回歸與 Lasso 回歸的區別是什麼?
兩種廣泛使用的正則化方法是 Lasso(也稱為 L1)和 Ridge(有時稱為 L2)回歸。 它們用於防止數據的過度擬合。
為了發現最佳解決方案並最小化複雜性,這些技術被用來懲罰係數。 通過懲罰係數的絕對值的總和,Lasso 回歸運行。
嶺回歸或 L2 回歸中的懲罰函數來自係數的平方和。
38. 哪個更重要:模型性能還是模型精度? 哪一個,為什麼你會喜歡它?
這是一個欺騙性的問題,因此首先應該了解什麼是模型性能。 如果性能被定義為速度,那麼它依賴於應用程序的類型; 任何涉及實時情況的應用程序都需要高速作為關鍵組件。
例如,如果查詢結果需要很長時間才能到達,那麼最好的搜索結果將變得不那麼有價值。
如果將性能用作為什麼精度和召回率應優先於準確性的理由,那麼在展示任何不平衡數據集的業務案例時,F1 分數將比準確性更有用。
39. 你將如何管理不等式的數據集?
不平衡的數據集可以從採樣技術中受益。 採樣可以採用欠採樣或過採樣方式進行。
欠採樣允許我們縮小多數類的大小以匹配少數類,這有助於提高存儲和運行時執行的速度,但也可能導致有價值數據的丟失。
為了解決過採樣導致的信息丟失問題,我們對 Minority 類進行了上採樣; 然而,這導致我們遇到過擬合問題。
其他策略包括:
- 基於集群的過採樣——在這種情況下,少數類和多數類實例分別受到 K-means 聚類技術的影響。 這樣做是為了找到數據集集群。 然後,對每個集群進行過採樣,以使所有類具有相同的大小,並且一個類中的所有集群都具有相同數量的實例。
- SMOTE:Synthetic Minority Over-sampling Technique - 使用來自少數類的數據切片作為示例,然後生成與其相當的額外人工實例並將其添加到原始數據集中。 此方法適用於數字數據點。
40. 如何區分 boosting 和 bagging?
Ensemble Techniques 有稱為 bagging 和 boosting 的版本。
裝袋-
對於變化較大的算法,bagging 是一種用於降低方差的技術。 一個容易產生偏差的分類器家族是決策樹家族。
訓練決策樹的數據類型對其性能有重大影響。 正因為如此,即使進行了非常高的微調,結果的概括有時也很難在其中獲得。
如果改變決策樹的訓練數據,結果會發生很大的變化。
因此,使用了 bagging,其中創建了許多決策樹,每個決策樹都使用原始數據的樣本進行訓練,最終結果是所有這些不同模型的平均值。
提升:
Boosting 是一種使用 n 弱分類器系統進行預測的技術,其中每個弱分類器都可以彌補其強分類器的不足。 我們將在給定數據集上表現不佳的分類器稱為“弱分類器”。
Boosting 顯然是一個過程而不是算法。 邏輯回歸和淺層決策樹是弱分類器的常見示例。
Adaboost、Gradient Boosting 和 XGBoost 是兩種最流行的提升算法,但還有更多。
41. 解釋歸納學習和演繹學習的區別。
當從一組觀察到的例子中通過例子學習時,模型使用歸納學習來得出一個概括的結論。 另一方面,通過演繹學習,模型在形成自己的結果之前使用結果。
歸納學習是從觀察中得出結論的過程。
演繹學習是基於推理創建觀察的過程。
結論
恭喜! 這些是您現在知道答案的前 40 個及以上機器學習面試問題。 數據科學和 人工智能 隨著技術的進步,對職業的需求將繼續存在。
更新他們對這些尖端技術的知識並提高他們的技能組合的候選人可以找到具有競爭力的薪酬的各種就業機會。
既然您已經對如何回答一些被廣泛提出的機器學習面試問題有了深入的了解,那麼您就可以繼續回答面試了。
根據您的目標,採取以下步驟。 通過訪問 Hashdork's 為面試做準備 採訪系列.
發表評論