상위 40개 이상의 기계 학습 인터뷰 질문(2024)

차례[숨다][보여 주다]

1. 머신 러닝, 인공 지능, 딥 러닝의 차이점을 설명합니다.
2. 머신러닝의 종류에 대해 설명해주세요.
3. 편향 대 분산 트레이드오프는 무엇입니까?
4. 기계 학습 알고리즘은 시간이 지남에 따라 크게 발전했습니다. 주어진 데이터 세트를 활용할 올바른 알고리즘을 어떻게 선택합니까?
5. 공분산과 상관은 어떻게 다릅니까?
6. 머신 러닝에서 클러스터링은 무엇을 의미합니까?
7. 선호하는 기계 학습 알고리즘은 무엇입니까?
8. 머신 러닝의 선형 회귀: 이란?
9. KNN과 k-means 클러스터링의 차이점을 설명합니다.
10. 당신에게 "선택 편향"은 무엇을 의미합니까?
11. Bayes의 정리가 정확히 무엇입니까?
12. 머신러닝 모델에서 '트레이닝 세트'와 '테스트 세트'는 무엇인가요?
13. 머신 러닝의 가설이란 무엇입니까?
14. 머신 러닝 과적합은 무엇을 의미하며 어떻게 방지할 수 있습니까?
15. 나이브 베이즈 분류기는 정확히 무엇입니까?
16. 비용 함수와 손실 함수는 무엇을 의미합니까?
17. 생성 모델과 판별 모델을 구별하는 것은 무엇입니까?
18. 제XNUMX종 오류와 제XNUMX종 오류의 차이를 설명하십시오.
19. 머신러닝에서 앙상블 러닝 기법이란?
20. 파라메트릭 모델이란 정확히 무엇입니까? 예를 들어 주십시오.
21. 협업 필터링을 설명합니다. 콘텐츠 기반 필터링도 마찬가지입니까?
22. 시계열이란 정확히 무엇을 의미합니까?
23. 그래디언트 부스팅 알고리즘과 랜덤 포레스트 알고리즘의 차이점을 설명합니다.
24. 왜 혼동 행렬이 필요합니까? 그것은 무엇입니까?
25. 주성분 분석이란 정확히 무엇입니까?
26. PCA(주요 구성 요소 분석)에서 구성 요소 회전이 중요한 이유는 무엇입니까?
27. 정규화와 정규화는 어떻게 다른가요?
28. 정규화와 표준화는 어떻게 다릅니까?
29. "분산 인플레이션 계수"는 정확히 무엇을 의미합니까?
30. 훈련 세트의 크기를 기준으로 분류기를 어떻게 선택합니까?
31. 머신 러닝에서 "게으른 학습자"라고 하는 알고리즘은 무엇이며 그 이유는 무엇입니까?
32. ROC 곡선과 AUC는 무엇입니까?
33. 하이퍼파라미터란 무엇입니까? 모델 매개변수에서 고유한 이유는 무엇입니까?
34. F1 점수, 재현율 및 정밀도는 무엇을 의미합니까?
35. 교차 검증이란 정확히 무엇입니까?
36. 모델에 상당한 분산이 있다는 것을 발견했다고 가정해 보겠습니다. 이 상황을 처리하는 데 가장 적합한 알고리즘은 무엇이라고 생각하십니까?
37. 릿지 회귀와 올가미 회귀의 차이점은 무엇입니까?
38. 모델 성능과 모델 정확도 중 어느 것이 더 중요합니까? 어느 것을 선호하고 왜 선호합니까?
39. 불평등이 있는 데이터세트를 어떻게 관리하시겠습니까?
40. 부스팅과 배깅을 어떻게 구별합니까?
41. 귀납적 학습과 연역적 학습의 차이점을 설명하십시오.
결론

기업은 인공지능(AI), 머신러닝과 같은 첨단 기술을 활용하여 개인의 정보 및 서비스 접근성을 높이고 있습니다.

이러한 기술은 은행, 금융, 소매, 제조 및 의료를 포함한 다양한 산업에서 채택되고 있습니다.

AI를 활용하는 조직에서 가장 많이 찾는 역할 중 하나는 데이터 과학자, 인공 지능 엔지니어, 기계 학습 엔지니어 및 데이터 분석가입니다.

이 게시물은 다양한 기계 학습 이상적인 직업을 찾을 때 받을 수 있는 모든 질문에 대비할 수 있도록 기본적인 것부터 복잡한 것까지 인터뷰 질문을 제공합니다.

1. 머신 러닝, 인공 지능, 딥 러닝의 차이점을 설명합니다.

인공 지능은 다양한 기계 학습 및 딥 러닝 접근 방식을 사용하여 컴퓨터 시스템이 논리와 규칙을 통해 인간과 같은 지능을 활용하여 작업을 수행할 수 있도록 합니다.

기계 학습은 다양한 통계 및 딥 러닝 접근 방식을 사용하여 기계가 이전 성능에서 학습하고 사람의 감독 없이 스스로 특정 작업을 수행하는 데 더 능숙해질 수 있도록 합니다.

딥 러닝은 소프트웨어가 스스로 학습하고 음성 및 사진 인식과 같은 다양한 상용 기능을 수행할 수 있도록 하는 알고리즘 모음입니다.

다중 레이어를 노출하는 시스템 신경망 학습을 위한 방대한 양의 데이터는 딥 러닝을 할 수 있습니다.

2. 머신러닝의 종류에 대해 설명해주세요.

기계 학습은 크게 세 가지 유형으로 존재합니다.

지도 학습: 모델은 지도 학습에서 레이블이 지정된 데이터 또는 기록 데이터를 사용하여 예측 또는 판단을 생성합니다. 의미를 높이기 위해 태그가 지정되거나 레이블이 지정된 데이터 세트를 레이블이 지정된 데이터라고 합니다.
비지도 학습: 비지도 학습에 대한 레이블이 지정된 데이터가 없습니다. 들어오는 데이터에서 모델은 패턴, 이상한 점 및 상관 관계를 찾을 수 있습니다.
강화 학습: 모델은 강화를 사용하여 학습 이전 행동에 대해 얻은 학습 및 보상.

3. 편향 대 분산 트레이드오프는 무엇입니까?

과적합은 모델이 데이터를 피팅하는 정도인 편향의 결과입니다. 편향은 잘못된 가정이나 너무 단순한 가정으로 인해 발생합니다. 기계 학습 알고리즘.

분산은 ML 알고리즘의 복잡성으로 인해 발생하는 실수를 말하며, 이로 인해 학습 데이터 및 과적합의 큰 편차에 민감하게 반응합니다.

분산은 입력에 따라 모델이 얼마나 변하는지입니다.

즉, 기본 모델은 극도로 편향되어 있지만 안정적입니다(낮은 분산). 과적합은 복잡한 모델의 문제이지만 그럼에도 불구하고 모델의 현실을 포착합니다(낮은 편향).

높은 편차와 높은 편향을 모두 방지하기 위해 최상의 오류 감소를 위해 편향과 분산 사이의 절충이 필요합니다.

4. 기계 학습 알고리즘은 시간이 지남에 따라 크게 발전했습니다. 주어진 데이터 세트를 활용할 올바른 알고리즘을 어떻게 선택합니까?

활용해야 하는 머신 러닝 기술은 특정 데이터 세트의 데이터 종류에 따라 다릅니다.

데이터가 선형이면 선형 회귀가 사용됩니다. 데이터가 비선형성을 나타내는 경우 배깅 방법이 더 잘 수행됩니다. 데이터를 상업적 목적으로 평가하거나 해석해야 하는 경우 의사결정 트리 또는 SVM을 활용할 수 있습니다.

데이터 세트에 사진, 비디오 및 오디오가 포함된 경우 신경망은 정확한 답을 얻는 데 유용할 수 있습니다.

특정 상황에 대한 알고리즘 선택이나 데이터 수집은 단일 측정값으로만 이루어질 수 없습니다.

최적의 방법을 개발하기 위해서는 먼저 탐색적 데이터 분석(EDA)을 사용하여 데이터를 검토하고 데이터 세트를 활용하는 목적을 이해해야 합니다.

5. 공분산과 상관은 어떻게 다릅니까?

공분산은 두 변수가 서로 연결된 방식과 다른 변수의 변경에 따라 하나가 변경될 수 있는 방법을 평가합니다.

결과가 양수이면 변수 사이에 직접적인 연결이 있으며 다른 모든 조건이 일정하다고 가정할 때 기본 변수의 증가 또는 감소에 따라 증가하거나 감소할 것임을 나타냅니다.

상관 관계는 두 확률 변수 간의 연결을 측정하며 1, 0 및 -1의 세 가지 고유한 값만 가집니다.

6. 머신 러닝에서 클러스터링은 무엇을 의미합니까?

데이터 포인트를 함께 그룹화하는 비지도 학습 방법을 클러스터링이라고 합니다. 데이터 포인트의 수집으로 클러스터링 기술을 적용할 수 있습니다.

이 전략을 사용하여 기능에 따라 모든 데이터 요소를 그룹화할 수 있습니다.

동일한 범주에 속하는 데이터 요소의 기능과 품질은 비슷하지만 별도의 그룹에 속하는 데이터 요소의 특성과 품질은 다릅니다.

이 접근 방식은 통계 데이터를 분석하는 데 사용할 수 있습니다.

7. 선호하는 기계 학습 알고리즘은 무엇입니까?

이 질문에 대한 선호도와 고유한 재능은 물론 다양한 기계 학습 기술에 대한 포괄적인 지식을 보여줄 기회가 있습니다.

다음은 생각할 수 있는 몇 가지 일반적인 기계 학습 알고리즘입니다.

선형 회귀
로지스틱 회귀
나이브 베이 즈
의사 결정 트리
K는
랜덤 포레스트 알고리즘
K-최근접이웃(KNN)

8. 머신 러닝의 선형 회귀: 이란?

지도 머신 러닝 알고리즘은 선형 회귀입니다.

종속 변수와 독립 변수 간의 선형 연결을 결정하기 위해 예측 분석에 사용됩니다.

선형 회귀 방정식은 다음과 같습니다.

Y = A + BX

여기서

입력 또는 독립 변수를 X라고 합니다.
종속 변수 또는 출력 변수는 Y입니다.
X의 계수는 b이고 절편은 a입니다.

9. KNN과 k-means 클러스터링의 차이점을 설명합니다.

주요 차이점은 KNN(분류 방법, 지도 학습)에는 레이블이 지정된 포인트가 필요한 반면 k-평균에는 그렇지 않다는 것입니다(클러스터링 알고리즘, 비지도 학습).

K-최근접 이웃을 사용하여 레이블이 지정된 데이터를 레이블이 없는 점으로 분류할 수 있습니다. K-평균 군집화는 점 사이의 평균 거리를 사용하여 레이블이 지정되지 않은 점을 그룹화하는 방법을 학습합니다.

10. 당신에게 "선택 편향"은 무엇을 의미합니까?

실험 샘플링 단계의 편향은 통계적 부정확성 때문입니다.

한 샘플 그룹은 부정확성의 결과로 실험에서 다른 그룹보다 더 자주 선택됩니다.

선택 편향이 인정되지 않으면 잘못된 결론이 나올 수 있습니다.

11. Bayes의 정리가 정확히 무엇입니까?

다른 확률을 알고 있을 때 베이즈 정리를 사용하여 확률을 결정할 수 있습니다. 즉, 사전 정보를 기반으로 발생의 사후 확률을 제공합니다.

조건부 확률을 추정하는 건전한 방법은 이 정리에 의해 제공됩니다.

분류 예측 모델링 문제를 개발하고 모델을 훈련에 맞출 때 머신 러닝의 데이터 세트, Bayes' 정리가 적용됩니다(즉, Naive Bayes, Bayes Optimal Classifier).

12. 머신러닝 모델에서 '트레이닝 세트'와 '테스트 세트'는 무엇인가요?

훈련 세트:

훈련 세트는 분석 및 학습을 위해 모델로 전송되는 인스턴스로 구성됩니다.
이것은 모델을 훈련하는 데 사용할 레이블이 지정된 데이터입니다.
일반적으로 전체 데이터의 70%가 훈련 데이터 세트로 사용됩니다.

테스트 세트:

테스트 세트는 모델의 가설 생성 정확도를 평가하는 데 사용됩니다.
레이블이 지정된 데이터 없이 테스트한 다음 레이블을 사용하여 결과를 확인합니다.
나머지 30%는 테스트 데이터 세트로 사용됩니다.

13. 머신 러닝의 가설이란 무엇입니까?

기계 학습을 통해 기존 데이터 세트를 사용하여 입력과 출력을 연결하는 주어진 기능을 더 잘 이해할 수 있습니다. 이것을 함수 근사라고 합니다.

이 경우, 주어진 상황에 기반한 모든 가능한 관찰을 가능한 최선의 방법으로 전달하기 위해 알려지지 않은 목표 함수에 대해 근사를 사용해야 합니다.

기계 학습에서 가설은 목표 기능을 추정하고 적절한 입력-출력 매핑을 완료하는 데 도움이 되는 모델입니다.

알고리즘의 선택과 설계를 통해 모델로 표현할 수 있는 가능한 가설의 공간을 정의할 수 있습니다.

단일 가설의 경우 소문자 h(h)를 사용하지만 검색 중인 전체 가설 공간에 대해 대문자 h(H)를 사용합니다. 다음 표기법을 간략하게 검토합니다.

가설(h)은 입력에서 출력으로의 매핑을 용이하게 하는 특정 모델이며, 이는 이후에 평가 및 예측에 사용될 수 있습니다.
가설 세트(H)는 입력을 출력으로 매핑하는 데 사용할 수 있는 검색 가능한 가설 공간입니다. 문제 프레임, 모델 및 모델 구성은 일반적인 제한 사항의 몇 가지 예입니다.

14. 머신 러닝 과적합은 무엇을 의미하며 어떻게 방지할 수 있습니까?

머신이 불충분한 데이터 세트에서 학습을 시도하면 과적합이 발생합니다.

결과적으로 과적합은 데이터 볼륨과 반비례합니다. 교차 검증 접근 방식을 사용하면 작은 데이터 세트에 대해 과적합을 피할 수 있습니다. 이 방법에서는 데이터 세트를 두 부분으로 분할합니다.

테스트 및 교육용 데이터세트는 이 두 부분으로 구성됩니다. 훈련 데이터 세트는 모델을 생성하는 데 사용되는 반면 테스트 데이터 세트는 다른 입력을 사용하여 모델을 평가하는 데 사용됩니다.

과적합을 방지하는 방법입니다.

15. 나이브 베이즈 분류기는 정확히 무엇입니까?

다양한 분류 방법이 나이브 베이즈 분류기를 구성합니다. 이러한 분류기로 알려진 일련의 알고리즘은 모두 동일한 기본 아이디어에서 작동합니다.

순진한 Bayes 분류기의 가정은 한 기능의 존재 여부가 다른 기능의 존재 여부와 관련이 없다는 것입니다.

즉, 이것은 각 데이터 세트 속성이 동등하게 중요하고 독립적이라는 가정을 하기 때문에 "순진한"이라고 부르는 것입니다.

분류는 나이브 베이즈 분류기를 사용하여 수행됩니다. 독립 전제가 참일 때 사용이 간편하고 복잡한 예측 변수보다 더 나은 결과를 생성합니다.

텍스트 분석, 스팸 필터링 및 추천 시스템에서 사용됩니다.

16. 비용 함수와 손실 함수는 무엇을 의미합니까?

손실 함수(loss function)라는 문구는 단 하나의 데이터만 고려했을 때 손실을 계산하는 과정을 의미합니다.

반대로, 우리는 비용 함수를 사용하여 수많은 데이터에 대한 총 실수량을 결정합니다. 큰 차이는 없습니다.

즉, 비용 함수가 전체 훈련 데이터 세트의 차이를 집계하는 반면 손실 함수는 단일 레코드에 대한 실제 값과 예측 값 간의 차이를 캡처하도록 설계되었습니다.

17. 생성 모델과 판별 모델을 구별하는 것은 무엇입니까?

판별 모델은 여러 데이터 범주 간의 차이점을 학습합니다. 생성 모델은 다양한 데이터 유형을 선택합니다.

분류 문제에서 판별 모델은 종종 다른 모델을 능가합니다.

18. 제XNUMX종 오류와 제XNUMX종 오류의 차이를 설명하십시오.

거짓 긍정은 유형 I 오류 범주에 속하는 반면 거짓 부정은 유형 II 오류(실제로 발생했지만 아무 일도 일어나지 않았다고 주장)에 속합니다.

19. 머신러닝에서 앙상블 러닝 기법이란?

앙상블 학습이라는 기술은 더 강력한 모델을 생성하기 위해 많은 기계 학습 모델을 혼합합니다.

모델은 다양한 이유로 변경될 수 있습니다. 몇 가지 원인은 다음과 같습니다.

다양한 인구
다양한 가설
다양한 모델링 방법

모델의 훈련 및 테스트 데이터를 사용하는 동안 문제가 발생합니다. 편향, 분산 및 축소할 수 없는 오류는 이러한 실수의 가능한 유형입니다.

이제 우리는 모델에서 편향과 분산 간의 균형을 편향-분산 트레이드오프라고 부르며 항상 존재해야 합니다. 이 절충은 앙상블 학습을 통해 수행됩니다.

다양한 앙상블 접근 방식을 사용할 수 있지만 많은 모델을 결합하기 위한 두 가지 일반적인 전략이 있습니다.

배깅이라는 기본 접근 방식은 훈련 세트를 사용하여 추가 훈련 세트를 생성합니다.
더 정교한 기술인 부스팅: 배깅과 마찬가지로 부스팅은 훈련 세트에 대한 이상적인 가중치 공식을 찾는 데 사용됩니다.

20. 파라메트릭 모델이란 정확히 무엇입니까? 예를 들어 주십시오.

파라메트릭 모델에는 제한된 양의 매개변수가 있습니다. 데이터를 예측하려면 모델의 매개변수만 알면 됩니다.

다음은 전형적인 예입니다: 로지스틱 회귀, 선형 회귀 및 선형 SVM. 비모수 모델은 무제한의 매개변수를 포함할 수 있으므로 유연합니다.

모델의 매개변수와 관찰된 데이터의 상태는 데이터 예측에 필요합니다. 다음은 몇 가지 일반적인 예입니다. 토픽 모델, 의사 결정 트리 및 k-최근접 이웃.

21. 협업 필터링을 설명합니다. 콘텐츠 기반 필터링도 마찬가지입니까?

맞춤형 콘텐츠 제안을 생성하기 위한 검증된 방법은 협업 필터링입니다.

협업 필터링이라고 하는 추천 시스템의 한 형태는 사용자 선호도와 공통 관심사의 균형을 맞춰 새로운 자료를 예측합니다.

사용자 선호도는 콘텐츠 기반 추천 시스템이 고려하는 유일한 것입니다. 사용자의 사전 선택에 비추어 관련 자료에서 새로운 권장 사항이 제공됩니다.

22. 시계열이란 정확히 무엇을 의미합니까?

시계열은 오름차순의 숫자 모음입니다. 미리 정해진 시간 동안 선택된 데이터 포인트의 움직임을 모니터링하고 주기적으로 데이터 포인트를 캡처합니다.

시계열에 대한 최소 또는 최대 시간 입력은 없습니다.

시계열은 분석가가 고유한 요구 사항에 따라 데이터를 분석하는 데 자주 사용합니다.

23. 그래디언트 부스팅 알고리즘과 랜덤 포레스트 알고리즘의 차이점을 설명합니다.

랜덤 포레스트:

많은 수의 의사 결정 트리가 마지막에 함께 풀링되며 랜덤 포레스트로 알려져 있습니다.
그래디언트 부스팅은 각 트리를 다른 트리와 독립적으로 생성하지만 랜덤 포레스트는 각 트리를 한 번에 하나씩 생성합니다.
멀티클래스 물체 감지 랜덤 포레스트와 잘 작동합니다.

그라디언트 부스팅:

랜덤 포레스트는 프로세스가 끝날 때 의사 결정 트리를 결합하는 반면, Gradient Boosting Machine은 처음부터 이를 결합합니다.
매개변수가 적절하게 조정되면 그래디언트 부스팅이 결과 측면에서 랜덤 포레스트보다 성능이 우수하지만 데이터 세트에 이상치, 이상 또는 노이즈가 많은 경우 모델이 과적합될 수 있으므로 현명한 선택이 아닙니다.
실시간 위험 평가에서와 같이 불균형 데이터가 있는 경우 그래디언트 부스팅이 잘 수행됩니다.

24. 왜 혼동 행렬이 필요합니까? 그것은 무엇입니까?

오류 행렬이라고도 하는 혼동 행렬로 알려진 표는 분류 모델 또는 분류기가 실제 값이 알려진 일련의 테스트 데이터에서 얼마나 잘 수행되는지 보여주기 위해 널리 사용됩니다.

이를 통해 모델 또는 알고리즘이 어떻게 수행되는지 확인할 수 있습니다. 그것은 우리가 다양한 코스들 사이에서 오해를 쉽게 찾아낼 수 있도록 합니다.

모델이나 알고리즘이 얼마나 잘 수행되었는지 평가하는 방법으로 사용됩니다.

분류 모델의 예측은 혼동 행렬로 컴파일됩니다. 각 클래스 레이블의 개수 값은 정확하고 잘못된 예측의 총 수를 분류하는 데 사용되었습니다.

분류기에서 발생한 오류와 분류기로 인해 발생하는 다양한 오류에 대한 세부 정보를 제공합니다.

25. 주성분 분석이란 정확히 무엇입니까?

서로 상관되는 변수의 수를 최소화함으로써 목표는 데이터 수집의 차원을 최소화하는 것입니다. 그러나 가능한 한 다양성을 유지하는 것이 중요합니다.

변수는 주성분이라고 하는 완전히 새로운 변수 세트로 변경됩니다.

이 PC는 공분산 행렬의 고유 벡터이기 때문에 직교합니다.

26. PCA(주요 구성 요소 분석)에서 구성 요소 회전이 중요한 이유는 무엇입니까?

회전은 PCA에서 중요합니다. 회전은 각 구성 요소에서 얻은 분산 간의 분리를 최적화하여 구성 요소 해석을 더 간단하게 만들기 때문입니다.

구성 요소가 회전하지 않는 경우 구성 요소 변형을 표현하기 위해 확장 구성 요소가 필요합니다.

27. 정규화와 정규화는 어떻게 다른가요?

표준화:

데이터는 정규화 중에 변경됩니다. 데이터에 특히 낮은 값에서 높은 값까지 크게 다른 척도가 있는 경우 데이터를 정규화해야 합니다. 기본 통계가 모두 호환되도록 각 열을 조정합니다.

정밀도 손실이 없도록 하기 위해 유용할 수 있습니다. 노이즈를 무시하면서 신호를 감지하는 것은 모델 훈련의 목적 중 하나입니다.

모델에 오류를 줄이기 위해 완전한 제어 권한이 주어지면 과적합의 가능성이 있습니다.

정규화:

정규화에서 예측 함수가 수정됩니다. 이것은 복잡한 것보다 간단한 피팅 기능을 선호하는 정규화를 통해 일부 제어의 대상이 됩니다.

28. 정규화와 표준화는 어떻게 다릅니까?

기능 확장에 가장 널리 사용되는 두 가지 기술은 정규화와 표준화입니다.

표준화:

데이터를 [0,1] 범위에 맞게 재조정하는 것을 정규화라고 합니다.
모든 매개변수가 동일한 양수 척도를 가져야 하는 경우 정규화가 도움이 되지만 데이터 세트의 이상값은 손실됩니다.

정규화:

데이터는 표준화 프로세스의 일부로 평균이 0이고 표준 편차가 1이 되도록 조정됩니다(단위 분산).

29. "분산 인플레이션 계수"는 정확히 무엇을 의미합니까?

독립 변수가 하나만 있는 모델의 분산에 대한 모델의 분산 비율을 변동 인플레이션 계수(VIF)라고 합니다.

VIF는 여러 회귀 변수 세트에 존재하는 다중 공선성의 양을 추정합니다.

하나의 독립 변수 분산이 있는 모형의 분산(VIF) 모형

30. 훈련 세트의 크기를 기준으로 분류기를 어떻게 선택합니까?

높은 편향, 낮은 분산 모델은 과적합 가능성이 적기 때문에 짧은 훈련 세트에 대해 더 나은 성능을 보입니다. Naive Bayes가 한 예입니다.

큰 훈련 세트에 대해 더 복잡한 상호 작용을 표현하려면 편향이 낮고 분산이 높은 모델이 선호됩니다. 로지스틱 회귀가 좋은 예입니다.

31. 머신 러닝에서 "게으른 학습자"라고 하는 알고리즘은 무엇이며 그 이유는 무엇입니까?

학습이 느린 KNN은 기계 학습 알고리즘입니다. K-NN은 훈련 데이터에서 머신 러닝 값이나 변수를 학습하는 대신 분류할 때마다 거리를 동적으로 계산하기 때문에 훈련 데이터 세트를 기억합니다.

이것은 K-NN을 게으른 학습자로 만듭니다.

32. ROC 곡선과 AUC는 무엇입니까?

모든 임계값에서 분류 모델의 성능은 ROC 곡선으로 그래픽으로 표시됩니다. 참양성률과 거짓양성률 기준이 있습니다.

간단히 말해서 ROC 곡선 아래의 면적은 AUC(ROC 곡선 아래 면적)로 알려져 있습니다. (0,0)에서 AUC까지 ROC 곡선의 1,1차원 영역이 측정됩니다(XNUMX). 이진 분류 모델을 평가하기 위해 성능 통계로 사용됩니다.

33. 하이퍼파라미터란 무엇입니까? 모델 매개변수에서 고유한 이유는 무엇입니까?

모델의 내부 변수를 모델 매개변수라고 합니다. 훈련 데이터를 활용하여 매개변수의 값을 근사화합니다.

모델에 알려지지 않은 하이퍼파라미터는 변수입니다. 데이터에서 값을 결정할 수 없으므로 모델 매개변수를 계산하는 데 자주 사용됩니다.

34. F1 점수, 재현율 및 정밀도는 무엇을 의미합니까?

혼동 측정은 분류 모델의 효율성을 측정하는 데 사용되는 메트릭입니다. 혼동 메트릭을 더 잘 설명하기 위해 다음 문구를 사용할 수 있습니다.

TP: True Positives – 적절하게 예상한 긍정적인 값입니다. 이는 투영된 클래스와 실제 클래스의 값이 모두 양수임을 시사합니다.

TN: True Negatives- 정확히 예측된 불리한 값입니다. 실제 클래스의 값과 예상 클래스의 값이 모두 음수임을 나타냅니다.

이러한 값(거짓 긍정 및 거짓 부정)은 실제 클래스가 예상 클래스와 다를 때 발생합니다.

지금,

실제 클래스에서 수행된 모든 관찰에 대한 참 양성률(TP)의 비율을 민감도라고도 하는 재현율이라고 합니다.

리콜은 TP/(TP+FN)입니다.

정밀도는 모델이 실제로 예측하는 긍정적인 수와 정확하게 예측하는 정확한 긍정적인 수를 비교하는 긍정적인 예측 값의 측정값입니다.

정밀도는 TP/(TP + FP)입니다.

이해하기 가장 쉬운 성능 메트릭은 모든 관찰에 대해 적절하게 예측된 관찰의 비율인 정확도입니다.

정확도는 (TP+TN)/(TP+FP+FN+TN)과 같습니다.

Precision과 Recall은 F1 점수를 제공하기 위해 가중되고 평균됩니다. 결과적으로 이 점수는 거짓 긍정과 거짓 부정을 모두 고려합니다.

F1은 종종 정확도보다 더 가치가 있습니다. 특히 클래스 분포가 불평등한 경우 직관적으로 정확도만큼 이해하기 쉽지 않더라도 더욱 그렇습니다.

가양성과 가음성의 비용이 비슷할 때 최고의 정확도를 얻을 수 있습니다. 가양성 및 가음성과 관련된 비용이 크게 다른 경우 정밀도와 재현율을 모두 포함하는 것이 좋습니다.

35. 교차 검증이란 정확히 무엇입니까?

기계 학습에서 교차 검증이라고 하는 통계적 리샘플링 접근 방식은 여러 라운드에 걸쳐 기계 학습 알고리즘을 훈련하고 평가하기 위해 여러 데이터 세트 하위 집합을 사용합니다.

모델을 훈련하는 데 사용되지 않은 새로운 데이터 배치는 모델이 얼마나 잘 예측하는지 확인하기 위해 교차 검증을 사용하여 테스트됩니다. 데이터 과적합은 교차 검증을 통해 방지됩니다.

K-Fold 가장 자주 사용되는 리샘플링 방법은 전체 데이터 세트를 동일한 크기의 K 세트로 분할합니다. 교차 검증이라고 합니다.

36. 모델에 상당한 분산이 있다는 것을 발견했다고 가정해 보겠습니다. 이 상황을 처리하는 데 가장 적합한 알고리즘은 무엇이라고 생각하십니까?

높은 변동성 관리

변형이 큰 문제에는 배깅 기법을 사용해야 합니다.

무작위 데이터의 반복 샘플링은 데이터를 하위 그룹으로 나누기 위해 배깅 알고리즘에 의해 사용됩니다. 데이터가 분할되면 무작위 데이터와 특정 훈련 절차를 활용하여 규칙을 생성할 수 있습니다.

그 후, 폴링을 사용하여 모델의 예측을 결합할 수 있습니다.

37. 릿지 회귀와 올가미 회귀의 차이점은 무엇입니까?

널리 사용되는 두 가지 정규화 방법은 Lasso(L1이라고도 함) 및 Ridge(L2라고도 함) 회귀입니다. 데이터의 과적합을 방지하기 위해 사용됩니다.

최상의 솔루션을 찾고 복잡성을 최소화하기 위해 이러한 기술을 사용하여 계수를 처벌합니다. 계수의 절대값의 합계에 페널티를 부여하여 올가미 회귀가 작동합니다.

릿지 또는 L2 회귀에서 페널티 함수는 계수의 제곱합에서 파생됩니다.

38. 모델 성능과 모델 정확도 중 어느 것이 더 중요합니까? 어느 것을 선호하고 왜 선호합니까?

이것은 기만적인 질문이므로 먼저 모델 성능이 무엇인지 이해해야 합니다. 성능이 속도로 정의되는 경우 애플리케이션 유형에 따라 다릅니다. 실시간 상황과 관련된 모든 응용 프로그램은 중요한 구성 요소로 고속이 필요합니다.

예를 들어, 쿼리 결과가 도착하는 데 너무 오래 걸리면 최상의 검색 결과가 덜 가치가 있습니다.

정확도와 재현율이 정확도보다 우선시되어야 하는 이유에 대한 정당화로 성능이 사용되는 경우 균형이 맞지 않는 데이터 세트에 대한 비즈니스 사례를 입증할 때 F1 점수가 정확도보다 더 유용할 것입니다.

39. 불평등이 있는 데이터세트를 어떻게 관리하시겠습니까?

불균형 데이터 세트는 샘플링 기술의 이점을 얻을 수 있습니다. 샘플링은 언더샘플링 또는 오버샘플링 방식으로 수행할 수 있습니다.

Under Sampling을 사용하면 소수 클래스와 일치하도록 다수 클래스의 크기를 줄일 수 있습니다. 이는 스토리지 및 런타임 실행과 관련하여 속도를 높이는 데 도움이 되지만 귀중한 데이터가 손실될 수도 있습니다.

오버샘플링으로 인한 정보 손실 문제를 해결하기 위해 Minority 클래스를 업샘플링합니다. 그럼에도 불구하고 이것은 우리로 하여금 과적합 문제를 일으키게 합니다.

추가 전략에는 다음이 포함됩니다.

클러스터 기반 오버 샘플링 - 소수 및 다수 클래스 인스턴스는 이 상황에서 개별적으로 K-평균 클러스터링 기술을 따릅니다. 이것은 데이터 세트 클러스터를 찾기 위해 수행됩니다. 그런 다음 각 클러스터는 모든 클래스의 크기가 동일하고 클래스 내의 모든 클러스터가 동일한 수의 인스턴스를 갖도록 오버샘플링됩니다.
SMOTE: 합성 소수 오버샘플링 기법 - 소수 클래스의 데이터 조각이 예로 사용된 후 이에 필적하는 추가 인공 인스턴스가 생성되어 원본 데이터 세트에 추가됩니다. 이 방법은 숫자 데이터 포인트에서 잘 작동합니다.

40. 부스팅과 배깅을 어떻게 구별합니까?

Ensemble Techniques에는 배깅 및 부스팅으로 알려진 버전이 있습니다.

가방 넣기-

변동이 큰 알고리즘의 경우 배깅은 분산을 낮추는 데 사용되는 기술입니다. 편향되기 쉬운 분류기 계열 중 하나는 의사 결정 트리 계열입니다.

의사 결정 트리가 훈련되는 데이터 유형은 성능에 상당한 영향을 미칩니다. 이 때문에 매우 높은 미세 조정을 사용하더라도 결과를 일반화하는 것이 때때로 훨씬 더 어렵습니다.

의사 결정 트리의 훈련 데이터가 변경되면 결과가 크게 달라집니다.

결과적으로 많은 결정 트리가 생성되고 각각이 원본 데이터의 샘플을 사용하여 훈련되는 배깅이 사용되며 최종 결과는 이러한 모든 다른 모델의 평균입니다.

부스팅:

부스팅은 각각의 약한 분류기가 더 강한 분류기의 결점을 보완하는 n-약 분류기 시스템으로 예측하는 기술입니다. 주어진 데이터 세트에 대해 나쁜 성능을 보이는 분류기를 "약한 분류기"라고 합니다.

부스팅은 분명히 알고리즘이 아니라 프로세스입니다. 로지스틱 회귀 및 얕은 결정 트리는 약한 분류기의 일반적인 예입니다.

Adaboost, Gradient Boosting 및 XGBoost는 가장 널리 사용되는 두 가지 부스팅 알고리즘이지만 더 많은 것이 있습니다.

41. 귀납적 학습과 연역적 학습의 차이점을 설명하십시오.

일련의 관찰된 예에서 예를 통해 학습할 때 모델은 귀납적 학습을 사용하여 일반화된 결론에 도달합니다. 반면에 연역적 학습에서는 모델이 자체를 형성하기 전에 결과를 사용합니다.

귀납적 학습은 관찰에서 결론을 도출하는 과정입니다.

연역적 학습은 추론을 기반으로 관찰을 생성하는 프로세스입니다.

결론

축하해요! 다음은 이제 답을 알고 있는 기계 학습에 대한 상위 40개 이상의 인터뷰 질문입니다. 데이터 과학 및 인공 지능 기술이 발전함에 따라 직업은 계속해서 요구될 것입니다.

이러한 첨단 기술에 대한 지식을 업데이트하고 기술을 향상시키는 응시자는 경쟁력 있는 급여로 다양한 고용 가능성을 찾을 수 있습니다.

널리 묻는 기계 학습 인터뷰 질문에 답하는 방법을 확실히 이해했으므로 이제 인터뷰에 답할 수 있습니다.

목표에 따라 다음 단계를 수행하십시오. Hashdork's를 방문하여 인터뷰를 준비하세요. 인터뷰 시리즈.

상위 40개 이상의 기계 학습 인터뷰 질문