Hơn 40 câu hỏi phỏng vấn về học máy hàng đầu (2024)

Mục lục[Ẩn giấu][Chỉ]

1. Giải thích sự khác biệt giữa học máy, trí tuệ nhân tạo và học sâu.
2. Hãy mô tả các loại học máy khác nhau.
3. Sự cân bằng độ lệch so với phương sai là gì?
4. Các thuật toán học máy đã phát triển đáng kể theo thời gian. Làm thế nào để người ta chọn thuật toán phù hợp để sử dụng một tập dữ liệu đã cho?
5. Hiệp phương sai và tương quan khác nhau như thế nào?
6. Trong học máy, phân cụm có nghĩa là gì?
7. Thuật toán học máy ưa thích của bạn là gì?
8. Hồi quy tuyến tính trong học máy: Nó là gì?
9. Mô tả sự khác biệt giữa KNN và k-means clustering.
10. “Thành kiến lựa chọn” có nghĩa là gì đối với bạn?
11. Định lý Bayes chính xác là gì?
12. Trong Mô hình Học máy, 'Tập huấn luyện' và 'Tập hợp kiểm tra' là gì?
13. Giả thuyết trong Học máy là gì?
14. Việc trang bị quá mức cho máy học có nghĩa là gì, và làm thế nào để ngăn chặn nó?
15. Các bộ phân loại Naive Bayes chính xác là gì?
16. Hàm Chi phí và Hàm tổn thất có nghĩa là gì?
17. Điều gì phân biệt một mô hình phát triển với một mô hình phân biệt?
18. Mô tả các biến thể giữa lỗi Loại I và Loại II.
19. Trong học máy, kỹ thuật học Ensemble là gì?
20. Mô hình tham số chính xác là gì? Đưa ra một ví dụ.
21. Mô tả lọc cộng tác. Cũng như lọc dựa trên nội dung?
22. Chính xác thì ý bạn là gì về Chuỗi thời gian?
23. Mô tả các biến thể giữa thuật toán Gradient Bo boost và Random Forest.
24. Tại sao bạn cần một ma trận nhầm lẫn? Nó là gì?
25. Chính xác thì phân tích thành phần nguyên tắc là gì?
26. Tại sao xoay thành phần rất quan trọng đối với PCA (phân tích thành phần chính)?
27. Chính quy hóa và bình thường hóa khác nhau như thế nào?
28. Chuẩn hóa và chuẩn hóa khác nhau như thế nào?
29. Chính xác thì “yếu tố lạm phát theo phương sai” có nghĩa là gì?
30. Dựa trên kích thước của tập huấn luyện, làm thế nào để bạn chọn một bộ phân loại?
31. Thuật toán nào trong học máy được gọi là “người lười học” và tại sao?
32. Đường cong ROC và AUC là gì?
33. Hyperparameters là gì? Điều gì làm cho chúng trở nên độc đáo từ các thông số mô hình?
34. Điểm F1, thu hồi và độ chính xác có nghĩa là gì?
35. Xác nhận chéo chính xác là gì?
36. Giả sử bạn phát hiện ra rằng mô hình của bạn có một phương sai đáng kể. Theo bạn, thuật toán nào là phù hợp nhất để xử lý tình huống này?
37. Điều gì phân biệt hồi quy Ridge với hồi quy Lasso?
38. Cái nào quan trọng hơn: hiệu suất của mô hình hay độ chính xác của mô hình? Cái nào và tại sao bạn sẽ thích nó?
39. Bạn sẽ quản lý một tập dữ liệu có sự bất bình đẳng như thế nào?
40. Làm thế nào bạn có thể phân biệt giữa tăng cường và đóng bao?
41. Giải thích sự khác biệt giữa học tập quy nạp và suy diễn.
Kết luận

Các doanh nghiệp đang sử dụng công nghệ tiên tiến, chẳng hạn như trí tuệ nhân tạo (AI) và học máy, để tăng khả năng tiếp cận thông tin và dịch vụ cho các cá nhân.

Những công nghệ này đang được nhiều ngành công nghiệp áp dụng, bao gồm ngân hàng, tài chính, bán lẻ, sản xuất và chăm sóc sức khỏe.

Một trong những vai trò tổ chức được tìm kiếm nhiều nhất khi sử dụng AI là dành cho các nhà khoa học dữ liệu, kỹ sư trí tuệ nhân tạo, kỹ sư máy học và nhà phân tích dữ liệu.

Bài đăng này sẽ dẫn bạn qua nhiều loại học máy các câu hỏi phỏng vấn, từ cơ bản đến phức tạp, để giúp bạn sẵn sàng cho bất kỳ câu hỏi nào bạn có thể được hỏi khi tìm kiếm công việc lý tưởng của mình.

1. Giải thích sự khác biệt giữa học máy, trí tuệ nhân tạo và học sâu.

Trí tuệ nhân tạo sử dụng nhiều phương pháp học máy và học sâu cho phép các hệ thống máy tính thực hiện các tác vụ sử dụng trí thông minh giống con người với logic và quy tắc.

Học máy sử dụng nhiều số liệu thống kê và các phương pháp tiếp cận Học sâu để cho phép máy học từ hiệu suất trước đó của chúng và trở nên thành thạo hơn trong việc tự thực hiện một số tác vụ mà không cần sự giám sát của con người.

Deep Learning là một tập hợp các thuật toán cho phép phần mềm học hỏi từ chính nó và thực hiện nhiều chức năng thương mại, chẳng hạn như nhận dạng giọng nói và hình ảnh.

Hệ thống hiển thị nhiều lớp của chúng mạng thần kinh với một lượng lớn dữ liệu cho việc học có thể thực hiện việc học sâu.

2. Hãy mô tả các loại học máy khác nhau.

Học máy tồn tại rộng rãi ở ba loại khác nhau:

Học có giám sát: Một mô hình tạo dự đoán hoặc phán đoán bằng cách sử dụng dữ liệu được gắn nhãn hoặc dữ liệu lịch sử trong học máy được giám sát. Các tập dữ liệu đã được gắn thẻ hoặc gắn nhãn để tăng ý nghĩa của chúng được gọi là dữ liệu được gắn nhãn.
Học không giám sát: Chúng tôi không có dữ liệu được gắn nhãn cho việc học không giám sát. Trong dữ liệu đến, một mô hình có thể tìm thấy các mẫu, các điểm kỳ lạ và các mối tương quan.
Học tăng cường: Mô hình có thể học bằng cách sử dụng củng cố học tập và phần thưởng nó nhận được cho hành vi trước đó của nó.

3. Sự cân bằng độ lệch so với phương sai là gì?

Overfitting là kết quả của sự thiên vị, là mức độ mà một mô hình phù hợp với dữ liệu. Sự sai lệch được gây ra bởi các giả định không chính xác hoặc quá đơn giản trong thuật toán học máy.

Phương sai đề cập đến những sai lầm gây ra bởi độ phức tạp trong thuật toán ML của bạn, thuật toán này tạo ra độ nhạy đối với mức độ phương sai lớn trong dữ liệu đào tạo và trang bị quá mức.

Phương sai là mức độ thay đổi của một mô hình phụ thuộc vào các yếu tố đầu vào.

Nói cách khác, các mô hình cơ bản là rất ít nhưng ổn định (phương sai thấp). Trang bị quá mức là một vấn đề với các mô hình phức tạp, mặc dù chúng vẫn nắm bắt được thực tế của mô hình (độ chệch thấp).

Để ngăn chặn cả độ chênh lệch cao và độ chệch cao, sự cân bằng giữa độ chệch và phương sai là cần thiết để giảm sai số tốt nhất.

4. Các thuật toán học máy đã phát triển đáng kể theo thời gian. Làm thế nào để người ta chọn thuật toán phù hợp để sử dụng một tập dữ liệu đã cho?

Kỹ thuật học máy chỉ nên được sử dụng phụ thuộc vào loại dữ liệu trong một tập dữ liệu cụ thể.

Khi dữ liệu là tuyến tính, hồi quy tuyến tính được sử dụng. Phương pháp đóng bao sẽ hoạt động tốt hơn nếu dữ liệu chỉ ra không tuyến tính. Chúng tôi có thể sử dụng cây quyết định hoặc SVM nếu dữ liệu phải được đánh giá hoặc giải thích cho mục đích thương mại.

Mạng nơ-ron có thể hữu ích để có được câu trả lời chính xác nếu tập dữ liệu bao gồm ảnh, video và âm thanh.

Việc lựa chọn thuật toán cho một trường hợp cụ thể hoặc thu thập dữ liệu không thể được thực hiện chỉ dựa trên một biện pháp duy nhất.

Để phát triển phương pháp phù hợp nhất, trước tiên chúng ta phải kiểm tra dữ liệu bằng cách sử dụng phân tích dữ liệu khám phá (EDA) và hiểu rõ mục tiêu của việc sử dụng tập dữ liệu.

5. Hiệp phương sai và tương quan khác nhau như thế nào?

Hiệp phương sai đánh giá cách hai biến được kết nối với nhau và cách một biến có thể thay đổi để đáp ứng với những thay đổi của biến kia.

Nếu kết quả là dương, nó chỉ ra rằng có mối liên hệ trực tiếp giữa các biến và một biến sẽ tăng hoặc giảm với sự tăng hoặc giảm của biến cơ sở, giả sử rằng tất cả các điều kiện khác không đổi.

Tương quan đo lường mối liên hệ giữa hai biến ngẫu nhiên và chỉ có ba giá trị phân biệt: 1, 0 và -1.

6. Trong học máy, phân cụm có nghĩa là gì?

Phương pháp học không giám sát mà nhóm các điểm dữ liệu lại với nhau được gọi là phân cụm. Với tập hợp các điểm dữ liệu, kỹ thuật phân cụm có thể được áp dụng.

Bạn có thể nhóm tất cả các điểm dữ liệu theo chức năng của chúng bằng cách sử dụng chiến lược này.

Các tính năng và chất lượng của các điểm dữ liệu nằm trong cùng một danh mục là tương tự nhau, trong khi các đặc điểm và chất lượng của các điểm dữ liệu nằm trong các nhóm riêng biệt là khác nhau.

Cách tiếp cận này có thể được sử dụng để phân tích dữ liệu thống kê.

7. Thuật toán học máy ưa thích của bạn là gì?

Bạn có cơ hội thể hiện sở thích và tài năng độc đáo của mình trong câu hỏi này, cũng như kiến thức toàn diện của bạn về nhiều kỹ thuật máy học.

Dưới đây là một số thuật toán học máy điển hình để suy nghĩ:

Hồi quy tuyến tính
Hồi quy logistic
Vịnh Naive
Cây quyết định
K có nghĩa là
Thuật toán rừng ngẫu nhiên
K-hàng xóm gần nhất (KNN)

8. Hồi quy tuyến tính trong học máy: Nó là gì?

Thuật toán học máy có giám sát là hồi quy tuyến tính.

Nó được sử dụng trong phân tích dự đoán để xác định mối liên hệ tuyến tính giữa các biến phụ thuộc và độc lập.

Phương trình hồi quy tuyến tính như sau:

Y = A + BX

Trong đó:

Đầu vào hoặc biến độc lập được gọi là X.
Biến phụ thuộc hoặc biến đầu ra là Y.
Hệ số của X là b và hệ số chặn của nó là a.

9. Mô tả sự khác biệt giữa KNN và k-means clustering.

Sự khác biệt chính là KNN (một phương pháp phân loại, học có giám sát) cần các điểm được gắn nhãn trong khi k-mean thì không (thuật toán phân cụm, học không giám sát).

Bạn có thể phân loại dữ liệu được gắn nhãn thành một điểm không được gắn nhãn bằng cách sử dụng K-Nearest Neighbors. K-means clustering sử dụng khoảng cách trung bình giữa các điểm để tìm hiểu cách nhóm các điểm không được gắn nhãn.

10. “Thành kiến lựa chọn” có nghĩa là gì đối với bạn?

Sự sai lệch trong giai đoạn lấy mẫu của thử nghiệm là do sự không chính xác về mặt thống kê.

Một nhóm mẫu được chọn thường xuyên hơn các nhóm khác trong thử nghiệm do không chính xác.

Nếu sai lệch lựa chọn không được thừa nhận, nó có thể dẫn đến một kết luận không chính xác.

11. Định lý Bayes chính xác là gì?

Khi chúng ta biết về các xác suất khác, chúng ta có thể xác định một xác suất bằng cách sử dụng Định lý Bayes. Nói cách khác, nó đưa ra xác suất xảy ra sau dựa trên thông tin trước đó.

Định lý này cung cấp một phương pháp hợp lý để ước tính xác suất có điều kiện.

Khi phát triển các vấn đề mô hình dự đoán phân loại và điều chỉnh mô hình phù hợp với đào tạo tập dữ liệu trong học máy, Định lý Bayes được áp dụng (tức là Naive Bayes, Bộ phân loại tối ưu Bayes).

12. Trong Mô hình Học máy, 'Tập huấn luyện' và 'Tập hợp kiểm tra' là gì?

Tập huấn luyện:

Tập huấn luyện bao gồm các cá thể được gửi đến mô hình để phân tích và học hỏi.
Đây là dữ liệu được gắn nhãn sẽ được sử dụng để huấn luyện mô hình.
Thông thường, 70% tổng số dữ liệu được sử dụng làm tập dữ liệu đào tạo.

Tập kiểm tra:

Bộ kiểm định được sử dụng để đánh giá độ chính xác tạo giả thuyết của mô hình.
Chúng tôi kiểm tra dữ liệu không có nhãn và sau đó sử dụng nhãn để xác nhận kết quả.
30% còn lại được sử dụng làm tập dữ liệu thử nghiệm.

13. Giả thuyết trong Học máy là gì?

Học máy cho phép sử dụng các bộ dữ liệu hiện có để hiểu rõ hơn về một chức năng nhất định liên kết đầu vào với đầu ra. Điều này được gọi là xấp xỉ hàm.

Trong trường hợp này, tính gần đúng phải được sử dụng cho hàm mục tiêu chưa biết để chuyển tất cả các quan sát có thể tưởng tượng được dựa trên tình huống đã cho theo cách tốt nhất có thể.

Trong học máy, giả thuyết là một mô hình hỗ trợ ước tính hàm mục tiêu và hoàn thành các ánh xạ đầu vào - đầu ra thích hợp.

Việc lựa chọn và thiết kế các thuật toán cho phép xác định không gian của các giả thuyết khả dĩ có thể được biểu diễn bằng một mô hình.

Đối với một giả thuyết duy nhất, viết thường h (h) được sử dụng, nhưng h (H) viết hoa được sử dụng cho toàn bộ không gian giả thuyết đang được tìm kiếm. Chúng tôi sẽ xem xét ngắn gọn các ký hiệu này:

Giả thuyết (h) là một mô hình cụ thể tạo điều kiện thuận lợi cho việc ánh xạ đầu vào đến đầu ra, sau đó có thể được sử dụng để đánh giá và dự đoán.
Tập giả thuyết (H) là một không gian có thể tìm kiếm được của các giả thuyết có thể được sử dụng để ánh xạ đầu vào với đầu ra. Định khung vấn đề, mô hình và cấu hình mô hình là một vài ví dụ về các hạn chế chung.

14. Việc trang bị quá mức cho máy học có nghĩa là gì, và làm thế nào để ngăn chặn nó?

Khi một máy cố gắng học hỏi từ một tập dữ liệu không đủ, việc trang bị quá mức sẽ xảy ra.

Do đó, việc trang bị quá nhiều có tương quan nghịch với khối lượng dữ liệu. Phương pháp xác nhận chéo cho phép tránh trang bị quá mức đối với các tập dữ liệu nhỏ. Một tập dữ liệu được chia thành hai phần trong phương pháp này.

Bộ dữ liệu để kiểm tra và đào tạo sẽ bao gồm hai phần này. Tập dữ liệu huấn luyện được sử dụng để tạo một mô hình, trong khi tập dữ liệu thử nghiệm được sử dụng để đánh giá mô hình bằng cách sử dụng các đầu vào khác nhau.

Đây là cách để ngăn chặn việc mặc trang phục quá mức.

15. Các bộ phân loại Naive Bayes chính xác là gì?

Các phương pháp phân loại khác nhau tạo nên bộ phân loại Naive Bayes. Một tập hợp các thuật toán được gọi là các bộ phân loại này đều hoạt động trên cùng một ý tưởng cơ bản.

Giả định được đưa ra bởi các nhà phân loại Bayes ngây thơ là sự hiện diện hay vắng mặt của một đối tượng địa lý không liên quan đến sự hiện diện hay vắng mặt của đối tượng địa lý khác.

Nói cách khác, đây là những gì chúng tôi gọi là "ngây thơ" vì nó đưa ra giả định rằng mỗi thuộc tính tập dữ liệu đều có ý nghĩa và độc lập như nhau.

Việc phân loại được thực hiện bằng cách sử dụng các bộ phân loại Bayes ngây thơ. Chúng dễ sử dụng và tạo ra kết quả tốt hơn các công cụ dự đoán phức tạp hơn khi tiền đề độc lập là đúng.

Trong hệ thống phân tích văn bản, lọc thư rác và khuyến nghị, chúng được sử dụng.

16. Hàm Chi phí và Hàm tổn thất có nghĩa là gì?

Cụm từ "mất chức năng" đề cập đến quá trình mất máy tính khi chỉ tính đến một phần dữ liệu.

Ngược lại, chúng tôi sử dụng hàm chi phí để xác định tổng số lỗi cho nhiều dữ liệu. Không có sự khác biệt đáng kể nào tồn tại.

Nói cách khác, trong khi các hàm chi phí tổng hợp sự khác biệt cho toàn bộ tập dữ liệu đào tạo, các hàm tổn thất được thiết kế để nắm bắt sự khác biệt giữa giá trị thực tế và giá trị dự đoán cho một bản ghi.

17. Điều gì phân biệt một mô hình phát triển với một mô hình phân biệt?

Một mô hình phân biệt tìm hiểu sự khác biệt giữa một số danh mục dữ liệu. Một mô hình tổng hợp chọn các kiểu dữ liệu khác nhau.

Về vấn đề phân loại, các mô hình phân biệt thường vượt trội hơn các mô hình khác.

18. Mô tả các biến thể giữa lỗi Loại I và Loại II.

Các lỗi dương tính giả thuộc loại lỗi Loại I, trong khi các trường hợp âm tính giả thuộc loại lỗi loại II (tuyên bố không có gì xảy ra khi nó thực sự có).

19. Trong học máy, kỹ thuật học Ensemble là gì?

Một kỹ thuật được gọi là học tập kết hợp nhiều mô hình học máy để tạo ra nhiều mô hình mạnh hơn.

Một mô hình có thể được thay đổi vì nhiều lý do. Một số nguyên nhân là:

Các quần thể khác nhau
Các giả thuyết khác nhau
Các phương pháp mô hình hóa khác nhau

Chúng tôi sẽ gặp sự cố khi sử dụng dữ liệu đào tạo và thử nghiệm của mô hình. Sai lệch, sai lệch và sai số không thể sửa chữa được là những loại sai lầm có thể xảy ra.

Bây giờ, chúng tôi gọi sự cân bằng này giữa độ lệch và phương sai trong mô hình là sự cân bằng phương sai lệch và nó phải luôn tồn tại. Sự đánh đổi này được thực hiện thông qua việc sử dụng phương pháp học tập theo nhóm.

Mặc dù có nhiều cách tiếp cận tổng hợp khác nhau, có hai chiến lược phổ biến để kết hợp nhiều mô hình:

Một cách tiếp cận gốc được gọi là đóng gói sử dụng tập hợp đào tạo để tạo ra các tập hợp đào tạo bổ sung.
Tăng cường, một kỹ thuật phức tạp hơn: Giống như đóng bao, tăng cường được sử dụng để tìm ra công thức trọng lượng lý tưởng cho một bộ huấn luyện.

20. Mô hình tham số chính xác là gì? Đưa ra một ví dụ.

Có một số lượng giới hạn các tham số trong các mô hình tham số. Để dự báo dữ liệu, tất cả những gì bạn cần biết là các thông số của mô hình.

Sau đây là các ví dụ điển hình: hồi quy logistic, hồi quy tuyến tính và SVM tuyến tính. Các mô hình phi tham số rất linh hoạt vì chúng có thể chứa số lượng tham số không giới hạn.

Các tham số của mô hình và trạng thái của dữ liệu quan sát được cần cho các dự đoán dữ liệu. Dưới đây là một số ví dụ điển hình: mô hình chủ đề, cây quyết định và k-hàng xóm gần nhất.

21. Mô tả lọc cộng tác. Cũng như lọc dựa trên nội dung?

Một phương pháp đã thử và đúng để tạo các đề xuất nội dung phù hợp là lọc cộng tác.

Một dạng hệ thống đề xuất được gọi là lọc cộng tác báo trước tài liệu mới bằng cách cân bằng sở thích của người dùng với sở thích được chia sẻ.

Sở thích của người dùng là điều duy nhất mà hệ thống giới thiệu dựa trên nội dung xem xét. Dựa trên các lựa chọn trước của người dùng, các đề xuất mới được cung cấp từ tài liệu liên quan.

22. Chính xác thì ý bạn là gì về Chuỗi thời gian?

Chuỗi thời gian là một tập hợp các số theo thứ tự tăng dần. Trong một khoảng thời gian xác định trước, nó giám sát chuyển động của các điểm dữ liệu đã chọn và định kỳ ghi lại các điểm dữ liệu.

Không có đầu vào thời gian tối thiểu hoặc tối đa cho chuỗi thời gian.

Chuỗi thời gian thường được các nhà phân tích sử dụng để phân tích dữ liệu phù hợp với các yêu cầu riêng của họ.

23. Mô tả các biến thể giữa thuật toán Gradient Bo boost và Random Forest.

Rừng ngẫu nhiên:

Một số lượng lớn các cây quyết định được gộp lại với nhau ở cuối và được gọi là rừng ngẫu nhiên.
Trong khi tăng cường độ dốc tạo ra từng cây độc lập với những cây khác, rừng ngẫu nhiên sẽ xây dựng từng cây một.
Đa thủy tinh phát hiện đối tượng hoạt động tốt với các khu rừng ngẫu nhiên.

Tăng cường Gradient:

Trong khi các khu rừng Ngẫu nhiên kết hợp các cây quyết định vào cuối quá trình, Máy tăng cường Gradient kết hợp chúng ngay từ đầu.
Nếu các thông số được điều chỉnh thích hợp, tăng cường độ dốc vượt trội hơn các khu rừng ngẫu nhiên về mặt kết quả, nhưng đó không phải là lựa chọn thông minh nếu tập dữ liệu có nhiều điểm khác thường, bất thường hoặc nhiễu vì nó có thể khiến mô hình trở nên quá phù hợp.
Khi có dữ liệu không cân bằng, như trong đánh giá rủi ro thời gian thực, tăng cường độ dốc hoạt động tốt.

24. Tại sao bạn cần một ma trận nhầm lẫn? Nó là gì?

Một bảng được gọi là ma trận nhầm lẫn, đôi khi được gọi là ma trận lỗi, được sử dụng rộng rãi để chỉ ra mức độ hoạt động của một mô hình phân loại hoặc bộ phân loại trên một tập dữ liệu thử nghiệm mà các giá trị thực được biết đến.

Nó cho phép chúng tôi xem mô hình hoặc thuật toán hoạt động như thế nào. Nó giúp chúng tôi dễ dàng phát hiện ra những hiểu lầm giữa các khóa học khác nhau.

Nó phục vụ như một cách để đánh giá mức độ hoạt động của một mô hình hoặc thuật toán.

Các dự đoán của mô hình phân loại được tổng hợp thành một ma trận nhầm lẫn. Giá trị đếm của mỗi nhãn lớp được sử dụng để chia nhỏ tổng số dự đoán đúng và sai.

Nó cung cấp thông tin chi tiết về các lỗi do bộ phân loại cũng như các loại lỗi khác nhau do bộ phân loại gây ra.

25. Chính xác thì phân tích thành phần nguyên tắc là gì?

Bằng cách giảm thiểu số lượng các biến có tương quan với nhau, mục tiêu là giảm thiểu kích thước của việc thu thập dữ liệu. Nhưng điều quan trọng là phải giữ được sự đa dạng càng nhiều càng tốt.

Các biến được thay đổi thành một tập hợp các biến hoàn toàn mới được gọi là các thành phần chính.

Các PC này là trực giao vì chúng là ký hiệu riêng của ma trận hiệp phương sai.

26. Tại sao xoay thành phần rất quan trọng đối với PCA (phân tích thành phần chính)?

Xoay vòng là rất quan trọng trong PCA vì nó tối ưu hóa sự tách biệt giữa các phương sai thu được của mỗi thành phần, làm cho việc giải thích thành phần đơn giản hơn.

Chúng tôi yêu cầu các thành phần mở rộng để thể hiện sự thay đổi của thành phần nếu các thành phần không được xoay.

27. Chính quy hóa và bình thường hóa khác nhau như thế nào?

Bình thường hóa:

Dữ liệu bị thay đổi trong quá trình chuẩn hóa. Bạn nên chuẩn hóa dữ liệu nếu nó có các thang đo khác nhau đáng kể, đặc biệt là từ thấp đến cao. Điều chỉnh từng cột để tất cả các thống kê cơ bản đều tương thích.

Để đảm bảo rằng không bị mất độ chính xác, điều này có thể hữu ích. Phát hiện tín hiệu trong khi bỏ qua tiếng ồn là một trong những mục tiêu của đào tạo người mẫu.

Có khả năng trang bị quá mức nếu mô hình được kiểm soát hoàn toàn để giảm lỗi.

Chính quy:

Trong chính quy hóa, chức năng dự đoán được sửa đổi. Điều này phụ thuộc vào một số kiểm soát thông qua chính quy hóa, hỗ trợ các chức năng phù hợp đơn giản hơn những chức năng phức tạp.

28. Chuẩn hóa và chuẩn hóa khác nhau như thế nào?

Hai kỹ thuật được sử dụng rộng rãi nhất để mở rộng tính năng là chuẩn hóa và chuẩn hóa.

Bình thường hóa:

Thay đổi tỷ lệ dữ liệu cho phù hợp với phạm vi [0,1] được gọi là chuẩn hóa.
Khi tất cả các tham số phải có cùng thang đo tích cực, thì việc chuẩn hóa sẽ hữu ích, nhưng các giá trị ngoại lệ của tập dữ liệu sẽ bị mất.

Chính quy:

Dữ liệu được thay đổi tỷ lệ để có giá trị trung bình bằng 0 và độ lệch chuẩn là 1 như một phần của quá trình chuẩn hóa (Phương sai đơn vị)

29. Chính xác thì “yếu tố lạm phát theo phương sai” có nghĩa là gì?

Tỷ lệ giữa phương sai của mô hình với phương sai của mô hình chỉ có một biến độc lập được gọi là hệ số lạm phát biến thiên (VIF).

VIF ước tính lượng đa cộng tuyến hiện diện trong một tập hợp một số biến hồi quy.

Phương sai của mô hình (VIF) Mô hình với một phương sai biến độc lập

30. Dựa trên kích thước của tập huấn luyện, làm thế nào để bạn chọn một bộ phân loại?

Mô hình có độ chệch cao, phương sai thấp sẽ hoạt động tốt hơn trong một tập huấn luyện ngắn vì ít có khả năng mặc trang phục quá mức. Naive Bayes là một ví dụ.

Để biểu diễn các tương tác phức tạp hơn cho một tập huấn luyện lớn, nên sử dụng một mô hình có độ chệch thấp và phương sai cao. Hồi quy logistic là một ví dụ điển hình.

31. Thuật toán nào trong học máy được gọi là “người lười học” và tại sao?

Một người học chậm chạp, KNN là một thuật toán học máy. Bởi vì K-NN tính toán động khoảng cách mỗi khi nó muốn phân loại thay vì học bất kỳ giá trị hoặc biến do máy học nào từ dữ liệu huấn luyện, nó sẽ ghi nhớ tập dữ liệu huấn luyện.

Điều này khiến K-NN trở thành kẻ lười học.

32. Đường cong ROC và AUC là gì?

Hiệu suất của mô hình phân loại ở tất cả các ngưỡng được biểu diễn bằng đồ thị bằng đường cong ROC. Nó có các tiêu chí tỷ lệ dương tính thật và tỷ lệ dương tính giả.

Nói một cách đơn giản, vùng dưới đường cong ROC được gọi là AUC (Area Under the ROC Curve). Diện tích hai chiều của đường cong ROC từ (0,0) đến AUC được đo (1,1). Để đánh giá các mô hình phân loại nhị phân, nó được sử dụng như một thống kê hiệu suất.

33. Hyperparameters là gì? Điều gì làm cho chúng trở nên độc đáo từ các thông số mô hình?

Một biến nội bộ của mô hình được gọi là tham số mô hình. Sử dụng dữ liệu huấn luyện, giá trị của tham số là gần đúng.

Không biết đối với mô hình, siêu tham số là một biến. Giá trị không thể được xác định từ dữ liệu, do đó chúng thường được sử dụng để tính toán các thông số mô hình.

34. Điểm F1, thu hồi và độ chính xác có nghĩa là gì?

Sự nhầm lẫn Đo lường là số liệu được sử dụng để đánh giá tính hiệu quả của mô hình phân loại. Các cụm từ sau có thể được sử dụng để giải thích rõ hơn về chỉ số nhầm lẫn:

TP: Tích cực Đúng - Đây là những giá trị tích cực đã được dự đoán đúng cách. Nó gợi ý rằng các giá trị của lớp dự kiến và lớp thực tế đều dương.

TN: Đúng Phủ định- Đây là những giá trị bất lợi đã được dự báo chính xác. Nó gợi ý rằng cả giá trị của lớp thực tế và lớp dự đoán đều âm.

Các giá trị này — dương tính giả và âm tính giả — xảy ra khi lớp thực tế của bạn khác với lớp dự đoán.

Bây giờ,

Tỷ lệ giữa tỷ lệ dương tính thực sự (TP) cho tất cả các quan sát được thực hiện trong lớp thực tế được gọi là thu hồi, còn được gọi là độ nhạy.

Việc thu hồi là TP / (TP + FN).

Độ chính xác là thước đo giá trị dự đoán dương, so sánh số lượng tích cực mà mô hình thực sự dự đoán với bao nhiêu tích cực đúng mà mô hình dự đoán chính xác.

Độ chính xác là TP / (TP + FP)

Số liệu hiệu suất dễ hiểu nhất là độ chính xác, chỉ là tỷ lệ của các quan sát được dự đoán đúng với tất cả các quan sát.

Độ chính xác bằng (TP + TN) / (TP + FP + FN + TN).

Độ chính xác và Số lần thu hồi được tính trọng số và tính trung bình để cung cấp Điểm F1. Do đó, điểm số này xem xét cả dương tính giả và âm tính giả.

F1 thường có giá trị hơn độ chính xác, đặc biệt nếu bạn có phân bố lớp không bằng nhau, ngay cả khi trực giác nó không đơn giản để hiểu được độ chính xác.

Độ chính xác tốt nhất đạt được khi chi phí của dương tính giả và âm tính giả có thể so sánh được. Tốt hơn nên bao gồm cả Độ chính xác và Thu hồi nếu chi phí liên quan đến dương tính giả và âm tính giả khác nhau đáng kể.

35. Xác nhận chéo chính xác là gì?

Phương pháp lấy mẫu lại thống kê được gọi là xác thực chéo trong học máy sử dụng một số tập con của tập dữ liệu để đào tạo và đánh giá một thuật toán học máy qua một số vòng.

Một loạt dữ liệu mới không được sử dụng để đào tạo mô hình được kiểm tra bằng cách sử dụng xác nhận chéo để xem mô hình dự đoán nó tốt như thế nào. Việc trang bị quá nhiều dữ liệu được ngăn chặn thông qua xác thực chéo.

K-Fold Phương pháp lấy lại mẫu thường được sử dụng nhất chia toàn bộ tập dữ liệu thành K bộ có kích thước bằng nhau. Nó được gọi là xác nhận chéo.

36. Giả sử bạn phát hiện ra rằng mô hình của bạn có một phương sai đáng kể. Theo bạn, thuật toán nào là phù hợp nhất để xử lý tình huống này?

Quản lý sự thay đổi cao

Chúng ta nên sử dụng kỹ thuật đóng bao cho các bài toán có độ chênh lệch lớn.

Việc lấy mẫu lặp lại dữ liệu ngẫu nhiên sẽ được sử dụng bởi thuật toán đóng gói để chia dữ liệu thành các nhóm con. Khi dữ liệu đã được phân chia, chúng ta có thể sử dụng dữ liệu ngẫu nhiên và một quy trình đào tạo cụ thể để tạo ra các quy tắc.

Sau đó, thăm dò ý kiến có thể được sử dụng để kết hợp các dự đoán của mô hình.

37. Điều gì phân biệt hồi quy Ridge với hồi quy Lasso?

Hai phương pháp chính quy được sử dụng rộng rãi là hồi quy Lasso (còn gọi là L1) và Ridge (đôi khi được gọi là L2). Chúng được sử dụng để ngăn chặn việc trang bị quá nhiều dữ liệu.

Để tìm ra giải pháp tốt nhất và giảm thiểu sự phức tạp, các kỹ thuật này được sử dụng để trừng phạt các hệ số. Bằng cách phạt tổng các giá trị tuyệt đối của các hệ số, hồi quy Lasso hoạt động.

Hàm hình phạt trong hồi quy Ridge hoặc L2 được suy ra từ tổng bình phương của các hệ số.

38. Cái nào quan trọng hơn: hiệu suất của mô hình hay độ chính xác của mô hình? Cái nào và tại sao bạn sẽ thích nó?

Đây là một câu hỏi đánh lừa, do đó, trước tiên người ta nên hiểu Hiệu suất Mô hình là gì. Nếu hiệu suất được định nghĩa là tốc độ, thì nó phụ thuộc vào loại ứng dụng; bất kỳ ứng dụng nào liên quan đến tình huống thời gian thực sẽ yêu cầu tốc độ cao như một thành phần quan trọng.

Ví dụ: Kết quả tìm kiếm tốt nhất sẽ trở nên kém giá trị hơn nếu kết quả Truy vấn mất quá nhiều thời gian để đến.

Nếu Hiệu suất được sử dụng như một lý do giải thích tại sao độ chính xác và thu hồi phải được ưu tiên trên độ chính xác, thì điểm F1 sẽ hữu ích hơn độ chính xác trong việc chứng minh trường hợp kinh doanh cho bất kỳ tập dữ liệu nào không cân bằng.

39. Bạn sẽ quản lý một tập dữ liệu có sự bất bình đẳng như thế nào?

Một tập dữ liệu không cân bằng có thể được hưởng lợi từ các kỹ thuật lấy mẫu. Việc lấy mẫu có thể được thực hiện theo kiểu lấy mẫu dưới hoặc lấy mẫu quá mức.

Dưới Lấy mẫu cho phép chúng tôi thu nhỏ kích thước của lớp đa số để phù hợp với lớp thiểu số, giúp tăng tốc độ liên quan đến việc lưu trữ và thực thi thời gian chạy nhưng cũng có thể dẫn đến mất dữ liệu có giá trị.

Để khắc phục vấn đề mất thông tin do lấy mẫu quá mức, chúng tôi nâng cấp lớp Thiểu số; tuy nhiên, điều này khiến chúng ta gặp phải các vấn đề về trang bị quá mức.

Các chiến lược bổ sung bao gồm:

Lấy mẫu qua dựa trên cụm - Các trường hợp nhóm thiểu số và đa số phải tuân theo kỹ thuật phân nhóm K-mean trong tình huống này. Điều này được thực hiện để tìm các cụm tập dữ liệu. Sau đó, mỗi cụm được lấy mẫu quá mức để tất cả các lớp có cùng kích thước và tất cả các cụm trong một lớp có số lượng cá thể bằng nhau.
SMOTE: Kỹ thuật lấy mẫu quá mức của nhóm thiểu số tổng hợp- Một phần dữ liệu từ lớp thiểu số được sử dụng làm ví dụ, sau đó các trường hợp nhân tạo bổ sung có thể so sánh với nó được tạo ra và thêm vào tập dữ liệu ban đầu. Phương pháp này hoạt động tốt với các điểm dữ liệu số.

40. Làm thế nào bạn có thể phân biệt giữa tăng cường và đóng bao?

Kỹ thuật Ensemble có các phiên bản được gọi là đóng gói và tăng cường.

Đóng bao-

Đối với các thuật toán có độ thay đổi cao, kỹ thuật đóng bao là một kỹ thuật được sử dụng để giảm phương sai. Một trong những họ bộ phân loại dễ bị sai lệch là họ cây quyết định.

Loại dữ liệu mà cây quyết định được đào tạo có tác động đáng kể đến hiệu suất của chúng. Bởi vì điều này, ngay cả với sự tinh chỉnh rất cao, việc tổng quát hóa các kết quả đôi khi khó đạt được ở chúng hơn rất nhiều.

Nếu dữ liệu đào tạo của cây quyết định bị thay đổi, các kết quả sẽ thay đổi đáng kể.

Do đó, tính năng đóng gói được sử dụng, trong đó nhiều cây quyết định được tạo ra, mỗi cây được đào tạo bằng cách sử dụng một mẫu dữ liệu ban đầu và kết quả cuối cùng là giá trị trung bình của tất cả các mô hình khác nhau này.

Thúc đẩy:

Tăng cường là kỹ thuật đưa ra các dự đoán với một hệ thống phân loại yếu n, trong đó mỗi trình phân loại yếu sẽ bù đắp cho những thiếu sót của các trình phân loại mạnh hơn của nó. Chúng tôi đề cập đến một trình phân loại hoạt động không tốt trên một tập dữ liệu nhất định là “trình phân loại yếu”.

Thúc đẩy rõ ràng là một quá trình hơn là một thuật toán. Hồi quy logistic và cây quyết định nông là những ví dụ phổ biến của bộ phân loại yếu.

Adaboost, Gradient Boosting và XGBoost là hai thuật toán thúc đẩy phổ biến nhất, tuy nhiên, còn nhiều thuật toán khác nữa.

41. Giải thích sự khác biệt giữa học tập quy nạp và suy diễn.

Khi học theo ví dụ từ một tập hợp các ví dụ được quan sát, một mô hình sử dụng phương pháp học quy nạp để đi đến kết luận tổng quát. Mặt khác, với học tập suy luận, mô hình sử dụng kết quả trước khi hình thành của riêng nó.

Học tập quy nạp là quá trình rút ra kết luận từ các quan sát.

Học tập suy luận là quá trình tạo ra các quan sát dựa trên các suy luận.

Kết luận

Chúc mừng! Đây là 40 câu hỏi phỏng vấn hàng đầu trở lên dành cho học máy mà bây giờ bạn đã biết câu trả lời. Khoa học dữ liệu và trí tuệ nhân tạo các ngành nghề sẽ tiếp tục có nhu cầu khi công nghệ tiến bộ.

Những ứng viên cập nhật kiến thức về những công nghệ tiên tiến này và cải thiện kỹ năng của họ có thể tìm thấy nhiều khả năng việc làm với mức lương cạnh tranh.

Bạn có thể tiếp tục trả lời các cuộc phỏng vấn ngay bây giờ khi bạn đã hiểu rõ về cách trả lời một số câu hỏi phỏng vấn máy học được hỏi rộng rãi.

Tùy thuộc vào mục tiêu của bạn, hãy thực hiện bước sau. Chuẩn bị cho các cuộc phỏng vấn bằng cách truy cập Hashdork's Loạt bài phỏng vấn.

Hơn 40 câu hỏi phỏng vấn về học máy hàng đầu