40+ лучших вопросов для интервью по машинному обучению (2024)

Содержание[Скрывать][Показывать]

1. Объясните разницу между машинным обучением, искусственным интеллектом и глубоким обучением.
2. Пожалуйста, опишите различные типы машинного обучения.
3. Каков компромисс между смещением и дисперсией?
4. Алгоритмы машинного обучения со временем претерпели значительные изменения. Как выбрать правильный алгоритм для использования с учетом набора данных?
5. Чем отличаются ковариация и корреляция?
6. Что означает кластеризация в машинном обучении?
7. Какой алгоритм машинного обучения вы предпочитаете?
8. Линейная регрессия в машинном обучении: что это такое?
9. Опишите различия между KNN и кластеризацией методом k-средних.
10. Что для вас означает «предвзятость выбора»?
11. Что такое теорема Байеса?
12. Что такое «тренировочный набор» и «тестовый набор» в модели машинного обучения?
13. Что такое гипотеза в машинном обучении?
14. Что означает переоснащение машинного обучения и как его можно предотвратить?
15. Что такое наивные байесовские классификаторы?
16. Что означают функции затрат и функции потерь?
17. Что отличает генеративную модель от дискриминационной модели?
18. Опишите различия между ошибками типа I и типа II.
19. Что такое метод ансамблевого обучения в машинном обучении?
20. Что такое параметрические модели? Дайте экземпляр.
21. Опишите совместную фильтрацию. А также контентную фильтрацию?
22. Что именно вы подразумеваете под временными рядами?
23. Опишите различия между алгоритмами Gradient Boosting и Random Forest.
24. Зачем вам нужна матрица путаницы? Что это?
25. Что такое анализ главных компонентов?
26. Почему ротация компонентов так важна для PCA (анализа главных компонентов)?
27. Чем регуляризация и нормализация отличаются друг от друга?
28. Чем нормализация и стандартизация отличаются друг от друга?
29. Что именно означает «фактор инфляции дисперсии»?
30. Основываясь на размере обучающей выборки, как вы выбираете классификатор?
31. Какой алгоритм в машинном обучении называют «ленивым учеником» и почему?
32. Что такое кривая ROC и AUC?
33. Что такое гиперпараметры? Что делает их уникальными по параметрам модели?
34. Что означают F1 Score, отзыв и точность?
35. Что такое перекрестная проверка?
36. Допустим, вы обнаружили, что ваша модель имеет значительную дисперсию. Какой алгоритм, по вашему мнению, лучше всего подходит для решения этой ситуации?
37. Что отличает регрессию Риджа от регрессии Лассо?
38. Что важнее: производительность модели или точность модели? Какой из них и почему вы предпочитаете?
39. Как бы вы управляли набором данных с неравенством?
40. Как отличить буст от бэггинга?
41. Объясните разницу между индуктивным и дедуктивным обучением.
Заключение

Предприятия используют передовые технологии, такие как искусственный интеллект (ИИ) и машинное обучение, чтобы повысить доступность информации и услуг для отдельных лиц.

Эти технологии внедряются в различных отраслях, включая банковское дело, финансы, розничную торговлю, производство и здравоохранение.

Одна из самых востребованных организационных ролей, использующих ИИ, предназначена для специалистов по данным, инженеров по искусственному интеллекту, инженеров по машинному обучению и аналитиков данных.

Этот пост проведет вас через множество обучение с помощью машины вопросы для интервью, от простых до сложных, которые помогут вам подготовиться к любым вопросам, которые вам могут задать при поиске идеальной работы.

1. Объясните разницу между машинным обучением, искусственным интеллектом и глубоким обучением.

Искусственный интеллект использует различные подходы к машинному обучению и глубокому обучению, которые позволяют компьютерным системам выполнять задачи, используя человеческий интеллект с логикой и правилами.

Машинное обучение использует различные статистические данные и подходы к глубокому обучению, чтобы позволить машинам учиться на своих предыдущих результатах и становиться более искусными в выполнении определенных задач самостоятельно без наблюдения человека.

Глубокое обучение — это набор алгоритмов, которые позволяют программному обеспечению учиться у себя и выполнять различные коммерческие функции, такие как распознавание голоса и изображений.

Системы, раскрывающие свою многослойность нейронные сети к огромным объемам данных для обучения в состоянии сделать глубокое обучение.

2. Пожалуйста, опишите различные типы машинного обучения.

Машинное обучение существует в трех различных типах:

Контролируемое обучение: модель создает прогнозы или суждения, используя помеченные или исторические данные в контролируемом машинном обучении. Наборы данных, которые были помечены или помечены для повышения их значимости, называются помеченными данными.
Обучение без учителя: у нас нет помеченных данных для обучения без учителя. Во входящих данных модель может найти закономерности, странности и корреляции.
Обучение с подкреплением: модель может учиться с помощью подкрепления обучение и награды, которые он получил за свое предшествующее поведение.

3. Каков компромисс между смещением и дисперсией?

Переобучение является результатом смещения, то есть степени, в которой модель соответствует данным. Предвзятость вызвана неправильными или слишком простыми предположениями в вашей алгоритм машинного обучения.

Дисперсия относится к ошибкам, вызванным сложностью вашего алгоритма машинного обучения, что приводит к чувствительности к большой степени дисперсии обучающих данных и переобучению.

Дисперсия — это то, насколько модель меняется в зависимости от входных данных.

Другими словами, базовые модели чрезвычайно предвзяты, но стабильны (низкая дисперсия). Переобучение — это проблема сложных моделей, хотя они, тем не менее, отражают реальность модели (низкое смещение).

Чтобы предотвратить как высокую вариацию, так и высокую погрешность, для наилучшего уменьшения ошибок необходим компромисс между погрешностью и дисперсией.

4. Алгоритмы машинного обучения со временем претерпели значительные изменения. Как выбрать правильный алгоритм для использования с учетом набора данных?

Метод машинного обучения, который следует использовать, зависит только от типа данных в конкретном наборе данных.

Когда данные линейны, используется линейная регрессия. Метод бэггинга работал бы лучше, если бы данные указывали на нелинейность. Мы можем использовать деревья решений или SVM, если данные должны быть оценены или интерпретированы в коммерческих целях.

Нейронные сети могут быть полезны для получения точного ответа, если набор данных включает фотографии, видео и аудио.

Выбор алгоритма для конкретных обстоятельств или сбора данных не может быть сделан только на одном показателе.

Для разработки метода наилучшего соответствия мы должны сначала изучить данные с помощью исследовательского анализа данных (EDA) и понять цель использования набора данных.

5. Чем отличаются ковариация и корреляция?

Ковариация оценивает, как две переменные связаны друг с другом и как одна может измениться в ответ на изменение другой.

Если результат положительный, это указывает на то, что существует прямая связь между переменными и что она будет возрастать или уменьшаться с увеличением или уменьшением базовой переменной, при условии, что все остальные условия остаются постоянными.

Корреляция измеряет связь между двумя случайными величинами и имеет только три различных значения: 1, 0 и -1.

6. Что означает кластеризация в машинном обучении?

Неконтролируемые методы обучения, которые группируют точки данных вместе, называются кластеризацией. С набором точек данных можно применить метод кластеризации.

Используя эту стратегию, вы можете сгруппировать все точки данных в соответствии с их функциями.

Характеристики и качества точек данных, попадающих в одну и ту же категорию, схожи, в то время как характеристики точек данных, попадающих в разные группы, различаются.

Этот подход можно использовать для анализа статистических данных.

7. Какой алгоритм машинного обучения вы предпочитаете?

У вас есть возможность продемонстрировать свои предпочтения и уникальные таланты в этом вопросе, а также всестороннее знание многочисленных методов машинного обучения.

Вот несколько типичных алгоритмов машинного обучения, о которых стоит подумать:

Линейная регрессия
Логистическая регрессия
Наивный байесовский
Деревья принятия решений
K означает
Алгоритм случайного леса
K-ближайший сосед (KNN)

8. Линейная регрессия в машинном обучении: что это такое?

Алгоритм контролируемого машинного обучения представляет собой линейную регрессию.

Он используется в прогнозном анализе для определения линейной связи между зависимыми и независимыми переменными.

Уравнение линейной регрессии выглядит следующим образом:

Y = А + ВХ

где:

Входная или независимая переменная называется X.
Зависимой или выходной переменной является Y.
Коэффициент X равен b, а его точка пересечения равна a.

9. Опишите различия между KNN и кластеризацией методом k-средних.

Основное различие заключается в том, что KNN (метод классификации, обучение с учителем) нуждается в помеченных точках, тогда как k-средних нет (алгоритм кластеризации, обучение без учителя).

Вы можете классифицировать помеченные данные в немаркированные точки с помощью K-ближайших соседей. Кластеризация K-средних использует среднее расстояние между точками, чтобы узнать, как группировать немаркированные точки.

10. Что для вас означает «предвзятость выбора»?

Систематическая ошибка на этапе выборки эксперимента связана со статистической неточностью.

Одна выборочная группа выбирается чаще, чем другие группы в эксперименте из-за неточности.

Если систематическая ошибка отбора не будет признана, это может привести к неправильному заключению.

11. Что такое теорема Байеса?

Когда нам известны другие вероятности, мы можем определить вероятность, используя теорему Байеса. Другими словами, он предлагает апостериорную вероятность события на основе априорной информации.

Эта теорема дает надежный метод оценки условных вероятностей.

При разработке задач прогнозного моделирования с классификацией и подгонке модели к обучению набор данных в машинном обучении, применяется теорема Байеса (т.е. Наивный Байес, Оптимальный классификатор Байеса).

12. Что такое «тренировочный набор» и «тестовый набор» в модели машинного обучения?

Обучающий набор:

Обучающий набор состоит из экземпляров, которые отправляются в модель для анализа и обучения.
Это помеченные данные, которые будут использоваться для обучения модели.
Обычно в качестве обучающего набора данных используется 70% всех данных.

Тестовый набор:

Тестовый набор используется для оценки точности генерации гипотез модели.
Мы тестируем без маркированных данных, а затем используем метки для подтверждения результатов.
Остальные 30% используются в качестве тестового набора данных.

13. Что такое гипотеза в машинном обучении?

Машинное обучение позволяет использовать существующие наборы данных, чтобы лучше понять заданную функцию, которая связывает ввод с выводом. Это известно как аппроксимация функции.

В этом случае необходимо использовать аппроксимацию неизвестной целевой функции, чтобы наилучшим образом передать все мыслимые наблюдения, исходя из данной ситуации.

В машинном обучении гипотеза — это модель, которая помогает оценить целевую функцию и выполнить соответствующие сопоставления ввода-вывода.

Выбор и разработка алгоритмов позволяют определить пространство возможных гипотез, которые могут быть представлены моделью.

Для одной гипотезы используется строчная буква h (h), но заглавная h (H) используется для всего пространства гипотез, в котором выполняется поиск. Кратко рассмотрим эти обозначения:

Гипотеза (h) — это конкретная модель, которая облегчает сопоставление входных данных с выходными, которые впоследствии можно использовать для оценки и прогнозирования.
Набор гипотез (H) — это доступное для поиска пространство гипотез, которое можно использовать для сопоставления входных данных с выходными. Структура проблемы, модель и конфигурация модели — вот несколько примеров общих ограничений.

14. Что означает переоснащение машинного обучения и как его можно предотвратить?

Когда машина пытается извлечь уроки из недостаточного набора данных, происходит переобучение.

В результате переоснащение обратно пропорционально объему данных. Подход с перекрестной проверкой позволяет избежать переобучения для небольших наборов данных. В этом методе набор данных разбивается на две части.

Набор данных для тестирования и обучения будет состоять из этих двух частей. Набор обучающих данных используется для создания модели, а набор тестовых данных используется для оценки модели с использованием различных входных данных.

Вот как предотвратить переоснащение.

15. Что такое наивные байесовские классификаторы?

Различные методы классификации составляют наивные байесовские классификаторы. Набор алгоритмов, известных как эти классификаторы, основан на одной и той же фундаментальной идее.

Предположение, сделанное наивными байесовскими классификаторами, состоит в том, что наличие или отсутствие одного признака не влияет на наличие или отсутствие другого признака.

Другими словами, это то, что мы называем «наивным», поскольку предполагается, что каждый атрибут набора данных одинаково важен и независим.

Классификация выполняется с использованием наивных байесовских классификаторов. Они просты в использовании и дают лучшие результаты, чем более сложные предикторы, когда верна предпосылка независимости.

Они используются в системах анализа текста, фильтрации спама и рекомендательных системах.

16. Что означают функции затрат и функции потерь?

Фраза «функция потерь» относится к процессу вычисления потерь, когда учитывается только один фрагмент данных.

Наоборот, мы используем функцию стоимости, чтобы определить общее количество ошибок для многочисленных данных. Существенного различия нет.

Другими словами, в то время как функции стоимости агрегируют разницу для всего обучающего набора данных, функции потерь предназначены для захвата разницы между фактическими и прогнозируемыми значениями для одной записи.

17. Что отличает генеративную модель от дискриминационной модели?

Дискриминационная модель изучает различия между несколькими категориями данных. Генеративная модель использует различные типы данных.

В задачах классификации дискриминационные модели часто превосходят другие модели.

18. Опишите различия между ошибками типа I и типа II.

Ложноположительные результаты относятся к категории ошибок типа I, тогда как ложноотрицательные результаты относятся к ошибкам типа II (утверждение, что ничего не произошло, хотя на самом деле это произошло).

19. Что такое метод ансамблевого обучения в машинном обучении?

Метод, называемый ансамблевым обучением, смешивает множество моделей машинного обучения для создания более эффективных моделей.

Модель может быть изменена по разным причинам. Несколько причин:

Различные группы населения
Различные гипотезы
Различные методы моделирования

Мы столкнемся с проблемой при использовании данных обучения и тестирования модели. Возможными типами этой ошибки являются предвзятость, дисперсия и неустранимая ошибка.

Теперь мы называем этот баланс между смещением и дисперсией в модели компромиссом между смещением и дисперсией, и он должен существовать всегда. Этот компромисс достигается за счет использования ансамблевого обучения.

Несмотря на то, что доступны различные ансамблевые подходы, есть две общие стратегии объединения многих моделей:

Нативный подход, называемый бэггингом, использует обучающий набор для создания дополнительных обучающих наборов.
Повышение, более сложный метод: во многом как бэггинг, повышение используется для поиска идеальной формулы взвешивания для тренировочного набора.

20. Что такое параметрические модели? Дайте экземпляр.

Параметрические модели имеют ограниченное количество параметров. Для прогнозирования данных все, что вам нужно знать, — это параметры модели.

Ниже приведены типичные примеры: логистическая регрессия, линейная регрессия и линейные SVM. Непараметрические модели являются гибкими, поскольку могут содержать неограниченное количество параметров.

Параметры модели и статус наблюдаемых данных необходимы для прогнозирования данных. Вот несколько типичных примеров: тематические модели, деревья решений и k-ближайших соседей.

21. Опишите совместную фильтрацию. А также контентную фильтрацию?

Проверенный метод создания индивидуальных предложений контента — совместная фильтрация.

Форма системы рекомендаций, называемая совместной фильтрацией, предсказывает свежий материал, уравновешивая пользовательские предпочтения с общими интересами.

Пользовательские предпочтения — это единственное, что учитывают рекомендательные системы на основе контента. В свете предыдущего выбора пользователя предоставляются новые рекомендации из соответствующего материала.

22. Что именно вы подразумеваете под временными рядами?

Временной ряд — это набор чисел в порядке возрастания. В течение заданного периода времени он отслеживает движение выбранных точек данных и периодически фиксирует точки данных.

Для временных рядов нет минимального или максимального времени ввода.

Временные ряды часто используются аналитиками для анализа данных в соответствии со своими уникальными требованиями.

23. Опишите различия между алгоритмами Gradient Boosting и Random Forest.

Случайный лес:

В конце большое количество деревьев решений объединяется вместе и называется случайным лесом.
В то время как повышение градиента создает каждое дерево независимо от других, случайный лес строит каждое дерево по одному.
Мультикласс обнаружение объекта хорошо работает со случайными лесами.

Повышение градиента:

В то время как случайные леса присоединяются к деревьям решений в конце процесса, машины повышения градиента объединяют их с самого начала.
Если параметры настроены соответствующим образом, повышение градиента превосходит случайные леса с точки зрения результатов, но это не лучший выбор, если в наборе данных много выбросов, аномалий или шума, поскольку это может привести к переобучению модели.
При наличии несбалансированных данных, как это имеет место при оценке рисков в реальном времени, повышение градиента работает хорошо.

24. Зачем вам нужна матрица путаницы? Что это?

Таблица, известная как матрица путаницы, иногда называемая матрицей ошибок, широко используется, чтобы показать, насколько хорошо модель классификации или классификатор работает с набором тестовых данных, для которых известны реальные значения.

Это позволяет нам увидеть, как работает модель или алгоритм. Это позволяет нам легко выявлять недоразумения между различными курсами.

Он служит способом оценить, насколько хорошо работает модель или алгоритм.

Прогнозы модели классификации компилируются в матрицу путаницы. Значения счетчика каждой метки класса использовались для разбивки общего количества правильных и неправильных прогнозов.

Он предоставляет подробную информацию об ошибках, допущенных классификатором, а также о различных видах ошибок, вызванных классификаторами.

25. Что такое анализ главных компонентов?

Минимизируя количество переменных, которые коррелируют друг с другом, цель состоит в том, чтобы минимизировать размерность сбора данных. Но важно максимально сохранить разнообразие.

Переменные превращаются в совершенно новый набор переменных, называемых главными компонентами.

Эти ПК ортогональны, поскольку они являются собственными векторами ковариационной матрицы.

26. Почему ротация компонентов так важна для PCA (анализа главных компонентов)?

Вращение имеет решающее значение в PCA, поскольку оно оптимизирует разделение между дисперсиями, полученными каждым компонентом, что упрощает интерпретацию компонентов.

Мы требуем, чтобы расширенные компоненты выражали вариации компонентов, если компоненты не вращаются.

27. Чем регуляризация и нормализация отличаются друг от друга?

Нормализация:

Данные изменяются во время нормализации. Вы должны нормализовать данные, если они имеют сильно различающиеся масштабы, особенно от низкого к высокому. Настройте каждый столбец так, чтобы все основные статистические данные были совместимы.

Это может быть полезно, чтобы гарантировать отсутствие потери точности. Обнаружение сигнала при игнорировании шума является одной из целей обучения модели.

Существует вероятность переобучения, если модели предоставлен полный контроль для уменьшения ошибки.

Регуляризация:

При регуляризации функция предсказания модифицируется. Это подлежит некоторому контролю посредством регуляризации, которая отдает предпочтение более простым подгоночным функциям, а не сложным.

28. Чем нормализация и стандартизация отличаются друг от друга?

Двумя наиболее широко используемыми методами масштабирования признаков являются нормализация и стандартизация.

Нормализация:

Изменение масштаба данных в соответствии с диапазоном [0,1] называется нормализацией.
Когда все параметры должны иметь одинаковую положительную шкалу, нормализация полезна, но выбросы набора данных теряются.

Регуляризация:

Данные перемасштабированы, чтобы иметь среднее значение 0 и стандартное отклонение 1 в рамках процесса стандартизации (единичная дисперсия).

29. Что именно означает «фактор инфляции дисперсии»?

Отношение дисперсии модели к дисперсии модели только с одной независимой переменной известно как коэффициент инфляции вариации (VIF).

VIF оценивает степень мультиколлинеарности, присутствующую в наборе нескольких регрессионных переменных.

Дисперсия модели (VIF) Модель с одной независимой переменной Дисперсия

30. Основываясь на размере обучающей выборки, как вы выбираете классификатор?

Модель с высоким смещением и низкой дисперсией лучше работает для короткого тренировочного набора, поскольку переобучение менее вероятно. Наивный Байес — один из примеров.

Для представления более сложных взаимодействий для большого обучающего набора предпочтительна модель с низким смещением и высокой дисперсией. Хорошим примером является логистическая регрессия.

31. Какой алгоритм в машинном обучении называют «ленивым учеником» и почему?

Медленный ученик, KNN — это алгоритм машинного обучения. Поскольку K-NN динамически вычисляет расстояние каждый раз, когда он хочет классифицировать, вместо того, чтобы изучать какие-либо машинные значения или переменные из обучающих данных, он запоминает набор обучающих данных.

Это делает K-NN ленивым учеником.

32. Что такое кривая ROC и AUC?

Производительность модели классификации при всех пороговых значениях графически представлена ROC-кривой. Он имеет критерии истинной положительной скорости и ложноположительной скорости.

Проще говоря, площадь под кривой ROC известна как AUC (площадь под кривой ROC). Измеряется двумерная площадь ROC-кривой от (0,0) до AUC (1,1). Для оценки моделей бинарной классификации он используется в качестве статистики производительности.

33. Что такое гиперпараметры? Что делает их уникальными по параметрам модели?

Внутренняя переменная модели известна как параметр модели. Используя обучающие данные, значение параметра аппроксимируется.

Модель не знает, что гиперпараметр является переменной. Значение не может быть определено из данных, поэтому они часто используются для расчета параметров модели.

34. Что означают F1 Score, отзыв и точность?

Мера путаницы — это метрика, используемая для оценки эффективности модели классификации. Следующие фразы можно использовать для лучшего объяснения метрики путаницы:

TP: Истинные положительные значения — это положительные значения, которые были ожидаемы должным образом. Это предполагает, что значения проецируемого класса и фактического класса являются положительными.

TN: True Negatives — это неблагоприятные значения, которые были точно предсказаны. Это предполагает, что как значение фактического класса, так и ожидаемого класса отрицательны.

Эти значения — ложноположительные и ложноотрицательные — возникают, когда ваш фактический класс отличается от ожидаемого класса.

Теперь,

Отношение истинно положительного показателя (TP) ко всем наблюдениям, сделанным в реальном классе, называется отзывом, также известным как чувствительность.

Отзыв — это TP/(TP+FN).

Точность — это мера положительной прогностической ценности, которая сравнивает количество положительных результатов, которые модель действительно предсказывает, с количеством правильных положительных результатов, которые она точно предсказывает.

Точность равна TP/(TP + FP)

Самый простой для понимания показатель производительности — это точность, которая представляет собой долю правильно спрогнозированных наблюдений по отношению ко всем наблюдениям.

Точность равна (TP+TN)/(TP+FP+FN+TN).

Точность и отзыв взвешиваются и усредняются для получения оценки F1. В результате эта оценка учитывает как ложноположительные, так и ложноотрицательные результаты.

F1 часто более ценен, чем точность, особенно если у вас неравное распределение классов, даже если интуитивно это не так просто понять, как точность.

Наилучшая точность достигается, когда стоимость ложноположительных и ложноотрицательных результатов сопоставима. Предпочтительно включать как Precision, так и Recall, если затраты, связанные с ложными положительными и ложными отрицательными результатами, значительно различаются.

35. Что такое перекрестная проверка?

Подход статистической повторной выборки, называемый перекрестной проверкой в машинном обучении, использует несколько подмножеств наборов данных для обучения и оценки алгоритма машинного обучения в течение нескольких раундов.

Новый пакет данных, который не использовался для обучения модели, тестируется с помощью перекрестной проверки, чтобы увидеть, насколько хорошо модель его предсказывает. Переобучение данных предотвращается перекрестной проверкой.

K-Fold Наиболее часто используемый метод повторной выборки разбивает весь набор данных на K наборов одинакового размера. Это называется перекрестной проверкой.

36. Допустим, вы обнаружили, что ваша модель имеет значительную дисперсию. Какой алгоритм, по вашему мнению, лучше всего подходит для решения этой ситуации?

Управление высокой изменчивостью

Мы должны использовать технику мешков для задач с большими вариациями.

Алгоритм упаковки в пакеты будет использовать повторную выборку случайных данных для разделения данных на подгруппы. После разделения данных мы можем использовать случайные данные и специальную процедуру обучения для создания правил.

После этого опрос можно было использовать для объединения прогнозов модели.

37. Что отличает регрессию Риджа от регрессии Лассо?

Двумя широко используемыми методами регуляризации являются регрессия Лассо (также называемая L1) и Ридж (иногда называемая L2). Они используются для предотвращения переобучения данных.

Чтобы найти наилучшее решение и минимизировать сложность, эти методы используются для наказания коэффициентов. Путем штрафования суммы абсолютных значений коэффициентов работает регрессия Лассо.

Функция штрафа в регрессии Риджа или L2 получается из суммы квадратов коэффициентов.

38. Что важнее: производительность модели или точность модели? Какой из них и почему вы предпочитаете?

Это обманчивый вопрос, поэтому сначала следует понять, что такое производительность модели. Если производительность определяется как скорость, то она зависит от типа приложения; любое приложение, связанное с ситуацией в реальном времени, потребует высокой скорости в качестве решающего компонента.

Например, лучшие результаты поиска станут менее ценными, если получение результатов запроса займет слишком много времени.

Если производительность используется в качестве обоснования того, почему точность и полнота должны иметь приоритет над точностью, то оценка F1 будет более полезной, чем точность, для демонстрации экономического обоснования для любого несбалансированного набора данных.

39. Как бы вы управляли набором данных с неравенством?

Несбалансированный набор данных может выиграть от методов выборки. Выборка может быть выполнена как с недостаточной, так и с избыточной выборкой.

Under Sampling позволяет нам уменьшить размер основного класса, чтобы он соответствовал меньшему классу, что помогает увеличить скорость в отношении хранения и выполнения во время выполнения, но также может привести к потере ценных данных.

Чтобы решить проблему потери информации, вызванной передискретизацией, мы повышаем дискретизацию класса Minority; тем не менее, это заставляет нас столкнуться с проблемами переобучения.

Дополнительные стратегии включают в себя:

Избыточная выборка на основе кластера. В этой ситуации экземпляры класса меньшинства и большинства по отдельности подвергаются методу кластеризации K-средних. Это делается для поиска кластеров набора данных. Затем каждый кластер подвергается избыточной выборке, чтобы все классы имели одинаковый размер и все кластеры внутри класса имели равное количество экземпляров.
SMOTE: метод передискретизации синтетического меньшинства. В качестве примера используется срез данных из класса меньшинства, после чего создаются и добавляются к исходному набору данных дополнительные искусственные экземпляры, сопоставимые с ним. Этот метод хорошо работает с числовыми точками данных.

40. Как отличить буст от бэггинга?

Ансамблевые методы имеют версии, известные как бэггинг и буст.

Бэгинг-

Для алгоритмов с высокой вариацией бэггинг — это метод, используемый для снижения дисперсии. Одним из таких семейств классификаторов, склонных к систематической ошибке, является семейство деревьев решений.

Тип данных, на которых обучаются деревья решений, оказывает значительное влияние на их производительность. Из-за этого, даже при очень высокой точной настройке, в них иногда гораздо труднее получить обобщение результатов.

Если данные обучения деревьев решений изменяются, результаты существенно различаются.

Как следствие, используется бэггинг, при котором создается множество деревьев решений, каждое из которых обучается на выборке исходных данных, а конечным результатом является среднее значение всех этих разных моделей.

Повышение:

Повышение — это метод прогнозирования с помощью n-слабой системы классификаторов, в которой каждый слабый классификатор компенсирует недостатки своих более сильных классификаторов. Мы называем классификатор, который плохо работает с данным набором данных, «слабым классификатором».

Очевидно, что бустинг — это процесс, а не алгоритм. Логистическая регрессия и неглубокие деревья решений являются распространенными примерами слабых классификаторов.

Adaboost, Gradient Boosting и XGBoost — два самых популярных алгоритма повышения, однако их гораздо больше.

41. Объясните разницу между индуктивным и дедуктивным обучением.

При обучении на примере набора наблюдаемых примеров модель использует индуктивное обучение, чтобы прийти к обобщенному выводу. С другой стороны, при дедуктивном обучении модель использует результат, прежде чем сформировать свой собственный.

Индуктивное обучение — это процесс получения выводов из наблюдений.

Дедуктивное обучение — это процесс создания наблюдений на основе выводов.

Заключение

Поздравляю! Это топ 40 и более вопросов для интервью по машинному обучению, на которые вы теперь знаете ответы. Наука о данных и искусственный интеллект Профессии будут по-прежнему востребованы по мере развития технологий.

Кандидаты, которые обновляют свои знания об этих передовых технологиях и улучшают свои навыки, могут найти широкий спектр возможностей трудоустройства с конкурентоспособной оплатой.

Вы можете приступить к ответам на интервью теперь, когда у вас есть четкое представление о том, как отвечать на некоторые из широко задаваемых вопросов на собеседованиях по машинному обучению.

В зависимости от ваших целей, сделайте следующий шаг. Подготовьтесь к интервью, посетив Hashdork's Серия интервью.

Вопросы для собеседования по машинному обучению

40+ лучших вопросов для интервью по машинному обучению