Поскольку все больше отраслей используют мощь алгоритмов для автоматизации операций и принятия решений, машинное обучение становится важнейшим компонентом функционирования современного мира.
Проблема предвзятости в машинном обучении имеет решающее значение, когда модели машинного обучения интегрируются в процессы принятия решений в различных организациях.
Гарантировать беспристрастность и отсутствие предвзятости выбора, генерируемого алгоритмами, должно быть целью любой организации, использующей модели машинного обучения. Чтобы гарантировать, что на результаты модели можно положиться и считать их справедливыми, крайне важно распознавать и учитывать обучение с помощью машины смещение.
Это связано с вопросами объяснимости модели или того, насколько легко человеку понять, как модель машинного обучения пришла к выводу. Тенденции и закономерности, которые отображают и изучают модели машинного обучения, исходят из самих данных, а не в результате непосредственного человеческого развития.
Предвзятость в машинном обучении может возникнуть по разным причинам, если ее не контролировать и не проверять. Когда модель развертывается, она часто сталкивается с ситуациями, которые не точно отражены в выборке обучающих данных.
Модель могла быть переобученной для этого нерепрезентативного обучающего набора данных. Несмотря на отличное качество обучающих данных, на модель все еще может влиять историческая предвзятость, возникающая из-за более широких культурных влияний.
После внедрения предвзятая модель может отдавать предпочтение определенным группам или терять точность с определенными подмножествами данных. Это может привести к суждениям, несправедливо наказывающим определенную группу лиц, что может иметь негативные последствия для реального мира.
В этой статье обсуждается предвзятость машинного обучения, в том числе то, что это такое, как его обнаружить, какие опасности оно представляет и многое другое.
Итак, что такое предвзятость машинного обучения?
Алгоритм, производящий выходные данные, которые систематически смещаются в результате ложных предположений, сделанных в процессе машинного обучения, известен как смещение машинного обучения, также известное как смещение алгоритма или известное как смещение ИИ.
Предвзятость машинного обучения — это тенденция модели отдавать предпочтение определенному набору данных или подмножеству данных; это часто вызывается нерепрезентативными обучающими наборами данных. При определенном наборе данных предвзятая модель будет работать хуже, что снизит ее точность.
В реальных условиях это может означать, что предвзятые данные обучения привели к тому, что на выходе модели предпочтение отдается определенной расе, демографии или полу.
В результате результаты машинного обучения могут быть несправедливыми или дискриминационными. Непредставительное обучение наборы данных могут способствовать систематической ошибке в машинном обучении.
Результирующая модель может быть смещена в сторону других, недостаточно представленных категорий, если обучающие данные отсутствуют или слишком репрезентативны для конкретной группы данных. Это может произойти, если выборка данных для обучения не совсем соответствует реальной среде развертывания.
Ярким примером является машинное обучение в сфере здравоохранения, которое можно использовать для проверки данных пациентов на предмет известных болезней или болезней. Модели могут ускорить вмешательство практикующих врачей, если они используются надлежащим образом.
Однако возможна предвзятость. Когда модель просят предсказать возможную болезнь у пожилого пациента, модель не может работать хорошо, если обучающие данные, используемые для ее построения, в основном состоят из данных пациентов из меньшего возрастного диапазона.
Кроме того, историческая статистика может быть искажена. Например, поскольку исторически большинство сотрудников были мужчинами, модель, обученная фильтровать кандидатов на работу, отдавала предпочтение кандидатам-мужчинам.
Предвзятость машинного обучения повлияет на точность модели в обоих сценариях, а в худших обстоятельствах может даже привести к дискриминационным и несправедливым выводам.
Решения должны быть тщательно проверены, чтобы гарантировать отсутствие предвзятости, поскольку модели машинного обучения заменить все больше и больше ручных операций. В результате методы управления моделями в любой организации должны включать мониторинг предвзятости машинного обучения.
Модели машинного обучения выполняют множество различных типов работ в самых разных отраслях. Сегодня модели используются для автоматизации все более сложных процессов и выработки предложений. В этом процессе принятия решений предвзятость означает, что модель может отдавать предпочтение одной конкретной группе по сравнению с другой на основе усвоенной предвзятости.
При использовании для вынесения небезопасных суждений с реальными последствиями это может иметь серьезные последствия. Например, при использовании для автоматического одобрения заявок на получение кредита предвзятая модель может нанести ущерб определенной группе населения. В регулируемых предприятиях, где любые действия могут быть проверены или тщательно изучены, это особенно важный фактор, который следует учитывать.
Типы смещения машинного обучения
- Смещение алгоритма - Это происходит, когда есть ошибка в алгоритме, который выполняет вычисления, которые управляют вычислениями машинного обучения.
- Выборочная погрешность – Когда данные использовались для обучать машинному обучению модель имеет проблему, это происходит. В случаях такого рода смещения количество или качество данных, используемых для обучения системы, является недостаточным. Алгоритм будет обучен полагать, что все учителя — женщины, если, например, обучающие данные полностью состоят из учителей-женщин.
- Предвзятость исключения – Это происходит, когда критическая точка данных отсутствует в используемом наборе данных, что может произойти, если разработчики моделей не осознают важность отсутствующей точки данных.
- Предвзятость предрассудков - В этом случае само машинное обучение является предвзятым, поскольку данные, используемые для обучения системы, отражают предубеждения реального мира, такие как предрассудки, стереотипы и неправильные социальные предположения. Например, если бы данные о медицинских работниках были включены в компьютерную систему, которая включала бы только врачей-мужчин и медсестер-женщин, реальный гендерный стереотип о работниках здравоохранения был бы увековечен.
- Смещение измерения – Как следует из названия, эта погрешность возникает из-за фундаментальных проблем с качеством данных и методов, используемых для их сбора или оценки. Система, обученная точно оценивать вес, будет необъективной, если веса, содержащиеся в обучающих данных, были последовательно округлены в большую сторону, а использование изображений довольных сотрудников для обучения системы, предназначенной для оценки рабочей среды, может быть необъективным, если сотрудники на изображениях знали они были измерены для счастья.
Какие факторы способствуют предвзятости в машинном обучении?
Хотя существует множество причин предвзятости машинного обучения, она часто возникает из-за предвзятости самих обучающих данных. Существует несколько потенциальных основных причин систематических ошибок в обучающих данных.
Наиболее наглядной иллюстрацией являются обучающие данные, которые представляют собой подмножество условий, наблюдаемых в развернутой системе, которые не являются типичными. Это могут быть обучающие данные с недостаточным представлением одной категории или непропорционально большим количеством другой.
Это известно как смещение выборки, и оно может быть результатом нерандомизированного сбора обучающих данных. Методы, используемые для сбора, анализа или классификации данных, а также исторические корни данных могут привести к систематической ошибке в самих данных.
Информация может быть даже исторически предвзятой в большей культуре, где она была собрана.
Предвзятость машинного обучения в основном вызвана:
- Предубеждения, вызванные людьми или обществом в исторических данных, используются для обучения алгоритмов.
- Учебные данные, которые не отражают реальных обстоятельств.
- Предвзятость при маркировке или подготовке данных для контролируемого машинного обучения.
Например, отсутствие разнообразия в обучающих данных может привести к смещению представления. На точность моделей машинного обучения часто влияют исторические предубеждения в более широкой культуре.
Это иногда называют социальным или человеческим предубеждением. Поиск обширных коллекций данных, которые не подвержены социальной предвзятости, может быть сложной задачей. Этап обработки данных жизненного цикла машинного обучения в равной степени подвержен влиянию человека.
Данные, которые были помечены и обработаны специалистом по данным или другим экспертом, необходимы для контролируемого машинного обучения. Независимо от того, связано ли это с разнообразием очищаемых данных, способом маркировки точек данных или выбором функций, предвзятость в этом процессе маркировки может привести к предвзятости в машинном обучении.
Риски предвзятости машинного обучения
Поскольку модели являются инструментами принятия решений на основе данных, предполагается, что они обеспечивают беспристрастные суждения. Модели машинного обучения часто содержат предвзятость, которая может повлиять на результаты.
Все больше и больше отраслей внедряют машинное обучение вместо устаревшего программного обеспечения и процедур. Предвзятые модели могут иметь негативные последствия в реальном мире, когда более сложные задачи автоматизируются с использованием моделей.
Машинное обучение ничем не отличается от других процессов принятия решений в организациях и отдельных лицах, которые ожидают, что оно будет прозрачным и справедливым. Поскольку машинное обучение — это автоматизированный процесс, суждения, сделанные с его использованием, иногда подвергаются даже более тщательному анализу.
Крайне важно, чтобы организации проявляли инициативу в устранении опасностей, поскольку предвзятость в машинном обучении часто может иметь дискриминационные или негативные последствия для некоторых групп населения. В частности, для регулируемых контекстов необходимо учитывать возможность предвзятости в машинном обучении.
Например, машинное обучение в банковской сфере можно использовать для автоматического принятия или отклонения заявок на ипотеку после первоначальной проверки. Модель, ориентированная на определенную группу кандидатов, вполне может иметь пагубные последствия как для кандидата, так и для организации.
Любая предвзятость, обнаруженная в среде развертывания, где действия могут подвергаться тщательной проверке, может привести к серьезным проблемам. Модель может не сработать, а в худшем случае даже оказаться заведомо дискриминационной.
Смещение должно быть тщательно оценено и к нему необходимо подготовиться, поскольку оно может привести к тому, что модель будет полностью удалена из развертывания. Для обретения уверенности в решениях модели необходимо понимать и устранять предвзятость машинного обучения.
На уровень доверия внутри организации и среди внешних потребителей услуг может повлиять предполагаемая предвзятость при принятии модельных решений. Если модели не пользуются доверием, особенно при принятии решений с высокой степенью риска, они не будут использоваться в полной мере внутри организации.
При оценке объяснимости модели необходимо учитывать систематическую ошибку. На достоверность и точность выбора модели может серьезно повлиять неконтролируемая предвзятость машинного обучения.
Иногда это может привести к дискриминационным действиям, которые могут затронуть определенных людей или группы. Существует множество приложений для различных типов моделей машинного обучения, и каждое из них в той или иной степени подвержено предвзятости машинного обучения.
Предвзятость машинного обучения иллюстрируется:
- Из-за отсутствия разнообразия в обучающих данных алгоритмы распознавания лиц могут быть менее точными для некоторых расовых групп.
- Программа могла обнаруживать расовую и гендерную предвзятость в данных из-за человеческих или исторических предубеждений.
- С определенным диалектом или акцентом обработка естественного языка может быть более точной, и она может быть не в состоянии обработать акцент, недостаточно представленный в обучающих данных.
Устранение предвзятости в машинном обучении
Мониторинг и переобучение моделей при обнаружении предвзятости — это два способа устранения предвзятости машинного обучения. В большинстве случаев смещение модели указывает на смещение обучающих данных или, по крайней мере, смещение может быть связано с этапом обучения жизненного цикла машинного обучения.
На каждом этапе жизненного цикла модели должны быть предусмотрены процедуры для обнаружения смещения или дрейфа модели. Также включены процессы мониторинга машинного обучения после развертывания. Важно часто проверять модель и наборы данных на систематическую ошибку.
Это может включать изучение обучающего набора данных, чтобы увидеть, как группы распределены и представлены там. Можно изменить и/или улучшить наборы данных, которые не являются полностью репрезентативными.
Кроме того, при оценке производительности модели следует учитывать систематическую ошибку. Тестирование производительности модели на различных подмножествах данных может показать, является ли она предвзятой или переоснащенной по отношению к определенной группе.
Можно оценить производительность модели машинного обучения на определенных подмножествах данных, используя методы перекрестной проверки. Процедура включает в себя разделение данных на отдельные наборы данных для обучения и тестирования.
Вы можете устранить предвзятость в машинном обучении следующим образом:
- При необходимости переобучите модель, используя более крупные и репрезентативные обучающие наборы.
- Установление процедуры для активного наблюдения за предвзятыми результатами и необычными суждениями.
- Изменение веса функций и корректировка гиперпараметров по мере необходимости может помочь учесть предвзятость.
- Поощрение разрешения обнаруженной предвзятости посредством непрерывного цикла обнаружения и оптимизации.
Заключение
Заманчиво полагать, что после обучения модель машинного обучения будет функционировать автономно. На самом деле рабочая среда модели постоянно меняется, и менеджеры должны регулярно переобучать модели, используя свежие наборы данных.
Машинное обучение в настоящее время является одной из самых захватывающих технологических возможностей с реальными экономическими преимуществами. Машинное обучение в сочетании с технологиями больших данных и огромной вычислительной мощностью, доступной через общедоступное облако, может изменить то, как люди взаимодействуют с технологиями, и, возможно, целые отрасли.
Однако, какой бы многообещающей ни была технология машинного обучения, ее необходимо тщательно планировать, чтобы избежать непреднамеренных ошибок. На эффективность суждений, сделанных машинами, может сильно повлиять предвзятость, и это должны учитывать разработчики моделей машинного обучения.
Оставьте комментарий