Рискове от отклонения при машинно обучение и как да ги предотвратим

Съдържание[Крия][Покажи]

И така, какво е пристрастие към машинното обучение?
Типове пристрастия към машинното обучение
Какви фактори допринасят за пристрастия в машинното обучение?
Рискове от пристрастия при машинно обучение
Разрешаване на пристрастия в машинното обучение
Заключение

Тъй като все повече индустрии използват силата на алгоритмите за автоматизиране на операциите и вземане на решения, машинното обучение се превръща в решаващ компонент от начина, по който функционира съвременният свят.

Проблемът с пристрастията в машинното обучение е от решаващо значение да се вземе предвид, когато моделите за машинно обучение се интегрират в процесите на вземане на решения в различни организации.

Гарантирането, че изборите, генерирани от алгоритми, са безпристрастни и лишени от пристрастия, трябва да бъде целта на всяка организация, която използва модели за машинно обучение. За да се гарантира, че резултатите от модела могат да се разчитат и да се разглеждат като справедливи, от решаващо значение е да се признаят и да се обърне внимание машинно обучение пристрастия.

Това е свързано с въпросите за обяснимостта на модела или колко лесно е за човек да разбере как един модел за машинно обучение е стигнал до заключение. Тенденциите и моделите, които моделите за машинно обучение картографират и научават, идват от самите данни, а не чрез директно човешко развитие.

Пристрастия в машинното обучение могат да се появят по различни причини, ако не се контролират и проверяват. Когато даден модел е разгърнат, той често среща ситуации, които не са точно отразени в извадката от данни за обучение.

Моделът може да е бил прекалено подходящ за този непредставителен набор от данни за обучение. Въпреки отличното качество на данните за обучението, моделът все още може да бъде повлиян от исторически пристрастия в резултат на по-широки културни влияния.

Веднъж внедрен, предубеденият модел може да облагодетелства определени групи или да загуби точност с определени подмножества от данни. Това може да доведе до присъди, които несправедливо наказват определена група лица, което може да има отрицателно въздействие върху действителния свят.

Тази статия обсъжда пристрастия към машинното обучение, включително какво представлява, как да го забележите, опасностите, които крие, и много повече.

И така, какво е пристрастие към машинното обучение?

Алгоритъм, произвеждащ изходи, които са систематично отклонени в резултат на неверни предположения, направени по време на процеса на машинно обучение, е известен като отклонение на машинното обучение, известно също като отклонение на алгоритъма или известно като отклонение на AI.

Пристрастието на машинното обучение е тенденцията на модела да предпочита определен набор от данни или подмножество от данни; често се предизвиква от непредставителни набори от данни за обучение. При определено събиране на данни, предубеденият модел ще се представи по-слабо, което ще навреди на неговата точност.

В реална среда това може да означава, че пристрастните данни от обучението са довели до резултат от модела, който предпочита определена раса, демографски признак или пол.

В резултат на това резултатите от машинното обучение могат да бъдат несправедливи или дискриминиращи. Непредставително обучение наборите от данни могат да допринесат за пристрастност в машинното обучение.

Полученият модел може да бъде отклонен към други, недостатъчно представени категории, ако данните за обучението липсват или са прекалено представителни за конкретно групиране на данни. Това може да се случи, ако извадката от данни за обучение не съвпада точно със средата за внедряване в реалния свят.

Машинното обучение в здравната индустрия, което може да се използва за проверка на данните на пациентите срещу известни заболявания или заболявания, е отличен пример. Моделите могат да ускорят интервенциите на практикуващите лекари, когато се използват по подходящ начин.

Възможни са обаче предразсъдъци. Когато бъде помолен да предвиди възможно заболяване при по-възрастен пациент, моделът не може да се представи добре, ако данните от обучението, използвани за конструирането му, се състоят предимно от данни за пациенти от по-малък възрастов диапазон.

Освен това историческите статистики могат да бъдат изкривени. Например, тъй като исторически мнозинството от служителите са били мъже, модел, обучен да филтрира кандидатите за работа, би предпочел кандидатите мъже.

Пристрастността на машинното обучение ще окаже влияние върху точността на модела и в двата сценария и при най-лошите обстоятелства може дори да доведе до дискриминиращи и несправедливи заключения.

Решенията трябва да бъдат внимателно преразгледани, за да се гарантира, че няма пристрастия модели за машинно обучение замени все повече и повече ръчни операции. В резултат на това практиките на моделно управление във всяка организация трябва да включват мониторинг за пристрастия към машинното обучение.

Много различни видове работни места в много различни индустрии се изпълняват от модели на машинно обучение. Днес моделите се използват за автоматизиране на все по-трудни процеси и за генериране на предложения. В този процес на вземане на решения пристрастието означава, че даден модел може да даде предимство на една определена група пред друга въз основа на научено пристрастие.

Когато се използва за вземане на опасни преценки с реални последствия, това може да има тежки последици. Когато се използва за автоматично одобряване на заявления за заем, например, предубеден модел може да навреди на определена популация. В регулираните предприятия, където всякакви действия могат да бъдат инспектирани или проверени, това е особено важен фактор, който трябва да се вземе предвид.

Типове пристрастия към машинното обучение

Пристрастие на алгоритъма – Това се случва, когато има грешка в алгоритъма, който прави изчисленията, които управляват изчисленията на машинното обучение.
Примерно отклонение – Когато данните са използвани за обучете машинното обучение моделът има проблем, това се случва. В случаите на този вид отклонение, количеството или качеството на данните, използвани за обучение на системата, е недостатъчно. Алгоритъмът ще бъде обучен да вярва, че всички учители са жени, ако например данните за обучение се състоят изцяло от жени учители.
Пристрастност на изключването – Това се случва, когато ключова точка от данни отсъства от набора от данни, които се използват, което може да се случи, ако моделистите не успеят да осъзнаят значението на липсващата точка от данни.
Предразсъдъци – В този случай самото машинно обучение е пристрастно, тъй като данните, използвани за обучение на системата, отразяват пристрастия от реалния свят като предразсъдъци, стереотипи и неправилни социални предположения. Например, ако данните за медицинските специалисти бъдат включени в компютърната система, която включва само мъже лекари и жени медицински сестри, реалният полов стереотип за здравните работници ще бъде увековечен.
Отклонение при измерване – Както подсказва името, това пристрастие е резултат от фундаментални проблеми с качеството на данните и методите, използвани за тяхното събиране или оценка. Система, която се обучава да оценява прецизно теглото, ще бъде предубедена, ако теглата, съдържащи се в данните за обучението, са последователно закръглени, а използването на изображения на доволни служители за обучение на система, предназначена да оценява работната среда, може да бъде предубедено, ако служителите на снимките са знаели, те се измерваха за щастие.

Какви фактори допринасят за пристрастия в машинното обучение?

Въпреки че има много причини за отклонение при машинното обучение, то често възниква от отклонение в самите данни за обучение. Има няколко потенциални основни причини за отклонения в данните за обучението.

Най-очевидната илюстрация са данните за обучение, което е подгрупа от условия, наблюдавани в разгърната система, която не е типична. Това може да са данни за обучение с недостатъчно представяне на една категория или непропорционално количество на друга.

Това е известно като отклонение на извадката и може да е резултат от неслучайно събиране на данни за обучение. Методите, използвани за събиране, анализиране или класифициране на данните, както и историческите корени на данните, могат да доведат до пристрастия в самите данни.

Информацията може дори да е пристрастна исторически в по-голямата култура, където е била събрана.

Пристрастията към машинното обучение се причиняват най-вече от:

Пристрастия, причинени от хора или общество в историческите данни, се използват за обучение на алгоритми.
Данни за обучение, които не отразяват обстоятелствата в реалния свят.
Пристрастия при етикетиране или подготовка на данни за контролирано машинно обучение.

Например, липсата на разнообразие в данните за обучение може да причини пристрастност на представянето. Точността на моделите за машинно обучение често се влияе от исторически пристрастия в по-широката култура.

Това понякога се нарича социално или човешко пристрастие. Намирането на огромни колекции от данни, които не са склонни към обществени пристрастия, може да бъде предизвикателство. Етапът на обработка на данни от жизнения цикъл на машинното обучение е еднакво податлив на човешки пристрастия.

Данни, които са етикетирани и обработени от учен по данни или друг експерт, са необходими за контролирано машинно обучение. Независимо дали произтича от разнообразието от данни, които се почистват, от начина, по който точките от данни са етикетирани, или от избора на функции, отклонението в този процес на етикетиране може да доведе до отклонение в машинното обучение.

Рискове от пристрастия при машинно обучение

Тъй като моделите са инструменти за вземане на решения, базирани на данни, се предполага, че те предоставят безпристрастни преценки. Моделите за машинно обучение често съдържат пристрастия, които могат да повлияят на резултатите.

Все повече индустрии внедряват машинно обучение на мястото на остарял софтуер и процедури. Пристрастните модели могат да имат отрицателни ефекти в реалния свят, когато по-сложните задачи се автоматизират с помощта на модели.

Машинното обучение не се различава от другите процеси на вземане на решения по това, че организациите и хората очакват то да бъде прозрачно и справедливо. Тъй като машинното обучение е автоматизиран процес, преценките, направени с него, понякога се изследват по-внимателно.

От решаващо значение е организациите да бъдат проактивни в справянето с опасностите, тъй като пристрастията в машинното обучение често могат да имат дискриминационни или отрицателни ефекти върху някои групи от населението. По-специално за регулирани контексти трябва да се вземе предвид възможността за отклонение в машинното обучение.

Например машинното обучение в банкирането може да се използва за автоматично приемане или отхвърляне на кандидати за ипотека след първоначална проверка. Модел, който е предубеден към определена група кандидати, може да има пагубни ефекти както върху кандидата, така и върху организацията.

Всяко пристрастие, открито в среда за внедряване, където действията могат да бъдат проверени, може да доведе до големи проблеми. Моделът може да не работи и в най-лошия сценарий може дори да се окаже умишлено дискриминационен.

Отклонението трябва да бъде внимателно оценено и подготвено за него, тъй като може да доведе до пълното премахване на модела от внедряването. Придобиването на доверие в моделните решения изисква разбиране и справяне с пристрастията на машинното обучение.

Нивото на доверие вътре в организацията и сред външните потребители на услуги може да бъде повлияно от възприеманите пристрастия при вземането на моделни решения. Ако на моделите не се вярва, особено когато се насочват високорискови избори, те няма да бъдат използвани с пълния си потенциал в организацията.

Когато се оценява обяснимостта на даден модел, отчитането на отклонението трябва да бъде фактор, който трябва да се вземе предвид. Валидността и точността на избора на модел може да бъде сериозно засегната от непроверено отклонение от машинното обучение.

Понякога това може да доведе до дискриминационни действия, които могат да засегнат определени хора или групи. Съществуват многобройни приложения за различни типове модели на машинно обучение и всяко от тях е податливо на отклонения в машинното обучение до известна степен.

Пристрастията към машинното обучение се илюстрират от:

Поради липсата на разнообразие в данните за обучение, алгоритмите за разпознаване на лица могат да бъдат по-малко точни за някои расови групи.
Програмата може да открие расови и полови пристрастия в данните поради човешки или исторически предразсъдъци.
С определен диалект или акцент обработката на естествения език може да бъде по-точна и може да не е в състояние да обработи акцент, който е недостатъчно представен в данните за обучение.

Разрешаване на пристрастия в машинното обучение

Моделите за наблюдение и преквалификация, когато се установи пристрастие, са два начина за справяне с пристрастието към машинното обучение. В повечето случаи отклонението на модела е индикация за отклонение в данните за обучение или поне отклонението може да бъде свързано с етапа на обучение от жизнения цикъл на машинното обучение.

Всеки етап от жизнения цикъл на модела трябва да има процедури за улавяне на пристрастия или отклонение на модела. Включени са и процеси за наблюдение на машинното обучение след внедряване. Важно е често да проверявате модела и наборите от данни за отклонения.

Това може да включва изследване на набор от данни за обучение, за да видите как групите са разпределени и представени там. Възможно е да се модифицират и/или подобрят набори от данни, които не са напълно представителни.

Освен това трябва да се вземе предвид пристрастието, докато се оценява ефективността на модела. Тестването на ефективността на модела върху различни подмножества от данни може да покаже дали той е предубеден или пренастроен по отношение на определена група.

Възможно е да се оцени ефективността на модела за машинно обучение на определени подмножества от данни чрез използване на техники за кръстосано валидиране. Процедурата включва разделяне на данните в отделни набори от данни за обучение и тестване.

Можете да премахнете пристрастията в машинното обучение чрез:

Когато е необходимо, преобучете модела, като използвате по-големи, по-представителни комплекти за обучение.
Създаване на процедура за проактивно наблюдение за пристрастни резултати и необичайни преценки.
Претеглянето на характеристиките и коригирането на хиперпараметри, ако е необходимо, може да помогне за отчитане на отклонението.
Насърчаване на разрешаването на откритите отклонения чрез непрекъснат цикъл на откриване и оптимизиране.

Заключение

Изкушаващо е да се вярва, че веднъж обучен, моделът на машинно обучение ще функционира автономно. Всъщност работната среда на модела винаги се променя и мениджърите трябва редовно да обучават моделите, като използват нови набори от данни.

Машинното обучение в момента е една от най-завладяващите технологични възможности с икономически ползи в реалния свят. Машинното обучение, когато е съчетано с технологии за големи данни и огромната изчислителна мощност, налична чрез публичния облак, има потенциала да трансформира начина, по който отделните хора взаимодействат с технологиите, а може би и цели индустрии.

Въпреки това, колкото и обещаваща да е технологията за машинно обучение, тя трябва да бъде внимателно планирана, за да се избегнат неволни отклонения. Ефективността на преценките, направени от машините, може да бъде сериозно засегната от пристрастия, което е нещо, което разработчиците на модели за машинно обучение трябва да вземат предвид.

Рискове от отклонение при машинно обучение и как да го предотвратим

И така, какво е пристрастие към машинното обучение?

Типове пристрастия към машинното обучение

Какви фактори допринасят за пристрастия в машинното обучение?

Рискове от пристрастия при машинно обучение

Разрешаване на пристрастия в машинното обучение

Заключение

За нас Сойка

Още статии в HashDork:

Какво представляват отклоненията в данните и как влияят върху ML моделите?

Обучение с подсилване: ИИ, който се учи от грешките си

Топ 10 MLOps инструменти за учене

Въведение за тематично моделиране за начинаещи

Този бюлетин за бъдещи технологии не е гадно

Рискове от отклонение при машинно обучение и как да го предотвратим

И така, какво е пристрастие към машинното обучение?

Типове пристрастия към машинното обучение

Какви фактори допринасят за пристрастия в машинното обучение?

Рискове от пристрастия при машинно обучение

Разрешаване на пристрастия в машинното обучение

Заключение

За нас Сойка

Още статии в HashDork:

Какво представляват отклоненията в данните и как влияят върху ML моделите?

Обучение с подсилване: ИИ, който се учи от грешките си

Топ 10 MLOps инструменти за учене

Въведение за тематично моделиране за начинаещи

Reader Взаимодействия

Оставете коментар Отказване на отговора

Този бюлетин за бъдещи технологии не е гадно

Оставете коментар