Оскільки все більше галузей використовують потужність алгоритмів для автоматизації операцій і прийняття рішень, машинне навчання стає вирішальним компонентом того, як працює сучасний світ.
Проблему упередженості в машинному навчанні вкрай важливо враховувати, коли моделі машинного навчання інтегруються в процеси прийняття рішень різними організаціями.
Метою будь-якої організації, яка використовує моделі машинного навчання, має бути гарантія того, що вибір, згенерований алгоритмами, є неупередженим і позбавленим упередженості. Щоб гарантувати, що на результати моделі можна покластися та вважати їх справедливими, вкрай важливо визнавати та розглядати навчання за допомогою машини упередженість.
Це пов’язано з питаннями пояснюваності моделі або того, наскільки легко людині зрозуміти, як модель машинного навчання прийшла до висновку. Тенденції та шаблони, які моделі машинного навчання відображають і вивчають, походять із самих даних, а не через безпосередній розвиток людини.
Упередженість у машинному навчанні може виникнути з різних причин, якщо його не контролювати та не перевіряти. Коли модель розгортається, вона часто стикається з ситуаціями, які не точно відображені у вибірці навчальних даних.
Модель могла бути надмірною для цього нерепрезентативного навчального набору даних. Незважаючи на відмінну якість навчальних даних, на модель все ще може впливати історична упередженість, яка є результатом ширших культурних впливів.
Після впровадження упереджена модель може надавати перевагу певним групам або втрачати точність із певними підмножинами даних. Це може призвести до вироків, які несправедливо карають певну групу осіб, що може мати негативний вплив на реальний світ.
У цій статті обговорюється упередженість машинного навчання, включно з тим, що це таке, як її виявити, небезпеки, які вона становить, і багато іншого.
Отже, що таке упередженість машинного навчання?
Алгоритм, який виробляє результати, які систематично зміщуються в результаті хибних припущень, зроблених під час процесу машинного навчання, відомий як зміщення машинного навчання, також відоме як зміщення алгоритму або відоме як зміщення AI.
Упередженість машинного навчання — це тенденція моделі надавати перевагу певному набору даних або підмножині даних; це часто викликано нерепрезентативними наборами навчальних даних. З певним набором даних упереджена модель буде погано працювати, що зашкодить її точності.
У реальних умовах це може означати, що упереджені дані навчання призвели до того, що вихідні дані моделі віддають перевагу певній расі, демографічній групі чи статі.
У результаті результати машинного навчання можуть бути несправедливими або дискримінаційними. Нерепрезентативне навчання набори даних можуть сприяти упередженості в машинному навчанні.
Результуюча модель може мати зміщення щодо інших, недостатньо представлених категорій, якщо навчальні дані відсутні або надто репрезентативні для конкретної групи даних. Це може статися, якщо вибірка навчальних даних не точно відповідає реальному середовищу розгортання.
Яскравим прикладом є машинне навчання в галузі охорони здоров’я, яке можна використовувати для перевірки даних пацієнтів на наявність відомих захворювань. Моделі можуть прискорити втручання практикуючих лікарів, якщо їх використовувати належним чином.
Однак можливі упередження. Коли запитують передбачити можливу хворобу у літнього пацієнта, модель не може працювати добре, якщо навчальні дані, які використовуються для її побудови, складаються здебільшого з даних пацієнтів меншого вікового діапазону.
Крім того, історична статистика може бути спотвореною. Наприклад, оскільки історично більшість співробітників були чоловіками, модель, навчена фільтрувати кандидатів на роботу, віддавала б перевагу чоловікам.
Упередженість машинного навчання впливатиме на точність моделі в обох сценаріях, а за найгірших обставин це може навіть призвести до дискримінаційних і несправедливих висновків.
Рішення необхідно ретельно переглядати, щоб переконатися у відсутності упередженості моделі машинного навчання замінити все більше і більше ручних операцій. Як наслідок, модельна практика управління в будь-якій організації повинна включати моніторинг упередженості машинного навчання.
Моделі машинного навчання виконують багато різних видів робіт у різних галузях. Сьогодні моделі використовуються для автоматизації дедалі складніших процесів і створення пропозицій. У цьому процесі прийняття рішень упередження означає, що модель може віддавати перевагу одній конкретній групі над іншою на основі вивченого упередження.
Якщо використовується для прийняття небезпечних суджень із реальними наслідками, це може мати серйозні наслідки. У разі використання, наприклад, для автоматичного схвалення заявок на кредит, упереджена модель може завдати шкоди певній групі населення. У регульованих підприємствах, де будь-які дії можуть бути перевірені або ретельно перевірені, це особливо важливий фактор, який слід враховувати.
Типи упереджень машинного навчання
- Зміщення алгоритму – Це трапляється, коли є помилка в алгоритмі, який виконує обчислення, які керують обчисленнями машинного навчання.
- Зміщення вибірки – Коли дані раніше тренувати машинне навчання модель має проблему, це трапляється. У випадках такого упередження кількість або якість даних, які використовуються для навчання системи, є недостатніми. Алгоритм буде навчено вважати, що всі вчителі жінки, якщо, наприклад, навчальні дані повністю складаються з вчителів-жінок.
- Упередження виключення – Це відбувається, коли важлива точка даних відсутня в наборі даних, що використовується, що може статися, якщо розробники моделі не усвідомлюють значення відсутньої точки даних.
- Упереджене ставлення – У цьому випадку саме машинне навчання є упередженим, оскільки дані, які використовуються для навчання системи, відображають упередження в реальному світі, такі як упередження, стереотипи та неправильні соціальні припущення. Наприклад, якби дані про медичних працівників були включені в комп’ютерну систему, яка включала б лише чоловіків-лікарів і жінок-медсестер, увічнився б реальний гендерний стереотип щодо медичних працівників.
- Зсув вимірювання – Як випливає з назви, це упередження виникає через фундаментальні проблеми з якістю даних і методами, які використовуються для їх збору або оцінки. Система, навчена точному оцінюванню ваги, буде упередженою, якщо ваги, що містяться в даних навчання, постійно округлювалися в більшу сторону, а використання зображень задоволених співробітників для навчання системи, призначеної для оцінки робочого середовища, може бути упередженою, якщо працівники на фотографіях знали, що їх міряли на щастя.
Які фактори сприяють упередженості в машинному навчанні?
Хоча існує багато причин упередженості машинного навчання, вона часто виникає через упередженість самих навчальних даних. Існує кілька потенційних основних причин упередженості в навчальних даних.
Найбільш очевидною ілюстрацією є навчальні дані, які є підмножиною умов, які спостерігаються в розгорнутій системі, але не є типовими. Це можуть бути навчальні дані з недостатнім представленням однієї категорії або непропорційною кількістю іншої.
Це відоме як зміщення вибірки, і воно може бути результатом нерандомізованого збору навчальних даних. Методи, що використовуються для збору, аналізу або класифікації даних, а також історичне коріння даних можуть призвести до упередженості в самих даних.
Інформація може бути навіть упередженою історично в ширшій культурі, де вона була зібрана.
Упередженість машинного навчання здебільшого спричинена:
- Упередження, спричинені людьми чи суспільством в історичних даних, використовуються для навчання алгоритмів.
- Дані про навчання, які не відображають реальні обставини.
- Упередженість під час маркування або підготовки даних для контрольованого машинного навчання.
Наприклад, відсутність різноманітності в навчальних даних може спричинити упередження представлення. На точність моделей машинного навчання часто впливає історична упередженість у ширшій культурі.
Це іноді називають соціальною або людською упередженістю. Знайти великі колекції даних, які не схильні до суспільних упереджень, може бути складно. Етап обробки даних життєвого циклу машинного навчання однаково сприйнятливий до людських упереджень.
Дані, які були позначені та оброблені фахівцем із даних або іншим експертом, необхідні для машинного навчання під наглядом. Незалежно від того, чи виникає це через різноманіття даних, які очищаються, спосіб позначення точок даних або вибір функцій, упередженість у цьому процесі позначення може призвести до упередженості в машинному навчанні.
Ризики упередженості машинного навчання
Оскільки моделі є інструментами прийняття рішень на основі даних, передбачається, що вони забезпечують неупереджені судження. Моделі машинного навчання часто містять упередження, що може вплинути на результати.
Все більше і більше галузей впроваджують машинне навчання замість застарілого програмного забезпечення та процедур. Упереджені моделі можуть мати негативні наслідки в реальному світі, коли більш складні завдання автоматизуються за допомогою моделей.
Машинне навчання не відрізняється від інших процесів прийняття рішень тим, що організації та окремі люди очікують, що воно буде прозорим і справедливим. Оскільки машинне навчання є автоматизованим процесом, судження, зроблені з його використанням, час від часу перевіряються ще ретельніше.
Вкрай важливо, щоб організації проявляли активність у вирішенні небезпек, оскільки упередженість машинного навчання часто може мати дискримінаційний або негативний вплив на деякі групи населення. Для регульованих контекстів, зокрема, слід брати до уваги можливість упередженості в машинному навчанні.
Наприклад, машинне навчання в банківській справі можна використовувати для автоматичного прийняття або відхилення заявників на іпотеку після початкової перевірки. Модель, упереджена до певної групи кандидатів, цілком може мати згубний вплив як на кандидата, так і на організацію.
Будь-яке упередження, виявлене в середовищі розгортання, де дії можуть бути ретельно перевірені, може призвести до серйозних проблем. Модель може не працювати, а в найгіршому сценарії навіть може виявитися навмисно дискримінаційною.
Зміщення необхідно ретельно оцінити та підготуватися до них, оскільки це може призвести до повного вилучення моделі з розгортання. Щоб отримати впевненість у модельних рішеннях, потрібно зрозуміти й усунути упередженість машинного навчання.
На рівень довіри всередині організації та серед зовнішніх споживачів послуг може вплинути сприйняте упередження у прийнятті модельних рішень. Якщо моделям не довіряють, особливо під час прийняття рішень із високим ризиком, вони не будуть використані в повній мірі всередині організації.
При оцінці зрозумілості моделі, облік упередженості має бути фактором, який слід брати до уваги. На достовірність і точність вибору моделі може серйозно вплинути неперевірене упередження машинного навчання.
Іноді це може призвести до дискримінаційних дій, які можуть вплинути на окремих людей або групи. Існує багато програм для різних типів моделей машинного навчання, і кожна певною мірою чутлива до упередженості машинного навчання.
Упередженість машинного навчання ілюструється:
- Через відсутність різноманітності в навчальних даних алгоритми розпізнавання обличчя можуть бути менш точними для деяких расових груп.
- Програма може виявити расові та гендерні упередження в даних через людські або історичні упередження.
- З певним діалектом або акцентом обробка природної мови може бути більш точною, і вона може не мати змоги обробити акцент, який недостатньо представлений у навчальних даних.
Вирішення упередженості в машинному навчанні
Моніторинг і перепідготовка моделей у разі виявлення упередженості є двома способами усунути упередженість машинного навчання. У більшості випадків зміщення моделі є ознакою зміщення в навчальних даних або, принаймні, зміщення може бути пов’язане з етапом навчання життєвого циклу машинного навчання.
Кожна стадія життєвого циклу моделі повинна мати процедури для виявлення упередженості або дрейфу моделі. Також включено процеси моніторингу машинного навчання після розгортання. Важливо часто перевіряти модель і набори даних на упередженість.
Це може передбачати вивчення навчального набору даних, щоб побачити, як групи там розподілені та представлені. Можна змінити та/або покращити набори даних, які не є цілком репрезентативними.
Крім того, під час оцінки ефективності моделі слід враховувати зміщення. Тестування ефективності моделі на різних підмножинах даних може показати, чи є вона упередженою або переобладнаною по відношенню до певної групи.
Можна оцінити продуктивність моделі машинного навчання на певних підмножинах даних за допомогою методів перехресної перевірки. Процедура передбачає розподіл даних на окремі набори даних для навчання та тестування.
Ви можете усунути упередженість у машинному навчанні:
- Якщо необхідно, перенавчіть модель, використовуючи більші, репрезентативніші навчальні набори.
- Встановлення процедури проактивного виявлення упереджених результатів і незвичайних суджень.
- Повторне зважування функцій і коригування гіперпараметрів за необхідності можуть допомогти врахувати зміщення.
- Сприяння вирішенню виявлених зміщень через постійний цикл виявлення та оптимізації.
Висновок
Спокусливо вірити, що після навчання модель машинного навчання функціонуватиме автономно. Насправді операційне середовище моделі постійно змінюється, і менеджери повинні регулярно перенавчати моделі, використовуючи нові набори даних.
Машинне навчання наразі є однією з найцікавіших технологічних можливостей, яка приносить реальні економічні переваги. Машинне навчання в поєднанні з технологіями великих даних і величезною обчислювальною потужністю, доступною через публічну хмару, має потенціал змінити те, як люди взаємодіють з технологіями, а можливо, і цілими галузями.
Однак, якою б багатообіцяючою не була технологія машинного навчання, її потрібно ретельно планувати, щоб уникнути ненавмисних упереджень. На ефективність суджень, зроблених машинами, може серйозно вплинути упередженість, і це те, що розробники моделі машинного навчання повинні враховувати.
залишити коментар