Ponieważ coraz więcej branż wykorzystuje moc algorytmów do automatyzacji operacji i dokonywania wyborów, uczenie maszynowe staje się kluczowym elementem funkcjonowania współczesnego świata.
Kwestia stronniczości w uczeniu maszynowym ma kluczowe znaczenie, gdy modele uczenia maszynowego są integrowane z procesami decyzyjnymi różnych organizacji.
Zagwarantowanie, że wybory generowane przez algorytmy są bezstronne i pozbawione uprzedzeń, powinno być celem każdej organizacji korzystającej z modeli uczenia maszynowego. Aby upewnić się, że na wynikach modelu można polegać i postrzegać je jako uczciwe, kluczowe znaczenie ma ich rozpoznanie i uwzględnienie uczenie maszynowe stronniczość.
Jest to związane z kwestiami wyjaśnialności modelu lub tego, jak łatwo jest zrozumieć, w jaki sposób model uczenia maszynowego doszedł do wniosku. Trendy i wzorce, które modele uczenia maszynowego mapują i uczą się, pochodzą z samych danych, a nie z bezpośredniego rozwoju człowieka.
Stronniczość w uczeniu maszynowym może pojawić się z różnych powodów, jeśli nie jest kontrolowana i sprawdzana. Po wdrożeniu modelu często napotyka on sytuacje, które nie są dokładnie odzwierciedlone w próbce danych szkoleniowych.
Model mógł być nadmiernie dopasowany do tego niereprezentatywnego zestawu danych szkoleniowych. Pomimo doskonałej jakości danych treningowych, model może nadal podlegać historycznemu uprzedzeniu wynikającemu z szerszych wpływów kulturowych.
Po wdrożeniu obciążony model może faworyzować określone grupy lub tracić dokładność w przypadku określonych podzbiorów danych. Może to skutkować wyrokami, które niesprawiedliwie karzą określoną grupę jednostek, co może mieć negatywne skutki dla rzeczywistego świata.
W tym artykule omówiono stronniczość uczenia maszynowego, w tym czym jest, jak ją wykryć, jakie stwarza niebezpieczeństwa i wiele więcej.
Czym jest błąd uczenia maszynowego?
Algorytm generujący dane wyjściowe, które są systematycznie tendencyjne w wyniku fałszywych założeń przyjętych podczas procesu uczenia maszynowego, jest znany jako błąd uczenia maszynowego, znany również jako błąd algorytmu lub błąd sztucznej inteligencji.
Błąd uczenia maszynowego to tendencja modelu do faworyzowania określonego zestawu danych lub podzbioru danych; często jest to spowodowane niereprezentatywnymi zestawami danych szkoleniowych. Przy pewnym zbiorze danych obciążony model będzie nieskuteczny, co zaszkodzi jego dokładności.
W rzeczywistych warunkach może to oznaczać, że tendencyjne dane treningowe spowodowały, że dane wyjściowe modelu faworyzowały określoną rasę, grupę demograficzną lub płeć.
W rezultacie wyniki uczenia maszynowego mogą być niesprawiedliwe lub dyskryminujące. Szkolenie niereprezentatywne zestawy danych mogą przyczyniać się do stronniczości w uczeniu maszynowym.
Wynikowy model może być obciążony w kierunku innych, niedostatecznie reprezentowanych kategorii, jeśli brakuje danych uczących lub są one zbyt reprezentatywne dla określonej grupy danych. Może się tak zdarzyć, jeśli próbka danych szkoleniowych nie jest dokładnie zgodna z rzeczywistym środowiskiem wdrażania.
Doskonałym przykładem jest uczenie maszynowe w branży medycznej, które można wykorzystać do sprawdzania danych pacjentów pod kątem znanych chorób lub schorzeń. Odpowiednio stosowane modele mogą przyspieszyć interwencje lekarzy.
Jednak uprzedzenia są możliwe. Poproszony o przewidywanie możliwej choroby u starszego pacjenta, model nie może działać dobrze, jeśli dane szkoleniowe użyte do jego skonstruowania składają się głównie z danych pacjentów z mniejszego przedziału wiekowego.
Ponadto statystyki historyczne mogą być wypaczone. Na przykład, ponieważ historycznie większość pracowników stanowili mężczyźni, model przeszkolony do filtrowania kandydatów do pracy faworyzowałby kandydatów płci męskiej.
Błąd uczenia maszynowego będzie miał wpływ na dokładność modelu w obu scenariuszach, aw najgorszych okolicznościach może nawet skutkować dyskryminującymi i niesprawiedliwymi wnioskami.
Decyzje muszą być dokładnie przejrzane, aby upewnić się, że nie występują uprzedzenia, ponieważ: modele uczenia maszynowego zastąpić coraz więcej operacji ręcznych. W rezultacie praktyki zarządzania modelami w każdej organizacji powinny obejmować monitorowanie pod kątem stronniczości uczenia maszynowego.
Modele uczenia maszynowego realizują wiele różnych typów zadań w wielu różnych branżach. Dziś modele służą do automatyzacji coraz trudniejszych procesów i generowania sugestii. W tym procesie decyzyjnym stronniczość oznacza, że model może faworyzować jedną konkretną grupę nad inną w oparciu o wyuczone uprzedzenia.
Wykonywanie niebezpiecznych ocen z rzeczywistymi konsekwencjami może mieć poważne konsekwencje. Na przykład, gdy jest używany do automatycznego zatwierdzania wniosków o pożyczkę, tendencyjny model może szkodzić określonej populacji. W przedsiębiorstwach podlegających regulacjom, w których wszelkie działania mogą podlegać kontroli lub kontroli, jest to szczególnie istotny czynnik, który należy wziąć pod uwagę.
Typy uprzedzeń uczenia maszynowego
- Błąd algorytmu – Dzieje się tak, gdy występuje błąd w algorytmie wykonującym obliczenia, które napędzają obliczenia uczenia maszynowego.
- Odchylenie próbki – Kiedy dane używane do trenować uczenie maszynowe model ma problem, tak się dzieje. W przypadku tego rodzaju stronniczości ilość lub jakość danych wykorzystywanych do uczenia systemu jest niewystarczająca. Algorytm zostanie wyszkolony tak, aby wierzył, że wszyscy nauczyciele to kobiety, jeśli na przykład dane szkoleniowe składają się wyłącznie z nauczycielek.
- Błąd wykluczenia – Dzieje się tak, gdy w wykorzystywanym zbiorze danych brakuje kluczowego punktu danych, co może się zdarzyć, jeśli twórcy modeli nie zdadzą sobie sprawy ze znaczenia brakującego punktu danych.
- Uprzedzenia – W tym przypadku samo uczenie maszynowe jest stronnicze, ponieważ dane wykorzystywane do szkolenia systemu odzwierciedlają rzeczywiste uprzedzenia, takie jak uprzedzenia, stereotypy i błędne założenia społeczne. Na przykład, gdyby dane dotyczące pracowników służby zdrowia zostały włączone do systemu komputerowego, który obejmowałby tylko lekarzy płci męskiej i pielęgniarki, utrwaliłby się prawdziwy stereotyp dotyczący płci pracowników służby zdrowia.
- Odchylenie pomiaru – Jak sama nazwa wskazuje, ta stronniczość wynika z fundamentalnych problemów z jakością danych i metodami ich gromadzenia lub oceny. System trenowany w celu precyzyjnej oceny wagi będzie stronniczy, jeśli wagi zawarte w danych treningowych będą konsekwentnie zaokrąglane w górę, a używanie zdjęć zadowolonych pracowników do szkolenia systemu mającego na celu ocenę środowiska pracy może być stronnicze, jeśli pracownicy na zdjęciach wiedzieli mierzono ich szczęściem.
Jakie czynniki przyczyniają się do stronniczości w uczeniu maszynowym?
Chociaż istnieje wiele przyczyn błędu uczenia maszynowego, często wynika on z błędu w samych danych szkoleniowych. Istnieje kilka potencjalnych przyczyn odchyleń w danych szkoleniowych.
Najbardziej widoczną ilustracją są dane szkoleniowe, które są podzbiorem warunków występujących we wdrożonym systemie, które nie są typowe. Mogą to być dane szkoleniowe z niedostateczną reprezentacją jednej kategorii lub nieproporcjonalną ilością innej.
Jest to znane jako błąd próby i może wynikać z nierandomizowanego gromadzenia danych treningowych. Metody stosowane do gromadzenia, analizowania lub klasyfikowania danych, a także historyczne korzenie danych mogą prowadzić do stronniczości samych danych.
Informacje mogą być nawet stronnicze historycznie w większej kulturze, w której zostały zebrane.
Stronniczość uczenia maszynowego jest spowodowana głównie przez:
- Błędy spowodowane przez ludzi lub społeczeństwo w danych historycznych są wykorzystywane do trenowania algorytmów.
- Dane treningowe, które nie odzwierciedlają rzeczywistych warunków.
- Odchylenie podczas etykietowania lub przygotowywania danych do nadzorowanego uczenia maszynowego.
Na przykład brak różnorodności danych treningowych może powodować stronniczość reprezentacji. Na dokładność modeli uczenia maszynowego często wpływają uprzedzenia historyczne w szerszej kulturze.
Jest to czasami określane jako stronniczość społeczna lub ludzka. Znalezienie ogromnych zbiorów danych, które nie są podatne na uprzedzenia społeczne, może być trudne. Etap przetwarzania danych w cyklu życia uczenia maszynowego jest równie podatny na stronniczość człowieka.
Dane, które zostały oznaczone i przetworzone przez analityka danych lub innego eksperta, są niezbędne do nadzorowanego uczenia maszynowego. Niezależnie od tego, czy wynika to z różnorodności czyszczonych danych, sposobu oznaczania punktów danych lub wyboru funkcji, stronniczość w tym procesie etykietowania może prowadzić do stronniczości w uczeniu maszynowym.
Ryzyko stronniczości uczenia maszynowego
Ponieważ modele są narzędziami podejmowania decyzji opartymi na danych, zakłada się, że zapewniają one bezstronne osądy. Modele uczenia maszynowego często zawierają uprzedzenia, które mogą wpływać na wyniki.
Coraz więcej branż wdraża uczenie maszynowe w miejsce przestarzałego oprogramowania i procedur. Stronnicze modele mogą mieć negatywne skutki w świecie rzeczywistym, gdy bardziej skomplikowane zadania są automatyzowane za pomocą modeli.
Uczenie maszynowe nie różni się od innych procesów decyzyjnych w tym sensie, że organizacje i osoby prywatne oczekują, że będzie przejrzysty i sprawiedliwy. Ponieważ uczenie maszynowe jest procesem zautomatyzowanym, oceny dokonane za jego pomocą są czasami jeszcze dokładniej badane.
Bardzo ważne jest, aby organizacje aktywnie reagowały na zagrożenia, ponieważ uprzedzenia w uczeniu maszynowym mogą często mieć dyskryminujący lub negatywny wpływ na niektóre populacje. W szczególności w przypadku kontekstów regulowanych należy wziąć pod uwagę możliwość stronniczości w uczeniu maszynowym.
Na przykład uczenie maszynowe w bankowości może być wykorzystywane do automatycznego akceptowania lub odrzucania osób ubiegających się o kredyt hipoteczny po wstępnej weryfikacji. Model ukierunkowany na określoną grupę kandydatów może mieć szkodliwy wpływ zarówno na kandydata, jak i na organizację.
Każda stronniczość wykryta w środowisku wdrożeniowym, w którym działania mogą być analizowane, może prowadzić do poważnych problemów. Model może się nie sprawdzić, aw najgorszym przypadku może nawet okazać się celowo dyskryminujący.
Odchylenie należy dokładnie ocenić i przygotować się na nie, ponieważ może ono spowodować całkowite usunięcie modelu z wdrożenia. Uzyskanie pewności co do decyzji dotyczących modeli wymaga zrozumienia błędu uczenia maszynowego i zajęcia się nim.
Na poziom zaufania wewnątrz organizacji i wśród zewnętrznych konsumentów usług może mieć wpływ postrzegana stronniczość w podejmowaniu decyzji modelowych. Jeśli modele nie cieszą się zaufaniem, zwłaszcza przy podejmowaniu ryzykownych wyborów, nie będą w pełni wykorzystywane w organizacji.
Przy ocenie wyjaśnialności modelu należy wziąć pod uwagę uwzględnienie błędu systematycznego. Na ważność i dokładność wyborów modeli może mieć poważny wpływ niekontrolowana stronniczość uczenia maszynowego.
Czasami może to skutkować działaniami dyskryminacyjnymi, które mogą mieć wpływ na określone osoby lub grupy. Istnieje wiele aplikacji dla różnych typów modeli uczenia maszynowego, a każda z nich jest do pewnego stopnia podatna na błąd uczenia maszynowego.
Błąd uczenia maszynowego ilustruje:
- Ze względu na brak różnorodności danych treningowych algorytmy rozpoznawania twarzy mogą być mniej dokładne w przypadku niektórych grup rasowych.
- Program może wykrywać uprzedzenia rasowe i płciowe w danych spowodowane uprzedzeniami ludzkimi lub historycznymi.
- W przypadku określonego dialektu lub akcentu przetwarzanie języka naturalnego może być dokładniejsze i może nie być w stanie przetworzyć akcentu, który jest niedostatecznie reprezentowany w danych uczących.
Rozwiązywanie uprzedzeń w uczeniu maszynowym
Monitorowanie i ponowne szkolenie modeli w przypadku wykrycia odchylenia to dwa sposoby rozwiązania problemu z błędem uczenia maszynowego. W większości przypadków stronniczość modelu wskazuje na stronniczość w danych treningowych lub przynajmniej stronniczość może być związana z etapem szkolenia cyklu życia uczenia maszynowego.
Na każdym etapie cyklu życia modelu powinny istnieć procedury wyłapywania odchyleń lub dryfowania modelu. Uwzględniono również procesy monitorowania uczenia maszynowego po wdrożeniu. Ważne jest, aby często sprawdzać model i zestawy danych pod kątem odchyleń.
Może to obejmować zbadanie zestawu danych szkoleniowych, aby zobaczyć, w jaki sposób grupy są tam rozmieszczone i reprezentowane. Możliwe jest modyfikowanie i/lub ulepszanie zbiorów danych, które nie są w pełni reprezentatywne.
Ponadto podczas oceny wydajności modelu należy wziąć pod uwagę błąd systematyczny. Testowanie wydajności modelu na różnych podzbiorach danych może wykazać, czy jest on obciążony lub nadmiernie dopasowany w stosunku do określonej grupy.
Istnieje możliwość oceny wydajności modelu uczenia maszynowego na określonych podzbiorach danych za pomocą technik sprawdzania poprawności krzyżowej. Procedura obejmuje podzielenie danych na odrębne zbiory danych treningowych i testowych.
Możesz wyeliminować stronniczość w uczeniu maszynowym poprzez:
- W razie potrzeby przeszkol model przy użyciu większych, bardziej reprezentatywnych zestawów uczących.
- Ustanowienie procedury proaktywnego wykrywania stronniczych wyników i nietypowych osądów.
- Ponowne ważenie funkcji i dostosowywanie hiperparametrów w razie potrzeby może pomóc w uwzględnieniu stronniczości.
- Zachęcanie do rozwiązywania wykrytych błędów poprzez ciągły cykl wykrywania i optymalizacji.
Wnioski
Kuszące jest przekonanie, że po przeszkoleniu model uczenia maszynowego będzie działał autonomicznie. W rzeczywistości środowisko operacyjne modelu stale się zmienia, a menedżerowie muszą regularnie szkolić modele przy użyciu świeżych zestawów danych.
Uczenie maszynowe jest obecnie jedną z najbardziej fascynujących możliwości technologicznych przynoszących realne korzyści ekonomiczne. Uczenie maszynowe w połączeniu z technologiami big data i ogromną mocą obliczeniową dostępną w chmurze publicznej może zmienić sposób, w jaki jednostki wchodzą w interakcje z technologią, a być może całe branże.
Jednak niezależnie od tego, jak obiecująca jest technologia uczenia maszynowego, musi być starannie zaplanowana, aby uniknąć niezamierzonych błędów. Skuteczność osądów dokonywanych przez maszyny może być poważnie ograniczona przez stronniczość, co twórcy modeli uczenia maszynowego muszą wziąć pod uwagę.
Dodaj komentarz