Kako sve više industrija koristi snagu algoritama za automatizaciju operacija i donošenje izbora, mašinsko učenje postaje ključna komponenta načina na koji savremeni svijet funkcionira.
Pitanje pristranosti u mašinskom učenju ključno je uzeti u obzir kada se modeli mašinskog učenja integrišu u procese donošenja odluka u različitim organizacijama.
Garantovanje da su izbori generisani algoritmima nepristrasni i lišeni pristrasnosti trebalo bi da bude cilj svake organizacije koja koristi modele mašinskog učenja. Kako bi se osiguralo da se na rezultate modela može osloniti i gledati kao pošteno, ključno je prepoznati i adresirati mašinsko učenje pristranost.
Odnosi se na pitanja objašnjivosti modela, odnosno koliko je lako za osobu da shvati kako je model mašinskog učenja došao do zaključka. Trendovi i obrasci koje modeli mašinskog učenja mapiraju i uče potiču iz samih podataka, a ne iz direktnog ljudskog razvoja.
Pristrasnost u mašinskom učenju može se pojaviti iz raznih razloga ako se ne kontrolira i provjerava. Kada se model implementira, on se često susreće sa situacijama koje se ne odražavaju precizno u uzorku podataka o obuci.
Model je mogao biti previše prilagođen za ovaj nereprezentativni skup podataka za obuku. Uprkos odličnom kvalitetu podataka o obuci, model još uvijek može biti pod utjecajem historijskih predrasuda koje proizlaze iz širih kulturnih utjecaja.
Jednom implementiran, pristrasni model bi mogao favorizirati određene grupe ili izgubiti tačnost s određenim podskupovima podataka. To može rezultirati presudama koje nepravedno kažnjavaju određenu grupu pojedinaca, što može imati negativne posljedice na stvarni svijet.
Ovaj članak govori o pristranosti mašinskog učenja, uključujući šta je to, kako je uočiti, opasnosti koje predstavlja i još mnogo toga.
Dakle, šta je pristrasnost mašinskog učenja?
Algoritam koji proizvodi rezultate koji su sistematski pristrasni kao rezultat lažnih pretpostavki napravljenih tokom procesa mašinskog učenja poznat je kao pristrasnost mašinskog učenja, takođe poznata kao pristrasnost algoritma ili poznata kao AI pristrasnost.
Pristrasnost mašinskog učenja je tendencija modela da favorizuje određeni skup podataka ili podskup podataka; često ga pokreću nereprezentativni skupovi podataka za obuku. Uz određenu zbirku podataka, pristrasni model će imati lošiji učinak, što će štetiti njegovoj preciznosti.
U stvarnom okruženju, ovo može implicirati da su pristrasni podaci o obuci rezultirali u izlazu modela koji favorizuje određenu rasu, demografiju ili spol.
Kao rezultat toga, rezultati mašinskog učenja mogu biti nepravedni ili diskriminirajući. Nereprezentativna obuka skupovi podataka mogu doprinijeti pristrasnosti u mašinskom učenju.
Rezultirajući model može biti pristrasan prema drugim, nedovoljno zastupljenim kategorijama ako podaci o obuci nedostaju ili su previše reprezentativni za određenu grupu podataka. Ovo se može dogoditi ako uzorak podataka o obuci ne odgovara precizno okruženju implementacije u stvarnom svijetu.
Strojno učenje u zdravstvenoj industriji, koje se može koristiti za provjeru podataka o pacijentima u odnosu na poznate bolesti ili bolesti, je odličan primjer. Modeli mogu ubrzati intervencije ljekara kada se koriste na odgovarajući način.
Međutim, moguće su predrasude. Kada se traži da predvidi moguću bolest kod starijeg pacijenta, model ne može dobro funkcionirati ako se podaci o obuci koji se koriste za njegovu izradu uglavnom sastoje od podataka o pacijentima iz manjeg raspona godina.
Osim toga, historijska statistika može biti iskrivljena. Na primjer, budući da su u prošlosti većina zaposlenih bili muškarci, model obučen za filtriranje kandidata za posao favorizirao bi muške kandidate.
Pristrasnost mašinskog učenja će uticati na tačnost modela u oba scenarija, au najgorim okolnostima čak može dovesti do diskriminirajućih i nepravednih zaključaka.
Odluke se moraju pažljivo pregledati kako bi se osiguralo da nema pristrasnosti kao Modeli mašinskog učenja zamijeniti sve više ručnih operacija. Kao rezultat toga, model prakse upravljanja u bilo kojoj organizaciji treba da uključuje praćenje pristranosti mašinskog učenja.
Mnogo različitih vrsta poslova u mnogim različitim industrijama se završavaju modelima mašinskog učenja. Danas se modeli koriste za automatizaciju sve težih procesa i za generiranje prijedloga. U ovom procesu donošenja odluka, pristrasnost znači da model može dati prednost jednoj određenoj grupi u odnosu na drugu na osnovu naučene pristranosti.
Kada se koristi za donošenje nesigurnih presuda sa stvarnim posljedicama, to može imati ozbiljne posljedice. Kada se, na primjer, koristi za automatsko odobravanje zahtjeva za kredit, pristrasni model može štetiti određenoj populaciji. U reguliranim poslovima gdje se bilo koja radnja može provjeriti ili ispitati, ovo je posebno važan faktor koji treba uzeti u obzir.
Tipovi pristranosti mašinskog učenja
- Algoritam Bias – Ovo se dešava kada postoji greška u algoritmu koji vrši proračune koji pokreću računanja mašinskog učenja.
- Sample Bias – Kada se podaci koriste trenirati mašinsko učenje model ima problem, to se dešava. U slučajevima ove vrste pristrasnosti, količina ili kvalitet podataka koji se koriste za obuku sistema su nedovoljni. Algoritam će biti osposobljen da vjeruje da su svi nastavnici žene ako se, na primjer, podaci o obuci u potpunosti sastoje od učiteljica.
- Pristrasnost isključivanja – Ovo se dešava kada ključna tačka podataka odsutna iz skupa podataka koji se koriste, što se može dogoditi ako modeleri ne shvate značaj tačke podataka koja nedostaje.
- Pristrasnost predrasuda – U ovom slučaju, samo mašinsko učenje je pristrasno jer podaci koji se koriste za obuku sistema odražavaju predrasude u stvarnom svetu kao što su predrasude, stereotipi i netačne društvene pretpostavke. Na primjer, ako bi podaci o medicinskim radnicima bili uključeni u kompjuterski sistem koji uključuje samo muške ljekare i medicinske sestre, postojao bi rodni stereotip iz stvarnog svijeta o zdravstvenim radnicima.
- Measurement Bias – Kao što naziv implicira, ova pristrasnost proizilazi iz fundamentalnih problema s kvalitetom podataka i metodama koje se koriste za njihovo prikupljanje ili evaluaciju. Sistem koji je obučen za preciznu procjenu težine bit će pristrasan ako su težine sadržane u podacima o obuci dosljedno zaokružene, a korištenje slika zadovoljnih zaposlenika za obuku sistema namijenjenog za procjenu okruženja na radnom mjestu može biti pristrasno ako su zaposleni na slikama znali mjerili su se za sreću.
Koji faktori doprinose pristrasnosti u mašinskom učenju?
Iako postoji mnogo razloga za pristrasnost mašinskog učenja, ona često proizlazi iz pristranosti u samim podacima o obuci. Postoji nekoliko potencijalnih temeljnih uzroka pristranosti u podacima o obuci.
Najočiglednija ilustracija su podaci o obuci, koji su podskup uslova koji se vide u raspoređenom sistemu koji nije tipičan. Ovo mogu biti podaci o obuci sa nedostatkom jedne kategorije ili nesrazmjernom količinom druge.
Ovo je poznato kao pristranost uzorka i može biti rezultat nerandomiziranog prikupljanja podataka o obuci. Metode koje se koriste za prikupljanje, analizu ili klasifikaciju podataka, kao i historijski korijeni podataka, mogu dovesti do pristranosti u samim podacima.
Informacije mogu čak biti istorijski pristrane u široj kulturi u kojoj su prikupljene.
Pristranost mašinskog učenja uglavnom je uzrokovana:
- Predrasude uzrokovane ljudima ili društvom u istorijskim podacima koriste se za obuku algoritama.
- Podaci o obuci koji ne odražavaju stvarne okolnosti.
- Pristranost prilikom označavanja ili pripreme podataka za nadgledano mašinsko učenje.
Na primjer, nedostatak raznolikosti u podacima o obuci može uzrokovati pristrasnost reprezentacije. Na tačnost modela mašinskog učenja često utiče istorijska pristrasnost u široj kulturi.
Ovo se ponekad naziva društvenom ili ljudskom pristrasnošću. Pronalaženje velikih kolekcija podataka koji nisu skloni društvenim predrasudama može biti izazovno. Faza obrade podataka životnog ciklusa mašinskog učenja podjednako je podložna ljudskoj pristranosti.
Podaci koje je označio i obradio stručnjak za podatke ili drugi stručnjak neophodni su za nadgledano mašinsko učenje. Bilo da proizilazi iz raznolikosti podataka koji se čiste, načina na koji su tačke podataka označene ili izbora karakteristika, pristrasnost u ovom procesu označavanja može dovesti do pristranosti u mašinskom učenju.
Rizici pristranosti mašinskog učenja
Budući da su modeli alati za donošenje odluka vođeni podacima, pretpostavlja se da oni pružaju nepristrasne prosudbe. Modeli mašinskog učenja često sadrže pristrasnost, što može uticati na rezultate.
Sve više industrija implementira mašinsko učenje umjesto zastarjelog softvera i procedura. Pristrasni modeli mogu imati negativne efekte u stvarnom svijetu kada se složeniji poslovi automatiziraju korištenjem modela.
Mašinsko učenje se ne razlikuje od drugih procesa donošenja odluka po tome što organizacije i pojedinci očekuju da bude transparentno i pravično. Budući da je strojno učenje automatiziran proces, prosudbe donesene pomoću njega povremeno se još pažljivije ispituju.
Ključno je da organizacije budu proaktivne u rješavanju opasnosti jer pristrasnost u mašinskom učenju često može imati diskriminatorne ili negativne efekte na neke populacije. Za regulisane kontekste, posebno, mora se uzeti u obzir mogućnost pristranosti u mašinskom učenju.
Na primjer, mašinsko učenje u bankarstvu moglo bi se koristiti za automatsko prihvatanje ili odbijanje podnositelja zahtjeva za hipoteku nakon početnog pregleda. Model koji je pristrasan prema određenoj grupi kandidata mogao bi imati štetne efekte i na kandidata i na organizaciju.
Svaka pristrasnost koja se nađe u okruženju implementacije u kojem se radnje može pažljivo ispitati može dovesti do velikih problema. Model možda neće funkcionirati i, u najgorim scenarijima, čak bi se mogao ispostaviti da je namjerno diskriminirajući.
Pristrasnost mora biti pažljivo procijenjena i pripremljena jer može rezultirati potpunom uklanjanjem modela iz primjene. Stjecanje povjerenja u odluke modela zahtijeva razumijevanje i rješavanje pristrasnosti mašinskog učenja.
Na nivo povjerenja unutar organizacije i među eksternim korisnicima usluga može uticati uočena pristrasnost u modelu odlučivanja. Ako se modelima ne vjeruje, posebno kada se usmjeravaju na visokorizične izbore, oni neće biti iskorišteni do punog potencijala unutar organizacije.
Prilikom procene objašnjivosti modela, uračunavanje pristrasnosti trebalo bi da bude faktor koji treba uzeti u obzir. Na validnost i tačnost izbora modela može ozbiljno uticati neproverena pristrasnost mašinskog učenja.
Povremeno može rezultirati diskriminatornim radnjama koje mogu uticati na određene ljude ili grupe. Postoje brojne aplikacije za različite tipove modela mašinskog učenja, a svaka je u određenoj meri podložna pristrasnosti mašinskog učenja.
Pristrasnost mašinskog učenja ilustruje:
- Zbog nedostatka raznolikosti u podacima o obuci, algoritmi za prepoznavanje lica mogu biti manje precizni za neke rasne grupe.
- Program bi mogao otkriti rasnu i rodnu pristrasnost u podacima zbog ljudskih ili istorijskih predrasuda.
- Sa određenim dijalektom ili akcentom, obrada prirodnog jezika mogla bi biti preciznija i možda neće moći obraditi naglasak koji je nedovoljno zastupljen u podacima o obuci.
Rješavanje predrasuda u mašinskom učenju
Modeli praćenja i ponovne obuke kada se otkrije pristrasnost su dva načina za rješavanje pristrasnosti mašinskog učenja. U većini slučajeva, pristranost modela je pokazatelj pristranosti u podacima o obuci, ili barem pristrasnost može biti povezana sa fazom obuke u životnom ciklusu mašinskog učenja.
Svaka faza životnog ciklusa modela treba da ima procedure za hvatanje pristrasnosti ili odstupanja modela. Uključeni su i procesi za praćenje mašinskog učenja nakon implementacije. Važno je često provjeravati model i skupove podataka na pristrasnost.
Ovo može uključivati ispitivanje skupa podataka za obuku da se vidi kako su grupe tamo raspoređene i predstavljene. Moguće je modificirati i/ili poboljšati skupove podataka koji nisu u potpunosti reprezentativni.
Osim toga, pristrasnost treba uzeti u obzir prilikom procjene performansi modela. Testiranje performansi modela na različitim podskupovima podataka može pokazati da li je pristrasan ili previše prilagođen u odnosu na određenu grupu.
Moguće je procijeniti performanse modela strojnog učenja na određenim podskupovima podataka korištenjem tehnika unakrsne validacije. Procedura uključuje podjelu podataka u različite skupove podataka za obuku i testiranje.
Možete ukloniti pristrasnost u mašinskom učenju na sljedeći način:
- Kada je potrebno, ponovo obučite model koristeći veće, reprezentativnije skupove za obuku.
- Uspostavljanje procedure za proaktivno traženje pristrasnih rezultata i neobičnih presuda.
- Ponovno ponderisanje karakteristika i prilagođavanje hiperparametara po potrebi mogu pomoći da se uzme u obzir pristrasnost.
- Podsticanje rješavanja otkrivene pristranosti kroz kontinuirani ciklus detekcije i optimizacije.
zaključak
Primamljivo je vjerovati da bi, jednom obučen, model strojnog učenja funkcionirao autonomno. U stvari, operativno okruženje modela se uvijek mijenja i menadžeri moraju redovno obučavati modele koristeći nove skupove podataka.
Mašinsko učenje je trenutno jedna od najfascinantnijih tehnoloških mogućnosti sa stvarnim ekonomskim prednostima. Mašinsko učenje, kada je upareno sa tehnologijama velikih podataka i ogromnom računarskom snagom dostupnom kroz javni oblak, ima potencijal da transformiše način na koji pojedinci komuniciraju s tehnologijom, a možda i čitave industrije.
Međutim, koliko god tehnologija mašinskog učenja bila obećavajuća, ona mora biti pažljivo planirana kako bi se izbjegle nenamjerne pristranosti. Na efektivnost prosuđivanja koje donose mašine može ozbiljno uticati pristrasnost, što je nešto što programeri modela mašinskog učenja moraju uzeti u obzir.
Ostavite odgovor