Kako sve više industrija koristi snagu algoritama za automatizaciju operacija i donošenje odluka, strojno učenje postaje ključna komponenta načina na koji funkcionira suvremeni svijet.
Pitanje pristranosti u strojnom učenju ključno je uzeti u obzir kada se modeli strojnog učenja integriraju u procese donošenja odluka u različitim organizacijama.
Zajamčiti da su izbori koje generiraju algoritmi nepristrani i lišeni pristranosti trebao bi biti cilj svake organizacije koja koristi modele strojnog učenja. Kako bi se osiguralo da se na rezultate modela može pouzdati i da ih se može smatrati poštenim, ključno je prepoznati i riješiti stroj za učenje pristranost.
Povezano je s pitanjima objašnjivosti modela ili koliko je lako osobi shvatiti kako je model strojnog učenja došao do zaključka. Trendovi i obrasci koje modeli strojnog učenja mapiraju i uče dolaze iz samih podataka, a ne kroz izravni ljudski razvoj.
Pristranost u strojnom učenju može se pojaviti iz raznih razloga ako se ne kontrolira i ne provjerava. Kada se model implementira, često se susreće sa situacijama koje nisu točno prikazane u uzorku podataka za obuku.
Model je mogao biti pretjeran za ovaj nereprezentativni skup podataka za obuku. Unatoč izvrsnoj kvaliteti podataka o obuci, na model još uvijek može utjecati povijesna pristranost koja proizlazi iz širih kulturnih utjecaja.
Jednom implementiran, pristrani model mogao bi favorizirati određene skupine ili izgubiti točnost s određenim podskupovima podataka. To bi moglo rezultirati presudama koje nepravedno kažnjavaju određenu skupinu pojedinaca, što bi moglo imati negativne učinke na stvarni svijet.
Ovaj članak govori o pristranosti strojnog učenja, uključujući što je, kako je uočiti, opasnosti koje predstavlja i još mnogo toga.
Dakle, što je pristranost strojnog učenja?
Algoritam koji proizvodi rezultate koji su sustavno pristrani kao rezultat pogrešnih pretpostavki napravljenih tijekom procesa strojnog učenja poznat je kao pristranost strojnog učenja, također poznata kao pristranost algoritma ili poznata kao pristranost umjetne inteligencije.
Pristranost strojnog učenja je tendencija modela da favorizira određeni skup podataka ili podskup podataka; često ga uzrokuju nereprezentativni skupovi podataka o obuci. S određenom zbirkom podataka, pristrani model imat će slabije rezultate, što će naštetiti njegovoj točnosti.
U stvarnom okruženju to može značiti da su pristrani podaci o obuci rezultirali izlazom modela koji favorizira određenu rasu, demografiju ili spol.
Kao rezultat toga, rezultati strojnog učenja mogu biti nepravedni ili diskriminirajući. Nereprezentativni trening skupovi podataka mogu doprinijeti pristranosti u strojnom učenju.
Rezultirajući model može biti pristran prema drugim, nedovoljno zastupljenim kategorijama ako podaci o obuci nedostaju ili su previše reprezentativni za određenu skupinu podataka. To se može dogoditi ako uzorak podataka o obuci ne odgovara točno okruženju primjene u stvarnom svijetu.
Strojno učenje u zdravstvenoj industriji, koje se može koristiti za provjeru podataka o pacijentima u odnosu na poznate bolesti ili oboljenja, najbolji je primjer. Modeli mogu ubrzati intervencije liječnika kada se pravilno koriste.
Međutim, predrasude su moguće. Kada se od njega traži da predvidi moguću bolest kod starijeg pacijenta, model se ne može dobro ponašati ako se podaci o obuci korišteni za njegovu izradu većinom sastoje od podataka o pacijentima iz manjeg dobnog raspona.
Osim toga, povijesna statistika može biti iskrivljena. Na primjer, budući da su povijesno većina zaposlenika bili muškarci, model obučen za filtriranje kandidata za posao favorizirao bi muške kandidate.
Pristranost strojnog učenja utjecat će na točnost modela u oba scenarija, a u najgorim okolnostima čak bi mogla rezultirati diskriminirajućim i nepravednim zaključcima.
Odluke se moraju pažljivo pregledati kako bi se osiguralo da nema pristranosti modeli strojnog učenja zamijeniti sve više ručnih operacija. Kao rezultat toga, model prakse upravljanja u svakoj organizaciji trebao bi uključivati praćenje pristranosti strojnog učenja.
Mnoge različite vrste poslova u mnogim različitim industrijama obavljaju se pomoću modela strojnog učenja. Danas se modeli koriste za automatizaciju sve težih procesa i generiranje prijedloga. U ovom procesu donošenja odluka, pristranost znači da bi model mogao favorizirati jednu određenu skupinu u odnosu na drugu na temelju naučene pristranosti.
Kada se koristi za donošenje nesigurnih prosudbi sa stvarnim posljedicama, to može imati ozbiljne posljedice. Kada se koristi za automatsko odobravanje zahtjeva za kredit, na primjer, pristrani model može naštetiti određenoj populaciji. U reguliranim poduzećima gdje se sve radnje mogu pregledati ili pažljivo ispitati, ovo je posebno važan čimbenik koji treba uzeti u obzir.
Vrste pristranosti strojnog učenja
- Pristranost algoritma – To se događa kada postoji greška u algoritmu koji radi izračune koji pokreću izračune strojnog učenja.
- Pristranost uzorka – Kada se podaci koriste za trenirati strojno učenje model ima problem, to se događa. U slučajevima ove vrste pristranosti, količina ili kvaliteta podataka korištenih za obuku sustava nije dovoljna. Algoritam će biti uvježban da vjeruje da su svi učitelji žene ako se, na primjer, podaci o obuci u potpunosti sastoje od učiteljica.
- Pristranost isključenja – To se događa kada je ključna podatkovna točka odsutna u skupu podataka koji se koristi, što se može dogoditi ako modelari ne uspiju shvatiti važnost podatkovne točke koja nedostaje.
- Pristranost predrasuda – U ovom slučaju, samo strojno učenje je pristrano budući da podaci koji se koriste za obuku sustava odražavaju pristranosti iz stvarnog svijeta kao što su predrasude, stereotipi i netočne društvene pretpostavke. Na primjer, kada bi se podaci o medicinskim radnicima uključili u računalni sustav koji uključuje samo muške liječnike i medicinske sestre, ovjekovječio bi se rodni stereotip o zdravstvenim radnicima u stvarnom svijetu.
- Pristranost mjerenja – Kao što naziv implicira, ova pristranost proizlazi iz temeljnih problema s kvalitetom podataka i metodama koje se koriste za njihovo prikupljanje ili procjenu. Sustav koji je obučen za preciznu procjenu težine bit će pristran ako su težine sadržane u podacima o obuci dosljedno zaokružene, a korištenje slika zadovoljnih zaposlenika za obuku sustava namijenjenog procjeni okruženja na radnom mjestu može biti pristrano ako su zaposlenici na slikama znali mjerili su se za sreću.
Koji čimbenici doprinose pristranosti u strojnom učenju?
Iako postoji mnogo razloga za pristranost strojnog učenja, ona često proizlazi iz pristranosti u samim podacima o obuci. Postoji nekoliko mogućih temeljnih uzroka za pristranosti u podacima o obuci.
Najočitija ilustracija su podaci o obuci, što je podskup uvjeta koji se vide u implementiranom sustavu koji nije tipičan. To mogu biti podaci o obuci s podzastupljenošću jedne kategorije ili nerazmjernom količinom druge.
To je poznato kao pristranost uzorka, a može proizaći iz nerandomiziranog prikupljanja podataka o obuci. Metode korištene za prikupljanje, analizu ili klasificiranje podataka, kao i povijesni korijeni podataka, mogu dovesti do pristranosti u samim podacima.
Podaci mogu biti povijesno pristrani u široj kulturi u kojoj su prikupljeni.
Pristranost strojnog učenja uglavnom je uzrokovana:
- Pristranosti uzrokovane ljudima ili društvom u povijesnim podacima koriste se za obuku algoritama.
- Podaci o obuci koji ne odražavaju stvarne okolnosti.
- Pristranost prilikom označavanja ili pripreme podataka za nadzirano strojno učenje.
Na primjer, nedostatak raznolikosti u podacima o obuci može uzrokovati pristranost reprezentacije. Na točnost modela strojnog učenja često utječe povijesna pristranost u široj kulturi.
To se ponekad naziva društvenom ili ljudskom pristranošću. Pronalaženje golemih zbirki podataka koji nisu skloni društvenoj pristranosti može biti izazovno. Faza obrade podataka životnog ciklusa strojnog učenja jednako je osjetljiva na ljudske pristranosti.
Podaci koje je označio i obradio podatkovni znanstvenik ili drugi stručnjak potrebni su za nadzirano strojno učenje. Bilo da proizlazi iz raznolikosti podataka koji se čiste, načina na koji su podatkovne točke označene ili izbora značajki, pristranost u ovom procesu označavanja može dovesti do pristranosti u strojnom učenju.
Rizici pristranosti strojnog učenja
Budući da su modeli alati za donošenje odluka vođeni podacima, pretpostavlja se da daju nepristrane prosudbe. Modeli strojnog učenja često sadrže pristranost, što može utjecati na rezultate.
Sve više industrija primjenjuje strojno učenje umjesto zastarjelog softvera i procedura. Pristrani modeli mogu imati negativne učinke u stvarnom svijetu kada se kompliciraniji poslovi automatiziraju pomoću modela.
Strojno učenje ne razlikuje se od drugih procesa donošenja odluka po tome što organizacije i pojedinci očekuju da bude transparentno i pravedno. Budući da je strojno učenje automatizirani proces, prosudbe donesene pomoću njega povremeno se još pomnije ispituju.
Ključno je da organizacije budu proaktivne u rješavanju opasnosti jer pristranost u strojnom učenju često može imati diskriminatorne ili negativne učinke na neke populacije. Osobito za regulirane kontekste mora se uzeti u obzir mogućnost pristranosti u strojnom učenju.
Na primjer, strojno učenje u bankarstvu moglo bi se koristiti za automatsko prihvaćanje ili odbijanje podnositelja zahtjeva za hipoteku nakon početnog pregleda. Model koji je pristran prema određenoj skupini kandidata mogao bi imati štetne učinke i na kandidata i na organizaciju.
Bilo kakva pristranost pronađena u okruženju implementacije u kojem se radnje mogu pažljivo provjeravati može dovesti do velikih problema. Model možda neće funkcionirati i, u najgorem scenariju, čak može ispasti namjerno diskriminirajući.
Pristranost se mora pažljivo procijeniti i pripremiti na nju jer može rezultirati potpunim uklanjanjem modela iz implementacije. Stjecanje povjerenja u modelske odluke zahtijeva razumijevanje i rješavanje pristranosti strojnog učenja.
Na razinu povjerenja unutar organizacije i među vanjskim korisnicima usluga mogla bi utjecati percipirana pristranost u modelu donošenja odluka. Ako se modelima ne vjeruje, osobito kada se donose visokorizični izbori, neće se iskoristiti u punom potencijalu unutar organizacije.
Prilikom ocjenjivanja objašnjivosti modela, uzimanje u obzir pristranosti treba biti čimbenik. Neprovjerena pristranost strojnog učenja može ozbiljno utjecati na valjanost i točnost izbora modela.
Povremeno može rezultirati diskriminirajućim radnjama koje bi mogle utjecati na određene ljude ili skupine. Postoje brojne aplikacije za različite tipove modela strojnog učenja, a svaki je u određenoj mjeri podložan pristranosti strojnog učenja.
Pristranost strojnog učenja ilustrira sljedeće:
- Zbog nedostatka raznolikosti u podacima o obuci, algoritmi za prepoznavanje lica mogu biti manje precizni za neke rasne skupine.
- Program bi mogao otkriti rasnu i rodnu pristranost u podacima zbog ljudskih ili povijesnih predrasuda.
- S određenim dijalektom ili naglaskom obrada prirodnog jezika mogla bi biti točnija i možda neće moći obraditi naglasak koji je nedovoljno zastupljen u podacima o obuci.
Rješavanje pristranosti u strojnom učenju
Modeli praćenja i ponovne obuke kada se otkrije pristranost dva su načina za rješavanje pristranosti strojnog učenja. U većini slučajeva pristranost modela pokazatelj je pristranosti u podacima o obuci ili se barem pristranost može povezati s fazom obuke u životnom ciklusu strojnog učenja.
Svaka faza životnog ciklusa modela trebala bi imati procedure za hvatanje pristranosti ili pomaka modela. Također su uključeni procesi za praćenje strojnog učenja nakon implementacije. Važno je često provjeravati pristranost modela i skupova podataka.
To može uključivati ispitivanje skupa podataka za obuku kako bi se vidjelo kako su grupe tamo raspoređene i predstavljene. Moguće je modificirati i/ili poboljšati skupove podataka koji nisu u potpunosti reprezentativni.
Dodatno, treba uzeti u obzir pristranost pri procjeni izvedbe modela. Testiranje izvedbe modela na različitim podskupovima podataka može pokazati je li pristran ili previše opremljen u odnosu na određenu skupinu.
Moguće je procijeniti izvedbu modela strojnog učenja na određenim podskupovima podataka korištenjem tehnika unakrsne provjere. Postupak uključuje podjelu podataka u različite skupove podataka za obuku i testiranje.
Možete eliminirati pristranost u strojnom učenju na sljedeći način:
- Kada je potrebno, ponovno uvježbajte model koristeći veće, reprezentativnije skupove za uvježbavanje.
- Uspostavljanje procedure za proaktivno paziti na pristrane rezultate i neobične prosudbe.
- Ponovno ponderiranje značajki i prilagođavanje hiperparametara po potrebi može pomoći u obračunu pristranosti.
- Poticanje rješavanja otkrivene pristranosti kroz kontinuirani ciklus otkrivanja i optimizacije.
Zaključak
Primamljivo je vjerovati da bi, jednom obučen, model strojnog učenja funkcionirao autonomno. Zapravo, operativno okruženje modela uvijek se mijenja, a menadžeri moraju redovito ponovno uvježbavati modele koristeći nove skupove podataka.
Strojno učenje trenutno je jedna od najfascinantnijih tehnoloških mogućnosti s ekonomskim prednostima u stvarnom svijetu. Strojno učenje, u kombinaciji s tehnologijama velikih podataka i golemom računalnom snagom dostupnom putem javnog oblaka, ima potencijal promijeniti način na koji pojedinci komuniciraju s tehnologijom, a možda i cijele industrije.
Međutim, koliko god tehnologija strojnog učenja bila obećavajuća, mora se pažljivo planirati kako bi se izbjegle nenamjerne pristranosti. Na učinkovitost procjena koje donose strojevi može ozbiljno utjecati pristranost, što je nešto što razvijači modela strojnog učenja moraju uzeti u obzir.
Ostavi odgovor