Ker vse več industrij uporablja moč algoritmov za avtomatizacijo operacij in sprejemanje odločitev, strojno učenje postaja ključna sestavina delovanja sodobnega sveta.
Vprašanje pristranskosti pri strojnem učenju je ključno upoštevati, ko se modeli strojnega učenja integrirajo v procese odločanja različnih organizacij.
Zagotoviti, da so izbire, ki jih ustvarijo algoritmi, nepristranske in brez pristranskosti, bi moral biti cilj vsake organizacije, ki uporablja modele strojnega učenja. Da bi zagotovili, da se je na rezultate modela mogoče zanesti in jih videti kot poštene, je ključnega pomena prepoznati in obravnavati strojno učenje pristranskost
Povezano je z vprašanji razložljivosti modela ali s tem, kako preprosto je za osebo dojeti, kako je model strojnega učenja prišel do zaključka. Trendi in vzorci, ki jih modeli strojnega učenja preslikavajo in se učijo, izhajajo iz samih podatkov in ne iz neposrednega človeškega razvoja.
Pristranskost pri strojnem učenju se lahko pojavi iz različnih razlogov, če ni nadzorovana in preverjena. Ko je model razporejen, pogosto naleti na situacije, ki niso natančno prikazane v vzorcu podatkov o usposabljanju.
Model bi lahko bil preveč primeren za ta nereprezentativni nabor podatkov za usposabljanje. Kljub odlični kakovosti podatkov o usposabljanju lahko na model še vedno vpliva zgodovinska pristranskost, ki je posledica širših kulturnih vplivov.
Ko je enkrat implementiran, bi lahko pristranski model dal prednost določenim skupinam ali izgubil natančnost z določenimi podnabori podatkov. Posledica tega so lahko sodbe, ki nepravično kaznujejo določeno skupino posameznikov, kar bi lahko negativno vplivalo na dejanski svet.
Ta članek obravnava pristranskost strojnega učenja, vključno s tem, kaj je, kako jo opaziti, nevarnosti, ki jih predstavlja, in še veliko več.
Torej, kaj je pristranskost strojnega učenja?
Algoritem, ki proizvaja rezultate, ki so sistematično pristranski zaradi napačnih predpostavk med postopkom strojnega učenja, je znan kot pristranskost strojnega učenja, znana tudi kot pristranskost algoritma ali znana kot pristranskost AI.
Pristranskost strojnega učenja je težnja modela, da daje prednost določenemu naboru podatkov ali podnaboru podatkov; pogosto ga povzročajo nereprezentativni nabori podatkov o usposabljanju. Z določeno zbirko podatkov bo pristranski model deloval premalo, kar bo škodovalo njegovi natančnosti.
V resničnem okolju lahko to pomeni, da so pristranski podatki o usposabljanju povzročili izhod modela, ki daje prednost določeni rasi, demografski kategoriji ali spolu.
Posledično so lahko rezultati strojnega učenja nepravični ali diskriminatorni. Nereprezentančni trening nabori podatkov lahko prispevajo k pristranskosti pri strojnem učenju.
Dobljeni model je lahko pristranski proti drugim, premalo zastopanim kategorijam, če podatki o usposabljanju manjkajo ali so preveč reprezentativni za določeno skupino podatkov. To se lahko zgodi, če se vzorec podatkov o usposabljanju ne ujema natančno z okoljem uvajanja v realnem svetu.
Strojno učenje v zdravstveni industriji, ki se lahko uporablja za preverjanje podatkov o pacientih glede na znane bolezni ali bolezni, je odličen primer. Modeli lahko pospešijo posege zdravnikov, če se pravilno uporabljajo.
Vendar pa so predsodki možni. Na zahtevo, da napove morebitno bolezen pri starejšem pacientu, model ne more dobro delovati, če so podatki o usposabljanju, uporabljeni za njegovo izdelavo, večinoma sestavljeni iz podatkov o pacientih iz manjšega starostnega obdobja.
Poleg tega je lahko zgodovinska statistika izkrivljena. Na primer, ker je bila v preteklosti večina zaposlenih moških, bi model, usposobljen za filtriranje kandidatov za zaposlitev, dal prednost moškim kandidatom.
Pristranskost strojnega učenja bo vplivala na natančnost modela v obeh scenarijih, v najslabših okoliščinah pa bi lahko celo povzročila diskriminatorne in nepravične zaključke.
Odločitve je treba natančno pregledati, da se zagotovi, da ni pristranskosti modeli strojnega učenja nadomesti vse več ročnih operacij. Posledično bi morale vzorčne prakse upravljanja v kateri koli organizaciji vključevati spremljanje pristranskosti strojnega učenja.
Modeli strojnega učenja opravljajo veliko različnih vrst delovnih mest v različnih panogah. Danes se modeli uporabljajo za avtomatizacijo vse težjih procesov in za ustvarjanje predlogov. V tem procesu odločanja pristranskost pomeni, da bi lahko model dal prednost eni določeni skupini pred drugo na podlagi naučene pristranskosti.
Če se uporablja za sprejemanje nevarnih sodb z dejanskimi posledicami, ima lahko to resne posledice. Če se na primer uporablja za samodejno odobritev vlog za posojilo, lahko pristranski model škoduje določeni populaciji. V reguliranih podjetjih, kjer je mogoče inšpekcijsko ali natančno pregledati kakršna koli dejanja, je to še posebej pomemben dejavnik, ki ga je treba upoštevati.
Vrste pristranskosti strojnega učenja
- Pristranskost algoritma – To se zgodi, ko je v algoritmu, ki izvaja izračune, ki poganjajo izračune strojnega učenja, napaka.
- Pristranskost vzorca – Ko se podatki uporabljajo za usposobiti strojno učenje model ima težavo, to se zgodi. V primerih te vrste pristranskosti je količina ali kakovost podatkov, uporabljenih za usposabljanje sistema, nezadostna. Algoritem bo usposobljen tako, da bo verjel, da so vsi učitelji ženskega spola, če bodo na primer podatki o usposabljanju v celoti sestavljeni iz učiteljic.
- Izključitvena pristranskost – To se zgodi, ko ključna podatkovna točka ni v naboru podatkov, ki se uporabljajo, kar se lahko zgodi, če oblikovalci modela ne spoznajo pomena manjkajoče podatkovne točke.
- Pristranskost predsodkov – V tem primeru je samo strojno učenje pristransko, saj podatki, uporabljeni za usposabljanje sistema, odražajo pristranskosti iz resničnega sveta, kot so predsodki, stereotipi in nepravilne družbene predpostavke. Na primer, če bi podatke o zdravstvenih delavcih vključili v računalniški sistem, ki bi vključeval samo moške zdravnike in medicinske sestre, bi se ohranil resnični spolni stereotip o zdravstvenih delavcih.
- Pristranskost merjenja – Kot pove že ime, je ta pristranskost posledica temeljnih težav s kakovostjo podatkov in metodami, uporabljenimi za njihovo zbiranje ali vrednotenje. Sistem, ki se usposablja za natančno ocenjevanje teže, bo pristranski, če so uteži v podatkih o usposabljanju dosledno zaokrožene, uporaba slik zadovoljnih zaposlenih za usposabljanje sistema, namenjenega ocenjevanju okolja na delovnem mestu, pa je lahko pristranska, če zaposleni na slikah vedo, merili so se za srečo.
Kateri dejavniki prispevajo k pristranskosti pri strojnem učenju?
Čeprav obstaja veliko razlogov za pristranskost strojnega učenja, pogosto izhaja iz pristranskosti samih podatkov o usposabljanju. Obstaja več možnih osnovnih vzrokov za pristranskost podatkov o usposabljanju.
Najbolj očitna ilustracija so podatki o usposabljanju, ki so podmnožica pogojev, ki jih opazimo v razporejenem sistemu, ki ni tipičen. To so lahko podatki o usposabljanju s premajhno zastopanostjo ene kategorije ali nesorazmerno veliko drugo.
To je znano kot pristranskost vzorca in je lahko posledica nenaključnega zbiranja podatkov o usposabljanju. Metode, ki se uporabljajo za zbiranje, analizo ali razvrščanje podatkov, kot tudi zgodovinske korenine podatkov lahko vodijo do pristranskosti v samih podatkih.
Informacije so morda celo zgodovinsko pristranske v širši kulturi, kjer so bile zbrane.
Pristranskost strojnega učenja je večinoma posledica:
- Pristranskosti, ki jih povzročijo ljudje ali družba v zgodovinskih podatkih, se uporabljajo za urjenje algoritmov.
- Podatki o usposabljanju, ki ne odražajo dejanskih okoliščin.
- Pristranskost pri označevanju ali pripravi podatkov za nadzorovano strojno učenje.
Na primer, pomanjkanje raznolikosti podatkov o usposabljanju lahko povzroči pristranskost pri predstavitvi. Na natančnost modelov strojnega učenja pogosto vpliva zgodovinska pristranskost v širši kulturi.
To se včasih imenuje socialna ali človeška pristranskost. Iskanje obsežnih zbirk podatkov, ki niso nagnjeni k družbeni pristranskosti, je lahko izziv. Faza obdelave podatkov v življenjskem ciklu strojnega učenja je enako dovzetna za človeške pristranskosti.
Podatki, ki jih je označil in obdelal podatkovni znanstvenik ali drug strokovnjak, so potrebni za nadzorovano strojno učenje. Ne glede na to, ali izhaja iz različnih podatkov, ki se čistijo, načina označevanja podatkovnih točk ali izbire funkcij, lahko pristranskost v tem procesu označevanja povzroči pristranskost pri strojnem učenju.
Tveganja pristranskosti strojnega učenja
Ker so modeli orodja za odločanje, ki temeljijo na podatkih, se predpostavlja, da zagotavljajo nepristranske presoje. Modeli strojnega učenja pogosto vsebujejo pristranskost, ki lahko vpliva na rezultate.
Vedno več industrij uporablja strojno učenje namesto zastarele programske opreme in postopkov. Pristranski modeli imajo lahko negativne učinke v resničnem svetu, ko so bolj zapletena opravila avtomatizirana z uporabo modelov.
Strojno učenje se ne razlikuje od drugih procesov odločanja v tem, da organizacije in posamezniki pričakujejo, da bo pregledno in pravično. Ker je strojno učenje avtomatiziran proces, se njegove presoje občasno še natančneje preučijo.
Ključnega pomena je, da so organizacije proaktivne pri obravnavanju nevarnosti, saj ima lahko pristranskost pri strojnem učenju pogosto diskriminatorne ali negativne učinke na nekatere populacije. Zlasti za regulirane kontekste je treba upoštevati možnost pristranskosti pri strojnem učenju.
Na primer, strojno učenje v bančništvu bi lahko uporabili za samodejno sprejemanje ali zavrnitev prosilcev za hipotekarni kredit po začetnem pregledu. Model, ki je pristranski do določene skupine kandidatov, bi lahko imel škodljive učinke tako na kandidata kot na organizacijo.
Kakršna koli pristranskost, odkrita v okolju uvajanja, kjer se dejanja lahko natančno preučujejo, lahko povzroči velike težave. Model morda ne bo deloval in se bo v najslabšem primeru celo izkazal za namerno diskriminatornega.
Pristranskost je treba skrbno ovrednotiti in se nanjo pripraviti, saj lahko povzroči popolno odstranitev modela iz uporabe. Pridobivanje zaupanja v modelne odločitve zahteva razumevanje in obravnavanje pristranskosti strojnega učenja.
Na raven zaupanja znotraj organizacije in med zunanjimi porabniki storitev lahko vpliva zaznana pristranskost pri modelnem odločanju. Če modelom ne zaupate, zlasti pri usmerjanju izbir z visokim tveganjem, znotraj organizacije ne bodo uporabljeni v celoti.
Pri ocenjevanju razložljivosti modela mora biti upoštevanje pristranskosti dejavnik, ki ga je treba upoštevati. Nepreverjena pristranskost strojnega učenja lahko resno vpliva na veljavnost in natančnost izbire modela.
Občasno lahko povzroči diskriminatorna dejanja, ki lahko prizadenejo določene ljudi ali skupine. Obstajajo številne aplikacije za različne vrste modelov strojnega učenja in vsaka je do neke mere dovzetna za pristranskost strojnega učenja.
Pristranskost strojnega učenja ponazarja:
- Zaradi pomanjkanja raznolikosti podatkov o usposabljanju so lahko algoritmi za prepoznavanje obrazov manj natančni za nekatere rasne skupine.
- Program bi lahko zaznal rasno in spolno pristranskost v podatkih zaradi človeških ali zgodovinskih predsodkov.
- Z določenim narečjem ali naglasom bi lahko bila obdelava naravnega jezika natančnejša in morda ne bi mogla obdelati naglasa, ki je premalo zastopan v podatkih o usposabljanju.
Reševanje pristranskosti v strojnem učenju
Modeli spremljanja in preusposabljanja, ko se ugotovi pristranskost, sta dva načina za obravnavanje pristranskosti strojnega učenja. V večini primerov je pristranskost modela znak pristranskosti v podatkih o usposabljanju ali pa je vsaj pristranskost lahko povezana s stopnjo usposabljanja v življenjskem ciklu strojnega učenja.
Vsaka stopnja življenjskega cikla modela mora imeti vzpostavljene postopke za lovljenje pristranskosti ali premika modela. Vključeni so tudi procesi za spremljanje strojnega učenja po uvedbi. Pomembno je, da pogosto preverjate model in nize podatkov glede pristranskosti.
To lahko vključuje pregled nabora podatkov o usposabljanju, da bi videli, kako so skupine tam porazdeljene in zastopane. Nabore podatkov, ki niso povsem reprezentativni, je mogoče spremeniti in/ali izboljšati.
Poleg tega je treba pri ocenjevanju delovanja modela upoštevati pristranskost. Preizkušanje delovanja modela na različnih podmnožicah podatkov lahko pokaže, ali je pristranski ali preveč opremljen v zvezi z določeno skupino.
Z uporabo tehnik navzkrižnega preverjanja je mogoče ovrednotiti delovanje modela strojnega učenja na določenih podnaborih podatkov. Postopek vključuje razdelitev podatkov v ločene nize podatkov za usposabljanje in testiranje.
Pristranskost pri strojnem učenju lahko odpravite tako, da:
- Po potrebi znova usposobite model z uporabo večjih, bolj reprezentativnih naborov za usposabljanje.
- Vzpostavitev postopka za proaktivno iskanje pristranskih rezultatov in nenavadnih sodb.
- Ponovno tehtanje funkcij in prilagajanje hiperparametrov po potrebi lahko pomaga pri upoštevanju pristranskosti.
- Spodbujanje reševanja odkrite pristranskosti z nenehnim ciklom odkrivanja in optimizacije.
zaključek
Mamljivo je verjeti, da bi model strojnega učenja, ko bi bil usposobljen, deloval avtonomno. Dejstvo je, da se delovno okolje modela vedno spreminja in menedžerji morajo modele redno usposobiti z novimi nabori podatkov.
Strojno učenje je trenutno ena najbolj fascinantnih tehnoloških zmogljivosti z resničnimi gospodarskimi koristmi. Strojno učenje lahko v kombinaciji s tehnologijami za velike količine podatkov in ogromno računalniško močjo, ki je na voljo prek javnega oblaka, spremeni način interakcije posameznikov s tehnologijo in morda celih industrij.
Čeprav je tehnologija strojnega učenja obetavna, jo je treba skrbno načrtovati, da se izognemo nenamernim pristranskosti. Na učinkovitost presoj, ki jih izdelajo stroji, lahko resno vpliva pristranskost, kar morajo razvijalci modelov strojnega učenja upoštevati.
Pustite Odgovori