Innholdsfortegnelse[Gjemme seg][Forestilling]
Ettersom flere bransjer bruker kraften til algoritmer til å automatisere operasjoner og ta valg, blir maskinlæring en avgjørende komponent i hvordan den moderne verden fungerer.
Spørsmålet om skjevhet i maskinlæring er avgjørende å ta hensyn til når maskinlæringsmodeller integreres i ulike organisasjoners beslutningsprosesser.
Å garantere at valg generert av algoritmer er upartiske og blottet for skjevheter bør være målet for enhver organisasjon som bruker maskinlæringsmodeller. For å sikre at modellens utdata kan stoles på og ses på som rettferdige, er det avgjørende å gjenkjenne og adressere maskinlæring partiskhet.
Det er relatert til spørsmål om modellforklarbarhet, eller hvor lett det er for en person å forstå hvordan en maskinlæringsmodell kom til en konklusjon. Trendene og mønstrene som maskinlæringsmodeller kartlegger og lærer kommer fra selve dataene i stedet for direkte menneskelig utvikling.
Bias i maskinlæring kan oppstå av en rekke årsaker hvis den ikke kontrolleres og kontrolleres. Når en modell distribueres, møter den ofte situasjoner som ikke er nøyaktig reflektert i treningsdatautvalget.
Modellen kunne ha vært overegnet for dette lite representative treningssettet med data. Til tross for den utmerkede kvaliteten på treningsdataene, kan modellen fortsatt være påvirket av historisk skjevhet som følge av bredere kulturelle påvirkninger.
Når den er implementert, kan en partisk modell favorisere visse grupper eller miste nøyaktigheten med bestemte dataundersett. Dette kan resultere i dommer som urettferdig straffer en bestemt gruppe individer, noe som kan ha negative effekter på den faktiske verden.
Denne artikkelen diskuterer maskinlæringsskjevhet, inkludert hva det er, hvordan du oppdager det, farene det utgjør og mye mer.
Så, hva er maskinlæringsskjevhet?
En algoritme som produserer utdata som er systematisk partisk som et resultat av falske antakelser gjort under maskinlæringsprosessen er kjent som maskinlæringsskjevhet, også kjent som algoritmeskjevhet eller kjent som AI-skjevhet.
Maskinlæringsbias er tendensen til en modell til å favorisere et bestemt sett med data eller en undergruppe av data; det er ofte forårsaket av ikke-representative opplæringsdatasett. Med en viss innsamling av data vil en partisk modell underprestere, noe som vil skade nøyaktigheten.
I virkelige omgivelser kan dette bety at forutinntatte treningsdata resulterte i at en modells utgang favoriserte en viss rase, demografi eller kjønn.
Som et resultat kan resultatene av maskinlæring være urettferdige eller diskriminerende. Ikke-representativ opplæring datasett kan bidra til skjevhet innen maskinlæring.
Den resulterende modellen kan være partisk mot andre, underrepresenterte kategorier hvis treningsdataene mangler eller er for representative for en bestemt datagruppering. Dette kan skje hvis treningsdataeksemplet ikke nøyaktig samsvarer med det virkelige distribusjonsmiljøet.
Maskinlæring i helsesektoren, som kan brukes til å sjekke pasientdata mot kjente sykdommer eller sykdommer, er et godt eksempel. Modeller kan fremskynde legers intervensjoner når de brukes riktig.
Fordommer er imidlertid mulig. Når man blir bedt om å forutsi mulig sykdom hos en eldre pasient, kan en modell ikke fungere godt hvis treningsdataene som brukes til å konstruere den, hovedsakelig består av pasientdata fra et mindre aldersspekter.
I tillegg kan den historiske statistikken være skjev. For eksempel, fordi historisk sett var flertallet av ansatte menn, ville en modell opplært til å filtrere jobbkandidater favorisere mannlige søkere.
Maskinlæringsskjevhet vil ha innflytelse på modellens nøyaktighet i begge scenariene, og i de verste omstendighetene kan det til og med resultere i diskriminerende og urettferdige konklusjoner.
Beslutninger må gjennomgås nøye for å sikre at det ikke er noen skjevhet maskinlæringsmodeller erstatte flere og flere manuelle operasjoner. Som et resultat bør modellstyringspraksis i enhver organisasjon inkludere overvåking for maskinlæringsskjevhet.
Mange forskjellige typer jobber i mange forskjellige bransjer fullføres av maskinlæringsmodeller. I dag brukes modeller for å automatisere stadig vanskeligere prosesser og for å generere forslag. I denne beslutningsprosessen betyr skjevhet at en modell kan favorisere en bestemt gruppe fremfor en annen basert på en innlært skjevhet.
Når det brukes til å foreta utrygge vurderinger med faktiske konsekvenser, kan dette få alvorlige konsekvenser. Når den brukes til å automatisk godkjenne lånesøknader, for eksempel, kan en partisk modell skade en viss populasjon. I regulerte virksomheter der eventuelle handlinger kan inspiseres eller granskes, er dette en spesielt avgjørende faktor å ta hensyn til.
Machine Learning Bias-typer
- Algoritme Bias – Dette skjer når det er en feil i algoritmen som gjør beregningene som driver maskinlæringsberegninger.
- Sample Bias – Når dataene pleide å trene maskinlæringen modellen har et problem, dette skjer. I tilfeller av denne typen skjevhet er mengden eller kvaliteten på dataene som brukes for å trene systemet utilstrekkelig. Algoritmen vil bli opplært til å tro at alle lærere er kvinner hvis for eksempel opplæringsdata utelukkende består av kvinnelige lærere.
- Utelukkelsesskjevhet – Dette skjer når et viktig datapunkt er fraværende fra settet med data som brukes, noe som kan oppstå hvis modellbyggerne ikke klarer å innse betydningen av det manglende datapunktet.
- Fordommer skjevhet – I dette tilfellet er selve maskinlæringen partisk siden dataene som brukes til å trene systemet reflekterer skjevheter i den virkelige verden som fordommer, stereotypier og uriktige sosiale antakelser. For eksempel, hvis data om medisinsk fagpersonell skulle inkluderes i datasystemet som bare inkluderte mannlige leger og kvinnelige sykepleiere, ville en reell kjønnsstereotyp om helsepersonell opprettholdes.
- Målingsskjevhet – Som navnet tilsier, skyldes denne skjevheten grunnleggende problemer med kvaliteten på dataene og metodene som brukes for å samle inn eller evaluere dem. Et system som trenes opp til å nøyaktig vurdere vekt vil være partisk hvis vektene i treningsdataene konsekvent ble rundet opp, og å bruke bilder av fornøyde ansatte for å trene et system som er ment å vurdere et arbeidsmiljø, kan være partisk hvis de ansatte på bildene visste de ble målt for lykke.
Hvilke faktorer bidrar til skjevhet i maskinlæring?
Selv om det er mange årsaker til maskinlæringsskjevhet, oppstår det ofte fra skjevhet i selve treningsdataene. Det er flere mulige underliggende årsaker til skjevheter i treningsdata.
Den mest tydelige illustrasjonen er treningsdata, som er en undergruppe av forhold sett i et distribuert system som ikke er typisk. Dette kan være treningsdata med en underrepresentasjon av én kategori eller en uforholdsmessig mengde av en annen.
Dette er kjent som prøveskjevhet, og det kan skyldes ikke-randomisert treningsdatainnsamling. Metodene som brukes for å samle inn, analysere eller klassifisere dataene, så vel som dataenes historiske røtter, kan alle føre til skjevheter i selve dataene.
Informasjonen kan til og med være partisk historisk i den større kulturen der den ble samlet.
Maskinlæringsskjevhet er hovedsakelig forårsaket av:
- Forstyrrelser forårsaket av mennesker eller samfunn i de historiske dataene brukes til å trene algoritmer.
- Treningsdata som ikke gjenspeiler omstendigheter i den virkelige verden.
- Bias mens du merker eller forbereder data for overvåket maskinlæring.
For eksempel kan mangel på mangfold i treningsdata forårsake representasjonsskjevhet. Nøyaktigheten til maskinlæringsmodeller påvirkes ofte av historisk skjevhet i den bredere kulturen.
Dette blir noen ganger referert til som sosial eller menneskelig skjevhet. Å finne store samlinger av data som ikke er utsatt for samfunnsmessige skjevheter kan være utfordrende. Databehandlingsstadiet i livssyklusen for maskinlæring er like utsatt for menneskelig skjevhet.
Data som er merket og behandlet av en dataforsker eller annen ekspert er nødvendig for overvåket maskinlæring. Enten det stammer fra mangfoldet av data som renses, måten datapunkter merkes på, eller valg av funksjoner, kan skjevheter i denne merkeprosessen føre til skjevhet i maskinlæring.
Maskinlæringsrisikoer
Siden modeller er datadrevne beslutningsverktøy, antas det at de gir upartiske vurderinger. Maskinlæringsmodeller inneholder ofte skjevheter, noe som kan påvirke resultatene.
Flere og flere bransjer implementerer maskinlæring i stedet for utdatert programvare og prosedyrer. Forutinntatte modeller kan ha negative effekter i den virkelige verden når mer kompliserte jobber automatiseres ved hjelp av modeller.
Maskinlæring er ikke forskjellig fra andre beslutningsprosesser ved at organisasjoner og enkeltpersoner forventer at den skal være gjennomsiktig og rettferdig. Fordi maskinlæring er en automatisert prosess, blir vurderinger gjort ved å bruke den noen ganger enda mer undersøkt.
Det er avgjørende at organisasjoner er proaktive når det gjelder å takle farene siden skjevhet i maskinlæring ofte kan ha diskriminerende eller negative effekter på enkelte populasjoner. For regulerte sammenhenger må spesielt muligheten for skjevhet i maskinlæring tas i betraktning.
For eksempel kan maskinlæring i bank brukes til å automatisk godta eller avvise boliglånsøkere etter innledende screening. En modell som er partisk mot en bestemt gruppe kandidater kan godt ha skadelige effekter på både kandidaten og organisasjonen.
Enhver skjevhet funnet i et distribusjonsmiljø der handlinger kan granskes, kan føre til store problemer. Modellen fungerer kanskje ikke, og i de verste scenariene kan den til og med vise seg å være bevisst diskriminerende.
Bias må evalueres nøye og forberedes på siden det kan føre til at modellen fjernes fullstendig fra utplasseringen. Å få tillit til modellbeslutninger krever forståelse og adressering av maskinlæringsbias.
Nivået av tillit i organisasjonen og blant eksterne tjenesteforbrukere kan bli påvirket av opplevd skjevhet i modellbeslutninger. Hvis modeller ikke er klarert, spesielt når de veileder høyrisikovalg, vil de ikke bli brukt til sitt fulle potensial i en organisasjon.
Når man vurderer en modells forklarbarhet, bør regnskap for skjevhet være en faktor som må tas i betraktning. Validiteten og nøyaktigheten til modellvalg kan bli alvorlig påvirket av ukontrollert maskinlæringsskjevhet.
Det kan av og til resultere i diskriminerende handlinger som kan påvirke bestemte personer eller grupper. Det finnes mange applikasjoner for ulike typer maskinlæringsmodeller, og hver av dem er til en viss grad utsatt for skjevhet i maskinlæring.
Maskinlæringsskjevhet er illustrert ved:
- På grunn av fraværet av variasjon i treningsdataene, kan ansiktsgjenkjenningsalgoritmer være mindre nøyaktige for enkelte rasegrupper.
- Programmet kan oppdage rase- og kjønnsskjevhet i data på grunn av menneskelige eller historiske fordommer.
- Med en viss dialekt eller aksent kan naturlig språkbehandling være mer nøyaktig, og den kan kanskje ikke behandle en aksent som er underrepresentert i treningsdata.
Løse skjevheter i maskinlæring
Overvåking og omskolering av modeller når skjevhet er funnet er to måter å adressere maskinlæringsskjevhet. I de fleste tilfeller er modellskjevhet en indikasjon på skjevhet i treningsdataene, eller i det minste kan skjevheten relateres til opplæringsstadiet i livssyklusen for maskinlæring.
Hvert stadium av modellens livssyklus bør ha prosedyrer på plass for å fange opp skjevheter eller modelldrift. Prosesser for overvåking av maskinlæring etter distribusjon er også inkludert. Det er viktig å ofte sjekke modellen og datasettene for skjevheter.
Dette kan innebære å undersøke et opplæringsdatasett for å se hvordan grupper er fordelt og representert der. Det er mulig å endre og/eller forbedre datasett som ikke er helt representative.
I tillegg bør skjevhet vurderes når man vurderer modellens ytelse. Testing av ytelsen til modellen på ulike delmengder av dataene kan vise om den er partisk eller overtilpasset i forhold til en bestemt gruppe.
Det er mulig å evaluere ytelsen til maskinlæringsmodeller på visse dataundersett ved å bruke kryssvalideringsteknikker. Prosedyren innebærer å dele inn dataene i distinkte opplærings- og testdatasett.
Du kan eliminere skjevhet i maskinlæring ved å:
- Når det er nødvendig, trener modellen om ved hjelp av større, mer representative treningssett.
- Etablere en prosedyre for proaktivt å se etter partiske resultater og uvanlige vurderinger.
- Omvekting av funksjoner og justering av hyperparametere etter behov kan bidra til å ta hensyn til skjevheter.
- Oppmuntre løsningen av oppdaget skjevhet gjennom en kontinuerlig syklus med deteksjon og optimalisering.
konklusjonen
Det er fristende å tro at når en maskinlæringsmodell først er trent, vil den fungere autonomt. Faktisk er modellens driftsmiljø alltid i endring, og ledere må omskolere modeller ved å bruke ferske datasett med jevne mellomrom.
Maskinlæring er for tiden en av de mest fascinerende teknologiske egenskapene med virkelige økonomiske fordeler. Maskinlæring, sammenkoblet med big data-teknologier og den enorme beregningskraften som er tilgjengelig gjennom den offentlige skyen, har potensial til å transformere hvordan individer samhandler med teknologi, og kanskje hele bransjer.
Men så lovende som maskinlæringsteknologi er, må den planlegges nøye for å unngå utilsiktede skjevheter. Effektiviteten av vurderingene som gjøres av maskinene kan bli alvorlig påvirket av skjevhet, noe som utviklere av maskinlæringsmodeller må ta hensyn til.
Legg igjen en kommentar