Efterhånden som flere industrier bruger algoritmernes kraft til at automatisere operationer og træffe valg, er maskinlæring ved at blive en afgørende komponent i, hvordan den moderne verden fungerer.
Spørgsmålet om bias i maskinlæring er afgørende at tage højde for, når maskinlæringsmodeller integreres i forskellige organisationers beslutningsprocesser.
At garantere, at valg genereret af algoritmer er upartiske og blottet for bias, bør være målet for enhver organisation, der bruger maskinlæringsmodeller. For at sikre, at modellens output kan stole på og ses som retfærdige, er det afgørende at genkende og adressere machine learning partiskhed.
Det er relateret til spørgsmål om modelforklarlighed, eller hvor let det er for en person at forstå, hvordan en maskinlæringsmodel nåede frem til en konklusion. De tendenser og mønstre, som maskinlæringsmodeller kortlægger og lærer, kommer fra selve dataene snarere end gennem direkte menneskelig udvikling.
Bias i maskinlæring kan opstå af forskellige årsager, hvis det ikke kontrolleres og kontrolleres. Når en model implementeres, støder den ofte på situationer, der ikke præcist afspejles i træningsdataeksemplet.
Modellen kunne have været overegnet til dette ikke-repræsentative træningssæt af data. På trods af den fremragende kvalitet af træningsdataene kan modellen stadig være påvirket af historisk skævhed som følge af bredere kulturelle påvirkninger.
Når først den er implementeret, kan en forudindtaget model favorisere bestemte grupper eller miste nøjagtigheden med bestemte dataundersæt. Dette kan resultere i domme, der uretfærdigt straffer en bestemt gruppe af individer, hvilket kan have negative effekter på den faktiske verden.
Denne artikel diskuterer maskinlæringsbias, herunder hvad det er, hvordan man kan se det, farerne det udgør og meget mere.
Så hvad er Machine Learning Bias?
En algoritme, der producerer output, der er systematisk skævt som et resultat af falske antagelser lavet under maskinlæringsprocessen, er kendt som machine learning bias, også kendt som algoritme-bias eller kendt som AI-bias.
Machine learning bias er en models tendens til at favorisere et bestemt datasæt eller en delmængde af data; det er ofte anlagt af ikke-repræsentative træningsdatasæt. Med en vis indsamling af data vil en forudindtaget model underperforme, hvilket vil skade dens nøjagtighed.
I en virkelig verden kan dette betyde, at forudindtaget træningsdata resulterede i, at en models output favoriserede en bestemt race, demografi eller køn.
Resultatet af maskinlæring kan derfor være uretfærdigt eller diskriminerende. Ikke-repræsentativ uddannelse datasæt kan bidrage til bias i maskinlæring.
Den resulterende model kan være skæv over for andre, underrepræsenterede kategorier, hvis træningsdataene mangler eller er overdrevent repræsentative for en bestemt datagruppering. Dette kan ske, hvis træningsdataeksemplet ikke nøjagtigt matcher implementeringsmiljøet i den virkelige verden.
Maskinlæring i sundhedssektoren, som kan bruges til at tjekke patientdata mod kendte sygdomme eller sygdomme, er et godt eksempel. Modeller kan fremskynde lægers interventioner, når de bruges korrekt.
Fordomme er dog mulige. Når man bliver bedt om at forudsige mulig sygdom hos en ældre patient, kan en model ikke fungere godt, hvis de træningsdata, der bruges til at konstruere den, for det meste består af patientdata fra en mindre aldersgruppe.
Derudover kan den historiske statistik være skæv. For eksempel, fordi historisk set var størstedelen af medarbejderne mænd, ville en model, der er uddannet til at filtrere jobkandidater, favorisere mandlige ansøgere.
Machine learning bias vil have indflydelse på modellens nøjagtighed i begge scenarier, og under de værste omstændigheder kan det endda resultere i diskriminerende og uretfærdige konklusioner.
Beslutninger skal gennemgås omhyggeligt for at sikre, at der ikke er nogen bias maskinlæringsmodeller erstatte flere og flere manuelle betjeninger. Som et resultat heraf bør modelstyringspraksis i enhver organisation omfatte overvågning af maskinlæringsbias.
Mange forskellige typer job i mange forskellige brancher bliver fuldført af maskinlæringsmodeller. I dag bruges modeller til at automatisere stadig sværere processer og til at generere forslag. I denne beslutningsproces betyder bias, at en model kan favorisere en bestemt gruppe frem for en anden baseret på en tillært bias.
Når det bruges til at foretage usikre vurderinger med faktiske konsekvenser, kan dette have alvorlige konsekvenser. Når den bruges til automatisk at godkende låneansøgninger, for eksempel, kan en forudindtaget model være til skade for en bestemt befolkning. I regulerede virksomheder, hvor eventuelle handlinger kan inspiceres eller granskes, er dette en særlig afgørende faktor at tage højde for.
Machine Learning Bias-typer
- Algoritme Bias – Dette sker, når der er en fejl i algoritmen, der udfører de beregninger, der driver maskinlæringsberegninger.
- Prøve Bias – Når data bruges til træne maskinlæringen modellen har et problem, dette sker. I tilfælde af denne form for skævhed er mængden eller kvaliteten af de data, der bruges til at træne systemet, utilstrækkelig. Algoritmen vil blive trænet til at tro, at alle lærere er kvinder, hvis for eksempel uddannelsesdata udelukkende består af kvindelige lærere.
- Eksklusion bias – Dette sker, når et afgørende datapunkt er fraværende i det datasæt, der bruges, hvilket kan forekomme, hvis modelbyggere ikke indser betydningen af det manglende datapunkt.
- Fordomme bias – I dette tilfælde er selve maskinlæringen forudindtaget, da de data, der bruges til at træne systemet, afspejler skævheder i den virkelige verden, såsom fordomme, stereotyper og forkerte sociale antagelser. For eksempel, hvis data om medicinske fagfolk skulle inkluderes i computersystemet, der kun omfattede mandlige læger og kvindelige sygeplejersker, ville en reel kønsstereotype om sundhedspersonale blive videreført.
- Måling Bias – Som navnet antyder, skyldes denne skævhed grundlæggende problemer med kvaliteten af dataene og de metoder, der bruges til at indsamle eller evaluere dem. Et system, der trænes til præcist at vurdere vægt, vil være forudindtaget, hvis vægtene indeholdt i træningsdataene konsekvent blev rundet op, og at bruge billeder af tilfredse medarbejdere til at træne et system beregnet til at vurdere et arbejdspladsmiljø, kan være forudindtaget, hvis medarbejderne på billederne vidste de blev målt for lykke.
Hvilke faktorer bidrager til bias i maskinlæring?
Selvom der er mange grunde til maskinlæringsbias, opstår det ofte som bias i selve træningsdataene. Der er flere potentielle underliggende årsager til skævheder i træningsdata.
Den mest tydelige illustration er træningsdata, som er en delmængde af tilstande set i et installeret system, som ikke er typiske. Dette kan være træningsdata med en underrepræsentation af én kategori eller en uforholdsmæssig mængde af en anden.
Dette er kendt som prøvebias, og det kan skyldes ikke-randomiseret træningsdataindsamling. De metoder, der bruges til at indsamle, analysere eller klassificere dataene, såvel som dataens historiske rødder, kan alle føre til skævhed i selve dataene.
Informationen kan endda være forudindtaget historisk i den større kultur, hvor den blev indsamlet.
Maskinlæringsbias er for det meste forårsaget af:
- Fordomme forårsaget af mennesker eller samfund i de historiske data bruges til at træne algoritmer.
- Træningsdata, der ikke afspejler virkelige omstændigheder.
- Bias under mærkning eller forberedelse af data til overvåget maskinlæring.
For eksempel kan en mangel på mangfoldighed i træningsdata forårsage repræsentationsbias. Nøjagtigheden af maskinlæringsmodeller er ofte påvirket af historisk skævhed i den bredere kultur.
Dette omtales nogle gange som social eller menneskelig bias. Det kan være en udfordring at finde store samlinger af data, der ikke er tilbøjelige til samfundsmæssige skævheder. Databehandlingsfasen i maskinlærings-livscyklussen er lige så modtagelig for menneskelig skævhed.
Data, der er blevet mærket og behandlet af en dataforsker eller anden ekspert, er nødvendige for overvåget maskinlæring. Uanset om det stammer fra de mange forskellige data, der renses, måden, datapunkter er mærket på, eller valget af funktioner, kan bias i denne mærkningsproces føre til skævhed i maskinlæring.
Machine Learning Bias Risici
Da modeller er datadrevne beslutningsværktøjer, antages det, at de giver upartiske vurderinger. Maskinlæringsmodeller indeholder ofte bias, som kan påvirke resultaterne.
Flere og flere industrier implementerer maskinlæring i stedet for forældet software og procedurer. Biased modeller kan have negative effekter i den virkelige verden, når mere komplicerede jobs automatiseres ved hjælp af modeller.
Maskinlæring adskiller sig ikke fra andre beslutningsprocesser, idet organisationer og enkeltpersoner forventer, at den er gennemsigtig og retfærdig. Fordi maskinlæring er en automatiseret proces, bliver vurderinger foretaget ved hjælp af den lejlighedsvis endnu mere undersøgt.
Det er afgørende, at organisationer er proaktive i forhold til at håndtere farerne, da skævhed i maskinlæring ofte kan have diskriminerende eller negative virkninger på nogle befolkningsgrupper. I regulerede sammenhænge skal der især tages højde for muligheden for bias i maskinlæring.
For eksempel kunne maskinlæring i bankvæsen bruges til automatisk at acceptere eller afvise realkreditansøgere efter indledende screening. En model, der er forudindtaget over for en bestemt gruppe af kandidater, kan meget vel have skadelige effekter på både kandidaten og organisationen.
Enhver bias fundet i et implementeringsmiljø, hvor handlinger kan undersøges, kan føre til store problemer. Modellen virker måske ikke, og i de værste scenarier kan den endda vise sig at være bevidst diskriminerende.
Bias skal evalueres omhyggeligt og forberedes på, da det kan resultere i, at modellen helt fjernes fra implementeringen. At opnå tillid til modelbeslutninger kræver forståelse og adressering af maskinlæringsbias.
Niveauet af tillid i organisationen og blandt eksterne serviceforbrugere kan blive påvirket af opfattet skævhed i modelbeslutningstagning. Hvis modeller ikke er tillid til, især når de vejleder højrisikovalg, vil de ikke blive brugt til deres fulde potentiale i en organisation.
Når man vurderer en models forklarlighed, bør der tages højde for bias. Validiteten og nøjagtigheden af modelvalg kan blive alvorligt påvirket af ukontrolleret maskinlæringsbias.
Det kan lejlighedsvis resultere i diskriminerende handlinger, der kan påvirke bestemte personer eller grupper. Der findes adskillige applikationer til forskellige maskinlæringsmodeltyper, og hver af dem er til en vis grad modtagelige for maskinlæringsbias.
Machine learning bias er illustreret ved:
- På grund af fraværet af variation i træningsdataene kan ansigtsgenkendelsesalgoritmer være mindre nøjagtige for nogle racegrupper.
- Programmet kunne opdage race- og kønsbias i data på grund af menneskelige eller historiske fordomme.
- Med en bestemt dialekt eller accent kan behandling af naturligt sprog være mere nøjagtig, og den kan muligvis ikke behandle en accent, der er underrepræsenteret i træningsdata.
Løsning af bias i maskinlæring
Overvågning og genoptræningsmodeller, når der findes bias, er to måder at adressere maskinlæringsbias på. I de fleste tilfælde er modelbias en indikation af bias i træningsdataene, eller i det mindste kan bias relateres til træningsstadiet af maskinlærings-livscyklussen.
Hvert trin i modellens livscyklus bør have procedurer på plads for at fange skævhed eller modelafdrift. Processer til overvågning af maskinlæring efter implementering er også inkluderet. Det er vigtigt jævnligt at kontrollere modellen og datasættene for bias.
Dette kan involvere at undersøge et træningsdatasæt for at se, hvordan grupper er fordelt og repræsenteret der. Det er muligt at ændre og/eller forbedre datasæt, der ikke er helt repræsentative.
Derudover bør bias overvejes, når modellens ydeevne vurderes. Test af modellens ydeevne på forskellige delmængder af data kan vise, om den er skæv eller overfittet i forhold til en bestemt gruppe.
Det er muligt at evaluere maskinlæringsmodellens ydeevne på visse dataundersæt ved at bruge krydsvalideringsteknikker. Proceduren involverer opdeling af data i særskilte trænings- og testdatasæt.
Du kan eliminere bias i maskinlæring ved at:
- Når det er nødvendigt, genoptræne modellen ved hjælp af større, mere repræsentative træningssæt.
- Etablering af en procedure for proaktivt at holde øje med skæve resultater og usædvanlige domme.
- Genvægtning af funktioner og justering af hyperparametre efter behov kan hjælpe med at tage højde for bias.
- Tilskyndelse til løsning af opdaget bias gennem en kontinuerlig cyklus af detektion og optimering.
Konklusion
Det er fristende at tro, at når en maskinlæringsmodel først er blevet trænet, vil den fungere selvstændigt. Faktisk ændrer modellens driftsmiljø sig altid, og ledere skal regelmæssigt omskole modeller ved hjælp af friske datasæt.
Maskinlæring er i øjeblikket en af de mest fascinerende teknologiske muligheder med økonomiske fordele i den virkelige verden. Maskinlæring, når det parres med big data-teknologier og den enorme beregningskraft, der er tilgængelig gennem den offentlige sky, har potentialet til at transformere, hvordan individer interagerer med teknologi og måske hele industrier.
Men hvor lovende som maskinlæringsteknologi er, skal den planlægges omhyggeligt for at undgå utilsigtede skævheder. Effektiviteten af maskinernes vurderinger kan blive alvorligt påvirket af bias, hvilket er noget, som udviklere af maskinlæringsmodeller skal tage højde for.
Giv en kommentar