Allt eftersom fler industrier använder kraften hos algoritmer för att automatisera operationer och göra val, blir maskininlärning en avgörande komponent i hur den samtida världen fungerar.
Frågan om bias i maskininlärning är avgörande att ta hänsyn till när maskininlärningsmodeller integreras i olika organisationers beslutsprocesser.
Att garantera att val som genereras av algoritmer är opartiska och utan fördomar borde vara målet för alla organisationer som använder modeller för maskininlärning. För att säkerställa att modellens utdata kan litas på och ses som rättvisa är det viktigt att känna igen och ta itu med maskininlärning partiskhet.
Det är relaterat till frågor om modellförklaring, eller hur lätt det är för en person att förstå hur en maskininlärningsmodell kom fram till en slutsats. De trender och mönster som maskininlärningsmodeller kartlägger och lär sig kommer från själva data snarare än genom direkt mänsklig utveckling.
Bias i maskininlärning kan uppstå av en mängd olika anledningar om den inte kontrolleras och kontrolleras. När en modell används, stöter den ofta på situationer som inte exakt återspeglas i träningsdataprovet.
Modellen kunde ha varit överanpassad för denna icke-representativa utbildningsdata. Trots den utmärkta kvaliteten på träningsdatan kan modellen fortfarande påverkas av historiska fördomar till följd av bredare kulturella influenser.
När den väl har implementerats kan en partisk modell gynna vissa grupper eller förlora exakthet med vissa dataundergrupper. Detta kan resultera i domar som orättvist straffar en viss grupp individer, vilket kan ha negativa effekter på den faktiska världen.
Den här artikeln diskuterar maskininlärningsbias, inklusive vad det är, hur man upptäcker det, farorna det utgör och mycket mer.
Så vad är maskininlärningsbias?
En algoritm som producerar utdata som är systematiskt partiska som ett resultat av falska antaganden som gjorts under maskininlärningsprocessen är känd som maskininlärningsbias, även känd som algoritmbias eller känd som AI-bias.
Maskininlärningsbias är tendensen hos en modell att gynna en viss uppsättning data eller en delmängd av data; det orsakas ofta av icke-representativa utbildningsdatauppsättningar. Med en viss insamling av data kommer en partisk modell att underprestera, vilket kommer att skada dess noggrannhet.
I en verklig miljö kan detta innebära att partiska träningsdata resulterade i en modells resultat som gynnar en viss ras, demografi eller kön.
Som ett resultat kan resultatet av maskininlärning vara orättvist eller diskriminerande. Icke-representativ utbildning datauppsättningar kan bidra till bias inom maskininlärning.
Den resulterande modellen kan vara partisk mot andra, underrepresenterade kategorier om träningsdata saknas eller är överdrivet representativ för en viss datagruppering. Detta kan hända om träningsdataexemplet inte exakt matchar den verkliga implementeringsmiljön.
Maskininlärning inom sjukvården, som kan användas för att kontrollera patientdata mot kända sjukdomar eller sjukdomar, är ett utmärkt exempel. Modeller kan påskynda läkares insatser när de används på rätt sätt.
Men fördomar är möjliga. När en modell ombeds att förutsäga eventuell sjukdom hos en äldre patient, kan en modell inte fungera bra om träningsdata som används för att konstruera den mestadels består av patientdata från ett mindre åldersintervall.
Dessutom kan den historiska statistiken vara skev. Till exempel, eftersom historiskt sett var majoriteten av de anställda män, skulle en modell som utbildats för att filtrera jobbkandidater gynna manliga sökande.
Maskininlärningsbias kommer att påverka modellens noggrannhet i båda scenarierna, och under de värsta omständigheterna kan det till och med resultera i diskriminerande och orättvisa slutsatser.
Beslut måste ses över noggrant för att säkerställa att det inte finns någon partiskhet som maskininlärningsmodeller ersätta fler och fler manuella operationer. Som ett resultat bör modellstyrningsmetoder i alla organisationer inkludera övervakning av maskininlärningsbias.
Många olika typer av jobb i många olika branscher slutförs av maskininlärningsmodeller. Idag används modeller för att automatisera allt svårare processer och för att generera förslag. I denna beslutsprocess innebär bias att en modell kan gynna en viss grupp framför en annan baserat på en inlärd bias.
När det används för att göra osäkra bedömningar med faktiska konsekvenser kan detta få allvarliga återverkningar. När den används för att automatiskt godkänna låneansökningar, till exempel, kan en partisk modell skada en viss population. I reglerade verksamheter där eventuella åtgärder kan inspekteras eller granskas är detta en särskilt avgörande faktor att ta hänsyn till.
Machine Learning Bias-typer
- Algoritm Bias – Det här händer när det finns en bugg i algoritmen som gör beräkningarna som driver maskininlärningsberäkningar.
- Provbias – När uppgifterna brukade träna maskininlärning modellen har ett problem, detta inträffar. I fall av denna typ av bias är mängden eller kvaliteten på data som används för att träna systemet otillräcklig. Algoritmen kommer att tränas att tro att alla lärare är kvinnor om till exempel utbildningsdata helt består av kvinnliga lärare.
- Uteslutningsbias – Detta inträffar när en viktig datapunkt saknas från den datauppsättning som används, vilket kan inträffa om modellerarna inte inser betydelsen av den saknade datapunkten.
- Fördomsfördomar – I det här fallet är själva maskininlärningen partisk eftersom data som används för att träna systemet återspeglar verkliga fördomar som fördomar, stereotyper och felaktiga sociala antaganden. Till exempel, om data om sjukvårdspersonal skulle inkluderas i datorsystemet som endast inkluderade manliga läkare och kvinnliga sjuksköterskor, skulle en verklig könsstereotyp om vårdpersonal vidmakthållas.
- Mätning Bias – Som namnet antyder beror denna snedvridning på grundläggande problem med kvaliteten på data och de metoder som används för att samla in eller utvärdera dem. Ett system som tränas för att exakt bedöma vikt kommer att vara partiskt om vikterna i träningsdata konsekvent rundades upp, och att använda bilder av nöjda anställda för att träna ett system som är avsett att bedöma en arbetsplatsmiljö kan vara partisk om de anställda på bilderna visste de mättes för lycka.
Vilka faktorer bidrar till bias i maskininlärning?
Även om det finns många anledningar till maskininlärningsbias, uppstår det ofta från bias i själva träningsdatan. Det finns flera potentiella bakomliggande orsaker till fördomar i träningsdata.
Den mest uppenbara illustrationen är träningsdata, som är en delmängd av tillstånd som ses i ett utplacerat system som inte är typiskt. Detta kan vara träningsdata med en underrepresentation av en kategori eller en oproportionerlig mängd av en annan.
Detta är känt som provbias, och det kan vara resultatet av icke-randomiserad träningsdatainsamling. De metoder som används för att samla in, analysera eller klassificera data, såväl som datas historiska rötter, kan alla leda till partiskhet i själva datan.
Informationen kan till och med vara partisk historiskt i den större kulturen där den samlades in.
Maskininlärningsbias orsakas oftast av:
- Fördomar orsakade av människor eller samhälle i historiska data används för att träna algoritmer.
- Träningsdata som inte speglar verkliga omständigheter.
- Bias när du märker eller förbereder data för övervakad maskininlärning.
Till exempel kan en brist på mångfald i träningsdata orsaka representationsbias. Noggrannheten i maskininlärningsmodeller påverkas ofta av historiska fördomar i den bredare kulturen.
Detta kallas ibland för social eller mänsklig fördom. Att hitta stora samlingar av data som inte är utsatta för samhällelig fördom kan vara utmanande. Databearbetningsstadiet i livscykeln för maskininlärning är lika känsligt för mänsklig fördom.
Data som har märkts och bearbetats av en datavetare eller annan expert är nödvändig för övervakad maskininlärning. Oavsett om det härrör från mängden data som rensas, sättet som datapunkter märks på, eller valet av funktioner, kan partiskhet i denna märkningsprocess leda till partiskhet i maskininlärning.
Maskininlärningsrisker
Eftersom modeller är datadrivna beslutsverktyg antas det att de ger opartiska bedömningar. Maskininlärningsmodeller innehåller ofta bias, vilket kan påverka resultaten.
Fler och fler industrier implementerar maskininlärning i stället för föråldrad programvara och procedurer. Partiska modeller kan ha negativa effekter i den verkliga världen när mer komplicerade jobb automatiseras med hjälp av modeller.
Maskininlärning skiljer sig inte från andra beslutsprocesser eftersom organisationer och individer förväntar sig att det ska vara transparent och rättvist. Eftersom maskininlärning är en automatiserad process, undersöks bedömningar som görs med den ibland ännu mer noggrant.
Det är avgörande att organisationer är proaktiva när det gäller att ta itu med farorna eftersom partiskhet i maskininlärning ofta kan ha diskriminerande eller negativa effekter på vissa befolkningsgrupper. För reglerade sammanhang måste i synnerhet möjligheten till bias i maskininlärning beaktas.
Till exempel kan maskininlärning inom bankväsendet användas för att automatiskt acceptera eller avvisa bolånesökande efter den första genomgången. En modell som är partisk mot en viss grupp av kandidater kan mycket väl ha skadliga effekter på både kandidaten och organisationen.
Varje partiskhet som finns i en distributionsmiljö där åtgärder kan granskas kan leda till stora problem. Modellen kanske inte fungerar och i de värsta scenarierna kan den till och med visa sig vara medvetet diskriminerande.
Bias måste noggrant utvärderas och förberedas för eftersom det kan leda till att modellen helt tas bort från driftsättning. Att få förtroende för modellbeslut kräver att man förstår och tar itu med maskininlärningsbias.
Nivån på förtroende inom organisationen och bland externa tjänstekonsumenter kan påverkas av upplevd partiskhet i modellbeslutsfattande. Om modeller inte är betrodda, särskilt när de vägleder högriskval, kommer de inte att användas till sin fulla potential inom en organisation.
När man utvärderar en modells förklaringsbarhet bör hänsyn till bias vara en faktor att ta hänsyn till. Giltigheten och noggrannheten i modellval kan påverkas allvarligt av okontrollerad maskininlärningsbias.
Det kan ibland resultera i diskriminerande handlingar som kan påverka vissa personer eller grupper. Det finns många applikationer för olika typer av maskininlärningsmodeller, och var och en är känslig för maskininlärningsbias i viss utsträckning.
Maskininlärningsbias illustreras av:
- På grund av frånvaron av variation i träningsdata, kan ansiktsigenkänningsalgoritmer vara mindre exakta för vissa rasgrupper.
- Programmet kan upptäcka ras- och könsfördomar i data på grund av mänskliga eller historiska fördomar.
- Med en viss dialekt eller accent kan bearbetning av naturligt språk vara mer exakt och den kanske inte kan bearbeta en accent som är underrepresenterad i träningsdata.
Att lösa bias i maskininlärning
Övervakning och omskolningsmodeller när bias hittas är två sätt att ta itu med maskininlärningsbias. I de flesta fall är modellbias en indikation på bias i träningsdata, eller åtminstone kan biasen relateras till träningsstadiet i maskininlärningslivscykeln.
Varje steg i modellens livscykel bör ha rutiner på plats för att fånga bias eller modelldrift. Processer för att övervaka maskininlärning efter implementering ingår också. Det är viktigt att ofta kontrollera modellen och datamängderna för bias.
Detta kan innebära att man undersöker en utbildningsdatauppsättning för att se hur grupper är fördelade och representerade där. Det är möjligt att modifiera och/eller förbättra datauppsättningar som inte är helt representativa.
Dessutom bör partiskhet övervägas när man bedömer modellens prestanda. Att testa modellens prestanda på olika delmängder av data kan visa om den är partisk eller överanpassad i förhållande till en viss grupp.
Det är möjligt att utvärdera maskininlärningsmodellens prestanda på vissa dataundergrupper genom att använda korsvalideringstekniker. Proceduren innebär att dela upp data i distinkta tränings- och testdatauppsättningar.
Du kan eliminera partiskhet i maskininlärning genom att:
- Vid behov, träna om modellen med hjälp av större, mer representativa träningsuppsättningar.
- Upprätta ett förfarande för att proaktivt se upp för partiska resultat och ovanliga bedömningar.
- Omviktning av funktioner och justering av hyperparametrar vid behov kan hjälpa till att ta hänsyn till bias.
- Uppmuntra lösningen av upptäckta bias genom en kontinuerlig cykel av upptäckt och optimering.
Slutsats
Det är frestande att tro att en maskininlärningsmodell skulle fungera autonomt när den väl utbildats. Faktum är att modellens operativa miljö alltid förändras, och chefer måste omskola modeller med hjälp av färska datauppsättningar regelbundet.
Maskininlärning är för närvarande en av de mest fascinerande tekniska kapaciteterna med verkliga ekonomiska fördelar. Maskininlärning, när den paras ihop med big data-teknik och den enorma beräkningskraften som är tillgänglig genom det offentliga molnet, har potentialen att förändra hur individer interagerar med teknik, och kanske hela industrier.
Men hur lovande maskininlärningsteknik än är, måste den planeras noggrant för att undvika oavsiktliga fördomar. Effektiviteten av de bedömningar som görs av maskinerna kan påverkas allvarligt av bias, vilket är något som utvecklare av maskininlärningsmodeller måste ta hänsyn till.
Kommentera uppropet