A medida que máis industrias usan o poder dos algoritmos para automatizar operacións e tomar decisións, a aprendizaxe automática está a converterse nun compoñente crucial do funcionamento do mundo contemporáneo.
A cuestión do sesgo na aprendizaxe automática é fundamental para ter en conta cando os modelos de aprendizaxe automática se integran nos procesos de toma de decisións de varias organizacións.
Garantir que as opcións xeradas polos algoritmos sexan imparciais e carentes de sesgo debería ser o obxectivo de calquera organización que utilice modelos de aprendizaxe automática. Para garantir que os resultados do modelo se poidan confiar e considerar xustos, é fundamental recoñecelos e abordalos aprendizaxe de máquina parcialidade.
Está relacionado con cuestións de explicabilidade do modelo, ou o fácil que é para unha persoa comprender como un modelo de aprendizaxe automática chegou a unha conclusión. As tendencias e patróns que mapean e aprenden os modelos de aprendizaxe automática proceden dos propios datos en lugar do desenvolvemento humano directo.
O sesgo na aprendizaxe automática pode xurdir por varias razóns se non se controla e comproba. Cando se implanta un modelo, adoita atoparse con situacións que non se reflicten con precisión na mostra de datos de adestramento.
O modelo podería ser demasiado adecuado para este conxunto de datos de adestramento pouco representativo. A pesar da excelente calidade dos datos de formación, o modelo aínda pode verse afectado por sesgos históricos derivados de influencias culturais máis amplas.
Unha vez implementado, un modelo sesgado podería favorecer a determinados grupos ou perder a precisión con determinados subconxuntos de datos. Isto pode dar lugar a xuízos que castigan inxustamente a un determinado grupo de individuos, o que pode ter efectos negativos no mundo real.
Este artigo analiza o sesgo da aprendizaxe automática, incluíndo o que é, como detectalo, os perigos que supón e moito máis.
Entón, que é o sesgo de aprendizaxe automática?
Un algoritmo que produce resultados sistemáticamente sesgados como resultado de suposicións falsas realizadas durante o proceso de aprendizaxe automática coñécese como sesgo de aprendizaxe automática, tamén coñecido como sesgo de algoritmo ou sesgo da IA.
O sesgo de aprendizaxe automática é a tendencia dun modelo a favorecer un determinado conxunto de datos ou un subconxunto de datos; adoita ser provocada por conxuntos de datos de formación non representativos. Cunha certa recollida de datos, un modelo sesgado terá un rendemento inferior, o que prexudicará a súa precisión.
Nunha configuración do mundo real, isto pode implicar que os datos de adestramento sesgados deron lugar a que a saída dun modelo favoreza unha determinada raza, demografía ou xénero.
Como resultado, os resultados da aprendizaxe automática poden ser inxustos ou discriminatorios. Formación non representativa os conxuntos de datos poden contribuír ao sesgo na aprendizaxe automática.
O modelo resultante pode sesgar cara a outras categorías subrepresentadas se os datos de formación carecen ou son excesivamente representativos dun grupo de datos particular. Isto pode ocorrer se a mostra de datos de adestramento non coincide exactamente co ambiente de implantación do mundo real.
A aprendizaxe automática no sector da saúde, que se pode usar para comprobar os datos dos pacientes contra enfermidades ou enfermidades coñecidas, é un excelente exemplo. Os modelos poden acelerar as intervencións dos médicos cando se usan adecuadamente.
Non obstante, o prexuízo é posible. Cando se lle pide prever unha posible enfermidade nun paciente maior, un modelo non pode funcionar ben se os datos de adestramento utilizados para construílo consisten principalmente en datos de pacientes dun rango de idade máis pequeno.
Ademais, as estatísticas históricas poden ser sesgadas. Por exemplo, porque historicamente a maioría dos empregados eran homes, un modelo adestrado para filtrar os candidatos a emprego favorecería aos candidatos masculinos.
O sesgo da aprendizaxe automática influirá na precisión do modelo en ambos os escenarios e, nas peores circunstancias, incluso podería producir conclusións discriminatorias e inxustas.
As decisións deben ser revisadas coidadosamente para garantir que non hai sesgos modelos de aprendizaxe automática substituír cada vez máis operacións manuais. Como resultado, as prácticas de goberno modelo en calquera organización deberían incluír o seguimento do sesgo de aprendizaxe automática.
Moitos tipos diferentes de traballos en moitas industrias diferentes están sendo completados por modelos de aprendizaxe automática. Hoxe, os modelos utilízanse para automatizar procesos cada vez máis difíciles e para xerar suxestións. Neste proceso de toma de decisións, o sesgo significa que un modelo podería favorecer a un grupo en particular sobre outro en función dun sesgo aprendido.
Cando se usa para facer xuízos inseguros con consecuencias reais, isto pode ter graves repercusións. Cando se usa para aprobar automaticamente solicitudes de préstamo, por exemplo, un modelo tendencioso pode prexudicar a unha determinada poboación. Nas empresas reguladas nas que calquera acción pode ser inspeccionada ou examinada, este é un factor especialmente crucial a ter en conta.
Tipos de sesgo de aprendizaxe automática
- Sesgo de algoritmo – Isto ocorre cando hai un erro no algoritmo que fai os cálculos que impulsan os cálculos de aprendizaxe automática.
- Bias da mostra – Cando os datos adoitaban adestrar a aprendizaxe automática modelo ten un problema, isto ocorre. Nos casos deste tipo de sesgo, a cantidade ou calidade dos datos utilizados para adestrar o sistema é insuficiente. O algoritmo adestrarase para crer que todos os profesores son mulleres se, por exemplo, os datos de formación están compostos enteiramente por profesoras.
- Sesgo de exclusión – Isto ocorre cando un punto de datos crucial está ausente do conxunto de datos que se está a utilizar, o que pode ocorrer se os modeladores non se dan conta da importancia do punto de datos que falta.
- Sesgo de prexuízo – Neste caso, a propia aprendizaxe automática está sesgada xa que os datos utilizados para adestrar o sistema reflicten sesgos do mundo real como prexuízos, estereotipos e suposicións sociais incorrectas. Por exemplo, se os datos sobre profesionais médicos fosen incluídos no sistema informático que só incluíse a médicos e enfermeiras, perpetuaríase un estereotipo de xénero real sobre os traballadores da saúde.
- Sesgo de medición – Como o seu nome indica, este sesgo resulta de cuestións fundamentais coa calidade dos datos e os métodos empregados para recollelos ou avalialos. Un sistema que se está adestrando para avaliar o peso con precisión estará sesgado se os pesos contidos nos datos de adestramento foron redondeados de forma consistente, e o uso de imaxes de empregados satisfeitos para adestrar un sistema destinado a avaliar un ambiente de traballo pode ser sesgado se os empregados das imaxes sabían. estaban sendo medidos pola felicidade.
Que factores contribúen ao sesgo na aprendizaxe automática?
Aínda que hai moitas razóns para o sesgo da aprendizaxe automática, moitas veces xorde da parcialidade nos propios datos de adestramento. Hai varias causas subxacentes potenciais para os sesgos nos datos de adestramento.
A ilustración máis aparente son os datos de adestramento, que son un subconxunto de condicións que se observan nun sistema despregado que non son típicos. Estes poden ser datos de adestramento cunha subrepresentación dunha categoría ou unha cantidade desproporcionada doutra.
Isto coñécese como sesgo de mostra e pode resultar da recollida de datos de adestramento non aleatorizados. Os métodos utilizados para recoller, analizar ou clasificar os datos, así como as raíces históricas dos datos, poden provocar sesgos nos propios datos.
A información pode incluso estar sesgada historicamente na cultura máis ampla onde foi reunida.
O sesgo da aprendizaxe automática é causado principalmente por:
- Os sesgos causados polos humanos ou a sociedade nos datos históricos utilízanse para adestrar algoritmos.
- Datos de adestramento que non reflicten circunstancias do mundo real.
- Sesgo ao etiquetar ou preparar datos para a aprendizaxe automática supervisada.
Por exemplo, a falta de diversidade nos datos de formación pode provocar un sesgo de representación. A precisión dos modelos de aprendizaxe automática vese frecuentemente afectada polo sesgo histórico da cultura máis ampla.
Isto ás veces denomínase prexuízo social ou humano. Atopar grandes coleccións de datos que non sexan propensos a sesgos sociais pode ser un reto. A etapa de procesamento de datos do ciclo de vida da aprendizaxe automática é igualmente susceptible ao sesgo humano.
Os datos que foron etiquetados e procesados por un científico de datos ou outro experto son necesarios para a aprendizaxe automática supervisada. Tanto se se deriva da variedade de datos que se limpan, da forma en que se etiquetan os puntos de datos ou da elección das funcións, o sesgo neste proceso de etiquetado pode provocar sesgos na aprendizaxe automática.
Riscos de sesgo de aprendizaxe automática
Dado que os modelos son ferramentas de toma de decisións baseadas en datos, suponse que proporcionan xuízos imparciais. Os modelos de aprendizaxe automática adoitan incluír sesgos, que poden afectar os resultados.
Cada vez son máis as industrias que implementan a aprendizaxe automática en lugar de software e procedementos obsoletos. Os modelos sesgados poden ter efectos negativos no mundo real cando os traballos máis complicados se automatizan mediante modelos.
A aprendizaxe automática non é diferente doutros procesos de toma de decisións xa que as organizacións e os individuos esperan que sexa transparente e equitativo. Debido a que a aprendizaxe automática é un proceso automatizado, os xuízos que se fan ao seu uso son ocasionalmente examinados aínda máis detidamente.
É fundamental que as organizacións sexan proactivas para abordar os perigos xa que o sesgo na aprendizaxe automática pode ter frecuentemente efectos discriminatorios ou negativos nalgunhas poboacións. Para os contextos regulados, en particular, hai que ter en conta a posibilidade de sesgo na aprendizaxe automática.
Por exemplo, a aprendizaxe automática na banca podería usarse para aceptar ou rexeitar automaticamente os solicitantes de hipotecas despois da selección inicial. Un modelo sesgado cara a un determinado grupo de candidatos ben podería ter efectos prexudiciais tanto para o candidato como para a organización.
Calquera prexuízo que se atope nun ambiente de despregamento onde se poidan analizar as accións pode levar a problemas importantes. É posible que o modelo non funcione e, no peor dos escenarios, mesmo pode resultar deliberadamente discriminatorio.
O sesgo debe ser coidadosamente avaliado e preparado, xa que pode provocar que o modelo sexa completamente eliminado da implantación. Gañar confianza nas decisións do modelo require comprender e abordar o sesgo da aprendizaxe automática.
O nivel de confianza dentro da organización e entre os consumidores de servizos externos podería verse afectado polo sesgo percibido na toma de decisións do modelo. Se non se confía nos modelos, especialmente cando se orientan opcións de alto risco, non se utilizarán ao máximo dentro dunha organización.
Ao avaliar a explicabilidade dun modelo, a consideración do sesgo debe ser un factor a ter en conta. A validez e precisión das opcións de modelos poden verse seriamente afectadas por un sesgo de aprendizaxe automática non verificado.
Ocasionalmente pode dar lugar a accións discriminatorias que poidan afectar a determinadas persoas ou grupos. Existen numerosas aplicacións para varios tipos de modelos de aprendizaxe automática, e cada unha é susceptible de sesgo de aprendizaxe automática ata certo punto.
O sesgo da aprendizaxe automática móstrase por:
- Debido á ausencia de variedade nos datos de adestramento, os algoritmos de recoñecemento facial poden ser menos precisos para algúns grupos raciais.
- O programa podería detectar sesgos raciais e de xénero nos datos debido a prexuízos humanos ou históricos.
- Cun determinado dialecto ou acento, o procesamento da linguaxe natural podería ser máis preciso e é posible que non poida procesar un acento que estea infrarrepresentado nos datos de adestramento.
Resolvendo sesgos na aprendizaxe automática
Os modelos de seguimento e reciclaxe cando se atopan sesgos son dúas formas de abordar o sesgo da aprendizaxe automática. Na maioría dos casos, o sesgo do modelo é unha indicación de sesgo nos datos de adestramento, ou polo menos o sesgo pode estar relacionado coa etapa de adestramento do ciclo de vida da aprendizaxe automática.
Cada etapa do ciclo de vida do modelo debe ter procedementos establecidos para detectar sesgos ou deriva do modelo. Tamén se inclúen procesos para supervisar a aprendizaxe automática despois da implantación. É importante comprobar con frecuencia o modelo e os conxuntos de datos para detectar sesgos.
Isto pode implicar examinar un conxunto de datos de adestramento para ver como se distribúen e se representan os grupos alí. É posible modificar e/ou mellorar conxuntos de datos que non son totalmente representativos.
Ademais, debe considerarse o sesgo ao avaliar o rendemento do modelo. Probar o rendemento do modelo en diferentes subconxuntos de datos pode mostrar se está sesgado ou sobreadaptado en relación a un determinado grupo.
É posible avaliar o rendemento do modelo de aprendizaxe automática en determinados subconxuntos de datos mediante técnicas de validación cruzada. O procedemento consiste en dividir os datos en distintos conxuntos de datos de adestramento e proba.
Podes eliminar o sesgo na aprendizaxe automática:
- Cando sexa necesario, readestra o modelo usando conxuntos de adestramento máis grandes e representativos.
- Establecer un procedemento para buscar de forma proactiva resultados sesgados e xuízos pouco habituais.
- Reponderar as funcións e axustar hiperparámetros segundo sexa necesario pode axudar a ter en conta o sesgo.
- Fomentar a resolución do sesgo descuberto mediante un ciclo continuo de detección e optimización.
Conclusión
É tentador crer que unha vez formado, un modelo de aprendizaxe automática funcionaría de forma autónoma. De feito, o ambiente operativo do modelo está sempre cambiando e os xestores deben reciclar os modelos utilizando conxuntos de datos novos de forma regular.
A aprendizaxe automática é actualmente unha das capacidades tecnolóxicas máis fascinantes con beneficios económicos no mundo real. A aprendizaxe automática, cando se combina coas tecnoloxías de big data e a inmensa potencia computacional dispoñible a través da nube pública, ten o potencial de transformar a forma en que os individuos interactúan coa tecnoloxía, e quizais con industrias enteiras.
Non obstante, por moi prometedora que sexa a tecnoloxía de aprendizaxe automática, debe planificarse coidadosamente para evitar prexuízos non intencionados. A eficacia dos xuízos realizados polas máquinas pode verse gravemente afectada pola parcialidade, algo que os desenvolvedores de modelos de aprendizaxe automática deben ter en conta.
Deixe unha resposta