À medida que mais indústrias usam o poder dos algoritmos para automatizar operações e fazer escolhas, o aprendizado de máquina está se tornando um componente crucial de como o mundo contemporâneo opera.
A questão do viés no aprendizado de máquina é crucial para levar em consideração quando os modelos de aprendizado de máquina são integrados aos processos de tomada de decisão de várias organizações.
Garantir que as escolhas geradas por algoritmos sejam imparciais e desprovidas de viés deve ser o objetivo de qualquer organização que use modelos de aprendizado de máquina. Para garantir que os resultados do modelo possam ser confiáveis e vistos como justos, é crucial reconhecer e abordar aprendizado de máquina viés.
Está relacionado a questões de explicabilidade do modelo, ou quão fácil é para uma pessoa entender como um modelo de aprendizado de máquina chegou a uma conclusão. As tendências e padrões que os modelos de aprendizado de máquina mapeiam e aprendem vêm dos próprios dados, e não do desenvolvimento humano direto.
O viés no aprendizado de máquina pode surgir por vários motivos se não for controlado e verificado. Quando um modelo é implantado, ele frequentemente encontra situações que não são refletidas com precisão na amostra de dados de treinamento.
O modelo pode ter sido superajustado para esse conjunto de dados de treinamento não representativo. Apesar da excelente qualidade dos dados de treinamento, o modelo ainda pode ser afetado pelo viés histórico resultante de influências culturais mais amplas.
Uma vez implementado, um modelo tendencioso pode favorecer determinados grupos ou perder a precisão com determinados subconjuntos de dados. Isso pode resultar em julgamentos que punem injustamente um determinado grupo de indivíduos, o que pode ter efeitos negativos no mundo real.
Este artigo discute o viés de aprendizado de máquina, incluindo o que é, como identificá-lo, os perigos que ele representa e muito mais.
Então, o que é o viés de aprendizado de máquina?
Um algoritmo que produz saídas que são sistematicamente tendenciosas como resultado de suposições falsas feitas durante o processo de aprendizado de máquina é conhecido como viés de aprendizado de máquina, também conhecido como viés de algoritmo ou viés de IA.
O viés de aprendizado de máquina é a tendência de um modelo de favorecer um determinado conjunto de dados ou um subconjunto de dados; ela é frequentemente provocada por conjuntos de dados de treinamento não representativos. Com uma certa coleta de dados, um modelo tendencioso terá um desempenho inferior, o que prejudicará sua precisão.
Em uma configuração do mundo real, isso pode implicar que dados de treinamento tendenciosos resultaram na saída de um modelo favorecendo uma determinada raça, demografia ou gênero.
Como resultado, as saídas do aprendizado de máquina podem ser injustas ou discriminatórias. Treinamento não representativo conjuntos de dados podem contribuir para o viés no aprendizado de máquina.
O modelo resultante pode ser enviesado para outras categorias sub-representadas se os dados de treinamento estiverem ausentes ou forem excessivamente representativos de um determinado agrupamento de dados. Isso pode acontecer se a amostra de dados de treinamento não corresponder precisamente ao ambiente de implementação do mundo real.
O aprendizado de máquina no setor de saúde, que pode ser usado para verificar os dados do paciente em relação a doenças ou enfermidades conhecidas, é um excelente exemplo. Os modelos podem acelerar as intervenções dos médicos quando usados adequadamente.
No entanto, o preconceito é possível. Quando solicitado a prever uma possível doença em um paciente mais velho, um modelo não pode ter um bom desempenho se os dados de treinamento usados para construí-lo consistirem principalmente em dados de pacientes de uma faixa etária menor.
Além disso, as estatísticas históricas podem ser distorcidas. Por exemplo, como historicamente a maioria dos funcionários eram homens, um modelo treinado para filtrar candidatos a emprego favoreceria candidatos do sexo masculino.
O viés de aprendizado de máquina influenciará a precisão do modelo em ambos os cenários e, nas piores circunstâncias, poderá até resultar em conclusões discriminatórias e injustas.
As decisões devem ser cuidadosamente revisadas para garantir que não haja viés, pois modelos de aprendizado de máquina substituir cada vez mais operações manuais. Como resultado, as práticas de governança de modelo em qualquer organização devem incluir o monitoramento do viés de aprendizado de máquina.
Muitos tipos diferentes de trabalhos em muitos setores diferentes estão sendo concluídos por modelos de aprendizado de máquina. Hoje, os modelos são usados para automatizar processos cada vez mais difíceis e para gerar sugestões. Nesse processo de tomada de decisão, viés significa que um modelo pode favorecer um determinado grupo em detrimento de outro com base em um viés aprendido.
Quando usado para fazer julgamentos inseguros com consequências reais, isso pode ter repercussões graves. Quando usado para aprovar pedidos de empréstimo automaticamente, por exemplo, um modelo tendencioso pode prejudicar uma determinada população. Em negócios regulamentados onde quaisquer ações podem ser inspecionadas ou escrutinadas, este é um fator particularmente crucial a ser levado em consideração.
Tipos de viés de aprendizado de máquina
- Viés do algoritmo – Isso acontece quando há um bug no algoritmo que faz os cálculos que impulsionam os cálculos de aprendizado de máquina.
- Viés de amostra – Quando os dados usados para treinar o aprendizado de máquina modelo tem um problema, isso ocorre. Em casos desse tipo de viés, a quantidade ou qualidade dos dados utilizados para treinar o sistema é insuficiente. O algoritmo será treinado para acreditar que todos os professores são do sexo feminino se, por exemplo, os dados de treinamento forem inteiramente compostos por professoras.
- Viés de exclusão – Isso ocorre quando um ponto de dados crucial está ausente do conjunto de dados que está sendo utilizado, o que pode ocorrer se os modeladores não perceberem o significado do ponto de dados ausente.
- Preconceito – Nesse caso, o aprendizado de máquina em si é tendencioso, pois os dados usados para treinar o sistema refletem vieses do mundo real, como preconceito, estereótipos e suposições sociais incorretas. Por exemplo, se os dados sobre profissionais médicos fossem incluídos no sistema de computador que incluísse apenas médicos e enfermeiras, um estereótipo de gênero do mundo real sobre profissionais de saúde seria perpetuado.
- Viés de medição – Como o nome indica, esse viés resulta de questões fundamentais com a qualidade dos dados e os métodos usados para coletá-los ou avaliá-los. Um sistema que está sendo treinado para avaliar com precisão o peso será tendencioso se os pesos contidos nos dados de treinamento forem consistentemente arredondados, e o uso de imagens de funcionários satisfeitos para treinar um sistema destinado a avaliar um ambiente de trabalho pode ser tendencioso se os funcionários nas fotos souberem eles estavam sendo medidos pela felicidade.
Quais fatores contribuem para o viés no aprendizado de máquina?
Embora haja muitas razões para o viés de aprendizado de máquina, ele geralmente surge do viés nos próprios dados de treinamento. Existem várias causas subjacentes potenciais para vieses nos dados de treinamento.
A ilustração mais aparente são os dados de treinamento, que são um subconjunto de condições vistas em um sistema implantado que não é típico. Isso pode ser dados de treinamento com uma sub-representação de uma categoria ou uma quantidade desproporcional de outra.
Isso é conhecido como viés de amostra e pode resultar da coleta de dados de treinamento não randomizada. Os métodos usados para coletar, analisar ou classificar os dados, bem como as raízes históricas dos dados, podem levar a viés nos próprios dados.
A informação pode até ser historicamente tendenciosa na cultura mais ampla onde foi coletada.
O viés de aprendizado de máquina é causado principalmente por:
- Os vieses causados por humanos ou pela sociedade nos dados históricos são usados para treinar algoritmos.
- Dados de treinamento que não refletem as circunstâncias do mundo real.
- Viés ao rotular ou preparar dados para aprendizado de máquina supervisionado.
Por exemplo, a falta de diversidade nos dados de treinamento pode causar viés de representação. A precisão dos modelos de aprendizado de máquina é frequentemente afetada pelo viés histórico na cultura mais ampla.
Isso às vezes é chamado de viés social ou humano. Encontrar vastas coleções de dados que não são propensos a preconceitos sociais pode ser um desafio. O estágio de processamento de dados do ciclo de vida do aprendizado de máquina é igualmente suscetível ao viés humano.
Os dados que foram rotulados e processados por um cientista de dados ou outro especialista são necessários para o aprendizado de máquina supervisionado. Seja decorrente da variedade de dados que são limpos, da maneira como os pontos de dados são rotulados ou da escolha de recursos, o viés nesse processo de rotulagem pode levar ao viés no aprendizado de máquina.
Riscos de viés de aprendizado de máquina
Como os modelos são ferramentas de tomada de decisão orientadas por dados, assume-se que eles fornecem julgamentos imparciais. Os modelos de aprendizado de máquina geralmente contêm viés, o que pode afetar os resultados.
Cada vez mais indústrias estão implementando o aprendizado de máquina no lugar de softwares e procedimentos desatualizados. Modelos tendenciosos podem ter efeitos negativos no mundo real quando trabalhos mais complicados são automatizados usando modelos.
O aprendizado de máquina não é diferente de outros processos de tomada de decisão, pois organizações e indivíduos esperam que seja transparente e equitativo. Como o aprendizado de máquina é um processo automatizado, os julgamentos feitos usando-o são ocasionalmente examinados ainda mais de perto.
É crucial que as organizações sejam proativas ao lidar com os perigos, pois o viés no aprendizado de máquina pode frequentemente ter efeitos discriminatórios ou negativos em algumas populações. Para contextos regulamentados, em particular, a possibilidade de viés no aprendizado de máquina deve ser levada em consideração.
Por exemplo, o aprendizado de máquina no setor bancário pode ser usado para aceitar ou rejeitar automaticamente candidatos a hipotecas após a triagem inicial. Um modelo tendencioso para um determinado grupo de candidatos pode ter efeitos prejudiciais tanto para o candidato quanto para a organização.
Qualquer viés encontrado em um ambiente de implantação em que as ações possam ser examinadas pode levar a grandes problemas. O modelo pode não funcionar e, nos piores cenários, pode até ser deliberadamente discriminatório.
O viés deve ser cuidadosamente avaliado e preparado, pois pode resultar na remoção completa do modelo da implantação. Ganhar confiança nas decisões do modelo requer entender e abordar o viés de aprendizado de máquina.
O nível de confiança dentro da organização e entre os consumidores de serviços externos pode ser impactado pelo viés percebido na tomada de decisão do modelo. Se os modelos não forem confiáveis, especialmente ao orientar escolhas de alto risco, eles não serão usados em todo o seu potencial dentro de uma organização.
Ao avaliar a explicabilidade de um modelo, a contabilização do viés deve ser um fator a ser levado em consideração. A validade e a precisão das escolhas do modelo podem ser seriamente afetadas pelo viés de aprendizado de máquina não verificado.
Ocasionalmente, pode resultar em ações discriminatórias que podem afetar determinadas pessoas ou grupos. Existem inúmeras aplicações para vários tipos de modelos de aprendizado de máquina, e cada um é suscetível ao viés de aprendizado de máquina até certo ponto.
O viés de aprendizado de máquina é ilustrado por:
- Devido à ausência de variedade nos dados de treinamento, os algoritmos de reconhecimento facial podem ser menos precisos para alguns grupos raciais.
- O programa pode detectar preconceitos raciais e de gênero nos dados devido a preconceitos humanos ou históricos.
- Com um determinado dialeto ou sotaque, o processamento de linguagem natural pode ser mais preciso e pode não ser capaz de processar um sotaque sub-representado nos dados de treinamento.
Resolvendo o viés no aprendizado de máquina
Monitorar e retreinar modelos quando o viés é encontrado são duas maneiras de lidar com o viés de aprendizado de máquina. Na maioria dos casos, o viés do modelo é uma indicação de viés nos dados de treinamento, ou pelo menos o viés pode estar relacionado ao estágio de treinamento do ciclo de vida do aprendizado de máquina.
Cada estágio do ciclo de vida do modelo deve ter procedimentos implementados para detectar viés ou desvio do modelo. Os processos para monitorar o aprendizado de máquina após a implantação também estão incluídos. É importante verificar com frequência o modelo e os conjuntos de dados quanto a vieses.
Isso pode envolver examinar um conjunto de dados de treinamento para ver como os grupos são distribuídos e representados lá. É possível modificar e/ou melhorar conjuntos de dados que não são totalmente representativos.
Além disso, o viés deve ser considerado ao avaliar o desempenho do modelo. Testar o desempenho do modelo em diferentes subconjuntos de dados pode mostrar se ele é tendencioso ou superajustado em relação a um determinado grupo.
É possível avaliar o desempenho do modelo de aprendizado de máquina em determinados subconjuntos de dados usando técnicas de validação cruzada. O procedimento envolve a divisão dos dados em conjuntos de dados de treinamento e teste distintos.
Você pode eliminar o viés no aprendizado de máquina:
- Quando necessário, retreine o modelo usando conjuntos de treinamento maiores e mais representativos.
- Estabelecer um procedimento para observar proativamente resultados tendenciosos e julgamentos incomuns.
- Reponderar recursos e ajustar hiperparâmetros conforme necessário pode ajudar a explicar o viés.
- Incentivando a resolução do viés descoberto por meio de um ciclo contínuo de detecção e otimização.
Conclusão
É tentador acreditar que, uma vez treinado, um modelo de aprendizado de máquina funcionaria de forma autônoma. Na verdade, o ambiente operacional do modelo está sempre mudando e os gerentes devem treinar novamente os modelos usando novos conjuntos de dados regularmente.
O aprendizado de máquina é atualmente um dos recursos tecnológicos mais fascinantes com benefícios econômicos do mundo real. O aprendizado de máquina, quando combinado com tecnologias de big data e o imenso poder computacional disponível por meio da nuvem pública, tem o potencial de transformar a maneira como os indivíduos interagem com a tecnologia e talvez com setores inteiros.
No entanto, por mais promissora que seja a tecnologia de aprendizado de máquina, ela deve ser cuidadosamente planejada para evitar vieses não intencionais. A eficácia dos julgamentos feitos pelas máquinas pode ser severamente impactada pelo viés, algo que os desenvolvedores de modelos de aprendizado de máquina devem levar em consideração.
Deixe um comentário