Índice del Contenido[Esconder][Espectáculo]
A medida que más industrias utilizan el poder de los algoritmos para automatizar operaciones y tomar decisiones, el aprendizaje automático se está convirtiendo en un componente crucial de cómo opera el mundo contemporáneo.
Es fundamental tener en cuenta el tema del sesgo en el aprendizaje automático cuando los modelos de aprendizaje automático se integran en los procesos de toma de decisiones de varias organizaciones.
Garantizar que las elecciones generadas por los algoritmos sean imparciales y sin sesgos debe ser el objetivo de cualquier organización que utilice modelos de aprendizaje automático. Para garantizar que se pueda confiar en los resultados del modelo y verlos como justos, es fundamental reconocer y abordar máquina de aprendizaje parcialidad.
Está relacionado con preguntas sobre la explicabilidad del modelo, o qué tan fácil es para una persona comprender cómo un modelo de aprendizaje automático llegó a una conclusión. Las tendencias y los patrones que los modelos de aprendizaje automático mapean y aprenden provienen de los datos mismos y no del desarrollo humano directo.
El sesgo en el aprendizaje automático puede surgir por una variedad de razones si no se controla y verifica. Cuando se implementa un modelo, con frecuencia encuentra situaciones que no se reflejan con precisión en la muestra de datos de entrenamiento.
El modelo podría haberse sobreajustado para este conjunto de datos de entrenamiento no representativo. A pesar de la excelente calidad de los datos de entrenamiento, el modelo aún puede verse afectado por el sesgo histórico resultante de influencias culturales más amplias.
Una vez implementado, un modelo sesgado podría favorecer a ciertos grupos o perder precisión con subconjuntos de datos particulares. Esto podría resultar en juicios que castiguen injustamente a cierto grupo de individuos, lo que podría tener efectos negativos en el mundo real.
Este artículo analiza el sesgo del aprendizaje automático, incluido qué es, cómo detectarlo, los peligros que plantea y mucho más.
Entonces, ¿qué es el sesgo de aprendizaje automático?
Un algoritmo que produce resultados que están sesgados sistemáticamente como resultado de suposiciones falsas realizadas durante el proceso de aprendizaje automático se conoce como sesgo de aprendizaje automático, también conocido como sesgo de algoritmo o sesgo de IA.
El sesgo de aprendizaje automático es la tendencia de un modelo a favorecer un conjunto particular de datos o un subconjunto de datos; con frecuencia es provocada por conjuntos de datos de entrenamiento no representativos. Con una determinada recopilación de datos, un modelo sesgado tendrá un rendimiento inferior, lo que perjudicará su precisión.
En un entorno del mundo real, esto puede implicar que los datos de entrenamiento sesgados dieron como resultado que la salida de un modelo favoreciera una determinada raza, grupo demográfico o género.
Como resultado, los resultados del aprendizaje automático podrían ser injustos o discriminatorios. Formación no representativa los conjuntos de datos pueden contribuir al sesgo en aprendizaje automático.
El modelo resultante puede estar sesgado hacia otras categorías subrepresentadas si faltan datos de entrenamiento o son demasiado representativos de un grupo de datos en particular. Esto puede suceder si la muestra de datos de entrenamiento no coincide con precisión con el entorno de implementación del mundo real.
El aprendizaje automático en la industria de la salud, que se puede utilizar para comparar los datos de los pacientes con enfermedades o padecimientos conocidos, es un excelente ejemplo. Los modelos pueden acelerar las intervenciones de los médicos cuando se utilizan adecuadamente.
Sin embargo, el prejuicio es posible. Cuando se le pide que prediga una posible enfermedad en un paciente mayor, un modelo no puede funcionar bien si los datos de entrenamiento utilizados para construirlo consisten principalmente en datos de pacientes de un rango de edad más pequeño.
Además, las estadísticas históricas pueden estar sesgadas. Por ejemplo, debido a que, históricamente, la mayoría de los empleados eran hombres, un modelo capacitado para filtrar candidatos de trabajo favorecería a los candidatos masculinos.
El sesgo del aprendizaje automático influirá en la precisión del modelo en ambos escenarios y, en las peores circunstancias, podría incluso dar lugar a conclusiones discriminatorias e injustas.
Las decisiones deben ser revisadas cuidadosamente para asegurar que no haya sesgo como modelos de aprendizaje automático reemplazar cada vez más las operaciones manuales. Como resultado, las prácticas de gobernanza modelo en cualquier organización deben incluir el monitoreo del sesgo de aprendizaje automático.
Los modelos de aprendizaje automático están completando muchos tipos diferentes de trabajos en muchas industrias diferentes. Hoy en día, los modelos se utilizan para automatizar procesos cada vez más difíciles y para generar sugerencias. En este proceso de toma de decisiones, el sesgo significa que un modelo podría favorecer a un grupo en particular sobre otro basado en un sesgo aprendido.
Cuando se utiliza para hacer juicios inseguros con consecuencias reales, esto puede tener graves repercusiones. Cuando se utiliza para aprobar automáticamente las solicitudes de préstamo, por ejemplo, un modelo sesgado puede perjudicar a una determinada población. En negocios regulados donde cualquier acción puede ser inspeccionada o examinada, este es un factor particularmente crucial a tener en cuenta.
Tipos de sesgos de aprendizaje automático
- Sesgo del algoritmo – Esto sucede cuando hay un error en el algoritmo que realiza los cálculos que impulsan los cálculos de aprendizaje automático.
- Sesgo de muestra – Cuando los datos solían entrenar el aprendizaje automático modelo tiene un problema, esto ocurre. En casos de este tipo de sesgo, la cantidad o calidad de los datos utilizados para entrenar el sistema es insuficiente. El algoritmo se entrenará para creer que todos los profesores son mujeres si, por ejemplo, los datos de formación están compuestos en su totalidad por profesoras.
- Sesgo de exclusión – Esto ocurre cuando falta un punto de datos crucial del conjunto de datos que se utiliza, lo que podría ocurrir si los modeladores no se dan cuenta de la importancia del punto de datos que falta.
- Sesgo de prejuicio – En este caso, el aprendizaje automático en sí está sesgado, ya que los datos utilizados para entrenar el sistema reflejan sesgos del mundo real, como prejuicios, estereotipos y suposiciones sociales incorrectas. Por ejemplo, si se incluyeran datos sobre profesionales médicos en el sistema informático que solo incluyera médicos y enfermeras, se perpetuaría un estereotipo de género en el mundo real sobre los trabajadores de la salud.
- Sesgo de medición – Como su nombre lo indica, este sesgo resulta de problemas fundamentales con la calidad de los datos y los métodos utilizados para recopilarlos o evaluarlos. Un sistema que se entrena para evaluar con precisión el peso estará sesgado si los pesos contenidos en los datos de entrenamiento se redondearon constantemente, y el uso de imágenes de empleados satisfechos para entrenar un sistema destinado a evaluar un entorno de trabajo puede estar sesgado si los empleados en las imágenes sabían estaban siendo medidos por la felicidad.
¿Qué factores contribuyen al sesgo en el aprendizaje automático?
Aunque hay muchas razones para el sesgo del aprendizaje automático, a menudo surge del sesgo en los propios datos de entrenamiento. Hay varias posibles causas subyacentes de sesgos en los datos de entrenamiento.
La ilustración más evidente son los datos de entrenamiento, que son un subconjunto de condiciones vistas en un sistema implementado que no es típico. Esto podría ser datos de entrenamiento con una subrepresentación de una categoría o una cantidad desproporcionada de otra.
Esto se conoce como sesgo de muestra y puede deberse a la recopilación de datos de entrenamiento no aleatorios. Los métodos utilizados para recopilar, analizar o clasificar los datos, así como las raíces históricas de los datos, pueden generar sesgos en los datos mismos.
La información puede incluso estar sesgada históricamente en la cultura más amplia donde se recopiló.
El sesgo de aprendizaje automático es causado principalmente por:
- Los sesgos causados por humanos o la sociedad en los datos históricos se utilizan para entrenar algoritmos.
- Datos de entrenamiento que no reflejan las circunstancias del mundo real.
- Sesgo al etiquetar o preparar datos para el aprendizaje automático supervisado.
Por ejemplo, la falta de diversidad en los datos de entrenamiento podría causar un sesgo de representación. La precisión de los modelos de aprendizaje automático se ve afectada con frecuencia por el sesgo histórico en la cultura más amplia.
Esto a veces se denomina sesgo social o humano. Encontrar grandes colecciones de datos que no sean propensos al sesgo social puede ser un desafío. La etapa de procesamiento de datos del ciclo de vida del aprendizaje automático es igualmente susceptible al sesgo humano.
Los datos que han sido etiquetados y procesados por un científico de datos u otro experto son necesarios para el aprendizaje automático supervisado. Ya sea que se deba a la variedad de datos que se limpian, la forma en que se etiquetan los puntos de datos o la elección de características, el sesgo en este proceso de etiquetado puede conducir a un sesgo en el aprendizaje automático.
Riesgos de sesgo de aprendizaje automático
Dado que los modelos son herramientas de toma de decisiones basadas en datos, se supone que proporcionan juicios imparciales. Los modelos de aprendizaje automático con frecuencia contienen sesgos, lo que puede afectar los resultados.
Cada vez más industrias están implementando el aprendizaje automático en lugar de software y procedimientos obsoletos. Los modelos sesgados pueden tener efectos negativos en el mundo real cuando los trabajos más complicados se automatizan mediante modelos.
El aprendizaje automático no es diferente de otros procesos de toma de decisiones en el sentido de que las organizaciones y las personas esperan que sea transparente y equitativo. Debido a que el aprendizaje automático es un proceso automatizado, los juicios realizados al usarlo se examinan ocasionalmente con más detenimiento.
Es crucial que las organizaciones sean proactivas al abordar los peligros, ya que el sesgo en el aprendizaje automático puede tener con frecuencia efectos discriminatorios o negativos en algunas poblaciones. Para contextos regulados, en particular, se debe tener en cuenta la posibilidad de sesgo en el aprendizaje automático.
Por ejemplo, el aprendizaje automático en la banca podría usarse para aceptar o rechazar automáticamente a los solicitantes de hipotecas después de la selección inicial. Un modelo que está sesgado hacia un determinado grupo de candidatos bien podría tener efectos perjudiciales tanto para el candidato como para la organización.
Cualquier sesgo que se encuentre en un entorno de implementación donde las acciones pueden ser examinadas podría generar problemas importantes. El modelo podría no funcionar y, en el peor de los escenarios, incluso podría resultar deliberadamente discriminatorio.
El sesgo debe evaluarse y prepararse cuidadosamente, ya que puede provocar que el modelo se elimine por completo de la implementación. Ganar confianza en las decisiones del modelo requiere comprender y abordar el sesgo del aprendizaje automático.
El nivel de confianza dentro de la organización y entre los consumidores de servicios externos podría verse afectado por el sesgo percibido en la toma de decisiones del modelo. Si no se confía en los modelos, especialmente cuando se guían por decisiones de alto riesgo, no se utilizarán en todo su potencial dentro de una organización.
Al evaluar la explicabilidad de un modelo, la consideración del sesgo debe ser un factor a tener en cuenta. La validez y la precisión de las opciones de modelo pueden verse seriamente afectadas por un sesgo de aprendizaje automático no controlado.
Ocasionalmente puede resultar en acciones discriminatorias que podrían afectar a personas o grupos particulares. Existen numerosas aplicaciones para varios tipos de modelos de aprendizaje automático, y cada uno es susceptible al sesgo de aprendizaje automático hasta cierto punto.
El sesgo de aprendizaje automático se ilustra mediante:
- Debido a la ausencia de variedad en los datos de entrenamiento, los algoritmos de reconocimiento facial pueden ser menos precisos para algunos grupos raciales.
- El programa podría detectar sesgos raciales y de género en los datos debido a prejuicios humanos o históricos.
- Con un determinado dialecto o acento, el procesamiento del lenguaje natural podría ser más preciso y es posible que no pueda procesar un acento que no esté representado en los datos de entrenamiento.
Resolviendo el sesgo en el aprendizaje automático
Los modelos de monitoreo y reentrenamiento cuando se encuentran sesgos son dos formas de abordar el sesgo de aprendizaje automático. En la mayoría de los casos, el sesgo del modelo es una indicación de sesgo en los datos de entrenamiento o, al menos, el sesgo puede estar relacionado con la etapa de entrenamiento del ciclo de vida del aprendizaje automático.
Cada etapa del ciclo de vida del modelo debe contar con procedimientos para detectar sesgos o desviaciones del modelo. También se incluyen procesos para monitorear el aprendizaje automático después de la implementación. Es importante verificar con frecuencia el modelo y los conjuntos de datos en busca de sesgos.
Esto podría implicar examinar un conjunto de datos de entrenamiento para ver cómo se distribuyen y representan los grupos allí. Es posible modificar y/o mejorar conjuntos de datos que no son del todo representativos.
Además, se debe considerar el sesgo al evaluar el rendimiento del modelo. Probar el rendimiento del modelo en diferentes subconjuntos de datos puede mostrar si está sesgado o sobreajustado en relación con un grupo determinado.
Es posible evaluar el rendimiento del modelo de aprendizaje automático en ciertos subconjuntos de datos mediante el uso de técnicas de validación cruzada. El procedimiento consiste en dividir los datos en distintos conjuntos de datos de entrenamiento y prueba.
Puede eliminar el sesgo en el aprendizaje automático al:
- Cuando sea necesario, vuelva a entrenar el modelo utilizando conjuntos de entrenamiento más grandes y representativos.
- Establecer un procedimiento para buscar proactivamente resultados sesgados y juicios inusuales.
- Volver a ponderar las características y ajustar los hiperparámetros según sea necesario puede ayudar a tener en cuenta el sesgo.
- Fomentar la resolución de sesgos descubiertos a través de un ciclo continuo de detección y optimización.
Conclusión
Es tentador creer que, una vez entrenado, un modelo de aprendizaje automático funcionaría de forma autónoma. De hecho, el entorno operativo del modelo siempre está cambiando y los gerentes deben volver a entrenar los modelos utilizando conjuntos de datos nuevos de forma regular.
El aprendizaje automático es actualmente una de las capacidades tecnológicas más fascinantes con beneficios económicos en el mundo real. El aprendizaje automático, cuando se combina con las tecnologías de big data y el inmenso poder computacional disponible a través de la nube pública, tiene el potencial de transformar la forma en que las personas interactúan con la tecnología y quizás con industrias enteras.
Sin embargo, a pesar de lo prometedora que es la tecnología de aprendizaje automático, debe planificarse cuidadosamente para evitar sesgos no intencionales. La efectividad de los juicios realizados por las máquinas puede verse gravemente afectada por el sesgo, que es algo que los desarrolladores de modelos de aprendizaje automático deben tener en cuenta.
Deje un comentario