Table des matières[Cacher][Montrer]
Alors que de plus en plus d'industries utilisent la puissance des algorithmes pour automatiser les opérations et faire des choix, l'apprentissage automatique devient un élément crucial du fonctionnement du monde contemporain.
La question du biais dans l'apprentissage automatique est cruciale à prendre en compte lorsque les modèles d'apprentissage automatique sont intégrés dans les processus décisionnels de diverses organisations.
Garantir que les choix générés par les algorithmes sont impartiaux et dépourvus de préjugés devrait être l'objectif de toute organisation qui utilise des modèles d'apprentissage automatique. Pour s'assurer que les résultats du modèle sont fiables et considérés comme équitables, il est crucial de reconnaître et de traiter machine learning biais.
Il est lié à des questions d'explicabilité du modèle, ou à quel point il est facile pour une personne de comprendre comment un modèle d'apprentissage automatique est arrivé à une conclusion. Les tendances et les modèles que les modèles d'apprentissage automatique cartographient et apprennent proviennent des données elles-mêmes plutôt que du développement humain direct.
Un biais dans l'apprentissage automatique peut apparaître pour diverses raisons s'il n'est pas contrôlé et vérifié. Lorsqu'un modèle est déployé, il rencontre fréquemment des situations qui ne sont pas précisément reflétées dans l'échantillon de données d'apprentissage.
Le modèle aurait pu être surajusté pour cet ensemble de données d'apprentissage non représentatif. Malgré l'excellente qualité des données de formation, le modèle peut encore être affecté par un biais historique résultant d'influences culturelles plus larges.
Une fois mis en œuvre, un modèle biaisé pourrait favoriser certains groupes ou perdre en précision avec des sous-ensembles de données particuliers. Cela pourrait entraîner des jugements qui punissent injustement un certain groupe d'individus, ce qui pourrait avoir des effets négatifs sur le monde réel.
Cet article traite du biais d'apprentissage automatique, y compris de quoi il s'agit, comment le repérer, les dangers qu'il pose et bien plus encore.
Alors, qu'est-ce que le biais d'apprentissage automatique ?
Un algorithme produisant des sorties qui sont systématiquement biaisées à la suite de fausses hypothèses faites au cours du processus d'apprentissage automatique est connu sous le nom de biais d'apprentissage automatique, également appelé biais d'algorithme ou connu sous le nom de biais d'IA.
Le biais d'apprentissage automatique est la tendance d'un modèle à favoriser un ensemble particulier de données ou un sous-ensemble de données ; il est fréquemment provoqué par des ensembles de données de formation non représentatifs. Avec une certaine collecte de données, un modèle biaisé sera sous-performant, ce qui nuira à sa précision.
Dans un contexte réel, cela peut impliquer que des données de formation biaisées ont entraîné la sortie d'un modèle favorisant une certaine race, un groupe démographique ou un sexe.
Par conséquent, les résultats de l'apprentissage automatique pourraient être injustes ou discriminatoires. Formation non représentative les ensembles de données peuvent contribuer au biais dans l'apprentissage automatique.
Le modèle résultant peut être biaisé en faveur d'autres catégories sous-représentées si les données d'apprentissage manquent ou sont trop représentatives d'un groupe de données particulier. Cela peut se produire si l'échantillon de données de formation ne correspond pas précisément à l'environnement de déploiement réel.
L'apprentissage automatique dans le secteur de la santé, qui peut être utilisé pour vérifier les données des patients par rapport à des maladies connues, en est un excellent exemple. Les modèles peuvent accélérer les interventions des médecins praticiens lorsqu'ils sont utilisés de manière appropriée.
Cependant, les préjugés sont possibles. Lorsqu'on lui demande de prédire une éventuelle maladie chez un patient plus âgé, un modèle ne peut pas bien fonctionner si les données d'entraînement utilisées pour le construire consistent principalement en des données de patients d'une tranche d'âge plus petite.
De plus, les statistiques historiques peuvent être faussées. Par exemple, parce qu'historiquement, la majorité des employés étaient des hommes, un modèle formé pour filtrer les candidats favoriserait les candidats masculins.
Le biais d'apprentissage automatique aura une influence sur la précision du modèle dans les deux scénarios, et dans les pires circonstances, il pourrait même entraîner des conclusions discriminatoires et injustes.
Les décisions doivent être soigneusement examinées pour s'assurer qu'il n'y a pas de parti modèles d'apprentissage automatique remplacent de plus en plus les opérations manuelles. Par conséquent, les pratiques de gouvernance des modèles dans toute organisation doivent inclure la surveillance des biais d'apprentissage automatique.
De nombreux types d'emplois différents dans de nombreuses industries différentes sont complétés par des modèles d'apprentissage automatique. Aujourd'hui, les modèles sont utilisés pour automatiser des processus de plus en plus difficiles et pour générer des suggestions. Dans ce processus de prise de décision, le biais signifie qu'un modèle pourrait favoriser un groupe particulier par rapport à un autre sur la base d'un biais appris.
Lorsqu'il est utilisé pour porter des jugements dangereux avec des conséquences réelles, cela peut avoir de graves répercussions. Lorsqu'il est utilisé pour approuver automatiquement les demandes de prêt, par exemple, un modèle biaisé peut porter préjudice à une certaine population. Dans les entreprises réglementées où toute action peut être inspectée ou examinée, il s'agit d'un facteur particulièrement crucial à prendre en compte.
Types de biais d'apprentissage automatique
- Biais d'algorithme - Cela se produit lorsqu'il y a un bogue dans l'algorithme qui effectue les calculs qui pilotent les calculs d'apprentissage automatique.
- Biais d'échantillon – Lorsque les données utilisées pour former l'apprentissage automatique modèle a un problème, cela se produit. Dans les cas de ce type de biais, la quantité ou la qualité des données utilisées pour former le système est insuffisante. L'algorithme sera formé pour croire que tous les enseignants sont des femmes si, par exemple, les données de formation sont entièrement composées d'enseignantes.
- Biais d'exclusion - Cela se produit lorsqu'un point de données crucial est absent de l'ensemble de données utilisé, ce qui peut se produire si les modélisateurs ne réalisent pas l'importance du point de données manquant.
- Préjugés – Dans ce cas, l'apprentissage automatique lui-même est biaisé puisque les données utilisées pour former le système reflètent des biais du monde réel tels que des préjugés, des stéréotypes et des hypothèses sociales incorrectes. Par exemple, si des données sur les professionnels de la santé devaient être incluses dans le système informatique qui ne comprend que les hommes médecins et les infirmières, un stéréotype de genre réel sur les travailleurs de la santé serait perpétué.
- Biais de mesure – Comme son nom l'indique, ce biais résulte de problèmes fondamentaux liés à la qualité des données et aux méthodes utilisées pour les collecter ou les évaluer. Un système formé pour évaluer précisément le poids sera biaisé si les poids contenus dans les données de formation étaient systématiquement arrondis, et l'utilisation d'images d'employés satisfaits pour former un système destiné à évaluer un environnement de travail peut être biaisée si les employés sur les images savaient ils étaient mesurés pour le bonheur.
Quels facteurs contribuent au biais dans l'apprentissage automatique ?
Bien qu'il existe de nombreuses raisons au biais d'apprentissage automatique, il provient souvent d'un biais dans les données de formation elles-mêmes. Il existe plusieurs causes sous-jacentes potentielles de biais dans les données de formation.
L'illustration la plus évidente est celle des données d'entraînement, qui sont un sous-ensemble de conditions observées dans un système déployé qui n'est pas typique. Il peut s'agir de données d'entraînement avec une sous-représentation d'une catégorie ou une quantité disproportionnée d'une autre.
Ceci est connu sous le nom de biais d'échantillonnage et peut résulter d'une collecte de données de formation non randomisée. Les méthodes utilisées pour collecter, analyser ou classer les données, ainsi que les racines historiques des données, peuvent toutes entraîner un biais dans les données elles-mêmes.
L'information peut même être biaisée historiquement dans la culture plus large où elle a été recueillie.
Le biais d'apprentissage automatique est principalement causé par :
- Les biais causés par les humains ou la société dans les données historiques sont utilisés pour former des algorithmes.
- Des données d'entraînement qui ne reflètent pas les circonstances du monde réel.
- Biais lors de l'étiquetage ou de la préparation des données pour l'apprentissage automatique supervisé.
Par exemple, un manque de diversité dans les données de formation pourrait entraîner un biais de représentation. La précision des modèles d'apprentissage automatique est souvent affectée par des biais historiques dans la culture au sens large.
Ceci est parfois appelé préjugé social ou humain. Trouver de vastes collections de données qui ne sont pas sujettes aux préjugés sociétaux peut être difficile. L'étape de traitement des données du cycle de vie de l'apprentissage automatique est également sensible aux préjugés humains.
Les données qui ont été étiquetées et traitées par un scientifique des données ou un autre expert sont nécessaires pour l'apprentissage automatique supervisé. Qu'il provienne de la variété des données nettoyées, de la manière dont les points de données sont étiquetés ou du choix des caractéristiques, le biais dans ce processus d'étiquetage peut entraîner un biais dans l'apprentissage automatique.
Risques de biais d'apprentissage automatique
Étant donné que les modèles sont des outils de prise de décision basés sur les données, on suppose qu'ils fournissent des jugements impartiaux. Les modèles d'apprentissage automatique contiennent souvent des biais, ce qui peut affecter les résultats.
De plus en plus d'industries mettent en œuvre l'apprentissage automatique à la place de logiciels et de procédures obsolètes. Les modèles biaisés peuvent avoir des effets négatifs dans le monde réel lorsque des tâches plus complexes sont automatisées à l'aide de modèles.
L'apprentissage automatique n'est pas différent des autres processus décisionnels dans la mesure où les organisations et les individus s'attendent à ce qu'il soit transparent et équitable. Parce que l'apprentissage automatique est un processus automatisé, les jugements qui en découlent sont parfois examinés de plus près.
Il est crucial que les organisations soient proactives pour faire face aux dangers, car les biais dans l'apprentissage automatique peuvent souvent avoir des effets discriminatoires ou négatifs sur certaines populations. Pour les contextes réglementés, en particulier, la possibilité de biais dans l'apprentissage automatique doit être prise en compte.
Par exemple, l'apprentissage automatique dans le secteur bancaire pourrait être utilisé pour accepter ou rejeter automatiquement les demandeurs de prêt hypothécaire après la sélection initiale. Un modèle biaisé en faveur d'un certain groupe de candidats pourrait bien avoir des effets néfastes à la fois sur le candidat et sur l'organisation.
Tout biais trouvé dans un environnement de déploiement où les actions peuvent être examinées peut entraîner des problèmes majeurs. Le modèle pourrait ne pas fonctionner et, dans les pires scénarios, pourrait même s'avérer délibérément discriminatoire.
Les biais doivent être soigneusement évalués et préparés car ils peuvent entraîner la suppression complète du modèle du déploiement. Gagner en confiance dans les décisions de modèle nécessite de comprendre et de traiter les biais d'apprentissage automatique.
Le niveau de confiance au sein de l'organisation et parmi les consommateurs de services externes pourrait être affecté par un biais perçu dans la prise de décision du modèle. Si les modèles ne sont pas fiables, en particulier pour guider les choix à haut risque, ils ne seront pas utilisés à leur plein potentiel au sein d'une organisation.
Lors de l'évaluation de l'explicabilité d'un modèle, la prise en compte du biais doit être un facteur à prendre en compte. La validité et la précision des choix de modèles peuvent être sérieusement affectées par un biais d'apprentissage automatique non contrôlé.
Cela peut parfois entraîner des actions discriminatoires qui pourraient affecter des personnes ou des groupes particuliers. De nombreuses applications existent pour divers types de modèles d'apprentissage automatique, et chacune est susceptible d'être biaisée par l'apprentissage automatique dans une certaine mesure.
Le biais d'apprentissage automatique est illustré par :
- En raison de l'absence de variété dans les données d'entraînement, les algorithmes de reconnaissance faciale peuvent être moins précis pour certains groupes raciaux.
- Le programme pourrait détecter les préjugés raciaux et sexistes dans les données en raison de préjugés humains ou historiques.
- Avec un certain dialecte ou accent, le traitement du langage naturel pourrait être plus précis et il pourrait ne pas être en mesure de traiter un accent sous-représenté dans les données de formation.
Résoudre les biais dans l'apprentissage automatique
La surveillance et le recyclage des modèles lorsqu'un biais est détecté sont deux façons de remédier au biais d'apprentissage automatique. Dans la plupart des cas, le biais du modèle est une indication de biais dans les données de formation, ou du moins le biais peut être lié à l'étape de formation du cycle de vie de l'apprentissage automatique.
Chaque étape du cycle de vie du modèle doit avoir des procédures en place pour détecter les biais ou la dérive du modèle. Les processus de surveillance de l'apprentissage automatique après le déploiement sont également inclus. Il est important de vérifier fréquemment le modèle et les ensembles de données pour les biais.
Cela peut impliquer d'examiner un ensemble de données de formation pour voir comment les groupes y sont distribués et représentés. Il est possible de modifier et/ou d'améliorer des jeux de données qui ne sont pas entièrement représentatifs.
De plus, les biais doivent être pris en compte lors de l'évaluation des performances du modèle. Tester les performances du modèle sur différents sous-ensembles de données peut montrer s'il est biaisé ou surajusté par rapport à un certain groupe.
Il est possible d'évaluer les performances du modèle d'apprentissage automatique sur certains sous-ensembles de données en utilisant des techniques de validation croisée. La procédure consiste à diviser les données en ensembles de données de formation et de test distincts.
Vous pouvez éliminer les biais dans l'apprentissage automatique en :
- Si nécessaire, reformez le modèle à l'aide d'ensembles d'apprentissage plus grands et plus représentatifs.
- Établir une procédure pour rechercher de manière proactive les résultats biaisés et les jugements inhabituels.
- La repondération des caractéristiques et l'ajustement des hyperparamètres si nécessaire peuvent aider à tenir compte du biais.
- Encourager la résolution des biais découverts grâce à un cycle continu de détection et d'optimisation.
Conclusion
Il est tentant de croire qu'une fois formé, un modèle d'apprentissage automatique fonctionnerait de manière autonome. En fait, l'environnement opérationnel du modèle est en constante évolution et les gestionnaires doivent régulièrement recycler les modèles en utilisant de nouveaux ensembles de données.
L'apprentissage automatique est actuellement l'une des capacités technologiques les plus fascinantes avec des avantages économiques réels. L'apprentissage automatique, lorsqu'il est associé aux technologies de mégadonnées et à l'immense puissance de calcul disponible via le cloud public, a le potentiel de transformer la façon dont les individus interagissent avec la technologie, et peut-être des industries entières.
Cependant, aussi prometteuse que soit la technologie d'apprentissage automatique, elle doit être soigneusement planifiée afin d'éviter les biais involontaires. L'efficacité des jugements rendus par les machines peut être gravement affectée par les biais, ce que les développeurs de modèles d'apprentissage automatique doivent prendre en compte.
Soyez sympa! Laissez un commentaire