Da immer mehr Branchen die Leistungsfähigkeit von Algorithmen nutzen, um Abläufe zu automatisieren und Entscheidungen zu treffen, wird maschinelles Lernen zu einer entscheidenden Komponente der modernen Welt.
Das Problem der Voreingenommenheit beim maschinellen Lernen muss unbedingt berücksichtigt werden, wenn Modelle des maschinellen Lernens in die Entscheidungsprozesse verschiedener Organisationen integriert werden.
Zu garantieren, dass die von Algorithmen generierten Entscheidungen unparteiisch und frei von Vorurteilen sind, sollte das Ziel jeder Organisation sein, die Modelle für maschinelles Lernen verwendet. Um sicherzustellen, dass die Ergebnisse des Modells verlässlich sind und als fair angesehen werden können, ist es entscheidend, sie zu erkennen und anzugehen Maschinelles Lernen vorspannen.
Es hängt mit Fragen der Erklärbarkeit von Modellen zusammen oder wie einfach es für eine Person ist zu verstehen, wie ein maschinelles Lernmodell zu einer Schlussfolgerung gelangt ist. Die Trends und Muster, die maschinelle Lernmodelle abbilden und lernen, stammen eher aus den Daten selbst als aus direkter menschlicher Entwicklung.
Verzerrungen beim maschinellen Lernen können aus verschiedenen Gründen auftreten, wenn sie nicht kontrolliert und überprüft werden. Wenn ein Modell bereitgestellt wird, trifft es häufig auf Situationen, die sich nicht genau in der Trainingsdatenprobe widerspiegeln.
Das Modell könnte für diesen nicht repräsentativen Trainingsdatensatz überangepasst gewesen sein. Trotz der hervorragenden Qualität der Trainingsdaten kann das Modell immer noch durch historische Verzerrungen beeinflusst werden, die sich aus breiteren kulturellen Einflüssen ergeben.
Einmal implementiert, könnte ein voreingenommenes Modell bestimmte Gruppen bevorzugen oder bei bestimmten Datenteilmengen an Genauigkeit verlieren. Dies könnte zu Urteilen führen, die eine bestimmte Gruppe von Personen ungerecht bestrafen, was negative Auswirkungen auf die tatsächliche Welt haben könnte.
Dieser Artikel behandelt maschinelles Lernen, einschließlich dessen, was es ist, wie man es erkennt, welche Gefahren es birgt und vieles mehr.
Was ist Machine Learning Bias?
Ein Algorithmus, der Ergebnisse erzeugt, die aufgrund falscher Annahmen während des maschinellen Lernprozesses systematisch verzerrt sind, wird als Machine Learning Bias bezeichnet, auch bekannt als Algorithmus-Bias oder als KI-Bias bekannt.
Machine Learning Bias ist die Tendenz eines Modells, einen bestimmten Datensatz oder eine Teilmenge von Daten zu bevorzugen; es wird häufig durch nicht repräsentative Trainingsdatensätze verursacht. Mit einer bestimmten Datensammlung wird ein voreingenommenes Modell unterdurchschnittlich abschneiden, was seiner Genauigkeit abträglich ist.
In einer realen Umgebung kann dies bedeuten, dass voreingenommene Trainingsdaten dazu führten, dass die Ausgabe eines Modells eine bestimmte Rasse, demografische Gruppe oder ein bestimmtes Geschlecht bevorzugt.
Infolgedessen könnten die Ergebnisse des maschinellen Lernens ungerecht oder diskriminierend sein. Nicht repräsentative Ausbildung Datensätze können zu Verzerrungen beitragen im maschinellen Lernen.
Das resultierende Modell kann gegenüber anderen, unterrepräsentierten Kategorien verzerrt sein, wenn die Trainingsdaten fehlen oder für eine bestimmte Datengruppierung übermäßig repräsentativ sind. Dies kann passieren, wenn das Trainingsdatenbeispiel nicht genau mit der realen Bereitstellungsumgebung übereinstimmt.
Ein Paradebeispiel ist maschinelles Lernen in der Gesundheitsbranche, mit dem Patientendaten gegen bekannte Krankheiten oder Krankheiten abgeglichen werden können. Richtig eingesetzt können Modelle die ärztlichen Interventionen beschleunigen.
Vorurteile sind jedoch möglich. Wenn es darum geht, eine mögliche Krankheit bei einem älteren Patienten vorherzusagen, kann ein Modell keine gute Leistung erbringen, wenn die zu seiner Konstruktion verwendeten Trainingsdaten hauptsächlich aus Patientendaten aus einem kleineren Altersbereich bestehen.
Außerdem können die historischen Statistiken verzerrt sein. Da beispielsweise die Mehrheit der Mitarbeiter in der Vergangenheit Männer waren, würde ein Modell, das darauf trainiert ist, Stellenbewerber herauszufiltern, männliche Bewerber bevorzugen.
Die Verzerrung des maschinellen Lernens wirkt sich in beiden Szenarien auf die Genauigkeit des Modells aus und kann im schlimmsten Fall sogar zu diskriminierenden und ungerechten Schlussfolgerungen führen.
Entscheidungen müssen sorgfältig überprüft werden, um sicherzustellen, dass keine Voreingenommenheit vorliegt Modelle des maschinellen Lernens ersetzen immer mehr manuelle Tätigkeiten. Aus diesem Grund sollten die Modell-Governance-Praktiken in jeder Organisation die Überwachung auf Verzerrungen durch maschinelles Lernen umfassen.
Viele verschiedene Arten von Jobs in vielen verschiedenen Branchen werden durch maschinelle Lernmodelle erledigt. Heute werden Modelle verwendet, um immer schwierigere Prozesse zu automatisieren und Vorschläge zu generieren. In diesem Entscheidungsprozess bedeutet Voreingenommenheit, dass ein Modell basierend auf einer erlernten Voreingenommenheit eine bestimmte Gruppe gegenüber einer anderen bevorzugen könnte.
Wenn dies dazu verwendet wird, unsichere Urteile mit tatsächlichen Konsequenzen zu fällen, kann dies schwerwiegende Auswirkungen haben. Wenn es beispielsweise zur automatischen Genehmigung von Kreditanträgen verwendet wird, kann ein voreingenommenes Modell eine bestimmte Bevölkerung benachteiligen. In regulierten Unternehmen, in denen alle Handlungen inspiziert oder hinterfragt werden können, ist dies ein besonders wichtiger Faktor, der berücksichtigt werden muss.
Machine Learning Bias-Typen
- Algorithmus-Bias – Dies passiert, wenn es einen Fehler im Algorithmus gibt, der die Berechnungen durchführt, die die Berechnungen des maschinellen Lernens vorantreiben.
- Stichprobenverzerrung – Wenn die Daten verwendet werden trainieren Sie das maschinelle Lernen Modell hat ein Problem, dies tritt auf. In Fällen dieser Art von Bias ist die Menge oder Qualität der zum Trainieren des Systems verwendeten Daten unzureichend. Der Algorithmus wird darauf trainiert, zu glauben, dass alle Lehrer weiblich sind, wenn beispielsweise die Trainingsdaten ausschließlich aus weiblichen Lehrern bestehen.
- Ausschlussverzerrung – Dies tritt auf, wenn ein entscheidender Datenpunkt im verwendeten Datensatz fehlt, was passieren kann, wenn die Modellierer die Bedeutung des fehlenden Datenpunkts nicht erkennen.
- Vorurteile – In diesem Fall ist das maschinelle Lernen selbst voreingenommen, da die zum Trainieren des Systems verwendeten Daten reale Vorurteile wie Vorurteile, Stereotypen und falsche soziale Annahmen widerspiegeln. Wenn beispielsweise Daten über medizinische Fachkräfte in das Computersystem aufgenommen würden, das nur männliche Ärzte und weibliche Krankenschwestern umfasst, würde ein reales Geschlechterstereotyp über medizinisches Personal aufrechterhalten.
- Messabweichung – Wie der Name schon sagt, resultiert diese Verzerrung aus grundlegenden Problemen mit der Qualität der Daten und den Methoden, mit denen sie erhoben oder ausgewertet werden. Ein System, das darauf trainiert wird, das Gewicht genau einzuschätzen, wird voreingenommen sein, wenn die in den Trainingsdaten enthaltenen Gewichte konsequent aufgerundet werden, und die Verwendung von Bildern zufriedener Mitarbeiter zum Trainieren eines Systems zur Bewertung einer Arbeitsplatzumgebung kann voreingenommen sein, wenn die Mitarbeiter auf den Bildern es wussten Sie wurden für Glück gemessen.
Welche Faktoren tragen zur Verzerrung beim maschinellen Lernen bei?
Obwohl es viele Gründe für Verzerrungen beim maschinellen Lernen gibt, entsteht sie oft durch Verzerrungen in den Trainingsdaten selbst. Es gibt mehrere mögliche Ursachen für Verzerrungen in Trainingsdaten.
Das offensichtlichste Beispiel sind Trainingsdaten, bei denen es sich um eine Teilmenge von Bedingungen handelt, die in einem bereitgestellten System zu sehen sind, die nicht typisch sind. Dies können Trainingsdaten mit einer Unterrepräsentation einer Kategorie oder einer unverhältnismäßigen Menge einer anderen sein.
Dies wird als Stichprobenverzerrung bezeichnet und kann aus einer nicht randomisierten Erfassung von Trainingsdaten resultieren. Die zum Sammeln, Analysieren oder Klassifizieren der Daten verwendeten Methoden sowie die historischen Wurzeln der Daten können alle zu Verzerrungen in den Daten selbst führen.
Die Informationen können in der größeren Kultur, in der sie gesammelt wurden, sogar historisch voreingenommen sein.
Machine Learning Bias wird hauptsächlich verursacht durch:
- Durch Menschen oder Gesellschaft verursachte Verzerrungen in den historischen Daten werden genutzt, um Algorithmen zu trainieren.
- Trainingsdaten, die nicht die realen Umstände widerspiegeln.
- Voreingenommenheit beim Beschriften oder Vorbereiten von Daten für überwachtes maschinelles Lernen.
Beispielsweise kann ein Mangel an Diversität in den Trainingsdaten zu Darstellungsverzerrungen führen. Die Genauigkeit von Modellen für maschinelles Lernen wird häufig durch historische Vorurteile in der breiteren Kultur beeinflusst.
Dies wird manchmal als soziale oder menschliche Voreingenommenheit bezeichnet. Es kann eine Herausforderung sein, riesige Datensammlungen zu finden, die nicht anfällig für gesellschaftliche Vorurteile sind. Die Datenverarbeitungsphase des Lebenszyklus des maschinellen Lernens ist gleichermaßen anfällig für menschliche Voreingenommenheit.
Daten, die von einem Datenwissenschaftler oder einem anderen Experten gekennzeichnet und verarbeitet wurden, sind für überwachtes maschinelles Lernen erforderlich. Unabhängig davon, ob es sich um die Vielfalt der zu bereinigenden Daten, die Art und Weise, wie Datenpunkte gekennzeichnet sind, oder die Auswahl von Merkmalen handelt, kann eine Voreingenommenheit bei diesem Kennzeichnungsprozess zu einer Voreingenommenheit beim maschinellen Lernen führen.
Risiken durch maschinelles Lernen
Da Modelle datengestützte Entscheidungshilfen sind, wird davon ausgegangen, dass sie unvoreingenommene Urteile liefern. Modelle für maschinelles Lernen enthalten häufig Verzerrungen, die sich auf die Ergebnisse auswirken können.
Immer mehr Branchen setzen maschinelles Lernen anstelle veralteter Software und Verfahren ein. Voreingenommene Modelle können in der realen Welt negative Auswirkungen haben, wenn kompliziertere Jobs mithilfe von Modellen automatisiert werden.
Maschinelles Lernen unterscheidet sich nicht von anderen Entscheidungsprozessen darin, dass Organisationen und Einzelpersonen erwarten, dass es transparent und gerecht ist. Da es sich bei maschinellem Lernen um einen automatisierten Prozess handelt, werden damit getroffene Urteile gelegentlich noch genauer unter die Lupe genommen.
Es ist von entscheidender Bedeutung, dass Unternehmen die Gefahren proaktiv angehen, da Voreingenommenheit beim maschinellen Lernen häufig diskriminierende oder negative Auswirkungen auf einige Bevölkerungsgruppen haben kann. Insbesondere für regulierte Kontexte muss die Möglichkeit des Bias beim maschinellen Lernen berücksichtigt werden.
Beispielsweise könnte maschinelles Lernen im Bankwesen eingesetzt werden, um Hypothekenbewerber nach einer ersten Prüfung automatisch anzunehmen oder abzulehnen. Ein Modell, das auf eine bestimmte Gruppe von Kandidaten ausgerichtet ist, kann sowohl für den Kandidaten als auch für die Organisation nachteilige Auswirkungen haben.
Jede Voreingenommenheit, die in einer Bereitstellungsumgebung gefunden wird, in der Aktionen überprüft werden können, kann zu großen Problemen führen. Das Modell funktioniert möglicherweise nicht und erweist sich im schlimmsten Fall sogar als bewusst diskriminierend.
Verzerrungen müssen sorgfältig bewertet und vorbereitet werden, da sie dazu führen können, dass das Modell vollständig aus dem Einsatz genommen wird. Um Vertrauen in Modellentscheidungen zu gewinnen, müssen Sie die Voreingenommenheit des maschinellen Lernens verstehen und angehen.
Das Vertrauensniveau innerhalb der Organisation und unter den externen Servicenutzern könnte durch wahrgenommene Voreingenommenheit bei der Modellentscheidung beeinflusst werden. Wenn Modellen kein Vertrauen entgegengebracht wird, insbesondere wenn es darum geht, Entscheidungen mit hohem Risiko zu treffen, wird ihr volles Potenzial innerhalb einer Organisation nicht genutzt.
Bei der Bewertung der Erklärbarkeit eines Modells sollte die Berücksichtigung von Verzerrungen berücksichtigt werden. Die Gültigkeit und Genauigkeit der Modellauswahl kann durch ungeprüfte maschinelle Lernvoreingenommenheit ernsthaft beeinträchtigt werden.
Dies kann gelegentlich zu diskriminierenden Handlungen führen, die bestimmte Personen oder Gruppen betreffen könnten. Es gibt zahlreiche Anwendungen für verschiedene Modelltypen für maschinelles Lernen, und jede ist in gewissem Maße anfällig für maschinelles Lernen.
Machine Learning Bias wird veranschaulicht durch:
- Aufgrund der fehlenden Vielfalt in den Trainingsdaten können Gesichtserkennungsalgorithmen für einige Rassengruppen weniger genau sein.
- Das Programm könnte rassistische und geschlechtsspezifische Vorurteile in Daten aufgrund menschlicher oder historischer Vorurteile erkennen.
- Bei einem bestimmten Dialekt oder Akzent könnte die Verarbeitung natürlicher Sprache genauer sein und einen Akzent, der in den Trainingsdaten unterrepräsentiert ist, möglicherweise nicht verarbeiten können.
Bias beim maschinellen Lernen lösen
Das Überwachen und erneute Trainieren von Modellen, wenn Verzerrungen festgestellt werden, sind zwei Möglichkeiten, um Verzerrungen beim maschinellen Lernen anzugehen. In den meisten Fällen ist die Modellverzerrung ein Hinweis auf eine Verzerrung in den Trainingsdaten, oder zumindest kann die Verzerrung mit der Trainingsphase des Lebenszyklus des maschinellen Lernens zusammenhängen.
In jeder Phase des Modelllebenszyklus sollten Verfahren vorhanden sein, um Verzerrungen oder Modellabweichungen zu erkennen. Prozesse zur Überwachung des maschinellen Lernens nach der Bereitstellung sind ebenfalls enthalten. Es ist wichtig, das Modell und die Datensätze regelmäßig auf Verzerrungen zu überprüfen.
Dies kann die Untersuchung eines Trainingsdatensatzes beinhalten, um zu sehen, wie Gruppen dort verteilt und dargestellt werden. Es ist möglich, Datensätze zu ändern und/oder zu verbessern, die nicht vollständig repräsentativ sind.
Darüber hinaus sollte bei der Bewertung der Leistung des Modells die Verzerrung berücksichtigt werden. Das Testen der Leistung des Modells an verschiedenen Teilmengen der Daten kann zeigen, ob es in Bezug auf eine bestimmte Gruppe verzerrt oder überangepasst ist.
Es ist möglich, die Leistung des maschinellen Lernmodells für bestimmte Datenteilmengen zu bewerten, indem Kreuzvalidierungstechniken verwendet werden. Das Verfahren beinhaltet die Aufteilung der Daten in unterschiedliche Trainings- und Testdatensätze.
Sie können Verzerrungen beim maschinellen Lernen beseitigen, indem Sie:
- Trainieren Sie das Modell bei Bedarf mit größeren, repräsentativeren Trainingssätzen neu.
- Einrichtung eines Verfahrens, um proaktiv nach voreingenommenen Ergebnissen und ungewöhnlichen Urteilen Ausschau zu halten.
- Die Neugewichtung von Merkmalen und die Anpassung von Hyperparametern nach Bedarf können dazu beitragen, Verzerrungen zu berücksichtigen.
- Förderung der Auflösung entdeckter Verzerrungen durch einen kontinuierlichen Erkennungs- und Optimierungszyklus.
Zusammenfassung
Es ist verlockend zu glauben, dass ein Modell für maschinelles Lernen nach dem Training autonom funktionieren würde. Tatsächlich ändert sich die Betriebsumgebung des Modells ständig, und Manager müssen Modelle regelmäßig mit neuen Datensätzen neu trainieren.
Maschinelles Lernen ist derzeit eine der faszinierendsten technologischen Fähigkeiten mit realen wirtschaftlichen Vorteilen. Maschinelles Lernen hat in Verbindung mit Big-Data-Technologien und der immensen Rechenleistung, die durch die öffentliche Cloud verfügbar ist, das Potenzial, die Art und Weise zu verändern, wie Einzelpersonen mit Technologie und vielleicht ganze Branchen interagieren.
So vielversprechend die maschinelle Lerntechnologie auch ist, sie muss sorgfältig geplant werden, um unbeabsichtigte Verzerrungen zu vermeiden. Die Effektivität der von den Maschinen getroffenen Urteile kann durch Voreingenommenheit stark beeinträchtigt werden, was Entwickler von Modellen für maschinelles Lernen berücksichtigen müssen.
Hinterlassen Sie uns einen Kommentar