Ahogy egyre több iparág használja az algoritmusok erejét a műveletek automatizálására és a döntések meghozatalára, a gépi tanulás a mai világ működésének kulcsfontosságú elemévé válik.
A gépi tanulás torzításának kérdését döntő fontosságú figyelembe venni, amikor a gépi tanulási modellek beépülnek a különböző szervezetek döntéshozatali folyamataiba.
Annak garantálása, hogy az algoritmusok által generált választások pártatlanok és torzításmentesek legyenek, minden gépi tanulási modelleket használó szervezet célja legyen. Annak biztosítása érdekében, hogy a modell kimeneteire támaszkodni lehessen, és azokat igazságosnak lehessen tekinteni, kulcsfontosságú felismerni és kezelni gépi tanulás Elfogultság.
Ez a modell magyarázhatóságának kérdéséhez kapcsolódik, vagy ahhoz, hogy az ember mennyire könnyen felfogja, hogyan jutott egy gépi tanulási modell a következtetésre. A gépi tanulási modellek által feltérképezett és tanult trendek és minták magukból az adatokból származnak, nem pedig közvetlen emberi fejlődésből.
A gépi tanulás torzítása számos ok miatt jelentkezhet, ha nem ellenőrzik és nem ellenőrzik. Amikor egy modellt telepítenek, gyakran találkozik olyan helyzetekkel, amelyek nem tükröződnek pontosan a betanítási adatmintában.
A modell túlságosan alkalmas lehetett erre a nem reprezentatív képzési adathalmazra. A képzési adatok kiváló minősége ellenére a modellt még mindig befolyásolhatják a szélesebb körű kulturális hatásokból eredő történelmi torzítások.
A megvalósítást követően egy torzított modell bizonyos csoportokat előnyben részesíthet, vagy elveszítheti a pontosságát bizonyos adatalkészleteknél. Ez olyan ítéletekhez vezethet, amelyek igazságtalanul büntetik az egyének egy bizonyos csoportját, ami negatív hatással lehet a tényleges világra.
Ez a cikk a gépi tanulási torzítást tárgyalja, beleértve azt is, hogy mi ez, hogyan lehet észrevenni, milyen veszélyeket jelent, és még sok mást.
Tehát mi az a gépi tanulási torzítás?
A gépi tanulási folyamat során feltett téves feltételezések következtében szisztematikusan torzított kimeneteket előállító algoritmust gépi tanulási torzításnak, más néven algoritmus torzításnak vagy AI torzításnak nevezik.
A gépi tanulási torzítás a modell azon tendenciája, hogy egy adott adathalmazt vagy adathalmazt részesítsen előnyben; gyakran nem reprezentatív képzési adatkészletek idézik elő. Egy bizonyos adatgyűjtés mellett az elfogult modell alulteljesít, ami rontja a pontosságát.
Valós környezetben ez azt jelentheti, hogy az elfogult képzési adatok azt eredményezték, hogy a modell kimenete egy bizonyos rassznak, demográfiai vagy nemnek kedvezett.
Ennek eredményeként a gépi tanulás eredménye igazságtalan vagy megkülönböztető lehet. Nem reprezentatív képzés adatkészletek hozzájárulhatnak a torzításhoz a gépi tanulásban.
Az eredményül kapott modell torzítható más, alulreprezentált kategóriák felé, ha a betanítási adatok hiányoznak vagy túlságosan reprezentatívak egy adott adatcsoportra. Ez akkor fordulhat elő, ha a betanítási adatminta nem egyezik pontosan a valós telepítési környezettel.
Kiváló példa a gépi tanulás az egészségügyi ágazatban, amely felhasználható a betegek adatainak ismert betegségekkel vagy betegségekkel való összehasonlítására. A modellek felgyorsíthatják az orvosok beavatkozását, ha megfelelően használják őket.
Előítélet azonban lehetséges. Amikor egy idősebb beteg lehetséges betegségének előrejelzését kérik, egy modell nem tud jól teljesíteni, ha a megalkotásához használt képzési adatok többnyire egy kisebb korcsoportból származó betegek adataiból állnak.
Ezenkívül a történeti statisztikák torzíthatnak. Például, mivel a múltban az alkalmazottak többsége férfi volt, a jelöltek szűrésére kiképzett modell a férfi jelentkezőket részesítené előnyben.
A gépi tanulási torzítás mindkét forgatókönyvben hatással lesz a modell pontosságára, és a legrosszabb körülmények között akár diszkriminatív és igazságtalan következtetésekhez is vezethet.
A döntéseket gondosan felül kell vizsgálni, hogy ne legyenek torzítások gépi tanulási modellek egyre több kézi műveletet váltson ki. Ennek eredményeként bármely szervezet modellirányítási gyakorlatának tartalmaznia kell a gépi tanulási torzítás figyelését.
A gépi tanulási modellek számos különböző típusú munkát végeznek számos különböző iparágban. Manapság a modelleket az egyre nehezebb folyamatok automatizálására és javaslatok generálására használják. Ebben a döntéshozatali folyamatban az elfogultság azt jelenti, hogy egy modell előnyben részesítheti az egyik csoportot a másikkal szemben a tanult elfogultság alapján.
Ha nem biztonságos, tényleges következményekkel járó ítéletek meghozatalára használják, ennek súlyos következményei lehetnek. Ha például hitelkérelmek automatikus jóváhagyására használják, az elfogult modell egy bizonyos populációt károsíthat. Azokban a szabályozott vállalkozásokban, ahol bármilyen tevékenységet ellenőrizni lehet, ez különösen fontos tényező, amelyet figyelembe kell venni.
Machine Learning Bias típusok
- Algoritmus torzítás – Ez akkor fordul elő, ha hiba van az algoritmusban, amely elvégzi a gépi tanulási számításokat végrehajtó számításokat.
- Minta torzítás – Amikor az adatok korábban képezze a gépi tanulást a modellnek problémája van, ez előfordul. Ilyen torzítás esetén a rendszer betanításához felhasznált adatok mennyisége vagy minősége nem elegendő. Az algoritmust megtanítják úgy gondolni, hogy minden tanár nő, ha például a képzési adatok teljes egészében női tanárokból állnak.
- Kizárási torzítás – Ez akkor fordul elő, ha egy döntő adatpont hiányzik a felhasznált adathalmazból, ami akkor fordulhat elő, ha a modellezők nem veszik észre a hiányzó adatpont jelentőségét.
- Előítélet-elfogultság – Ebben az esetben maga a gépi tanulás elfogult, mivel a rendszer betanításához használt adatok valós torzításokat tükröznek, például előítéleteket, sztereotípiákat és helytelen társadalmi feltételezéseket. Például, ha az egészségügyi dolgozókra vonatkozó adatok bekerülnének abba a számítógépes rendszerbe, amely csak férfi orvosokat és nővéreket tartalmazna, akkor az egészségügyi dolgozókkal kapcsolatos, valós nemi sztereotípiák állandósulnának.
- Mérési torzítás – Ahogy a neve is sugallja, ez az elfogultság az adatok minőségével és az adatgyűjtésükre vagy értékelésükkel kapcsolatos alapvető problémákra vezethető vissza. A súly pontos meghatározására betanított rendszer elfogult lesz, ha a képzési adatokban szereplő súlyokat következetesen felfelé kerekítik, és az elégedett munkavállalók képeinek felhasználása a munkahelyi környezet felmérésére szolgáló rendszer betanítására elfogult lehet, ha a képeken látható alkalmazottak tudták. boldogságot mértek rájuk.
Milyen tényezők járulnak hozzá a gépi tanulás torzításához?
Noha a gépi tanulási torzításnak számos oka van, ez gyakran magának a betanítási adatnak a torzításából adódik. A képzési adatok torzításának számos lehetséges oka lehet.
A legszembetűnőbb példa a betanítási adatok, amelyek a telepített rendszerben nem jellemző feltételek egy részhalmaza. Ezek lehetnek olyan képzési adatok, amelyekben az egyik kategória alulreprezentált, vagy egy másik kategória aránytalan mennyisége.
Ezt minta elfogultságnak nevezik, és nem véletlenszerű betanítási adatgyűjtés eredménye lehet. Az adatok gyűjtésére, elemzésére vagy osztályozására használt módszerek, valamint az adatok történeti gyökerei magukban az adatokban is torzításhoz vezethetnek.
Az információ történelmileg elfogult is lehet abban a nagyobb kultúrában, ahol gyűjtötték.
A gépi tanulási torzítást leginkább a következők okozzák:
- A történelmi adatokban az emberek vagy a társadalom által okozott torzításokat algoritmusok képzésére használják.
- Képzési adatok, amelyek nem tükrözik a valós körülményeket.
- Elfogultság az adatok felügyelt gépi tanuláshoz való címkézése vagy előkészítése során.
Például a képzési adatok diverzitásának hiánya reprezentációs torzítást okozhat. A gépi tanulási modellek pontosságát gyakran befolyásolja a tágabb kultúra történeti elfogultsága.
Ezt néha társadalmi vagy emberi elfogultságnak nevezik. Hatalmas adatgyűjtemények megtalálása, amelyek nem hajlamosak a társadalmi elfogultságra, kihívást jelenthet. A gépi tanulási életciklus adatfeldolgozási szakasza ugyanúgy érzékeny az emberi elfogultságra.
Az adattudós vagy más szakértő által címkézett és feldolgozott adatok a felügyelt gépi tanuláshoz szükségesek. Függetlenül attól, hogy ez a megtisztított adatok sokféleségéből, az adatpontok címkézési módjából vagy a funkciók megválasztásából ered, a címkézési folyamat torzítása torzításhoz vezethet a gépi tanulásban.
A gépi tanulási torzítás kockázatai
Mivel a modellek adatvezérelt döntéshozatali eszközök, feltételezzük, hogy pártatlan ítéleteket adnak. A gépi tanulási modellek gyakran tartalmaznak torzítást, ami befolyásolhatja az eredményeket.
Egyre több iparág valósítja meg a gépi tanulást az elavult szoftverek és eljárások helyett. Az elfogult modelleknek negatív hatásai lehetnek a való világban, ha a bonyolultabb feladatokat modellekkel automatizálják.
A gépi tanulás nem különbözik a többi döntéshozatali folyamattól abban, hogy a szervezetek és egyének elvárják, hogy átlátható és méltányos legyen. Mivel a gépi tanulás egy automatizált folyamat, a segítségével hozott ítéleteket esetenként még alaposabban megvizsgálják.
Kulcsfontosságú, hogy a szervezetek proaktívan kezeljék a veszélyeket, mivel a gépi tanulásban tapasztalható elfogultság gyakran diszkriminatív vagy negatív hatással járhat egyes populációkra. A szabályozott kontextusok esetében különösen figyelembe kell venni a gépi tanulás torzításának lehetőségét.
A banki gépi tanulás például felhasználható a jelzáloghitel-igénylők automatikus elfogadására vagy elutasítására a kezdeti átvilágítás után. A jelöltek egy bizonyos csoportja felé elfogult modell káros hatással lehet mind a jelöltre, mind a szervezetre.
Bármilyen elfogultság, amelyet olyan telepítési környezetben találnak, ahol a műveleteket ellenőrizni lehet, komoly problémákhoz vezethet. Előfordulhat, hogy a modell nem működik, és a legrosszabb esetben akár szándékosan is diszkriminatívnak bizonyulhat.
A torzítást gondosan ki kell értékelni és fel kell készülni rá, mivel ez azt eredményezheti, hogy a modellt teljesen eltávolítják a telepítésből. A modelldöntésekbe vetett bizalom megszerzéséhez meg kell érteni és kezelni kell a gépi tanulási torzítást.
A szervezeten belüli és a külső szolgáltatást fogyasztók közötti bizalom szintjét befolyásolhatja a modell-döntéshozatalban észlelt torzítás. Ha a modellekben nem bíznak, különösen a magas kockázatú döntések meghozatalakor, akkor a szervezeten belül nem használják ki teljes potenciáljukat.
A modell magyarázhatóságának értékelésekor a torzítás figyelembe vételét figyelembe kell venni. A modellválasztások érvényességét és pontosságát komolyan befolyásolhatja az ellenőrizetlen gépi tanulási torzítás.
Ez esetenként olyan diszkriminatív cselekményeket eredményezhet, amelyek bizonyos személyeket vagy csoportokat érinthetnek. Számos alkalmazás létezik a különféle gépi tanulási modelltípusokhoz, és mindegyik bizonyos mértékig érzékeny a gépi tanulási torzításra.
A gépi tanulási torzítást a következők szemléltetik:
- A képzési adatok változatosságának hiánya miatt az arcfelismerő algoritmusok kevésbé pontosak egyes faji csoportok esetében.
- A program képes kimutatni az adatokban az emberi vagy történelmi előítéletek miatti faji és nemi torzítást.
- Egy bizonyos nyelvjárással vagy akcentussal a természetes nyelv feldolgozása pontosabb lehet, és előfordulhat, hogy nem tud feldolgozni egy olyan akcentust, amely alulreprezentált a képzési adatokban.
Elfogultság megoldása a gépi tanulásban
A gépi tanulási torzítás kezelésének két módja a modellek megfigyelése és átképzése torzítás észlelésekor. A legtöbb esetben a modell torzítása a betanítási adatok torzítását jelzi, vagy legalábbis a torzítás összefüggésbe hozható a gépi tanulási életciklus betanítási szakaszával.
A modell életciklusának minden szakaszában eljárásokat kell alkalmazni a torzítás vagy a modelleltolódás észlelésére. A gépi tanulás üzembe helyezés utáni figyelésére szolgáló folyamatok is szerepelnek benne. Fontos, hogy gyakran ellenőrizze a modellt és az adatkészleteket torzítás szempontjából.
Ez magában foglalhatja egy betanítási adatkészlet vizsgálatát, hogy megtudja, hogyan oszlanak meg és jelennek meg a csoportok ott. Lehetőség van a nem teljesen reprezentatív adatkészletek módosítására és/vagy javítására.
Ezenkívül a torzítást is figyelembe kell venni a modell teljesítményének értékelésekor. A modell teljesítményének tesztelése az adatok különböző részhalmazain megmutathatja, hogy egy bizonyos csoporthoz képest torzított vagy túlillesztett-e.
Lehetőség van a gépi tanulási modell teljesítményének értékelésére bizonyos adatrészhalmazokon keresztellenőrzési technikák használatával. Az eljárás során az adatokat különálló képzési és tesztelési adatkészletekre osztják fel.
A gépi tanulás torzítását a következőképpen küszöbölheti ki:
- Ha szükséges, képezze át a modellt nagyobb, reprezentatívabb képzési készletekkel.
- Olyan eljárás kidolgozása, amely proaktívan figyeli az elfogult eredményeket és a szokatlan ítéleteket.
- A funkciók újrasúlyozása és a hiperparaméterek szükség szerinti módosítása segíthet a torzítás figyelembevételében.
- A felfedezett torzítás feloldásának ösztönzése folyamatos észlelési és optimalizálási cikluson keresztül.
Következtetés
Csábító azt hinni, hogy a gépi tanulási modell a betanítás után önállóan működne. Valójában a modell működési környezete folyamatosan változik, és a menedzsereknek rendszeresen át kell képezniük a modelleket friss adatkészletek felhasználásával.
A gépi tanulás jelenleg az egyik leglenyűgözőbb technológiai képesség, amely valós gazdasági előnyökkel jár. A gépi tanulás a big data technológiákkal és a nyilvános felhőn keresztül elérhető hatalmas számítási teljesítménnyel párosítva képes megváltoztatni az egyének és a technológiával való interakcióját, és talán egész iparágakat.
Bármennyire is ígéretes a gépi tanulási technológia, gondosan meg kell tervezni a nem szándékos torzítások elkerülése érdekében. A gépek által hozott ítéletek hatékonyságát súlyosan befolyásolhatja az elfogultság, amit a gépi tanulási modell fejlesztőinek figyelembe kell venniük.
Hagy egy Válaszol