Kadangi vis daugiau pramonės šakų naudojasi algoritmų galia operacijoms automatizuoti ir pasirinkti, mašininis mokymasis tampa esminiu šiuolaikinio pasaulio veikimo komponentu.
Į mašininio mokymosi šališkumo klausimą labai svarbu atsižvelgti, kai mašininio mokymosi modeliai integruojami į įvairių organizacijų sprendimų priėmimo procesus.
Bet kurios organizacijos, kuri naudoja mašininio mokymosi modelius, tikslas turėtų būti garantuoti, kad algoritmų sugeneruoti pasirinkimai būtų nešališki ir be šališkumo. Siekiant užtikrinti, kad modelio rezultatais būtų galima pasikliauti ir juos būtų galima vertinti kaip sąžiningus, labai svarbu atpažinti ir spręsti mašininis mokymasis šališkumas.
Tai susiję su modelio paaiškinamumo klausimais arba tuo, kaip lengva žmogui suvokti, kaip mašininio mokymosi modelis padarė išvadą. Tendencijos ir modeliai, kuriuos mašininio mokymosi modeliai nubrėžia ir mokosi, atsiranda iš pačių duomenų, o ne per tiesioginį žmogaus vystymąsi.
Mašininio mokymosi šališkumas gali atsirasti dėl įvairių priežasčių, jei jis nėra kontroliuojamas ir tikrinamas. Kai modelis yra įdiegtas, jis dažnai susiduria su situacijomis, kurios nėra tiksliai atspindėtos mokymo duomenų pavyzdyje.
Modelis galėjo būti pernelyg tinkamas šiam nereprezentatyviam mokymo duomenų rinkiniui. Nepaisant puikios mokymo duomenų kokybės, modelis vis tiek gali būti paveiktas istorinių paklaidų, atsirandančių dėl platesnės kultūrinės įtakos.
Įdiegtas šališkas modelis gali teikti pirmenybę tam tikroms grupėms arba prarasti tikslumą su tam tikrais duomenų pogrupiais. Dėl to gali būti priimti sprendimai, kuriais nesąžiningai baudžiama tam tikra asmenų grupė, o tai gali turėti neigiamą poveikį tikram pasauliui.
Šiame straipsnyje aptariamas mašininio mokymosi šališkumas, įskaitant tai, kas tai yra, kaip jį pastebėti, jo keliami pavojai ir daug daugiau.
Taigi, kas yra mašininio mokymosi šališkumas?
Algoritmas, sukuriantis išvestis, kurios yra sistemingai pakreiptos dėl klaidingų prielaidų, padarytų mašininio mokymosi proceso metu, yra žinomas kaip mašininio mokymosi šališkumas, taip pat žinomas kaip algoritmo poslinkis arba žinomas kaip AI poslinkis.
Mašininio mokymosi šališkumas yra modelio tendencija teikti pirmenybę tam tikram duomenų rinkiniui arba duomenų poaibiui; jį dažnai pateikia nereprezentatyvūs mokymo duomenų rinkiniai. Surinkus tam tikrą duomenų rinkinį, šališkas modelis bus nepakankamas, o tai pakenks jo tikslumui.
Realioje aplinkoje tai gali reikšti, kad šališki mokymo duomenys lėmė modelio išvestį, palankią tam tikrai rasei, demografinei ar lyčiai.
Dėl to mašininio mokymosi rezultatai gali būti neteisingi arba diskriminuojantys. Nereprezentacinis mokymas duomenų rinkiniai gali prisidėti prie šališkumo mašininiame mokyme.
Gautas modelis gali būti nukreiptas į kitas, nepakankamai atstovaujamas kategorijas, jei trūksta mokymo duomenų arba jie pernelyg reprezentuoja tam tikrą duomenų grupę. Taip gali nutikti, jei mokymo duomenų pavyzdys tiksliai neatitinka realios diegimo aplinkos.
Puikus pavyzdys yra mašininis mokymasis sveikatos priežiūros pramonėje, kuris gali būti naudojamas pacientų duomenims patikrinti pagal žinomas ligas ar ligas. Tinkamai naudojami modeliai gali pagreitinti gydytojų įsikišimą.
Tačiau išankstinis nusistatymas yra įmanomas. Kai prašoma numatyti galimą vyresnio amžiaus paciento ligą, modelis negali gerai veikti, jei jo sudarymui naudojami mokymo duomenys dažniausiai susideda iš mažesnio amžiaus pacientų duomenų.
Be to, istorinė statistika gali būti iškreipta. Pavyzdžiui, kadangi istoriškai dauguma darbuotojų buvo vyrai, modelis, išmokytas filtruoti kandidatus į darbą, būtų palankesnis vyrams.
Mašininio mokymosi šališkumas turės įtakos modelio tikslumui abiejuose scenarijuose, o blogiausiomis aplinkybėmis netgi gali padaryti diskriminacines ir neteisingas išvadas.
Sprendimai turi būti atidžiai peržiūrimi, siekiant užtikrinti, kad nebūtų šališkumo mašinų mokymosi modeliai pakeisti vis daugiau rankinių operacijų. Todėl bet kurios organizacijos modelio valdymo praktika turėtų apimti mašininio mokymosi šališkumo stebėjimą.
Daug įvairių darbų įvairiose pramonės šakose atliekama taikant mašininio mokymosi modelius. Šiandien modeliai naudojami automatizuoti vis sudėtingesnius procesus ir generuoti pasiūlymus. Šiame sprendimų priėmimo procese šališkumas reiškia, kad modelis gali teikti pirmenybę vienai konkrečiai grupei, o ne kitai, remiantis išmoktu šališkumu.
Naudojant nesaugius sprendimus su realiomis pasekmėmis, tai gali turėti rimtų pasekmių. Pavyzdžiui, kai naudojamas automatiškai patvirtinti paskolos paraiškas, šališkas modelis gali pakenkti tam tikrai populiacijai. Reguliuojamose įmonėse, kuriose bet kokie veiksmai gali būti tikrinami arba tikrinami, tai yra ypač svarbus veiksnys, į kurį reikia atsižvelgti.
Mašininio mokymosi šališkumo tipai
- Algoritmo poslinkis – Taip atsitinka, kai yra klaida algoritme, kuris atlieka skaičiavimus, kurie skatina mašininio mokymosi skaičiavimus.
- Mėginio šališkumas – Kai duomenys buvo naudojami treniruoti mašininį mokymąsi modelis turi problemų, tai atsitinka. Tokio pobūdžio šališkumo atvejais sistemai mokyti naudojamų duomenų kiekis arba kokybė yra nepakankami. Algoritmas bus išmokytas manyti, kad visos mokytojos yra moterys, jei, pavyzdžiui, mokymo duomenis sudaro tik moterys.
- Išskyrimo šališkumas – Taip atsitinka, kai naudojamų duomenų rinkinyje nėra esminio duomenų taško, o tai gali įvykti, jei modeliuotojai nesuvokia trūkstamo duomenų taško reikšmės.
- Išankstinis nusistatymas – Šiuo atveju pats mašininis mokymasis yra šališkas, nes sistemai mokyti naudojami duomenys atspindi realaus pasaulio šališkumą, pvz., išankstinį nusistatymą, stereotipus ir neteisingas socialines prielaidas. Pavyzdžiui, jei duomenys apie medicinos specialistus būtų įtraukti į kompiuterinę sistemą, kurioje būtų tik gydytojai vyrai ir slaugytojos, išliktų realus lyčių stereotipas apie sveikatos priežiūros darbuotojus.
- Matavimo šališkumas – Kaip rodo pavadinimas, šis šališkumas atsiranda dėl esminių problemų, susijusių su duomenų kokybe ir metodais, naudojamais renkant ar vertinant. Sistema, kuri mokoma tiksliai įvertinti svorį, bus šališka, jei treniruočių duomenyse esantys svoriai bus nuosekliai suapvalinti, o patenkintų darbuotojų atvaizdų naudojimas norint apmokyti sistemą, skirtą įvertinti darbo vietos aplinką, gali būti šališka, jei nuotraukose esantys darbuotojai žinotų. jie buvo vertinami dėl laimės.
Kokie veiksniai prisideda prie šališkumo mašininio mokymosi?
Nors mašininio mokymosi šališkumo priežasčių yra daug, jis dažnai kyla dėl pačių mokymo duomenų paklaidos. Yra keletas galimų mokymo duomenų paklaidų priežasčių.
Ryškiausia iliustracija yra mokymo duomenys, kurie yra sąlygų, matomų įdiegtoje sistemoje, poaibis, kuris nėra tipiškas. Tai gali būti treniruočių duomenys, kuriuose viena kategorija pateikiama nepakankamai, o kitos kategorijos – neproporcingai daug.
Tai vadinama imties šališkumu ir gali atsirasti renkant neatsitiktinius mokymo duomenis. Duomenų rinkimo, analizės ar klasifikavimo metodai, taip pat istorinės duomenų šaknys gali lemti pačių duomenų šališkumą.
Informacija istoriškai gali būti net šališka didesnėje kultūroje, kurioje ji buvo surinkta.
Mašininio mokymosi šališkumą dažniausiai sukelia:
- Žmonių ar visuomenės sukeltas šališkumas istoriniuose duomenyse naudojamas algoritmams lavinti.
- Mokymo duomenys, kurie neatspindi realių aplinkybių.
- Šališkumas žymint arba ruošiant duomenis prižiūrimam mašininiam mokymuisi.
Pavyzdžiui, mokymo duomenų įvairovės trūkumas gali sukelti vaizdavimo šališkumą. Mašininio mokymosi modelių tikslumą dažnai veikia istorinis platesnės kultūros šališkumas.
Tai kartais vadinama socialiniu ar žmogiškuoju šališkumu. Gali būti sudėtinga rasti didžiulius duomenų rinkinius, kurie nėra linkę į visuomenės šališkumą. Mašininio mokymosi ciklo duomenų apdorojimo etapas yra vienodai jautrus žmogaus šališkumui.
Duomenų mokslininko ar kito eksperto pažymėti ir apdoroti duomenys yra būtini prižiūrimam mašininiam mokymuisi. Nesvarbu, ar tai atsiranda dėl išvalytų duomenų įvairovės, duomenų taškų žymėjimo būdo ar funkcijų pasirinkimo, šio ženklinimo proceso šališkumas gali sukelti mašininio mokymosi šališkumą.
Mašininio mokymosi šališkumo rizika
Kadangi modeliai yra duomenimis pagrįsti sprendimų priėmimo įrankiai, daroma prielaida, kad jie pateikia nešališkus sprendimus. Mašininio mokymosi modeliuose dažnai yra šališkumo, kuris gali turėti įtakos rezultatams.
Vis daugiau pramonės šakų vietoje pasenusios programinės įrangos ir procedūrų diegia mašininį mokymąsi. Neobjektyvūs modeliai gali turėti neigiamą poveikį realiame pasaulyje, kai sudėtingesni darbai automatizuojami naudojant modelius.
Mašininis mokymasis nesiskiria nuo kitų sprendimų priėmimo procesų tuo, kad organizacijos ir asmenys tikisi, kad jis bus skaidrus ir teisingas. Kadangi mašininis mokymasis yra automatizuotas procesas, jį naudojant priimti sprendimai kartais dar atidžiau išnagrinėjami.
Labai svarbu, kad organizacijos imtųsi iniciatyvos spręsti pavojus, nes mašininio mokymosi šališkumas kai kurioms populiacijoms dažnai gali turėti diskriminacinio arba neigiamo poveikio. Reguliuojamuose kontekstuose ypač reikia atsižvelgti į mašininio mokymosi šališkumo galimybę.
Pavyzdžiui, mašininis mokymasis bankininkystėje galėtų būti naudojamas automatiškai priimti arba atmesti hipotekos prašytojus po pirminio patikrinimo. Modelis, nukreiptas į tam tikrą kandidatų grupę, gali turėti neigiamą poveikį tiek kandidatui, tiek organizacijai.
Bet koks šališkumas, aptiktas diegimo aplinkoje, kurioje veiksmai gali būti kruopščiai tikrinami, gali sukelti didelių problemų. Modelis gali neveikti, o blogiausiu atveju netgi gali pasirodyti sąmoningai diskriminuojantis.
Poslinkis turi būti kruopščiai įvertintas ir pasiruoštas, nes dėl to modelis gali būti visiškai pašalintas iš diegimo. Norint įgyti pasitikėjimą modelio sprendimais, reikia suprasti ir spręsti mašininio mokymosi šališkumą.
Pasitikėjimo lygiui organizacijos viduje ir tarp išorinių paslaugų vartotojų gali turėti įtakos suvokiamas šališkumas priimant modelio sprendimus. Jei modeliais nepasitikima, ypač kai vadovaujasi didelės rizikos pasirinkimais, organizacijoje nebus išnaudotas visas jų potencialas.
Vertinant modelio paaiškinamumą, reikia atsižvelgti į paklaidą. Nekontroliuojamas mašininio mokymosi šališkumas gali rimtai paveikti modelių pasirinkimų pagrįstumą ir tikslumą.
Kartais tai gali baigtis diskriminaciniais veiksmais, kurie gali turėti įtakos tam tikriems žmonėms ar grupėms. Yra daug programų, skirtų įvairių tipų mašininio mokymosi modeliams, ir kiekviena iš jų tam tikru mastu yra jautri mašininio mokymosi šališkumui.
Mašininio mokymosi šališkumą iliustruoja:
- Kadangi mokymo duomenys nėra skirtingi, kai kurioms rasinėms grupėms veido atpažinimo algoritmai gali būti ne tokie tikslūs.
- Programa gali aptikti duomenų rasinį ir lytinį šališkumą dėl žmonių ar istorinių prietarų.
- Naudojant tam tikrą dialektą ar kirtį, natūralios kalbos apdorojimas gali būti tikslesnis ir gali nepavykti apdoroti akcento, kurio mokymo duomenyse nepakanka.
Mašininio mokymosi šališkumo sprendimas
Stebėjimo ir perkvalifikavimo modeliai, kai randamas šališkumas, yra du būdai, kaip išspręsti mašininio mokymosi šališkumą. Daugeliu atvejų modelio paklaida rodo mokymo duomenų paklaidą arba bent jau šališkumas gali būti susijęs su mašininio mokymosi ciklo mokymo etapu.
Kiekviename modelio gyvavimo ciklo etape turi būti nustatytos procedūros, leidžiančios užfiksuoti šališkumą arba modelio nukrypimą. Taip pat įtraukiami mašininio mokymosi stebėjimo procesai po įdiegimo. Svarbu dažnai tikrinti, ar modelyje ir duomenų rinkiniuose nėra šališkumo.
Tai gali apimti mokymo duomenų rinkinio tyrimą, kad pamatytumėte, kaip grupės yra paskirstytos ir atstovaujamos. Galima keisti ir (arba) tobulinti duomenų rinkinius, kurie nėra visiškai reprezentatyvūs.
Be to, vertinant modelio veikimą, reikėtų atsižvelgti į šališkumą. Modelio našumo tikrinimas įvairiuose duomenų pogrupiuose gali parodyti, ar jis yra šališkas arba per daug pritaikytas tam tikros grupės atžvilgiu.
Naudojant kryžminio patvirtinimo metodus, galima įvertinti mašininio mokymosi modelio našumą tam tikruose duomenų pogrupiuose. Procedūra apima duomenų padalijimą į atskirus mokymo ir testavimo duomenų rinkinius.
Galite pašalinti mašininio mokymosi šališkumą:
- Jei reikia, permokykite modelį naudodami didesnius, reprezentatyvesnius mokymo rinkinius.
- Procedūros, leidžiančios aktyviai ieškoti šališkų rezultatų ir neįprastų sprendimų, nustatymas.
- Pakartotinis funkcijų įvertinimas ir prireikus hiperparametrų koregavimas gali padėti atsižvelgti į šališkumą.
- Aptikto šališkumo skatinimas nuolatiniu aptikimo ir optimizavimo ciklu.
Išvada
Kyla pagunda manyti, kad apmokytas mašininio mokymosi modelis veiktų savarankiškai. Tiesą sakant, modelio veikimo aplinka nuolat keičiasi, o vadovai turi reguliariai perkvalifikuoti modelius naudodami naujus duomenų rinkinius.
Mašinų mokymasis šiuo metu yra viena patraukliausių technologinių galimybių, duodančių realią ekonominę naudą. Mašininis mokymasis, susietas su didelių duomenų technologijomis ir didžiule skaičiavimo galia, pasiekiama viešajame debesyje, gali pakeisti žmonių sąveiką su technologijomis ir galbūt ištisomis pramonės šakomis.
Tačiau, kad ir kokia perspektyvi būtų mašininio mokymosi technologija, ji turi būti kruopščiai suplanuota, kad būtų išvengta netyčinio šališkumo. Mašinų sprendimų veiksmingumą gali smarkiai paveikti šališkumas, į kurį turi atsižvelgti mašininio mokymosi modelių kūrėjai.
Palikti atsakymą