Habang mas maraming industriya ang gumagamit ng kapangyarihan ng mga algorithm upang i-automate ang mga operasyon at gumawa ng mga pagpipilian, ang machine learning ay nagiging isang mahalagang bahagi ng kung paano gumagana ang kontemporaryong mundo.
Ang isyu ng bias sa machine learning ay mahalagang isaalang-alang kapag naisama ang mga modelo ng machine learning sa iba't ibang proseso ng paggawa ng desisyon ng mga organisasyon.
Upang matiyak na ang mga pagpipiliang nabuo ng mga algorithm ay walang kinikilingan at walang bias ay dapat na layunin para sa anumang organisasyon na gumagamit ng mga modelo ng machine learning. Upang matiyak na ang mga output ng modelo ay maaasahan at makikita bilang patas, mahalagang kilalanin at tugunan machine learning pagkiling.
Ito ay nauugnay sa mga tanong tungkol sa kakayahang maipaliwanag ng modelo, o kung gaano kadali para sa isang tao na maunawaan kung paano nakarating sa isang konklusyon ang isang modelo ng machine learning. Ang mga uso at pattern na namamapa at natututo ng mga modelo ng machine learning ay nagmumula sa data mismo sa halip na sa pamamagitan ng direktang pag-unlad ng tao.
Maaaring lumitaw ang bias sa machine learning para sa iba't ibang dahilan kung hindi ito makokontrol at susuriin. Kapag ang isang modelo ay na-deploy, ito ay madalas na nakakaharap ng mga sitwasyon na hindi eksaktong ipinapakita sa sample ng data ng pagsasanay.
Ang modelo ay maaaring nag-overfitting para sa hindi kinakatawan na set ng pagsasanay ng data. Sa kabila ng mahusay na kalidad ng data ng pagsasanay, ang modelo ay maaari pa ring maapektuhan ng makasaysayang pagkiling na nagreresulta mula sa mas malawak na impluwensya sa kultura.
Kapag naipatupad na, maaaring paboran ng isang bias na modelo ang ilang partikular na grupo o mawala ang katumpakan sa mga partikular na subset ng data. Maaaring magresulta ito sa mga paghatol na hindi patas na nagpaparusa sa isang partikular na grupo ng mga indibidwal, na maaaring magkaroon ng negatibong epekto sa aktwal na mundo.
Tinatalakay ng artikulong ito ang bias sa pagkatuto ng makina, kabilang ang kung ano ito, kung paano ito makikita, ang mga panganib na dulot nito, at marami pang iba.
Kaya, Ano ang Machine Learning Bias?
Ang isang algorithm na gumagawa ng mga output na sistematikong bias bilang resulta ng mga maling pagpapalagay na ginawa sa panahon ng proseso ng machine learning ay kilala bilang machine learning bias, na kilala rin bilang algorithm bias o kilala bilang AI bias.
Ang bias sa pagkatuto ng makina ay ang tendensya ng isang modelo na paboran ang isang partikular na hanay ng data o isang subset ng data; ito ay madalas na dala ng mga non-representative na dataset ng pagsasanay. Sa isang tiyak na koleksyon ng data, ang isang pinapanigang modelo ay magiging mahina ang pagganap, na makakasama sa katumpakan nito.
Sa isang real-world na setting, maaari itong magpahiwatig na ang data ng bias na pagsasanay ay nagresulta sa output ng isang modelo na pinapaboran ang isang partikular na lahi, demograpiko, o kasarian.
Bilang resulta, ang mga output ng machine learning ay maaaring hindi makatarungan o may diskriminasyon. Pagsasanay na hindi kinatawan ang mga dataset ay maaaring mag-ambag sa bias sa machine learning.
Ang resultang modelo ay maaaring maging bias sa iba, hindi gaanong kinakatawan na mga kategorya kung ang data ng pagsasanay ay kulang o labis na kumakatawan sa isang partikular na pagpapangkat ng data. Ito ay maaaring mangyari kung ang sample ng data ng pagsasanay ay hindi eksaktong tumutugma sa real-world na deployment environment.
Ang machine learning sa industriya ng pangangalagang pangkalusugan, na maaaring gamitin upang suriin ang data ng pasyente laban sa mga kilalang sakit o sakit, ay isang pangunahing halimbawa. Maaaring pabilisin ng mga modelo ang mga interbensyon ng mga medikal na practitioner kapag ginamit ang mga ito nang naaangkop.
Gayunpaman, posible ang pagtatangi. Kapag hiniling na hulaan ang posibleng pagkakasakit sa isang mas matandang pasyente, hindi maaaring gumanap nang maayos ang isang modelo kung ang data ng pagsasanay na ginamit sa pagbuo nito ay kadalasang binubuo ng data ng pasyente mula sa isang mas maliit na hanay ng edad.
Bilang karagdagan, ang mga makasaysayang istatistika ay maaaring skewed. Halimbawa, dahil sa kasaysayan, ang karamihan sa mga empleyado ay mga lalaki, ang isang modelong sinanay upang salain ang mga kandidato sa trabaho ay pabor sa mga lalaking aplikante.
Magkakaroon ng impluwensya ang bias ng machine learning sa katumpakan ng modelo sa parehong mga sitwasyon, at sa pinakamasamang sitwasyon, maaari pa itong magresulta sa mga diskriminasyon at hindi makatarungang mga konklusyon.
Ang mga desisyon ay dapat na maingat na suriin upang matiyak na walang bias mga modelo ng pag-aaral ng makina palitan ang parami nang parami ng mga manu-manong operasyon. Bilang resulta, ang mga modelong kasanayan sa pamamahala sa anumang organisasyon ay dapat magsama ng pagsubaybay para sa machine learning bias.
Maraming iba't ibang uri ng trabaho sa maraming iba't ibang industriya ang kinukumpleto ng mga modelo ng machine learning. Sa ngayon, ang mga modelo ay ginagamit upang i-automate ang lalong mahihirap na proseso at para makabuo ng mga mungkahi. Sa prosesong ito ng paggawa ng desisyon, ang bias ay nangangahulugan na ang isang modelo ay maaaring paboran ang isang partikular na grupo kaysa sa isa pa batay sa isang natutunang bias.
Kapag ginamit upang gumawa ng mga hindi ligtas na paghatol na may aktwal na mga kahihinatnan, maaari itong magkaroon ng malubhang epekto. Kapag ginamit upang awtomatikong mag-apruba ng mga aplikasyon ng pautang, halimbawa, ang isang bias na modelo ay maaaring makapinsala sa isang partikular na populasyon. Sa mga kinokontrol na negosyo kung saan maaaring suriin o suriin ang anumang mga aksyon, ito ay isang partikular na mahalagang kadahilanan na dapat isaalang-alang.
Mga uri ng Machine Learning Bias
- Bias ng Algorithm – Nangyayari ito kapag may bug sa algorithm na gumagawa ng mga kalkulasyon na nagtutulak sa mga pagkalkula ng machine learning.
- Halimbawang Bias – Kapag ang data dati sanayin ang machine learning modelo ay may isang isyu, ito ay nangyayari. Sa mga kaso ng ganitong uri ng bias, ang halaga o kalidad ng data na ginamit upang sanayin ang system ay hindi sapat. Ang algorithm ay sasanayin upang maniwala na ang lahat ng mga guro ay babae kung, halimbawa, ang data ng pagsasanay ay ganap na binubuo ng mga babaeng guro.
- Pagkiling sa pagbubukod – Ito ay nangyayari kapag ang isang mahalagang punto ng data ay wala sa hanay ng data na ginagamit, na maaaring mangyari kung ang mga modelo ay hindi napagtanto ang kahalagahan ng nawawalang punto ng data.
- Pagkiling sa pagkiling – Sa pagkakataong ito, ang mismong machine learning ay may kinikilingan dahil ang data na ginamit para sanayin ang system ay nagpapakita ng mga bias sa totoong mundo gaya ng pagkiling, stereotype, at maling social assumption. Halimbawa, kung ang data sa mga medikal na propesyonal ay isasama sa sistema ng kompyuter na kinabibilangan lamang ng mga lalaking manggagamot at babaeng nars, isang real-world na stereotype ng kasarian tungkol sa mga manggagawa sa pangangalagang pangkalusugan ay magpapatuloy.
- Pagkiling sa Pagsukat – Gaya ng ipinahihiwatig ng pangalan, ang pagkiling na ito ay nagreresulta mula sa mga pangunahing isyu sa kalidad ng data at mga pamamaraan na ginamit upang mangolekta o suriin ito. Magiging bias ang isang system na sinasanay upang tumpak na masuri ang timbang kung ang mga timbang na nilalaman ng data ng pagsasanay ay pare-parehong i-round up, at ang paggamit ng mga larawan ng mga nasisiyahang empleyado upang sanayin ang isang system na nilalayong masuri ang kapaligiran sa lugar ng trabaho ay maaaring maging bias kung alam ng mga empleyado sa mga larawan. sila ay sinusukat para sa kaligayahan.
Anong mga salik ang nakakatulong sa pagkiling sa machine learning?
Bagama't maraming dahilan para sa pagkiling sa pagkatuto ng makina, madalas itong nagmumula sa pagkiling sa mismong data ng pagsasanay. Mayroong ilang mga potensyal na pinagbabatayan na dahilan para sa mga bias sa data ng pagsasanay.
Ang pinakamaliwanag na paglalarawan ay ang data ng pagsasanay, na isang subset ng mga kundisyon na nakikita sa isang naka-deploy na system na hindi karaniwan. Maaaring ito ay data ng pagsasanay na may kulang na representasyon ng isang kategorya o hindi katimbang na dami ng isa pa.
Ito ay kilala bilang sample bias, at maaari itong magresulta mula sa hindi random na pagkolekta ng data ng pagsasanay. Ang mga pamamaraan na ginamit upang mangolekta, mag-analisa, o mag-uri-uriin ang data, gayundin ang mga makasaysayang pinagmulan ng data, ay maaaring humantong sa pagkiling sa mismong data.
Ang impormasyon ay maaaring kahit na may kinikilingan sa kasaysayan sa mas malaking kultura kung saan ito natipon.
Ang bias sa pag-aaral ng machine ay kadalasang sanhi ng:
- Ang mga bias na dulot ng mga tao o lipunan sa makasaysayang data ay ginagamit upang sanayin ang mga algorithm.
- Data ng pagsasanay na hindi nagpapakita ng mga totoong pangyayari sa mundo.
- Bias habang naglalagay ng label o naghahanda ng data para sa pinangangasiwaang machine learning.
Halimbawa, ang kakulangan ng pagkakaiba-iba sa data ng pagsasanay ay maaaring magdulot ng bias sa representasyon. Ang katumpakan ng mga modelo ng machine learning ay madalas na naaapektuhan ng makasaysayang bias sa mas malawak na kultura.
Ito ay minsang tinutukoy bilang panlipunan o pantao na pagkiling. Ang paghahanap ng malalaking koleksyon ng data na hindi madaling kapitan ng pagkiling ng lipunan ay maaaring maging mahirap. Ang yugto ng pagpoproseso ng data ng lifecycle ng machine learning ay pantay na madaling kapitan ng bias ng tao.
Ang data na may label at naproseso ng isang data scientist o iba pang eksperto ay kinakailangan para sa pinangangasiwaang machine learning. Nagmumula man ito sa iba't ibang data na nililinis, ang paraan kung paano nilagyan ng label ang mga punto ng data, o ang pagpili ng mga feature, ang bias sa proseso ng pag-label na ito ay maaaring humantong sa bias sa machine learning.
Mga Panganib sa Machine Learning Bias
Dahil ang mga modelo ay data-driven na mga tool sa paggawa ng desisyon, ipinapalagay na nagbibigay ang mga ito ng walang kinikilingan na paghuhusga. Ang mga modelo ng machine learning ay madalas na naglalaman ng bias, na maaaring makaapekto sa mga resulta.
Parami nang parami ang mga industriya na nagpapatupad ng machine learning kapalit ng hindi napapanahong software at mga pamamaraan. Maaaring magkaroon ng negatibong epekto ang mga biased na modelo sa totoong mundo kapag ang mga mas kumplikadong trabaho ay awtomatiko gamit ang mga modelo.
Ang machine learning ay walang pinagkaiba sa iba pang mga proseso ng paggawa ng desisyon sa mga organisasyon at indibidwal na inaasahan na ito ay transparent at patas. Dahil ang pag-aaral ng makina ay isang automated na proseso, ang mga paghuhusga na ginawa gamit ito ay paminsan-minsang mas masusing sinusuri.
Napakahalaga na maging maagap ang mga organisasyon sa pagtugon sa mga panganib dahil ang pagkiling sa machine learning ay kadalasang maaaring magkaroon ng diskriminasyon o negatibong epekto sa ilang populasyon. Para sa mga kinokontrol na konteksto, sa partikular, ang posibilidad ng bias sa machine learning ay dapat isaalang-alang.
Halimbawa, maaaring gamitin ang machine learning sa pagbabangko upang awtomatikong tanggapin o tanggihan ang mga aplikante ng mortgage pagkatapos ng paunang screening. Ang isang modelo na may kinikilingan sa isang partikular na grupo ng mga kandidato ay maaaring magkaroon ng masamang epekto sa parehong kandidato at sa organisasyon.
Anumang bias na makikita sa isang deployment environment kung saan maaaring masuri ang mga aksyon ay maaaring humantong sa mga malalaking problema. Maaaring hindi gumana ang modelo at, sa pinakamasamang sitwasyon, maaaring maging sadyang diskriminasyon.
Dapat na maingat na suriin at ihanda ang bias dahil maaaring magresulta ito sa ganap na pag-alis ng modelo sa pag-deploy. Ang pagkakaroon ng kumpiyansa sa mga desisyon ng modelo ay nangangailangan ng pag-unawa at pagtugon sa bias sa pagkatuto ng makina.
Ang antas ng tiwala sa loob ng organisasyon at sa mga panlabas na mamimili ng serbisyo ay maaaring maapektuhan ng pinaghihinalaang bias sa paggawa ng desisyon ng modelo. Kung hindi pinagkakatiwalaan ang mga modelo, lalo na kapag gumagabay sa mga pagpipiliang may mataas na peligro, hindi sila magagamit sa kanilang buong potensyal sa loob ng isang organisasyon.
Kapag sinusuri ang kakayahang maipaliwanag ng isang modelo, ang accounting para sa bias ay dapat na isang salik na dapat isaalang-alang. Ang pagiging wasto at katumpakan ng mga pagpipilian sa modelo ay maaaring seryosong maapektuhan ng walang check na machine learning bias.
Paminsan-minsan, maaari itong magresulta sa mga pagkilos na may diskriminasyon na maaaring makaapekto sa partikular na mga tao o grupo. Maraming application ang umiiral para sa iba't ibang uri ng modelo ng machine learning, at ang bawat isa ay madaling kapitan sa machine learning bias sa ilang mga lawak.
Ang bias sa pagkatuto ng makina ay inilalarawan ng:
- Dahil sa kawalan ng pagkakaiba-iba sa data ng pagsasanay, maaaring hindi gaanong tumpak ang mga algorithm sa pagkilala sa mukha para sa ilang pangkat ng lahi.
- Maaaring makita ng programa ang pagkiling sa lahi at kasarian sa data dahil sa pagkiling sa tao o kasaysayan.
- Sa isang partikular na dialect o accent, maaaring maging mas tumpak ang natural na pagpoproseso ng wika, at maaaring hindi nito maproseso ang isang accent na kulang sa representasyon sa data ng pagsasanay.
Paglutas ng Bias sa Machine Learning
Ang pagsubaybay at pag-retraining ng mga modelo kapag may nakitang bias ay dalawang paraan upang matugunan ang bias sa machine learning. Sa karamihan ng mga kaso, ang bias ng modelo ay isang indikasyon ng bias sa data ng pagsasanay, o kahit man lang ang bias ay maaaring maiugnay sa yugto ng pagsasanay ng lifecycle ng machine learning.
Ang bawat yugto ng lifecycle ng modelo ay dapat magkaroon ng mga pamamaraan upang mahuli ang bias o pag-anod ng modelo. Kasama rin ang mga proseso para sa pagsubaybay sa machine learning pagkatapos ng deployment. Mahalagang suriin nang madalas ang modelo at mga dataset para sa bias.
Maaaring kabilang dito ang pagsusuri sa isang dataset ng pagsasanay upang makita kung paano ipinamamahagi at kinakatawan ang mga grupo doon. Posibleng baguhin at/o pagbutihin ang mga dataset na hindi ganap na kinatawan.
Bukod pa rito, dapat isaalang-alang ang bias habang tinatasa ang pagganap ng modelo. Ang pagsubok sa pagganap ng modelo sa iba't ibang mga subset ng data ay maaaring magpakita kung ito ay bias o overfit kaugnay sa isang partikular na grupo.
Posibleng suriin ang pagganap ng modelo ng machine learning sa ilang partikular na subset ng data sa pamamagitan ng paggamit ng mga diskarte sa cross-validation. Ang pamamaraan ay nagsasangkot ng paghahati ng data sa natatanging mga set ng pagsasanay at pagsubok.
Maaari mong alisin ang bias sa machine learning sa pamamagitan ng:
- Kung kinakailangan, muling sanayin ang modelo gamit ang mas malaki, mas representasyong set ng pagsasanay.
- Pagtatatag ng isang pamamaraan upang maagap na tumingin sa mga may kinikilingan na resulta at hindi pangkaraniwang mga paghuhusga.
- Ang muling pagtimbang ng mga feature at pagsasaayos ng mga hyperparameter kung kinakailangan ay maaaring makatulong sa pagsasaalang-alang ng bias.
- Hinihikayat ang paglutas ng natuklasang bias sa pamamagitan ng patuloy na cycle ng pagtuklas at pag-optimize.
Konklusyon
Nakatutukso na paniwalaan na kapag nasanay na, ang isang machine-learning na modelo ay gagana nang awtonomiya. Sa katunayan, ang kapaligiran sa pagpapatakbo ng modelo ay palaging nagbabago, at dapat na sanayin muli ng mga tagapamahala ang mga modelo gamit ang mga bagong set ng data nang regular.
Ang machine learning ay kasalukuyang isa sa mga pinakakaakit-akit na teknolohikal na kakayahan na may totoong mga benepisyo sa ekonomiya. Ang machine learning, kapag ipinares sa malalaking teknolohiya ng data at ang napakalaking computational power na magagamit sa pamamagitan ng pampublikong cloud, ay may potensyal na baguhin kung paano nakikipag-ugnayan ang mga indibidwal sa teknolohiya, at marahil sa buong industriya.
Gayunpaman, kasing promising ang teknolohiya ng machine-learning, dapat itong maingat na planuhin upang maiwasan ang mga hindi sinasadyang bias. Ang pagiging epektibo ng mga paghatol na ginawa ng mga makina ay maaaring maapektuhan nang husto ng bias, na isang bagay na dapat isaalang-alang ng mga developer ng modelo ng machine learning.
Mag-iwan ng Sagot