Pe măsură ce mai multe industrii folosesc puterea algoritmilor pentru a automatiza operațiunile și a face alegeri, învățarea automată devine o componentă crucială a modului în care funcționează lumea contemporană.
Problema părtinirii în învățarea automată este esențială de luat în considerare atunci când modelele de învățare automată sunt integrate în procesele decizionale ale diferitelor organizații.
Garantarea că alegerile generate de algoritmi sunt imparțiale și lipsite de părtinire ar trebui să fie scopul oricărei organizații care utilizează modele de învățare automată. Pentru a ne asigura că rezultatele modelului pot fi bazate pe și considerate corecte, este esențial să recunoaștem și să abordăm masina de învățare părtinire.
Este legat de întrebări legate de explicabilitatea modelului sau de cât de ușor este pentru o persoană să înțeleagă cum a ajuns la o concluzie un model de învățare automată. Tendințele și modelele pe care modelele de învățare automată le mapează și le învață provin din datele în sine, mai degrabă decât prin dezvoltarea umană directă.
Prejudecățile în învățarea automată pot apărea dintr-o varietate de motive dacă nu este controlată și verificată. Atunci când un model este implementat, acesta întâlnește frecvent situații care nu sunt reflectate precis în eșantionul de date de antrenament.
Modelul ar fi putut fi supraadaptat pentru acest set de date de antrenament nereprezentativ. În ciuda calității excelente a datelor de instruire, modelul poate fi încă afectat de părtinire istorică care rezultă din influențe culturale mai largi.
Odată implementat, un model părtinitor ar putea favoriza anumite grupuri sau poate pierde acuratețea cu anumite subseturi de date. Acest lucru ar putea duce la judecăți care pedepsesc în mod nedrept un anumit grup de indivizi, ceea ce ar putea avea efecte negative asupra lumii reale.
Acest articol discută despre prejudecățile învățării automate, inclusiv despre ce este, cum să o identifici, pericolele pe care le prezintă și multe altele.
Deci, ce este prejudecata de învățare automată?
Un algoritm care produce rezultate care sunt părtinitoare sistematic ca urmare a ipotezelor false făcute în timpul procesului de învățare automată este cunoscut sub denumirea de părtinire a învățării automate, cunoscută și sub denumirea de părtinire a algoritmului sau cunoscută sub numele de părtinire a AI.
Prejudecata de învățare automată este tendința unui model de a favoriza un anumit set de date sau un subset de date; este adesea cauzată de seturi de date de antrenament nereprezentative. Cu o anumită colectare de date, un model părtinitor va avea performanțe slabe, ceea ce îi va afecta acuratețea.
Într-un cadru real, acest lucru poate implica faptul că datele de antrenament părtinitoare au dus la rezultatul unui model care favorizează o anumită rasă, demografie sau gen.
Ca rezultat, rezultatele învățării automate ar putea fi nedrepte sau discriminatorii. Formare nereprezentativă seturile de date pot contribui la părtinire în învățarea automată.
Modelul rezultat poate fi orientat către alte categorii subreprezentate dacă datele de instruire lipsesc sau sunt prea reprezentative pentru o anumită grupare de date. Acest lucru se poate întâmpla dacă eșantionul de date de antrenament nu se potrivește exact cu mediul de implementare din lumea reală.
Învățarea automată în industria sănătății, care poate fi utilizată pentru a verifica datele pacienților în raport cu boli sau boli cunoscute, este un exemplu excelent. Modelele pot accelera intervențiile medicilor atunci când sunt utilizate în mod corespunzător.
Cu toate acestea, prejudecata este posibilă. Când i se cere să prezică o posibilă boală la un pacient mai în vârstă, un model nu poate funcționa bine dacă datele de antrenament utilizate pentru a-l construi constă în cea mai mare parte din date despre pacienți dintr-un interval de vârstă mai mic.
În plus, statisticile istorice pot fi denaturate. De exemplu, pentru că din punct de vedere istoric, majoritatea angajaților erau bărbați, un model antrenat să filtreze candidații la locuri de muncă ar favoriza candidații bărbați.
Prejudecățile învățării automate va avea o influență asupra acurateței modelului în ambele scenarii și, în cele mai grave circumstanțe, ar putea duce chiar la concluzii discriminatorii și nedrepte.
Deciziile trebuie revizuite cu atenție pentru a se asigura că nu există părtinire modele de învățare automată înlocuiți din ce în ce mai multe operațiuni manuale. Ca rezultat, practicile de guvernanță model din orice organizație ar trebui să includă monitorizarea părtinirii învățării automate.
Multe tipuri diferite de locuri de muncă în multe industrii diferite sunt finalizate prin modele de învățare automată. Astăzi, modelele sunt folosite pentru a automatiza procese din ce în ce mai dificile și pentru a genera sugestii. În acest proces de luare a deciziilor, părtinirea înseamnă că un model ar putea favoriza un anumit grup în detrimentul altuia pe baza unei părtiniri învățate.
Când este folosit pentru a face judecăți nesigure cu consecințe reale, acest lucru poate avea repercusiuni grave. Atunci când este utilizat pentru a aproba automat cererile de împrumut, de exemplu, un model părtinitor poate prejudicia o anumită populație. În întreprinderile reglementate în care orice acțiune poate fi inspectată sau controlată, acesta este un factor deosebit de crucial de luat în considerare.
Tipuri de prejudecăți de învățare automată
- Disturbirea algoritmului – Acest lucru se întâmplă atunci când există o eroare în algoritm care face calculele care conduc calculele de învățare automată.
- Eșantion de părtinire – Când datele obișnuiau antrenează învățarea automată modelul are o problemă, aceasta se întâmplă. În cazurile de acest tip de părtinire, cantitatea sau calitatea datelor utilizate pentru a antrena sistemul este insuficientă. Algoritmul va fi antrenat să creadă că toți profesorii sunt femei dacă, de exemplu, datele de formare sunt compuse în întregime din profesori.
- Prejudecata de excludere – Acest lucru se întâmplă atunci când un punct de date crucial este absent din setul de date utilizat, ceea ce poate apărea dacă modelatorii nu reușesc să realizeze semnificația punctului de date lipsă.
- Prejudecăți părtinitoare – În acest caz, învățarea automată în sine este părtinitoare, deoarece datele utilizate pentru a antrena sistemul reflectă părtiniri din lumea reală, cum ar fi prejudecățile, stereotipurile și ipotezele sociale incorecte. De exemplu, dacă datele despre profesioniștii medicali ar fi incluse în sistemul informatic care include doar medici de sex masculin și asistente de sex feminin, un stereotip de gen în lumea reală despre lucrătorii din domeniul sănătății ar fi perpetuat.
- Prejudecata de măsurare – După cum sugerează și numele, această părtinire rezultă din probleme fundamentale legate de calitatea datelor și a metodelor utilizate pentru a le colecta sau evalua. Un sistem instruit pentru a evalua cu precizie greutatea va fi părtinitor dacă ponderile conținute în datele de antrenament au fost rotunjite în mod constant, iar utilizarea imaginilor angajaților mulțumiți pentru a pregăti un sistem menit să evalueze un mediu de lucru poate fi părtinitoare dacă angajații din imagini știau erau măsurați pentru fericire.
Ce factori contribuie la părtinirea învățării automate?
Deși există multe motive pentru părtinirea învățării automate, aceasta apare adesea din părtinirea datelor de antrenament în sine. Există mai multe cauze potențiale care stau la baza distorsiunilor în datele de antrenament.
Cea mai evidentă ilustrație sunt datele de antrenament, care sunt un subset de condiții observate într-un sistem implementat care nu este tipic. Acestea pot fi date de instruire cu o subreprezentare a unei categorii sau o cantitate disproporționată a alteia.
Acest lucru este cunoscut sub denumirea de prejudecată a eșantionului și poate rezulta din colectarea de date de antrenament nerandomizată. Metodele utilizate pentru a colecta, analiza sau clasifica datele, precum și rădăcinile istorice ale datelor, pot duce toate la părtinire în datele în sine.
Informațiile pot fi chiar părtinitoare din punct de vedere istoric în cultura mai largă în care au fost adunate.
Prejudecățile învățării automate sunt cauzate în principal de:
- Prejudecățile cauzate de oameni sau societate în datele istorice sunt folosite pentru a antrena algoritmi.
- Date de antrenament care nu reflectă circumstanțele din lumea reală.
- Prejudecăți în timpul etichetării sau pregătirii datelor pentru învățarea automată supravegheată.
De exemplu, o lipsă de diversitate a datelor de formare ar putea cauza o eroare de reprezentare. Precizia modelelor de învățare automată este adesea afectată de părtinirea istorică în cultura mai largă.
Acest lucru este uneori denumit prejudecată socială sau umană. Găsirea unor colecții vaste de date care nu sunt predispuse la părtinire societală poate fi o provocare. Etapa de procesare a datelor din ciclul de viață al învățării automate este la fel de susceptibilă de părtinire umană.
Datele care au fost etichetate și procesate de un cercetător de date sau de un alt expert sunt necesare pentru învățarea automată supravegheată. Fie că provine din varietatea datelor care sunt curățate, modul în care punctele de date sunt etichetate sau alegerea caracteristicilor, părtinirea acestui proces de etichetare poate duce la părtinire în învățarea automată.
Riscuri de părtinire a învățării automate
Deoarece modelele sunt instrumente de luare a deciziilor bazate pe date, se presupune că oferă judecăți imparțiale. Modelele de învățare automată conțin frecvent părtiniri, care pot afecta rezultatele.
Din ce în ce mai multe industrii implementează învățarea automată în locul software-ului și procedurilor învechite. Modelele părtinitoare pot avea efecte negative în lumea reală atunci când lucrările mai complicate sunt automatizate folosind modele.
Învățarea automată nu este diferită de alte procese de luare a deciziilor, deoarece organizațiile și indivizii se așteaptă ca aceasta să fie transparentă și echitabilă. Deoarece învățarea automată este un proces automat, judecățile făcute folosindu-l sunt ocazional și mai atent examinate.
Este esențial ca organizațiile să fie proactive în abordarea pericolelor, deoarece părtinirea învățării automate poate avea frecvent efecte discriminatorii sau negative asupra anumitor populații. Pentru contextele reglementate, în special, trebuie luată în considerare posibilitatea de părtinire a învățării automate.
De exemplu, învățarea automată în domeniul bancar ar putea fi utilizată pentru a accepta sau respinge automat solicitanții de credit ipotecar după examinarea inițială. Un model care este părtinitor către un anumit grup de candidați ar putea avea efecte dăunătoare atât asupra candidatului, cât și asupra organizației.
Orice părtinire găsită într-un mediu de implementare în care acțiunile pot fi analizate poate duce la probleme majore. Modelul s-ar putea să nu funcționeze și, în cele mai rele scenarii, s-ar putea chiar să se dovedească a fi în mod deliberat discriminatoriu.
Prejudecățile trebuie evaluate cu atenție și pregătite pentru aceasta, deoarece poate duce la eliminarea completă a modelului din implementare. Câștigarea încrederii în deciziile modelului necesită înțelegerea și abordarea părtinirii învățării automate.
Nivelul de încredere în interiorul organizației și în rândul consumatorilor externi de servicii ar putea fi afectat de părtinirea percepută în procesul decizional al modelului. Dacă modelele nu sunt de încredere, mai ales atunci când ghidează alegerile cu risc ridicat, ele nu vor fi folosite la întregul lor potențial în cadrul unei organizații.
Atunci când se evaluează explicabilitatea unui model, luarea în considerare a părtinirii ar trebui să fie un factor de luat în considerare. Validitatea și acuratețea alegerilor de model pot fi serios afectate de părtinirea necontrolată a învățării automate.
Ocazional, poate duce la acțiuni discriminatorii care ar putea afecta anumite persoane sau grupuri. Există numeroase aplicații pentru diferite tipuri de modele de învățare automată și fiecare este susceptibilă, într-o oarecare măsură, de părtinire de învățare automată.
Prejudecățile învățării automate este ilustrată de:
- Datorită absenței varietății în datele de antrenament, algoritmii de recunoaștere facială pot fi mai puțin precisi pentru unele grupuri rasiale.
- Programul ar putea detecta prejudecățile rasiale și de gen în date din cauza prejudecăților umane sau istorice.
- Cu un anumit dialect sau accent, procesarea limbajului natural ar putea fi mai precisă și ar putea să nu poată procesa un accent care este subreprezentat în datele de antrenament.
Rezolvarea părtinirii în învățarea automată
Modelele de monitorizare și recalificare atunci când se găsește părtinire sunt două modalități de a aborda părtinirea învățării automate. În cele mai multe cazuri, părtinirea modelului este un indiciu al părtinirii datelor de antrenament sau cel puțin părtinirea poate fi legată de etapa de pregătire a ciclului de viață al învățării automate.
Fiecare etapă a ciclului de viață al modelului ar trebui să aibă proceduri pentru a detecta părtinirea sau deviația modelului. Sunt incluse și procesele pentru monitorizarea învățării automate după implementare. Este important să verificați frecvent modelul și seturile de date pentru părtinire.
Acest lucru ar putea implica examinarea unui set de date de antrenament pentru a vedea cum sunt distribuite și reprezentate grupurile acolo. Este posibil să se modifice și/sau să se îmbunătățească seturi de date care nu sunt în întregime reprezentative.
În plus, părtinirea ar trebui să fie luată în considerare atunci când se evaluează performanța modelului. Testarea performanței modelului pe diferite subseturi de date poate arăta dacă este părtinitoare sau supraadaptată în raport cu un anumit grup.
Este posibil să se evalueze performanța modelului de învățare automată pe anumite subseturi de date prin utilizarea tehnicilor de validare încrucișată. Procedura presupune împărțirea datelor în seturi de date distincte de instruire și testare.
Puteți elimina părtinirea în învățarea automată prin:
- Când este necesar, reantrenați modelul folosind seturi de antrenament mai mari și mai reprezentative.
- Stabilirea unei proceduri pentru a căuta în mod proactiv rezultate părtinitoare și judecăți neobișnuite.
- Reponderarea caracteristicilor și ajustarea hiperparametrilor după cum este necesar poate ajuta la ține cont de părtinire.
- Încurajarea rezolvării părtinirii descoperite printr-un ciclu continuu de detectare și optimizare.
Concluzie
Este tentant să credem că, odată instruit, un model de învățare automată ar funcționa autonom. De fapt, mediul operațional al modelului este mereu în schimbare, iar managerii trebuie să recalifice modelele folosind seturi de date noi în mod regulat.
Învățarea automată este în prezent una dintre cele mai fascinante capabilități tehnologice cu beneficii economice reale. Învățarea automată, atunci când este asociată cu tehnologiile de date mari și cu puterea de calcul imensă disponibilă prin cloud-ul public, are potențialul de a transforma modul în care indivizii interacționează cu tehnologia și, poate, cu industrii întregi.
Cu toate acestea, oricât de promițătoare este tehnologia de învățare automată, aceasta trebuie planificată cu atenție pentru a evita părtinirile neintenționate. Eficacitatea judecăților făcute de mașini poate fi grav afectată de părtinire, ceea ce este ceva de care dezvoltatorii de modele de învățare automată trebuie să țină seama.
Lasă un comentariu