Memandangkan lebih banyak industri menggunakan kuasa algoritma untuk mengautomasikan operasi dan membuat pilihan, pembelajaran mesin menjadi komponen penting bagaimana dunia kontemporari beroperasi.
Isu berat sebelah dalam pembelajaran mesin adalah penting untuk diambil kira apabila model pembelajaran mesin disepadukan ke dalam pelbagai proses membuat keputusan organisasi.
Untuk menjamin bahawa pilihan yang dijana oleh algoritma adalah saksama dan tidak berat sebelah harus menjadi matlamat bagi mana-mana organisasi yang menggunakan model pembelajaran mesin. Untuk memastikan bahawa output model boleh dipercayai dan dilihat sebagai adil, adalah penting untuk mengenali dan menangani pembelajaran mesin berat sebelah.
Ia berkaitan dengan persoalan kebolehjelasan model, atau betapa mudahnya seseorang memahami cara model pembelajaran mesin mencapai kesimpulan. Aliran dan corak yang dipetakan dan dipelajari oleh model pembelajaran mesin datang daripada data itu sendiri dan bukannya melalui pembangunan manusia secara langsung.
Bias dalam pembelajaran mesin boleh timbul atas pelbagai sebab jika ia tidak dikawal dan diperiksa. Apabila model digunakan, ia kerap menghadapi situasi yang tidak ditunjukkan dengan tepat dalam sampel data latihan.
Model itu mungkin terlalu sesuai untuk set data latihan yang tidak mewakili ini. Walaupun kualiti data latihan yang sangat baik, model itu mungkin masih dipengaruhi oleh kecenderungan sejarah yang terhasil daripada pengaruh budaya yang lebih luas.
Setelah dilaksanakan, model berat sebelah boleh memihak kepada kumpulan tertentu atau kehilangan ketepatan dengan subset data tertentu. Ini mungkin mengakibatkan penghakiman yang menghukum sekumpulan individu tertentu secara tidak adil, yang boleh memberi kesan negatif kepada dunia sebenar.
Artikel ini membincangkan berat sebelah pembelajaran mesin, termasuk apa itu, cara mengesannya, bahaya yang ditimbulkannya dan banyak lagi.
Jadi, Apakah Bias Pembelajaran Mesin?
Algoritma yang menghasilkan output yang berat sebelah secara sistematik akibat daripada andaian palsu yang dibuat semasa proses pembelajaran mesin dikenali sebagai bias pembelajaran mesin, juga dikenali sebagai bias algoritma atau dikenali sebagai bias AI.
Bias pembelajaran mesin ialah kecenderungan model untuk memihak kepada set data tertentu atau subset data; ia sering dibawa oleh set data latihan bukan perwakilan. Dengan koleksi data tertentu, model berat sebelah akan berprestasi rendah, yang akan membahayakan ketepatannya.
Dalam persekitaran dunia sebenar, ini boleh membayangkan bahawa data latihan berat sebelah menghasilkan output model yang memihak kepada kaum, demografi atau jantina tertentu.
Akibatnya, output pembelajaran mesin mungkin tidak adil atau mendiskriminasi. Latihan bukan wakil set data boleh menyumbang kepada berat sebelah dalam pembelajaran mesin.
Model yang terhasil boleh berat sebelah terhadap kategori lain yang kurang diwakili jika data latihan kurang atau terlalu mewakili kumpulan data tertentu. Ini boleh berlaku jika sampel data latihan tidak sepadan dengan persekitaran penggunaan dunia sebenar.
Pembelajaran mesin dalam industri penjagaan kesihatan, yang boleh digunakan untuk menyemak data pesakit terhadap penyakit atau penyakit yang diketahui, adalah contoh utama. Model boleh mempercepatkan campur tangan pengamal perubatan apabila ia digunakan dengan sewajarnya.
Walau bagaimanapun, prasangka adalah mungkin. Apabila diminta untuk meramalkan kemungkinan penyakit pada pesakit yang lebih tua, model tidak boleh menunjukkan prestasi yang baik jika data latihan yang digunakan untuk membinanya kebanyakannya terdiri daripada data pesakit dari lingkungan umur yang lebih kecil.
Selain itu, statistik sejarah boleh dipesongkan. Sebagai contoh, kerana mengikut sejarah, majoriti pekerja adalah lelaki, model yang dilatih untuk menapis calon pekerjaan akan memihak kepada pemohon lelaki.
Bias pembelajaran mesin akan mempunyai pengaruh pada ketepatan model dalam kedua-dua senario, dan dalam keadaan yang paling teruk, ia juga boleh mengakibatkan kesimpulan yang mendiskriminasi dan tidak adil.
Keputusan mesti dikaji dengan teliti untuk memastikan tidak ada berat sebelah seperti model pembelajaran mesin menggantikan lebih banyak operasi manual. Akibatnya, model amalan tadbir urus dalam mana-mana organisasi harus merangkumi pemantauan untuk berat sebelah pembelajaran mesin.
Pelbagai jenis pekerjaan dalam pelbagai industri sedang disiapkan oleh model pembelajaran mesin. Hari ini, model digunakan untuk mengautomasikan proses yang semakin sukar dan untuk menjana cadangan. Dalam proses membuat keputusan ini, berat sebelah bermaksud model boleh memihak kepada satu kumpulan tertentu berbanding kumpulan lain berdasarkan kecenderungan yang dipelajari.
Apabila digunakan untuk membuat pertimbangan yang tidak selamat dengan akibat sebenar, ini boleh membawa kesan yang teruk. Apabila digunakan untuk meluluskan permohonan pinjaman secara automatik, contohnya, model berat sebelah boleh menjejaskan populasi tertentu. Dalam perniagaan terkawal di mana sebarang tindakan boleh diperiksa atau diteliti, ini merupakan faktor yang sangat penting untuk diambil kira.
Jenis Bias Pembelajaran Mesin
- Bias Algoritma – Ini berlaku apabila terdapat pepijat dalam algoritma yang melakukan pengiraan yang mendorong pengiraan pembelajaran mesin.
- Contoh Bias – Apabila data digunakan untuk melatih pembelajaran mesin model mempunyai masalah, ini berlaku. Dalam kes jenis berat sebelah ini, jumlah atau kualiti data yang digunakan untuk melatih sistem adalah tidak mencukupi. Algoritma ini akan dilatih untuk mempercayai bahawa semua guru adalah wanita jika, sebagai contoh, data latihan sepenuhnya terdiri daripada guru wanita.
- Bias pengecualian – Ini berlaku apabila titik data penting tiada daripada set data yang digunakan, yang mungkin berlaku jika pemodel gagal menyedari kepentingan titik data yang hilang.
- Prasangka berat sebelah – Dalam keadaan ini, pembelajaran mesin itu sendiri adalah berat sebelah kerana data yang digunakan untuk melatih sistem mencerminkan berat sebelah dunia sebenar seperti prasangka, stereotaip dan andaian sosial yang salah. Sebagai contoh, jika data mengenai profesional perubatan dimasukkan ke dalam sistem komputer yang hanya merangkumi pakar perubatan lelaki dan jururawat wanita, stereotaip jantina dunia sebenar tentang pekerja penjagaan kesihatan akan diteruskan.
- Bias Pengukuran – Seperti namanya, berat sebelah ini terhasil daripada isu asas dengan kualiti data dan kaedah yang digunakan untuk mengumpul atau menilainya. Sistem yang dilatih untuk menilai berat dengan tepat akan menjadi berat sebelah jika pemberat yang terkandung dalam data latihan dibulatkan secara konsisten, dan menggunakan imej pekerja yang berpuas hati untuk melatih sistem yang bertujuan untuk menilai persekitaran tempat kerja boleh menjadi berat sebelah jika pekerja dalam gambar tahu mereka sedang diukur untuk kebahagiaan.
Apakah faktor yang menyumbang kepada berat sebelah dalam pembelajaran mesin?
Walaupun terdapat banyak sebab untuk berat sebelah pembelajaran mesin, ia sering timbul daripada berat sebelah dalam data latihan itu sendiri. Terdapat beberapa punca asas yang berpotensi untuk berat sebelah dalam data latihan.
Ilustrasi yang paling jelas ialah data latihan, yang merupakan subset keadaan yang dilihat dalam sistem yang digunakan yang bukan tipikal. Ini mungkin data latihan dengan perwakilan yang kurang bagi satu kategori atau kuantiti yang tidak seimbang bagi kategori yang lain.
Ini dikenali sebagai bias sampel, dan ia boleh terhasil daripada pengumpulan data latihan bukan rawak. Kaedah yang digunakan untuk mengumpul, menganalisis atau mengklasifikasikan data, serta akar sejarah data, semuanya boleh membawa kepada berat sebelah dalam data itu sendiri.
Maklumat itu mungkin berat sebelah dari segi sejarah dalam budaya yang lebih besar di mana ia dikumpulkan.
Kecenderungan pembelajaran mesin kebanyakannya disebabkan oleh:
- Bias yang disebabkan oleh manusia atau masyarakat dalam data sejarah digunakan untuk melatih algoritma.
- Data latihan yang tidak menggambarkan keadaan dunia sebenar.
- Bias semasa melabel atau menyediakan data untuk pembelajaran mesin yang diselia.
Sebagai contoh, kekurangan kepelbagaian dalam data latihan mungkin menyebabkan bias perwakilan. Ketepatan model pembelajaran mesin sering dipengaruhi oleh kecenderungan sejarah dalam budaya yang lebih luas.
Ini kadangkala dirujuk sebagai berat sebelah sosial atau manusia. Mencari koleksi data yang banyak yang tidak terdedah kepada berat sebelah masyarakat boleh menjadi mencabar. Peringkat pemprosesan data kitaran hayat pembelajaran mesin juga terdedah kepada berat sebelah manusia.
Data yang telah dilabel dan diproses oleh saintis data atau pakar lain diperlukan untuk pembelajaran mesin yang diselia. Sama ada ia berpunca daripada kepelbagaian data yang dibersihkan, cara titik data dilabelkan atau pilihan ciri, berat sebelah dalam proses pelabelan ini boleh membawa kepada berat sebelah dalam pembelajaran mesin.
Risiko Bias Pembelajaran Mesin
Memandangkan model adalah alat membuat keputusan berasaskan data, diandaikan bahawa model tersebut memberikan pertimbangan yang saksama. Model pembelajaran mesin selalunya mengandungi berat sebelah, yang boleh menjejaskan keputusan.
Semakin banyak industri melaksanakan pembelajaran mesin menggantikan perisian dan prosedur yang lapuk. Model berat sebelah boleh memberi kesan negatif dalam dunia nyata apabila pekerjaan yang lebih rumit diautomasikan menggunakan model.
Pembelajaran mesin tidak berbeza daripada proses membuat keputusan lain dalam organisasi dan individu yang mengharapkannya telus dan saksama. Oleh kerana pembelajaran mesin ialah proses automatik, pertimbangan yang dibuat untuk menggunakannya kadangkala lebih teliti.
Organisasi menjadi proaktif dalam menangani bahaya adalah penting kerana berat sebelah dalam pembelajaran mesin selalunya boleh memberi kesan diskriminasi atau negatif pada sesetengah populasi. Untuk konteks terkawal, khususnya, kemungkinan berat sebelah dalam pembelajaran mesin mesti diambil kira.
Sebagai contoh, pembelajaran mesin dalam perbankan boleh digunakan untuk menerima atau menolak pemohon gadai janji secara automatik selepas pemeriksaan awal. Model yang berat sebelah terhadap kumpulan calon tertentu mungkin mempunyai kesan buruk kepada calon dan organisasi.
Sebarang berat sebelah yang ditemui dalam persekitaran penggunaan yang mana tindakan boleh diteliti mungkin membawa kepada masalah besar. Model itu mungkin tidak berfungsi dan, dalam senario yang paling teruk, mungkin menjadi sengaja mendiskriminasi.
Bias mesti dinilai dan disediakan dengan teliti kerana ia boleh mengakibatkan model dialih keluar sepenuhnya daripada penggunaan. Mendapat keyakinan dalam keputusan model memerlukan pemahaman dan menangani berat sebelah pembelajaran mesin.
Tahap kepercayaan dalam organisasi dan dalam kalangan pengguna perkhidmatan luar boleh dipengaruhi oleh persepsi berat sebelah dalam membuat keputusan model. Jika model tidak dipercayai, terutamanya apabila membimbing pilihan berisiko tinggi, mereka tidak akan digunakan dengan potensi penuh mereka di dalam organisasi.
Apabila menilai kebolehjelasan model, perakaunan untuk berat sebelah harus menjadi faktor yang perlu diambil kira. Kesahihan dan ketepatan pilihan model boleh dipengaruhi secara serius oleh kecenderungan pembelajaran mesin yang tidak disemak.
Ia kadangkala boleh mengakibatkan tindakan diskriminasi yang boleh menjejaskan orang atau kumpulan tertentu. Banyak aplikasi wujud untuk pelbagai jenis model pembelajaran mesin, dan setiap satu terdedah kepada berat sebelah pembelajaran mesin sedikit sebanyak.
Bias pembelajaran mesin digambarkan oleh:
- Disebabkan ketiadaan variasi dalam data latihan, algoritma pengecaman muka mungkin kurang tepat untuk sesetengah kumpulan kaum.
- Program ini boleh mengesan berat sebelah kaum dan jantina dalam data disebabkan oleh prejudis manusia atau sejarah.
- Dengan dialek atau loghat tertentu, pemprosesan bahasa semula jadi mungkin lebih tepat dan ia mungkin tidak dapat memproses loghat yang kurang diwakili dalam data latihan.
Menyelesaikan Bias dalam Pembelajaran Mesin
Model pemantauan dan latihan semula apabila berat sebelah ditemui ialah dua cara untuk menangani berat sebelah pembelajaran mesin. Dalam kebanyakan kes, bias model ialah petunjuk berat sebelah dalam data latihan, atau sekurang-kurangnya bias boleh dikaitkan dengan peringkat latihan kitaran hayat pembelajaran mesin.
Setiap peringkat kitaran hayat model harus mempunyai prosedur untuk menangkap bias atau hanyutan model. Proses untuk memantau pembelajaran mesin selepas penggunaan juga disertakan. Adalah penting untuk kerap menyemak model dan set data untuk menentukan berat sebelah.
Ini mungkin melibatkan pemeriksaan set data latihan untuk melihat cara kumpulan diedarkan dan diwakili di sana. Anda boleh mengubah suai dan/atau menambah baik set data yang tidak mewakili sepenuhnya.
Selain itu, berat sebelah perlu dipertimbangkan semasa menilai prestasi model. Menguji prestasi model pada subset data yang berbeza boleh menunjukkan sama ada ia berat sebelah atau terlampau dipasang berhubung dengan kumpulan tertentu.
Adalah mungkin untuk menilai prestasi model pembelajaran mesin pada subset data tertentu dengan menggunakan teknik pengesahan silang. Prosedur ini melibatkan pembahagian data kepada set data latihan dan ujian yang berbeza.
Anda boleh menghapuskan berat sebelah dalam pembelajaran mesin dengan:
- Apabila perlu, latih semula model menggunakan set latihan yang lebih besar dan lebih representatif.
- Mewujudkan prosedur untuk melihat secara proaktif keputusan berat sebelah dan pertimbangan luar biasa.
- Menimbang semula ciri dan melaraskan hiperparameter jika perlu boleh membantu untuk mengambil kira berat sebelah.
- Menggalakkan penyelesaian bias yang ditemui melalui kitaran pengesanan dan pengoptimuman berterusan.
Kesimpulan
Adalah menarik untuk mempercayai bahawa setelah dilatih, model pembelajaran mesin akan berfungsi secara autonomi. Malah, persekitaran operasi model sentiasa berubah, dan pengurus mesti melatih semula model menggunakan set data baharu secara tetap.
Pembelajaran mesin pada masa ini merupakan salah satu keupayaan teknologi yang paling menarik dengan faedah ekonomi dunia sebenar. Pembelajaran mesin, apabila dipasangkan dengan teknologi data besar dan kuasa pengiraan besar yang tersedia melalui awan awam, berpotensi untuk mengubah cara individu berinteraksi dengan teknologi, dan mungkin keseluruhan industri.
Walau bagaimanapun, seperti menjanjikan teknologi pembelajaran mesin, ia mesti dirancang dengan teliti untuk mengelakkan bias yang tidak disengajakan. Keberkesanan pertimbangan yang dibuat oleh mesin boleh terjejas teruk oleh berat sebelah, yang merupakan sesuatu yang mesti diambil kira oleh pembangun model pembelajaran mesin.
Sila tinggalkan balasan anda