जैसे-जैसे अधिक उद्योग संचालन को स्वचालित करने और विकल्प बनाने के लिए एल्गोरिदम की शक्ति का उपयोग करते हैं, मशीन लर्निंग एक महत्वपूर्ण घटक बन रहा है कि समकालीन दुनिया कैसे संचालित होती है।
मशीन लर्निंग में पूर्वाग्रह के मुद्दे को ध्यान में रखना महत्वपूर्ण है जब मशीन लर्निंग मॉडल विभिन्न संगठनों की निर्णय लेने की प्रक्रियाओं में एकीकृत हो जाते हैं।
यह सुनिश्चित करने के लिए कि एल्गोरिदम द्वारा उत्पन्न विकल्प निष्पक्ष हैं और पूर्वाग्रह से रहित हैं, किसी भी संगठन के लिए लक्ष्य होना चाहिए जो मशीन लर्निंग मॉडल का उपयोग करता है। यह सुनिश्चित करने के लिए कि मॉडल आउटपुट पर भरोसा किया जा सकता है और निष्पक्ष के रूप में देखा जा सकता है, इसे पहचानना और संबोधित करना महत्वपूर्ण है यंत्र अधिगम पक्षपात।
यह मॉडल व्याख्यात्मकता के प्रश्नों से संबंधित है, या किसी व्यक्ति के लिए यह समझना कितना आसान है कि मशीन लर्निंग मॉडल किसी निष्कर्ष पर कैसे पहुंचा। मशीन लर्निंग मॉडल के रुझान और पैटर्न प्रत्यक्ष मानव विकास के बजाय डेटा से ही आते हैं और सीखते हैं।
मशीन लर्निंग में पूर्वाग्रह कई कारणों से उभर सकता है अगर इसे नियंत्रित और नियंत्रित नहीं किया जाता है। जब एक मॉडल तैनात किया जाता है, तो यह अक्सर ऐसी स्थितियों का सामना करता है जो प्रशिक्षण डेटा नमूने में सटीक रूप से प्रतिबिंबित नहीं होती हैं।
डेटा के इस गैर-प्रतिनिधि प्रशिक्षण सेट के लिए मॉडल ओवरफिटिंग हो सकता था। प्रशिक्षण डेटा की उत्कृष्ट गुणवत्ता के बावजूद, मॉडल अभी भी व्यापक सांस्कृतिक प्रभावों के परिणामस्वरूप ऐतिहासिक पूर्वाग्रह से प्रभावित हो सकता है।
एक बार लागू होने के बाद, एक पक्षपाती मॉडल कुछ समूहों का पक्ष ले सकता है या विशेष डेटा सबसेट के साथ सटीकता खो सकता है। इसके परिणामस्वरूप ऐसे निर्णय हो सकते हैं जो व्यक्तियों के एक निश्चित समूह को गलत तरीके से दंडित करते हैं, जिसका वास्तविक दुनिया पर नकारात्मक प्रभाव पड़ सकता है।
इस लेख में मशीन लर्निंग पूर्वाग्रह पर चर्चा की गई है, जिसमें यह क्या है, इसे कैसे पहचाना जाए, इससे होने वाले खतरे और भी बहुत कुछ शामिल है।
तो, मशीन लर्निंग बायस क्या है?
मशीन सीखने की प्रक्रिया के दौरान की गई गलत धारणाओं के परिणामस्वरूप व्यवस्थित रूप से पक्षपाती आउटपुट उत्पन्न करने वाले एल्गोरिदम को मशीन लर्निंग पूर्वाग्रह के रूप में जाना जाता है, जिसे एल्गोरिथम पूर्वाग्रह के रूप में भी जाना जाता है या एआई पूर्वाग्रह के रूप में जाना जाता है।
मशीन लर्निंग पूर्वाग्रह डेटा के एक विशेष सेट या डेटा के सबसेट के पक्ष में एक मॉडल की प्रवृत्ति है; इसे अक्सर गैर-प्रतिनिधि प्रशिक्षण डेटासेट द्वारा लाया जाता है। डेटा के एक निश्चित संग्रह के साथ, एक पक्षपाती मॉडल खराब प्रदर्शन करेगा, जो इसकी सटीकता को नुकसान पहुंचाएगा।
वास्तविक दुनिया की सेटिंग में, इसका मतलब यह हो सकता है कि पक्षपाती प्रशिक्षण डेटा के परिणामस्वरूप एक मॉडल का आउटपुट एक निश्चित जाति, जनसांख्यिकीय या लिंग के पक्ष में होता है।
परिणामस्वरूप, मशीन लर्निंग के परिणाम अन्यायपूर्ण या भेदभावपूर्ण हो सकते हैं। गैर-प्रतिनिधि प्रशिक्षण डेटासेट पूर्वाग्रह में योगदान कर सकते हैं मशीन सीखने में।
यदि प्रशिक्षण डेटा की कमी है या किसी विशेष डेटा समूह का अत्यधिक प्रतिनिधि है, तो परिणामी मॉडल अन्य, कम प्रतिनिधित्व वाली श्रेणियों के प्रति पक्षपाती हो सकता है। यह तब हो सकता है जब प्रशिक्षण डेटा नमूना वास्तविक दुनिया परिनियोजन वातावरण से सटीक रूप से मेल नहीं खाता है।
स्वास्थ्य सेवा उद्योग में मशीन लर्निंग, जिसका उपयोग ज्ञात बीमारियों या बीमारियों के खिलाफ रोगी डेटा की जांच के लिए किया जा सकता है, एक प्रमुख उदाहरण है। जब उचित रूप से उपयोग किया जाता है तो मॉडल चिकित्सकीय चिकित्सकों के हस्तक्षेप को तेज कर सकते हैं।
हालाँकि, पूर्वाग्रह संभव है। जब एक पुराने रोगी में संभावित बीमारी की भविष्यवाणी करने के लिए कहा जाता है, तो एक मॉडल अच्छा प्रदर्शन नहीं कर सकता है यदि इसे बनाने के लिए उपयोग किए जाने वाले प्रशिक्षण डेटा में ज्यादातर छोटी आयु सीमा से रोगी डेटा होता है।
इसके अतिरिक्त, ऐतिहासिक आंकड़ों को तिरछा किया जा सकता है। उदाहरण के लिए, क्योंकि ऐतिहासिक रूप से, अधिकांश कर्मचारी पुरुष थे, नौकरी के उम्मीदवारों को फ़िल्टर करने के लिए प्रशिक्षित एक मॉडल पुरुष आवेदकों का पक्ष लेगा।
मशीन लर्निंग पूर्वाग्रह का दोनों परिदृश्यों में मॉडल की सटीकता पर प्रभाव पड़ेगा, और सबसे खराब परिस्थितियों में, इसका परिणाम भेदभावपूर्ण और अन्यायपूर्ण निष्कर्ष भी हो सकता है।
यह सुनिश्चित करने के लिए निर्णयों की सावधानीपूर्वक समीक्षा की जानी चाहिए कि कोई पूर्वाग्रह नहीं है मशीन सीखने के मॉडल अधिक से अधिक मैनुअल संचालन को बदलें। नतीजतन, किसी भी संगठन में मॉडल गवर्नेंस प्रथाओं में मशीन लर्निंग पूर्वाग्रह के लिए निगरानी शामिल होनी चाहिए।
मशीन लर्निंग मॉडल द्वारा कई अलग-अलग उद्योगों में कई अलग-अलग प्रकार की नौकरियां पूरी की जा रही हैं। आज, मॉडल का उपयोग तेजी से कठिन प्रक्रियाओं को स्वचालित करने और सुझाव उत्पन्न करने के लिए किया जाता है। इस निर्णय लेने की प्रक्रिया में, पूर्वाग्रह का अर्थ है कि एक मॉडल सीखे हुए पूर्वाग्रह के आधार पर एक विशेष समूह को दूसरे पर पसंद कर सकता है।
जब वास्तविक परिणामों के साथ असुरक्षित निर्णय लेने के लिए उपयोग किया जाता है, तो इसके गंभीर परिणाम हो सकते हैं। जब ऋण आवेदनों को स्वचालित रूप से स्वीकृत करने के लिए उपयोग किया जाता है, उदाहरण के लिए, एक पक्षपाती मॉडल एक निश्चित आबादी को पूर्वाग्रहित कर सकता है। विनियमित व्यवसायों में जहां किसी भी कार्रवाई का निरीक्षण या जांच की जा सकती है, यह ध्यान में रखना एक विशेष रूप से महत्वपूर्ण कारक है।
मशीन लर्निंग पूर्वाग्रह प्रकार
- एल्गोरिथम पूर्वाग्रह - यह तब होता है जब एल्गोरिदम में एक बग होता है जो गणना करता है जो मशीन लर्निंग कंप्यूटेशंस को चलाता है।
- नमूना पूर्वाग्रह - जब डेटा का उपयोग किया जाता है मशीन सीखने को प्रशिक्षित करें मॉडल में कोई समस्या है, ऐसा होता है। इस तरह के पूर्वाग्रह के मामले में, सिस्टम को प्रशिक्षित करने के लिए उपयोग किए जाने वाले डेटा की मात्रा या गुणवत्ता अपर्याप्त है। एल्गोरिदम को यह विश्वास करने के लिए प्रशिक्षित किया जाएगा कि सभी शिक्षक महिलाएँ हैं, उदाहरण के लिए, प्रशिक्षण डेटा में पूरी तरह से महिला शिक्षक शामिल हैं।
- बहिष्करण पूर्वाग्रह - यह तब होता है जब उपयोग किए जा रहे डेटा के सेट से एक महत्वपूर्ण डेटा बिंदु अनुपस्थित होता है, जो तब हो सकता है जब मॉडलर लापता डेटा बिंदु के महत्व को महसूस करने में विफल हो जाते हैं।
- पूर्वाग्रह पूर्वाग्रह - इस उदाहरण में, मशीन लर्निंग स्वयं पक्षपाती है क्योंकि सिस्टम को प्रशिक्षित करने के लिए उपयोग किया जाने वाला डेटा वास्तविक दुनिया के पूर्वाग्रहों जैसे पूर्वाग्रह, रूढ़िवादिता और गलत सामाजिक मान्यताओं को दर्शाता है। उदाहरण के लिए, यदि चिकित्सा पेशेवरों के डेटा को कंप्यूटर सिस्टम में शामिल किया जाना है जिसमें केवल पुरुष चिकित्सक और महिला नर्स शामिल हैं, तो स्वास्थ्य कर्मियों के बारे में एक वास्तविक दुनिया की लैंगिक रूढ़िवादिता को कायम रखा जाएगा।
- मापन पूर्वाग्रह - जैसा कि नाम का तात्पर्य है, यह पूर्वाग्रह डेटा की गुणवत्ता और इसे एकत्र करने या मूल्यांकन करने के लिए उपयोग की जाने वाली विधियों के साथ मौलिक मुद्दों से उत्पन्न होता है। वजन का सटीक आकलन करने के लिए प्रशिक्षित की जा रही एक प्रणाली पक्षपाती होगी यदि प्रशिक्षण डेटा में निहित भार को लगातार गोल किया गया था, और एक कार्यस्थल के वातावरण का आकलन करने के लिए एक प्रणाली को प्रशिक्षित करने के लिए संतुष्ट कर्मचारियों की छवियों का उपयोग करना पक्षपाती हो सकता है यदि चित्रों में कर्मचारियों को पता था उन्हें खुशी के लिए मापा जा रहा था।
मशीन लर्निंग में पूर्वाग्रह में कौन से कारक योगदान करते हैं?
यद्यपि मशीन सीखने के पूर्वाग्रह के कई कारण हैं, यह अक्सर प्रशिक्षण डेटा में पूर्वाग्रह से उत्पन्न होता है। प्रशिक्षण डेटा में पक्षपात के कई संभावित अंतर्निहित कारण हैं।
सबसे स्पष्ट उदाहरण प्रशिक्षण डेटा है, जो एक परिनियोजित प्रणाली में देखी जाने वाली स्थितियों का एक सबसेट है जो विशिष्ट नहीं है। यह प्रशिक्षण डेटा हो सकता है जिसमें एक श्रेणी का कम प्रतिनिधित्व या किसी अन्य की अनुपातहीन मात्रा हो।
इसे नमूना पूर्वाग्रह के रूप में जाना जाता है, और यह गैर-यादृच्छिक प्रशिक्षण डेटा संग्रह के परिणामस्वरूप हो सकता है। डेटा एकत्र करने, विश्लेषण करने या वर्गीकृत करने के लिए उपयोग की जाने वाली विधियां, साथ ही डेटा की ऐतिहासिक जड़ें, सभी डेटा में पूर्वाग्रह पैदा कर सकती हैं।
जानकारी ऐतिहासिक रूप से उस बड़ी संस्कृति में भी पक्षपाती हो सकती है जहां इसे एकत्र किया गया था।
मशीन लर्निंग पूर्वाग्रह ज्यादातर इसके कारण होता है:
- एल्गोरिथम को प्रशिक्षित करने के लिए ऐतिहासिक डेटा में मनुष्यों या समाज के कारण होने वाले पूर्वाग्रहों का उपयोग किया जाता है।
- प्रशिक्षण डेटा जो वास्तविक दुनिया की परिस्थितियों को नहीं दर्शाता है।
- पर्यवेक्षित मशीन लर्निंग के लिए लेबलिंग या डेटा तैयार करते समय पूर्वाग्रह।
उदाहरण के लिए, प्रशिक्षण डेटा में विविधता की कमी के कारण प्रतिनिधित्व पूर्वाग्रह हो सकता है। मशीन लर्निंग मॉडल की सटीकता व्यापक संस्कृति में ऐतिहासिक पूर्वाग्रह से अक्सर प्रभावित होती है।
इसे कभी-कभी सामाजिक या मानवीय पूर्वाग्रह के रूप में जाना जाता है। डेटा का विशाल संग्रह ढूंढना जो सामाजिक पूर्वाग्रह से ग्रस्त नहीं हैं, चुनौतीपूर्ण हो सकता है। मशीन लर्निंग जीवनचक्र का डेटा प्रोसेसिंग चरण मानव पूर्वाग्रह के लिए समान रूप से अतिसंवेदनशील है।
डेटा वैज्ञानिक या अन्य विशेषज्ञ द्वारा लेबल और संसाधित किया गया डेटा पर्यवेक्षित मशीन सीखने के लिए आवश्यक है। चाहे वह साफ किए गए डेटा की विविधता से उपजा हो, जिस तरह से डेटा बिंदुओं को लेबल किया जाता है, या सुविधाओं की पसंद, इस लेबलिंग प्रक्रिया में पूर्वाग्रह मशीन सीखने में पूर्वाग्रह पैदा कर सकता है।
मशीन लर्निंग पूर्वाग्रह जोखिम
चूंकि मॉडल डेटा-संचालित निर्णय लेने के उपकरण हैं, इसलिए यह माना जाता है कि वे निष्पक्ष निर्णय प्रदान करते हैं। मशीन लर्निंग मॉडल में अक्सर पूर्वाग्रह होते हैं, जो परिणामों को प्रभावित कर सकते हैं।
अधिक से अधिक उद्योग पुराने सॉफ्टवेयर और प्रक्रियाओं के स्थान पर मशीन लर्निंग को लागू कर रहे हैं। पक्षपाती मॉडल वास्तविक दुनिया में नकारात्मक प्रभाव डाल सकते हैं जब मॉडल का उपयोग करके अधिक जटिल कार्य स्वचालित होते हैं।
मशीन लर्निंग उस संगठन में अन्य निर्णय लेने की प्रक्रियाओं से अलग नहीं है और व्यक्ति इसे पारदर्शी और न्यायसंगत होने की उम्मीद करते हैं। क्योंकि मशीन लर्निंग एक स्वचालित प्रक्रिया है, इसका उपयोग करके किए गए निर्णयों की कभी-कभी और भी अधिक बारीकी से जांच की जाती है।
यह महत्वपूर्ण है कि संगठन खतरों को संबोधित करने में सक्रिय रहें क्योंकि मशीन सीखने में पूर्वाग्रह अक्सर कुछ आबादी पर भेदभावपूर्ण या नकारात्मक प्रभाव डाल सकता है। विनियमित संदर्भों के लिए, विशेष रूप से, मशीन सीखने में पूर्वाग्रह की संभावना को ध्यान में रखा जाना चाहिए।
उदाहरण के लिए, बैंकिंग में मशीन लर्निंग का उपयोग प्रारंभिक जांच के बाद बंधक आवेदकों को स्वचालित रूप से स्वीकार या अस्वीकार करने के लिए किया जा सकता है। एक मॉडल जो उम्मीदवारों के एक निश्चित समूह के प्रति पक्षपाती है, उम्मीदवार और संगठन दोनों पर हानिकारक प्रभाव डाल सकता है।
परिनियोजन वातावरण में पाए जाने वाले किसी भी पूर्वाग्रह जहां कार्रवाइयों की जांच की जा सकती है, बड़ी समस्याएं पैदा कर सकती हैं। हो सकता है कि यह मॉडल काम न करे और सबसे खराब स्थिति में जानबूझकर भेदभावपूर्ण साबित हो सकता है।
पूर्वाग्रह का सावधानीपूर्वक मूल्यांकन किया जाना चाहिए और इसके लिए तैयार रहना चाहिए क्योंकि इसके परिणामस्वरूप मॉडल को परिनियोजन से पूरी तरह से हटा दिया जा सकता है। मॉडल निर्णयों में विश्वास हासिल करने के लिए मशीन लर्निंग पूर्वाग्रह को समझना और संबोधित करना आवश्यक है।
मॉडल निर्णय लेने में कथित पूर्वाग्रह से संगठन के अंदर और बाहरी सेवा उपभोक्ताओं के बीच विश्वास का स्तर प्रभावित हो सकता है। यदि मॉडल पर भरोसा नहीं किया जाता है, खासकर जब उच्च जोखिम वाले विकल्पों का मार्गदर्शन करते हैं, तो उनका उपयोग किसी संगठन के अंदर उनकी पूरी क्षमता के लिए नहीं किया जाएगा।
एक मॉडल की व्याख्यात्मकता का मूल्यांकन करते समय, पूर्वाग्रह के लिए लेखांकन को ध्यान में रखा जाना चाहिए। अनियंत्रित मशीन लर्निंग पूर्वाग्रह से मॉडल विकल्पों की वैधता और सटीकता को गंभीर रूप से प्रभावित किया जा सकता है।
यह कभी-कभी भेदभावपूर्ण कार्यों का परिणाम हो सकता है जो विशेष लोगों या समूहों को प्रभावित कर सकते हैं। विभिन्न मशीन लर्निंग मॉडल प्रकारों के लिए कई अनुप्रयोग मौजूद हैं, और प्रत्येक कुछ हद तक मशीन लर्निंग पूर्वाग्रह के लिए अतिसंवेदनशील है।
मशीन लर्निंग पूर्वाग्रह को निम्न द्वारा दर्शाया गया है:
- प्रशिक्षण डेटा में विविधता की अनुपस्थिति के कारण, कुछ नस्लीय समूहों के लिए चेहरे की पहचान एल्गोरिदम कम सटीक हो सकते हैं।
- कार्यक्रम मानव या ऐतिहासिक पूर्वाग्रह के कारण डेटा में नस्लीय और लिंग पूर्वाग्रह का पता लगा सकता है।
- एक निश्चित बोली या उच्चारण के साथ, प्राकृतिक भाषा प्रसंस्करण अधिक सटीक हो सकता है, और यह एक ऐसे उच्चारण को संसाधित करने में सक्षम नहीं हो सकता है जिसे प्रशिक्षण डेटा में कम दर्शाया गया है।
मशीन लर्निंग में पूर्वाग्रह का समाधान
जब पूर्वाग्रह पाया जाता है तो निगरानी और पुन: प्रशिक्षण मॉडल मशीन सीखने के पूर्वाग्रह को संबोधित करने के दो तरीके हैं। ज्यादातर मामलों में, मॉडल पूर्वाग्रह प्रशिक्षण डेटा में पूर्वाग्रह का संकेत है, या कम से कम पूर्वाग्रह मशीन सीखने के जीवन चक्र के प्रशिक्षण चरण से संबंधित हो सकता है।
मॉडल जीवनचक्र के प्रत्येक चरण में पूर्वाग्रह या मॉडल बहाव को पकड़ने के लिए प्रक्रियाएं होनी चाहिए। तैनाती के बाद मशीन सीखने की निगरानी के लिए प्रक्रियाएं भी शामिल हैं। पूर्वाग्रह के लिए मॉडल और डेटासेट की बार-बार जांच करना महत्वपूर्ण है।
इसमें यह देखने के लिए प्रशिक्षण डेटासेट की जांच करना शामिल हो सकता है कि समूहों को कैसे वितरित और प्रतिनिधित्व किया जाता है। ऐसे डेटासेट को संशोधित करना और/या सुधारना संभव है जो पूरी तरह से प्रतिनिधि नहीं हैं।
इसके अतिरिक्त, मॉडल के प्रदर्शन का आकलन करते समय पूर्वाग्रह पर विचार किया जाना चाहिए। डेटा के विभिन्न सबसेट पर मॉडल के प्रदर्शन का परीक्षण यह दिखा सकता है कि क्या यह एक निश्चित समूह के संबंध में पक्षपाती या अधिक फिट है।
क्रॉस-सत्यापन तकनीकों का उपयोग करके कुछ डेटा सबसेट पर मशीन लर्निंग मॉडल के प्रदर्शन का मूल्यांकन करना संभव है। प्रक्रिया में डेटा को अलग-अलग प्रशिक्षण और परीक्षण डेटासेट में विभाजित करना शामिल है।
आप मशीन लर्निंग में पूर्वाग्रह को खत्म कर सकते हैं:
- जब आवश्यक हो, बड़े, अधिक प्रतिनिधि प्रशिक्षण सेटों का उपयोग करके मॉडल को फिर से प्रशिक्षित करें।
- पक्षपाती परिणामों और असामान्य निर्णयों के लिए सक्रिय रूप से देखने के लिए एक प्रक्रिया स्थापित करना।
- सुविधाओं को फिर से भारित करना और हाइपरपैरामीटर को आवश्यकतानुसार समायोजित करना पूर्वाग्रह के लिए खाते में मदद कर सकता है।
- खोज और अनुकूलन के निरंतर चक्र के माध्यम से खोजे गए पूर्वाग्रह के समाधान को प्रोत्साहित करना।
निष्कर्ष
यह विश्वास करना आकर्षक है कि एक बार प्रशिक्षित होने के बाद, मशीन-लर्निंग मॉडल स्वायत्त रूप से कार्य करेगा। वास्तव में, मॉडल का परिचालन वातावरण हमेशा बदलता रहता है, और प्रबंधकों को नियमित रूप से नए डेटा सेट का उपयोग करके मॉडल को फिर से प्रशिक्षित करना चाहिए।
मशीन लर्निंग वर्तमान में वास्तविक दुनिया के आर्थिक लाभों के साथ सबसे आकर्षक तकनीकी क्षमताओं में से एक है। मशीन लर्निंग, जब बड़ी डेटा प्रौद्योगिकियों और सार्वजनिक क्लाउड के माध्यम से उपलब्ध अपार कम्प्यूटेशनल शक्ति के साथ जोड़ा जाता है, तो यह बदलने की क्षमता होती है कि कैसे व्यक्ति प्रौद्योगिकी और शायद पूरे उद्योगों के साथ बातचीत करते हैं।
हालाँकि, मशीन-लर्निंग तकनीक जितनी आशाजनक है, अनजाने में पक्षपात से बचने के लिए इसकी सावधानीपूर्वक योजना बनाई जानी चाहिए। मशीनों द्वारा किए गए निर्णयों की प्रभावशीलता पूर्वाग्रह से गंभीर रूप से प्रभावित हो सकती है, जो कि मशीन लर्निंग मॉडल डेवलपर्स को ध्यान में रखना चाहिए।
एक जवाब लिखें