डेटा वृद्धि: मशीन लर्निंग मॉडल के लिए आवश्यक

विषय - सूची[छिपाना][प्रदर्शन]

तो, डेटा ऑग्मेंटेशन क्या है?
वर्तमान में डेटा संवर्द्धन क्या उपयोग करता है?
डेटा वृद्धि के प्रकार+-
- वास्तविक डेटा वृद्धि
- सिंथेटिक डेटा ऑग्मेंटेशन
डेटा वृद्धि तकनीक+-
उदाहरण
चुनौतियां
निष्कर्ष

अधिकांश मशीन लर्निंग और डीप लर्निंग मॉडल अच्छी तरह से काम करने के लिए डेटा की मात्रा और विविधता पर बहुत अधिक निर्भर करते हैं। प्रशिक्षण के दौरान प्रदान किए गए डेटा की मात्रा और विविधता का इन मॉडलों की भविष्यवाणी सटीकता पर महत्वपूर्ण प्रभाव पड़ता है।

जटिल कार्यों पर प्रभावी ढंग से प्रदर्शन करने के लिए सिखाए गए गहन शिक्षण मॉडल में अक्सर छिपे हुए न्यूरॉन्स शामिल होते हैं। छिपे हुए न्यूरॉन्स की संख्या के अनुसार प्रशिक्षित मापदंडों की संख्या बढ़ जाती है।

आवश्यक डेटा की मात्रा मॉडल सीखने योग्य मापदंडों की संख्या के समानुपाती होती है। सीमित डेटा की कठिनाई से निपटने के लिए एक तरीका यह है कि नए डेटा को संश्लेषित करने के लिए वर्तमान डेटा में विभिन्न प्रकार के परिवर्तनों को लागू किया जाए।

मौजूदा डेटा से नए डेटा को संश्लेषित करने की तकनीक को 'डेटा ऑग्मेंटेशन' कहा जाता है। डेटा वृद्धि का उपयोग दोनों आवश्यकताओं को पूरा करने के लिए किया जा सकता है: डेटा की मात्रा और सटीक विकसित करने के लिए आवश्यक प्रशिक्षण डेटा की विविधता मशीन लर्निंग या डीप लर्निंग मॉडल.

इस पोस्ट में, हम डेटा वृद्धि, इसके प्रकार, यह क्यों आवश्यक है, और भी बहुत कुछ देखेंगे।

तो, डेटा ऑग्मेंटेशन क्या है?

डेटा ऑग्मेंटेशन मौजूदा डेटा से नए और प्रतिनिधि डेटा विकसित करने की प्रक्रिया है। आप मौजूदा डेटा के संशोधित संस्करणों को शामिल करके या नए डेटा को संश्लेषित करके इसे पूरा कर सकते हैं।

इस पद्धति द्वारा उत्पादित डेटासेट आपके मशीन लर्निंग में सुधार करेंगे गहन शिक्षण मॉडल ओवरफिटिंग के जोखिम को कम करके। यह अतिरिक्त जानकारी के साथ डेटासेट को बदलने, या "बढ़ाने" की प्रक्रिया है।

यह पूरक इनपुट छवियों से लेकर पाठ तक हो सकता है, और यह मशीन लर्निंग सिस्टम के प्रदर्शन को बढ़ाता है।

मान लें कि हम कुत्तों की नस्लों को वर्गीकृत करने के लिए एक मॉडल बनाना चाहते हैं और हमारे पास पगों को छोड़कर सभी किस्मों की बड़ी संख्या में तस्वीरें हैं। नतीजतन, मॉडल को पगों को वर्गीकृत करने में कठिनाई होगी।

हम संग्रह में अतिरिक्त (वास्तविक या गलत) पग तस्वीरें जोड़ सकते हैं, या हम अपनी वर्तमान पग तस्वीरों को दोगुना कर सकते हैं (उदाहरण के लिए उन्हें कृत्रिम रूप से अद्वितीय बनाने के लिए उनकी नकल और विकृत करके)।

वर्तमान में डेटा संवर्द्धन क्या उपयोग करता है?

के लिए आवेदन यंत्र अधिगम तेजी से विकसित हो रहे हैं और विविधता ला रहे हैं, खासकर गहन शिक्षा के क्षेत्र में। आर्टिफिशियल इंटेलिजेंस उद्योग जिन चुनौतियों का सामना कर रहा है, उन्हें डेटा संवर्द्धन तकनीकों के माध्यम से दूर किया जा सकता है।

डेटा संवर्द्धन प्रशिक्षण डेटासेट में नए और विविध उदाहरण जोड़कर मशीन लर्निंग मॉडल के प्रदर्शन और परिणामों में सुधार कर सकता है।

जब डेटासेट बड़ा और पर्याप्त होता है, तो मशीन लर्निंग मॉडल बेहतर प्रदर्शन करता है और अधिक सटीक होता है। मशीन लर्निंग मॉडल के लिए, डेटा एकत्र करना और लेबलिंग समय लेने वाली और महंगी हो सकती है।

कंपनियां डेटासेट बदलकर और डेटा वृद्धि रणनीतियों का उपयोग करके अपनी परिचालन लागत को कम कर सकती हैं।

डेटा की सफाई डेटा मॉडल के विकास के चरणों में से एक है, और यह उच्च-सटीकता वाले मॉडल के लिए आवश्यक है। हालांकि, यदि डेटा सफाई से प्रतिनिधित्व क्षमता कम हो जाती है, तो मॉडल वास्तविक दुनिया से उचित इनपुट का अनुमान लगाने में सक्षम नहीं होगा।

डेटा वृद्धि दृष्टिकोणों को नियोजित करके मशीन लर्निंग मॉडल को मजबूत किया जा सकता है, जो कि वास्तविक दुनिया में मॉडल का सामना कर सकने वाले भिन्नताएं उत्पन्न करता है।

डेटा वृद्धि के प्रकार

वास्तविक डेटा वृद्धि

वास्तविक डेटा वृद्धि तब होती है जब आप किसी डेटासेट में वास्तविक, पूरक डेटा जोड़ते हैं। यह टेक्स्ट फ़ाइलों से लेकर अतिरिक्त विशेषताओं (टैग की गई तस्वीरों के लिए) से लेकर मूल वस्तु की तुलना में अन्य वस्तुओं की छवियों तक या वास्तविक चीज़ की रिकॉर्डिंग तक हो सकती है।

उदाहरण के लिए, किसी छवि फ़ाइल में कुछ और सुविधाएँ जोड़कर, मशीन-लर्निंग मॉडल आइटम का अधिक आसानी से पता लगा सकता है।

प्रत्येक छवि के बारे में अधिक मेटाडेटा (उदाहरण के लिए, उसका नाम और विवरण) शामिल किया जा सकता है ताकि हमारा एआई मॉडल उन तस्वीरों पर प्रशिक्षण शुरू करने से पहले प्रत्येक छवि का प्रतिनिधित्व करने के बारे में अधिक जान सके।

जब हमारी पूर्व निर्धारित श्रेणियों में से एक में ताजा तस्वीरों को वर्गीकृत करने का समय आता है, जैसे "बिल्ली" या "कुत्ता", तो मॉडल उन वस्तुओं का पता लगाने में सक्षम हो सकता है जो एक छवि में मौजूद हैं और परिणामस्वरूप समग्र रूप से बेहतर प्रदर्शन करते हैं।

सिंथेटिक डेटा वृद्धि

अधिक वास्तविक डेटा जोड़ने के अलावा, आप योगदान भी कर सकते हैं सिंथेटिक डेटा या कृत्रिम डेटा जो प्रामाणिक लगता है।

यह तंत्रिका शैली हस्तांतरण जैसे कठिन कार्यों के लिए फायदेमंद है, लेकिन यह किसी भी डिज़ाइन के लिए भी अच्छा है, चाहे आप GAN (जेनरेटिव एडवरसैरियल नेटवर्क्स), CNN (कन्वेंशनल न्यूरल नेटवर्क्स), या अन्य डीप न्यूरल नेटवर्क आर्किटेक्चर का उपयोग कर रहे हों।

उदाहरण के लिए, अगर हम बाहर जाने और कई तस्वीरें लेने के बिना पगों को ठीक से वर्गीकृत करना चाहते हैं, तो हम कुत्ते की छवियों के संग्रह में कुछ झूठी पग तस्वीरें जोड़ सकते हैं।

डेटा संवर्द्धन का यह रूप मॉडल सटीकता को बढ़ाने के लिए विशेष रूप से प्रभावी है जब डेटा एकत्र करना कठिन, महंगा या समय लेने वाला होता है। इस स्थिति में, हम कृत्रिम रूप से डेटासेट का विस्तार कर रहे हैं।

मान लें कि हमारे 1000 कुत्तों की नस्ल की तस्वीरों के प्रारंभिक समूह में केवल 5 पग चित्र हैं। असली कुत्तों से अतिरिक्त वास्तविक पग तस्वीरों को जोड़ने के बजाय, आइए मौजूदा कुत्तों में से एक का क्लोन बनाकर और इसे थोड़ा विकृत करके एक नकली बनाएं ताकि यह अभी भी एक पग जैसा लगे।

डेटा वृद्धि तकनीक

डेटा वृद्धि दृष्टिकोण मौजूदा डेटा में थोड़ा संशोधन करने की आवश्यकता है। यह एक बयान को फिर से परिभाषित करने जैसा ही है। हम डेटा वृद्धि को तीन श्रेणियों में विभाजित कर सकते हैं:

टेक्स्ट

शब्द प्रतिस्थापन: इस डेटा वृद्धि दृष्टिकोण में समानार्थी शब्दों के साथ मौजूदा शब्दों को बदलना शामिल है। एक उदाहरण के रूप में, "यह फिल्म मूर्ख है" "यह फिल्म बेवकूफ है" बन सकती है।
वाक्य / शब्द फेरबदल: इस रणनीति में समग्र सामंजस्य बनाए रखते हुए वाक्यांशों या शब्दों के अनुक्रम को बदलना शामिल है।
सिंटैक्स-ट्री मैनिपुलेशन: आप समान शब्दों का उपयोग करते हुए मौजूदा वाक्य को व्याकरणिक रूप से सटीक होने के लिए बदलते हैं।
यादृच्छिक विलोपन: हालांकि यह रणनीति बदसूरत लेखन पैदा करती है, यह प्रभावी है। नतीजतन, लाइन "मैं इस रिकॉर्ड को नहीं खरीदूंगा क्योंकि यह खरोंच है" बन जाता है "मैं इसे नहीं खरीदूंगा क्योंकि यह खरोंच है।" वाक्यांश कम स्पष्ट है, लेकिन यह एक प्रशंसनीय जोड़ बना हुआ है।
पिछला अनुवाद: यह दृष्टिकोण प्रभावी और आनंददायक दोनों है। अपनी भाषा में लिखा हुआ एक बयान लें, उसका दूसरी भाषा में अनुवाद करें और फिर उसे वापस अपनी मूल भाषा में अनुवाद करें।

छावियां

कर्नेल फ़िल्टर: यह दृष्टिकोण एक तस्वीर को तेज या धुंधला करता है।
छवि संयोजन: हालांकि यह अजीब लग सकता है, आप तस्वीरों को मिला सकते हैं।
रैंडम पर मिटाना: वर्तमान तस्वीर का एक छोटा सा हिस्सा हटा दें।
ज्यामितीय परिवर्तन: इस दृष्टिकोण में अन्य बातों के अलावा, मनमाने ढंग से फ़्लिप करना, घुमाना, क्रॉप करना या चित्रों का अनुवाद करना शामिल है।
चित्र फ़्लिप करना: आप किसी छवि को क्षैतिज से लंबवत अभिविन्यास में फ़्लिप कर सकते हैं।
रंग स्थान परिवर्तन: आप आरजीबी रंग चैनलों को संशोधित कर सकते हैं या किसी भी मौजूदा रंग को बढ़ा सकते हैं।
री-स्केलिंग दृश्य पैमाने को समायोजित करने की प्रक्रिया है। आपके पास स्केलिंग इन या आउट करने का विकल्प है। जब आप अंदर की ओर स्केल करते हैं, तो छवि प्रारंभिक आकार से छोटी हो जाती है। यदि आप इसे बाहर की ओर मापते हैं तो चित्र मूल से बड़ा होगा।

ऑडियो

पिच: इस दृष्टिकोण में ऑडियो पिच को बदलना शामिल है।
गति बदलें: ऑडियो फ़ाइल या रिकॉर्डिंग की गति बदलें।
अधिक शोर: आप ऑडियो फ़ाइल में अधिक शोर जोड़ सकते हैं।

उदाहरण

डेटा वृद्धि के लिए अभी मेडिकल इमेजिंग एक प्रमुख उपयोग मामला है। चिकित्सा चित्र संग्रह छोटे हैं, और नियमों और गोपनीयता चिंताओं के कारण डेटा साझा करना मुश्किल है।

इसके अलावा, असामान्य विकारों के मामले में डेटा सेट बहुत अधिक विवश हैं। मेडिकल इमेजिंग कंपनियां अपने डेटा सेट में विविधता लाने के लिए डेटा वृद्धि का उपयोग करती हैं।

चुनौतियां

मापनीयता, विविध डेटासेट और प्रासंगिकता कुछ ऐसे मुद्दे हैं जिन्हें कुशल डेटा वृद्धि तकनीकों को विकसित करने के लिए हल करने की आवश्यकता है।

स्केलेबिलिटी के संदर्भ में, संवर्धित डेटा को स्केलेबल होना चाहिए ताकि कई अलग-अलग मॉडल इसका उपयोग कर सकें। आप यह सुनिश्चित करना चाहेंगे कि भविष्य के मॉडल में उपयोग के लिए इसे डुप्लिकेट किया जा सकता है क्योंकि डेटा वृद्धि प्रणाली की स्थापना के बाद से बड़ी मात्रा में प्रासंगिक, मूल्यवान, उन्नत डेटा उत्पन्न हो सकता है जिसमें कुछ समय लग सकता है।

विविधता के संदर्भ में, विभिन्न डेटासेट में विशिष्ट विशेषताएं होती हैं जिन्हें संवर्धित डेटा विकसित करते समय विचार किया जाना चाहिए। उपयुक्त उन्नत डेटा विकसित करने के लिए, प्रत्येक डेटासेट के गुणों का उपयोग किया जाना चाहिए।

दूसरे शब्दों में, डेटा वृद्धि डेटासेट और उपयोग के मामलों के बीच भिन्न होगी।

अंत में, यह सुनिश्चित करने के लिए कि बढ़े हुए डेटा के लाभ किसी भी खतरे से अधिक हैं, संवर्धित डेटा का मूल्यांकन मशीन लर्निंग मॉडल द्वारा उपयोग किए जाने से पहले उपयुक्त मीट्रिक का उपयोग करके किया जाना चाहिए।

उदाहरण के लिए, छवि-आधारित संवर्धित डेटा में महत्वपूर्ण पृष्ठभूमि शोर या असंबंधित वस्तुओं की उपस्थिति मॉडल के प्रदर्शन पर हानिकारक प्रभाव डाल सकती है।

निष्कर्ष

अंततः, चाहे आप हानि का पूर्वानुमान लगाने का प्रयास कर रहे हों, वित्तीय धोखाधड़ी की पहचान कर रहे हों, या बेहतर निर्माण कर रहे हों छवि वर्गीकरण मॉडल, डेटा वृद्धि अधिक सटीक, मजबूत मॉडल बनाने का एक महत्वपूर्ण तरीका है।

एक बेहतर प्रशिक्षण प्रक्रिया के माध्यम से, सरल प्रीप्रोसेसिंग और डेटा वृद्धि भी टीमों को अत्याधुनिक मॉडल विकसित करने में सहायता कर सकती है।

व्यवसाय डेटा वृद्धि का उपयोग प्रशिक्षण डेटा तैयार करने में लगने वाले समय को कम करने और मशीन लर्निंग मॉडल बनाने के लिए कर सकते हैं जो अधिक सटीक और अधिक तेज़ी से हो.

डेटासेट में प्रासंगिक डेटा की मात्रा का विस्तार करके, डेटा संवर्द्धन मशीन लर्निंग मॉडल को भी लाभान्वित कर सकता है जिसमें पहले से ही बहुत अधिक डेटा होता है।

डेटा वृद्धि: मशीन लर्निंग मॉडल के लिए आवश्यक

तो, डेटा ऑग्मेंटेशन क्या है?

वर्तमान में डेटा संवर्द्धन क्या उपयोग करता है?