विषय - सूची[छिपाना][प्रदर्शन]
शोधकर्ताओं और डेटा वैज्ञानिकों को अक्सर ऐसी परिस्थितियों का सामना करना पड़ता है जिसमें या तो उनके पास वास्तविक डेटा नहीं होता है या गोपनीयता या गोपनीयता कारणों से इसका उपयोग करने में असमर्थ होते हैं।
इस समस्या के समाधान के लिए, वास्तविक डेटा के प्रतिस्थापन के लिए सिंथेटिक डेटा उत्पादन का उपयोग किया जाता है।
एल्गोरिथम के ठीक से प्रदर्शन करने के लिए वास्तविक डेटा के उचित प्रतिस्थापन की आवश्यकता होती है, जिसका चरित्र भी यथार्थवादी होना चाहिए। आप ऐसे डेटा का उपयोग गोपनीयता बनाए रखने, सिस्टम का परीक्षण करने या मशीन लर्निंग एल्गोरिदम के लिए प्रशिक्षण डेटा तैयार करने के लिए कर सकते हैं।
आइए सिंथेटिक डेटा जेनरेशन के बारे में विस्तार से जानें और देखें कि एआई के युग में वे क्यों महत्वपूर्ण हैं।
सिंथेटिक डेटा क्या है?
सिंथेटिक डेटा वास्तविक दुनिया के डेटा के विकल्प के रूप में कंप्यूटर सिमुलेशन या एल्गोरिदम द्वारा उत्पन्न एनोटेट डेटा है। यह वास्तविक डेटा की एक कृत्रिम बुद्धिमत्ता-जनित प्रतिकृति है।
कोई उन्नत एआई एल्गोरिदम का उपयोग करके डेटा पैटर्न और आयामों का उपयोग कर सकता है। वे असीमित मात्रा में सिंथेटिक डेटा बना सकते हैं जो प्रशिक्षित होने के बाद सांख्यिकीय रूप से मूल प्रशिक्षण डेटा का प्रतिनिधि होता है।
ऐसे कई दृष्टिकोण और प्रौद्योगिकियाँ हैं जो हमें सिंथेटिक डेटा बनाने में मदद कर सकती हैं और आप विभिन्न अनुप्रयोगों में उपयोग कर सकते हैं।
डेटा जनरेशन सॉफ़्टवेयर को अक्सर इसकी आवश्यकता होती है:
- डेटा भंडार का मेटाडेटा, जिसके लिए सिंथेटिक डेटा बनाया जाना चाहिए।
- प्रशंसनीय लेकिन काल्पनिक मूल्यों को उत्पन्न करने की तकनीक। उदाहरणों में मूल्य सूचियाँ और नियमित अभिव्यक्तियाँ शामिल हैं।
- सभी डेटा संबंधों के बारे में व्यापक जागरूकता, जो डेटाबेस स्तर पर घोषित किए गए हैं और साथ ही एप्लिकेशन कोड स्तर पर नियंत्रित हैं।
मॉडल को मान्य करना और मॉडल द्वारा उत्पन्न वास्तविक डेटा के व्यवहार संबंधी पहलुओं की तुलना करना भी उतना ही आवश्यक है।
इन काल्पनिक डेटासेट में वास्तविक चीज़ के सभी मूल्य हैं, लेकिन कोई भी संवेदनशील डेटा नहीं है। यह एक स्वादिष्ट, कैलोरी-मुक्त केक की तरह है। यह वास्तविक दुनिया का सटीक चित्रण करता है।
परिणामस्वरूप, आप इसका उपयोग वास्तविक दुनिया के डेटा को बदलने के लिए कर सकते हैं।
सिंथेटिक डेटा का महत्व
सिंथेटिक डेटा में कुछ मांगों या स्थितियों को पूरा करने की विशेषताएं होती हैं जो अन्यथा वास्तविक दुनिया के डेटा में अनुपलब्ध होती हैं। जब परीक्षण के लिए डेटा की कमी होती है या जब गोपनीयता को सर्वोच्च प्राथमिकता दी जाती है, तो यह बचाव के लिए आता है।
एआई-जनरेटेड डेटासेट अनुकूलनीय, सुरक्षित और संग्रहीत, विनिमय और त्यागने में आसान हैं। डेटा संश्लेषण तकनीक मूल डेटा को सब्मिट करने और सुधारने के लिए उपयुक्त है।
परिणामस्वरूप, यह परीक्षण डेटा और एआई प्रशिक्षण डेटा के रूप में उपयोग के लिए आदर्श है।
- एमएल-आधारित उबर और सिखाने के लिए टेस्ला सेल्फ-ड्राइविंग ऑटोमोबाइल.
- चिकित्सा और स्वास्थ्य देखभाल उद्योगों में, विशिष्ट बीमारियों और परिस्थितियों का आकलन करने के लिए जिनके लिए वास्तविक डेटा मौजूद नहीं है।
- वित्तीय क्षेत्र में धोखाधड़ी का पता लगाना और सुरक्षा महत्वपूर्ण है। इसका उपयोग करके, आप नए धोखाधड़ी वाले मामलों की जांच कर सकते हैं।
- अमेज़ॅन सिंथेटिक डेटा का उपयोग करके एलेक्सा की भाषा प्रणाली को प्रशिक्षित कर रहा है।
- धोखाधड़ी का पता लगाने में सुधार के लिए अमेरिकन एक्सप्रेस सिंथेटिक वित्तीय डेटा का उपयोग कर रहा है।
सिंथेटिक डेटा के प्रकार
मूल डेटा में विशेषताओं के बारे में सांख्यिकीय जानकारी रखते हुए संवेदनशील निजी जानकारी को छिपाने के इरादे से सिंथेटिक डेटा यादृच्छिक रूप से बनाया जाता है।
यह मुख्यतः तीन प्रकार का होता है:
- पूरी तरह से सिंथेटिक डेटा
- आंशिक रूप से सिंथेटिक डेटा
- हाइब्रिड सिंथेटिक डेटा
1. पूर्णतः सिंथेटिक डेटा
यह डेटा पूरी तरह से जेनरेट किया गया है और इसमें कोई मूल डेटा नहीं है।
आमतौर पर, इस प्रकार का डेटा जनरेटर वास्तविक डेटा में सुविधाओं के घनत्व कार्यों की पहचान करेगा और उनके मापदंडों का अनुमान लगाएगा। बाद में, अनुमानित घनत्व कार्यों से, प्रत्येक सुविधा के लिए गोपनीयता-संरक्षित श्रृंखला यादृच्छिक रूप से बनाई जाती है।
यदि इसके साथ प्रतिस्थापित करने के लिए वास्तविक डेटा की केवल कुछ विशेषताओं को चुना जाता है, तो संरक्षित और वास्तविक श्रृंखला को एक ही क्रम में रैंक करने के लिए इन सुविधाओं की संरक्षित श्रृंखला को वास्तविक डेटा की शेष विशेषताओं के साथ मैप किया जाता है।
बूटस्ट्रैप तकनीक और एकाधिक प्रतिरूपण पूरी तरह से सिंथेटिक डेटा तैयार करने के दो पारंपरिक तरीके हैं।
क्योंकि डेटा पूरी तरह से सिंथेटिक है और कोई वास्तविक डेटा मौजूद नहीं है, यह रणनीति डेटा की सत्यता पर निर्भरता के साथ उत्कृष्ट गोपनीयता सुरक्षा प्रदान करती है।
2. आंशिक रूप से सिंथेटिक डेटा
यह डेटा केवल कुछ संवेदनशील विशेषताओं के मानों को प्रतिस्थापित करने के लिए सिंथेटिक मानों का उपयोग करता है।
इस स्थिति में, वास्तविक मूल्यों को केवल तभी बदला जाता है जब जोखिम का पर्याप्त खतरा हो। यह परिवर्तन ताज़ा बनाए गए डेटा की गोपनीयता की सुरक्षा के लिए किया गया है।
आंशिक रूप से सिंथेटिक डेटा तैयार करने के लिए एकाधिक प्रतिरूपण और मॉडल-आधारित दृष्टिकोण का उपयोग किया जाता है। इन विधियों का उपयोग वास्तविक दुनिया के डेटा में लुप्त मानों को भरने के लिए भी किया जा सकता है।
3. हाइब्रिड सिंथेटिक डेटा
हाइब्रिड सिंथेटिक डेटा में वास्तविक और नकली दोनों डेटा शामिल होते हैं।
वास्तविक डेटा के प्रत्येक यादृच्छिक रिकॉर्ड के लिए इसमें एक निकट-रिकॉर्ड चुना जाता है, और फिर दोनों को हाइब्रिड डेटा उत्पन्न करने के लिए जोड़ा जाता है। इसमें पूरी तरह से सिंथेटिक और आंशिक रूप से सिंथेटिक डेटा दोनों के लाभ हैं।
इसलिए यह अन्य दो की तुलना में उच्च उपयोगिता के साथ मजबूत गोपनीयता संरक्षण प्रदान करता है, लेकिन अधिक मेमोरी और प्रोसेसिंग समय की कीमत पर।
सिंथेटिक डेटा जनरेशन की तकनीकें
कई वर्षों से, मशीन-निर्मित डेटा की अवधारणा लोकप्रिय रही है। अब यह परिपक्व हो रहा है.
सिंथेटिक डेटा उत्पन्न करने के लिए उपयोग की जाने वाली कुछ तकनीकें यहां दी गई हैं:
1. वितरण के आधार पर
यदि कोई वास्तविक डेटा मौजूद नहीं है, लेकिन डेटा विश्लेषक को इस बात का पूरा अंदाज़ा है कि डेटासेट वितरण कैसा दिखाई देगा; वे नॉर्मल, एक्सपोनेंशियल, ची-स्क्वायर, टी, लॉगनॉर्मल और यूनिफ़ॉर्म सहित किसी भी वितरण का यादृच्छिक नमूना तैयार कर सकते हैं।
इस पद्धति में सिंथेटिक डेटा का मूल्य एक निश्चित डेटा वातावरण के बारे में विश्लेषक की समझ के स्तर के आधार पर भिन्न होता है।
2. ज्ञात वितरण में वास्तविक दुनिया का डेटा
यदि वास्तविक डेटा है तो व्यवसाय दिए गए वास्तविक डेटा के लिए सबसे उपयुक्त वितरण की पहचान करके इसका उत्पादन कर सकते हैं।
यदि व्यवसाय किसी ज्ञात वितरण में वास्तविक डेटा फिट करना चाहते हैं और वितरण मापदंडों को जानना चाहते हैं तो वे इसे तैयार करने के लिए मोंटे कार्लो दृष्टिकोण का उपयोग कर सकते हैं।
यद्यपि मोंटे कार्लो दृष्टिकोण व्यवसायों को उपलब्ध सर्वोत्तम मिलान का पता लगाने में मदद कर सकता है, लेकिन सबसे उपयुक्त दृष्टिकोण कंपनी की सिंथेटिक डेटा आवश्यकताओं के लिए पर्याप्त उपयोग नहीं हो सकता है।
व्यवसाय इन परिस्थितियों में वितरण के अनुरूप मशीन लर्निंग मॉडल को नियोजित करने का पता लगा सकते हैं।
मशीन लर्निंग तकनीक, जैसे निर्णय वृक्ष, संगठनों को गैर-शास्त्रीय वितरणों को मॉडल करने में सक्षम बनाती हैं, जो मल्टी-मोडल हो सकते हैं और मान्यता प्राप्त वितरणों के सामान्य गुणों की कमी होती है।
व्यवसाय सिंथेटिक डेटा का उत्पादन कर सकते हैं जो इस मशीन लर्निंग फिटेड वितरण का उपयोग करके वास्तविक डेटा से जुड़ता है।
हालांकि, मशीन सीखने के मॉडल ओवरफिटिंग के लिए अतिसंवेदनशील होते हैं, जिसके कारण वे ताजा डेटा से मेल खाने या भविष्य के अवलोकनों की भविष्यवाणी करने में विफल हो जाते हैं।
3. डीप लर्निंग
वेरिएशनल ऑटोएनकोडर (वीएई) और जेनरेटिव एडवरसैरियल नेटवर्क (जीएएन) जैसे डीप जेनरेटर मॉडल सिंथेटिक डेटा का उत्पादन कर सकते हैं।
वैरिएशनल ऑटोएन्कोडर
वीएई एक अप्रशिक्षित दृष्टिकोण है जिसमें एनकोडर मूल डेटासेट को संपीड़ित करता है और डिकोडर को डेटा भेजता है।
डिकोडर तब आउटपुट उत्पन्न करता है जो मूल डेटासेट का प्रतिनिधित्व करता है।
सिस्टम को पढ़ाने में इनपुट और आउटपुट डेटा के बीच सहसंबंध को अधिकतम करना शामिल है।
जनरेटिव एडवरसरी नेटवर्क
GAN मॉडल दो नेटवर्क, जनरेटर और विवेचक का उपयोग करके मॉडल को पुनरावृत्त रूप से प्रशिक्षित करता है।
जनरेटर यादृच्छिक नमूना डेटा के एक सेट से एक सिंथेटिक डेटासेट बनाता है।
विवेचक पूर्व-निर्धारित स्थितियों का उपयोग करके कृत्रिम रूप से बनाए गए डेटा की तुलना वास्तविक डेटासेट से करता है।
सिंथेटिक डेटा प्रदाता
संरचित डेटा
नीचे उल्लिखित प्लेटफ़ॉर्म सारणीबद्ध डेटा से प्राप्त सिंथेटिक डेटा प्रदान करते हैं।
यह तालिकाओं में रखे गए वास्तविक दुनिया के डेटा की नकल करता है और इसका उपयोग व्यवहारिक, पूर्वानुमानित या लेनदेन संबंधी विश्लेषण के लिए किया जा सकता है।
- एआई स्थापित करें: यह एक सिंथेटिक डेटा निर्माण प्रणाली का प्रदाता है जो जेनरेटिव एडवरसैरियल नेटवर्क और डिफरेंशियल प्राइवेसी का उपयोग करता है।
- बेहतरडेटा: यह एआई, डेटा शेयरिंग और उत्पाद विकास के लिए गोपनीयता-संरक्षण सिंथेटिक डेटा समाधान का प्रदाता है।
- दिवेपेल: यह जेमिनाई का प्रदाता है, जो मूल डेटा के समान सांख्यिकीय विशेषताओं के साथ 'जुड़वां' डेटासेट बनाने की एक प्रणाली है।
असंरचित डेटा
नीचे उल्लिखित प्लेटफ़ॉर्म असंरचित डेटा के साथ काम करते हैं, प्रशिक्षण दृष्टि और टोही एल्गोरिदम के लिए सिंथेटिक डेटा सामान और सेवाएँ प्रदान करते हैं।
- डाटजेन: यह विज़ुअल एआई सीखने और विकास के लिए 3डी सिम्युलेटेड प्रशिक्षण डेटा प्रदान करता है।
- न्यूरोलैब्स: न्यूरोलैब्स एक कंप्यूटर विज़न सिंथेटिक डेटा प्लेटफ़ॉर्म का प्रदाता है।
- समानांतर डोमेन: यह स्वायत्त प्रणाली प्रशिक्षण और परीक्षण उपयोग के मामलों के लिए सिंथेटिक डेटा प्लेटफ़ॉर्म का प्रदाता है।
- कॉग्नेटा: यह एडीएएस और स्वायत्त वाहन डेवलपर्स के लिए एक सिमुलेशन आपूर्तिकर्ता है।
- भाग्यशाली: यह 3डी वातावरण बनाने के लिए सिंथेटिक डेटा एपीआई प्रदान करता है।
चुनौतियां
इसका एक लंबा इतिहास है Artificial Intelligence, और जबकि इसके कई फायदे हैं, इसमें महत्वपूर्ण कमियां भी हैं जिन्हें आपको सिंथेटिक डेटा के साथ काम करते समय संबोधित करने की आवश्यकता है।
यहाँ पर उनमें से कुछ हैं:
- जटिलता को वास्तविक डेटा से सिंथेटिक डेटा में कॉपी करते समय बहुत सारी त्रुटियाँ हो सकती हैं।
- इसकी लचीली प्रकृति इसके व्यवहार में पूर्वाग्रह पैदा करती है।
- सिंथेटिक डेटा के सरलीकृत प्रस्तुतीकरण का उपयोग करके प्रशिक्षित एल्गोरिदम के प्रदर्शन में कुछ छिपी हुई खामियां हो सकती हैं जो हाल ही में वास्तविक डेटा से निपटने के दौरान सामने आई हैं।
- वास्तविक दुनिया के डेटा से सभी प्रासंगिक विशेषताओं की नकल करना जटिल हो सकता है। यह भी संभव है कि इस पूरे ऑपरेशन में कुछ जरूरी पहलुओं को नजरअंदाज कर दिया जाए।
निष्कर्ष
सिंथेटिक डेटा का उत्पादन स्पष्ट रूप से लोगों का ध्यान आकर्षित कर रहा है।
यह विधि सभी डेटा-जनरेटिंग मामलों के लिए एक-आकार-फिट-सभी उत्तर नहीं हो सकती है।
इसके अलावा, तकनीक को एआई/एमएल के माध्यम से बुद्धिमत्ता की आवश्यकता हो सकती है और अंतर-संबंधित डेटा बनाने की वास्तविक दुनिया की जटिल स्थितियों को संभालने में सक्षम हो सकती है, आदर्श रूप से एक निश्चित डोमेन के लिए उपयुक्त डेटा।
बहरहाल, यह एक नवोन्मेषी तकनीक है जो उस अंतर को भरती है जहां अन्य गोपनीयता-सक्षम प्रौद्योगिकियां कम पड़ जाती हैं।
आज, सिंथेटिक डेटा उत्पादन के लिए डेटा मास्किंग के सह-अस्तित्व की आवश्यकता हो सकती है.
भविष्य में, दोनों के बीच अधिक अभिसरण हो सकता है, जिसके परिणामस्वरूप अधिक व्यापक डेटा-जनरेटिंग समाधान प्राप्त होगा।
टिप्पणियों में अपने विचार साझा करें!
एक जवाब लिखें