अनुक्रमणिका[लपवा][दाखवा]
संशोधक आणि डेटा शास्त्रज्ञांना अनेकदा अशा परिस्थितीचा सामना करावा लागतो ज्यामध्ये त्यांच्याकडे एकतर वास्तविक डेटा नसतो किंवा गोपनीयतेमुळे किंवा गोपनीयतेच्या विचारांमुळे ते वापरण्यास अक्षम असतात.
या समस्येचे निराकरण करण्यासाठी, सिंथेटिक डेटा उत्पादनाचा वापर वास्तविक डेटाच्या बदलीसाठी केला जातो.
अल्गोरिदम योग्यरित्या कार्य करण्यासाठी अस्सल डेटाची योग्य पुनर्स्थित करणे आवश्यक आहे, जे वर्णाने देखील वास्तववादी असावे. तुम्ही असा डेटा गोपनीयता राखण्यासाठी, चाचणी प्रणालीसाठी किंवा मशीन लर्निंग अल्गोरिदमसाठी प्रशिक्षण डेटा तयार करण्यासाठी वापरू शकता.
चला सिंथेटिक डेटा जनरेशन तपशीलवार एक्सप्लोर करू आणि AI च्या युगात ते महत्त्वाचे का आहेत ते पाहू.
सिंथेटिक डेटा म्हणजे काय?
सिंथेटिक डेटा हा संगणक सिम्युलेशन किंवा अल्गोरिदमद्वारे व्युत्पन्न केलेला भाष्य डेटा आहे जो वास्तविक-जगातील डेटाचा पर्याय आहे. ही वास्तविक डेटाची कृत्रिम बुद्धिमत्ता-व्युत्पन्न प्रतिकृती आहे.
प्रगत AI अल्गोरिदम वापरून डेटा पॅटर्न आणि परिमाणे वापरू शकतात. ते सिंथेटिक डेटाचे अमर्याद प्रमाण तयार करू शकतात जे एकदा प्रशिक्षण घेतल्यानंतर मूळ प्रशिक्षण डेटाचे सांख्यिकीयदृष्ट्या प्रतिनिधित्व करतात.
सिंथेटिक डेटा तयार करण्यात आम्हाला मदत करणार्या विविध पद्धती आणि तंत्रज्ञान आहेत आणि तुम्ही विविध अनुप्रयोगांमध्ये वापरू शकता.
डेटा जनरेशन सॉफ्टवेअरला अनेकदा आवश्यक असते:
- डेटा रेपॉजिटरीचा मेटाडेटा, ज्यासाठी सिंथेटिक डेटा तयार करणे आवश्यक आहे.
- प्रशंसनीय परंतु काल्पनिक मूल्ये निर्माण करण्याचे तंत्र. उदाहरणांमध्ये मूल्य सूची आणि नियमित अभिव्यक्ती समाविष्ट आहेत.
- डेटाबेस स्तरावर घोषित केलेल्या तसेच अनुप्रयोग कोड स्तरावर नियंत्रित केलेल्या सर्व डेटा संबंधांची व्यापक जागरूकता.
मॉडेलचे प्रमाणीकरण करणे आणि मॉडेलद्वारे व्युत्पन्न केलेल्या वास्तविक डेटाच्या वर्तनात्मक पैलूंची तुलना करणे तितकेच आवश्यक आहे.
या काल्पनिक डेटासेटमध्ये खर्या गोष्टीचे सर्व मूल्य आहे, परंतु कोणताही संवेदनशील डेटा नाही. हे एक लज्जतदार, कॅलरी-मुक्त केकसारखे आहे. हे वास्तविक जगाचे अचूक चित्रण करते.
परिणामी, तुम्ही त्याचा वापर वास्तविक-जगातील डेटा बदलण्यासाठी करू शकता.
सिंथेटिक डेटाचे महत्त्व
सिंथेटिक डेटामध्ये विशिष्ट मागण्या किंवा परिस्थितींमध्ये फिट होण्याची वैशिष्ट्ये आहेत जी अन्यथा वास्तविक-जगातील डेटामध्ये अनुपलब्ध असतील. जेव्हा चाचणीसाठी डेटाची कमतरता असते किंवा जेव्हा गोपनीयतेचा विचार केला जातो तेव्हा ते बचावासाठी येते.
AI-व्युत्पन्न डेटासेट अनुकूल, सुरक्षित आणि संग्रहित करणे, एक्सचेंज करणे आणि टाकून देणे सोपे आहे. डेटा संश्लेषण तंत्र मूळ डेटा सबसेट करण्यासाठी आणि सुधारण्यासाठी योग्य आहे.
परिणामी, चाचणी डेटा आणि एआय प्रशिक्षण डेटा म्हणून वापरण्यासाठी ते आदर्श आहे.
- ML-आधारित Uber शिकवण्यासाठी आणि टेस्ला सेल्फ-ड्रायव्हिंग ऑटोमोबाईल्स.
- वैद्यकीय आणि आरोग्य सेवा उद्योगांमध्ये, विशिष्ट आजार आणि परिस्थितीचे मूल्यांकन करण्यासाठी ज्यासाठी वास्तविक डेटा अस्तित्वात नाही.
- आर्थिक क्षेत्रात फसवणूक शोधणे आणि संरक्षण करणे महत्त्वाचे आहे. त्याचा वापर करून, तुम्ही नवीन फसवणुकीच्या घटनांचा तपास करू शकता.
- अॅमेझॉन सिंथेटिक डेटा वापरून अलेक्साच्या भाषा प्रणालीला प्रशिक्षण देत आहे.
- अमेरिकन एक्सप्रेस फसवणूक शोध सुधारण्यासाठी सिंथेटिक आर्थिक डेटा वापरत आहे.
सिंथेटिक डेटाचे प्रकार
मूळ डेटामधील वैशिष्ट्यांविषयी सांख्यिकीय माहिती ठेवताना संवेदनशील खाजगी माहिती लपविण्याच्या उद्देशाने सिंथेटिक डेटा यादृच्छिकपणे तयार केला जातो.
हे प्रामुख्याने तीन प्रकारचे आहे:
- पूर्णपणे कृत्रिम डेटा
- अंशतः सिंथेटिक डेटा
- हायब्रिड सिंथेटिक डेटा
1. पूर्णपणे सिंथेटिक डेटा
हा डेटा पूर्णपणे व्युत्पन्न केला आहे आणि त्यात मूळ डेटा नाही.
सामान्यतः, या प्रकारचे डेटा जनरेटर वास्तविक डेटामधील वैशिष्ट्यांची घनता कार्ये ओळखेल आणि त्यांच्या पॅरामीटर्सचा अंदाज लावेल. नंतर, अंदाजित घनतेच्या कार्यांवरून, प्रत्येक वैशिष्ट्यासाठी यादृच्छिकपणे गोपनीयता-संरक्षित मालिका तयार केल्या जातात.
वास्तविक डेटाची काही वैशिष्ट्ये बदलण्यासाठी निवडल्यास, या वैशिष्ट्यांची संरक्षित मालिका त्याच क्रमाने संरक्षित आणि वास्तविक मालिका रँक करण्यासाठी वास्तविक डेटाच्या उर्वरित वैशिष्ट्यांवर मॅप केली जाते.
बूटस्ट्रॅप तंत्र आणि एकापेक्षा जास्त अभिप्राय पूर्णपणे सिंथेटिक डेटा तयार करण्यासाठी दोन पारंपारिक पद्धती आहेत.
डेटा पूर्णपणे सिंथेटिक असल्यामुळे आणि कोणताही वास्तविक डेटा अस्तित्वात नसल्यामुळे, ही रणनीती डेटाच्या सत्यतेवर अवलंबून राहून उत्कृष्ट गोपनीयता संरक्षण प्रदान करते.
2. अंशतः सिंथेटिक डेटा
हा डेटा केवळ काही संवेदनशील वैशिष्ट्यांची मूल्ये बदलण्यासाठी कृत्रिम मूल्ये वापरतो.
या परिस्थितीत, खरी मूल्ये केवळ तेव्हाच बदलली जातात जेव्हा एक्सपोजरचा मोठा धोका असतो. हा बदल नव्याने तयार केलेल्या डेटाच्या गोपनीयतेचे रक्षण करण्यासाठी केला आहे.
अंशतः सिंथेटिक डेटा तयार करण्यासाठी एकाधिक आरोप आणि मॉडेल-आधारित पध्दती वापरल्या जातात. या पद्धतींचा वापर वास्तविक-जगातील डेटामधील गहाळ मूल्ये भरण्यासाठी देखील केला जाऊ शकतो.
3. हायब्रिड सिंथेटिक डेटा
हायब्रीड सिंथेटिक डेटामध्ये वास्तविक आणि बनावट दोन्ही डेटा समाविष्ट असतो.
वास्तविक डेटाच्या प्रत्येक यादृच्छिक रेकॉर्डसाठी त्यातील एक जवळचा रेकॉर्ड निवडला जातो आणि नंतर हायब्रिड डेटा व्युत्पन्न करण्यासाठी दोन जोडले जातात. यात पूर्णपणे सिंथेटिक आणि आंशिक सिंथेटिक दोन्ही डेटाचे फायदे आहेत.
त्यामुळे इतर दोनच्या तुलनेत हे उच्च उपयुक्ततेसह मजबूत गोपनीयता संरक्षण देते, परंतु अधिक मेमरी आणि प्रक्रिया वेळेच्या खर्चावर.
सिंथेटिक डेटा निर्मितीचे तंत्र
अनेक वर्षांपासून, मशीनद्वारे तयार केलेल्या डेटाची संकल्पना लोकप्रिय आहे. आता ते परिपक्व होत आहे.
सिंथेटिक डेटा व्युत्पन्न करण्यासाठी वापरलेली काही तंत्रे येथे आहेत:
1. वितरणावर आधारित
जर कोणताही वास्तविक डेटा अस्तित्वात नसेल, परंतु डेटा विश्लेषकाला डेटासेट वितरण कसे दिसेल याची पूर्ण कल्पना आहे; ते नॉर्मल, एक्सपोनेन्शियल, ची-स्क्वेअर, टी, लॉगनॉर्मल आणि युनिफॉर्मसह कोणत्याही वितरणाचा यादृच्छिक नमुना तयार करू शकतात.
या पद्धतीतील सिंथेटिक डेटाचे मूल्य विश्लेषकाच्या विशिष्ट डेटा वातावरणाबद्दलच्या समजुतीच्या पातळीनुसार बदलते.
2. ज्ञात वितरणामध्ये वास्तविक-जगातील डेटा
वास्तविक डेटा असल्यास व्यवसाय दिलेल्या वास्तविक डेटासाठी सर्वोत्तम योग्य वितरण ओळखून ते तयार करू शकतात.
व्यवसायांना ज्ञात वितरणामध्ये वास्तविक डेटा बसवायचा असेल आणि वितरण पॅरामीटर्स माहित असतील तर ते तयार करण्यासाठी मॉन्टे कार्लो दृष्टिकोन वापरू शकतात.
जरी मॉन्टे कार्लो दृष्टीकोन व्यवसायांना उपलब्ध सर्वोत्तम जुळणी शोधण्यात मदत करू शकतो, परंतु कंपनीच्या सिंथेटिक डेटा गरजांसाठी सर्वोत्तम फिटचा पुरेसा उपयोग होणार नाही.
व्यवसाय या परिस्थितीत वितरणास अनुरूप मशीन लर्निंग मॉडेल्सचा शोध घेऊ शकतात.
मशीन लर्निंग तंत्र, जसे की निर्णय वृक्ष, संस्थांना नॉन-क्लासिकल वितरणांचे मॉडेल करण्यास सक्षम करतात, जे बहु-मोडल असू शकतात आणि मान्यताप्राप्त वितरणाचे सामान्य गुणधर्म नसतात.
व्यवसाय सिंथेटिक डेटा तयार करू शकतात जो या मशीन लर्निंग फिट डिस्ट्रिब्यूशनचा वापर करून अस्सल डेटाशी कनेक्ट होतो.
तथापि, मशीन शिक्षण मॉडेल ते ओव्हरफिटिंगसाठी अतिसंवेदनशील आहेत, ज्यामुळे ते नवीन डेटाशी जुळण्यात किंवा भविष्यातील निरिक्षणांचा अंदाज लावण्यात अपयशी ठरतात.
3. सखोल शिक्षण
व्हेरिएशनल ऑटोएनकोडर (VAE) आणि जनरेटिव्ह अॅडव्हर्सरियल नेटवर्क (GAN) सारखे डीप जनरेटिव्ह मॉडेल सिंथेटिक डेटा तयार करू शकतात.
व्हेरिएशनल ऑटोएनकोडर
VAE हा एक पर्यवेक्षित नसलेला दृष्टीकोन आहे ज्यामध्ये एन्कोडर मूळ डेटासेट संकुचित करतो आणि डीकोडरला डेटा पाठवतो.
डीकोडर नंतर आउटपुट तयार करतो जे मूळ डेटासेटचे प्रतिनिधित्व करते.
सिस्टम शिकवण्यामध्ये इनपुट आणि आउटपुट डेटामधील परस्परसंबंध वाढवणे समाविष्ट आहे.
जनरेटिव्ह अॅडवर्डेरियल नेटवर्क
GAN मॉडेल दोन नेटवर्क, जनरेटर आणि डिस्क्रिमिनेटर वापरून मॉडेलला पुनरावृत्तीने प्रशिक्षण देते.
जनरेटर यादृच्छिक नमुना डेटाच्या संचामधून सिंथेटिक डेटासेट तयार करतो.
डिस्क्रिमिनेटर पूर्व-परिभाषित परिस्थिती वापरून कृत्रिमरित्या तयार केलेल्या डेटाची वास्तविक डेटासेटशी तुलना करतो.
सिंथेटिक डेटा प्रदाता
संरचित डेटा
खाली नमूद केलेले प्लॅटफॉर्म टॅब्युलर डेटामधून सिंथेटिक डेटा प्रदान करतात.
हे सारण्यांमध्ये ठेवलेल्या वास्तविक-जगातील डेटाची प्रतिकृती बनवते आणि वर्तनात्मक, भविष्यसूचक किंवा व्यवहार विश्लेषणासाठी वापरले जाऊ शकते.
- AI स्थापित करा: हे सिंथेटिक डेटा निर्मिती प्रणालीचे प्रदाता आहे जे जनरेटिव्ह अॅडव्हर्सरियल नेटवर्क्स आणि डिफरेंशियल प्रायव्हसी वापरते.
- बेटरडेटा: हे AI, डेटा सामायिकरण आणि उत्पादन विकासासाठी गोपनीयता-संरक्षण करणारे सिंथेटिक डेटा सोल्यूशनचे प्रदाता आहे.
- दिवेपाळे: हे Geminai चे प्रदाता आहे, मूळ डेटा सारख्याच सांख्यिकीय वैशिष्ट्यांसह 'ट्विन' डेटासेट तयार करण्यासाठी एक प्रणाली आहे.
असंरचित डेटा
खाली नमूद केलेले प्लॅटफॉर्म असंरचित डेटासह कार्य करतात, प्रशिक्षण दृष्टी आणि रीकॉनिसन्स अल्गोरिदमसाठी कृत्रिम डेटा वस्तू आणि सेवा प्रदान करतात.
- डेटाजन: हे व्हिज्युअल एआय शिक्षण आणि विकासासाठी 3D सिम्युलेटेड प्रशिक्षण डेटा प्रदान करते.
- न्यूरोलॅब्स: Neurolabs एक संगणक दृष्टी सिंथेटिक डेटा प्लॅटफॉर्म एक प्रदाता आहे.
- समांतर डोमेन: हे स्वायत्त प्रणाली प्रशिक्षण आणि चाचणी वापर प्रकरणांसाठी सिंथेटिक डेटा प्लॅटफॉर्मचे प्रदाता आहे.
- कॉग्नाटा: हे ADAS आणि स्वायत्त वाहन विकासकांसाठी एक सिम्युलेशन पुरवठादार आहे.
- बिफ्रोस्ट: हे 3D वातावरण तयार करण्यासाठी सिंथेटिक डेटा API प्रदान करते.
आव्हाने
मध्ये त्याचा मोठा इतिहास आहे कृत्रिम बुद्धिमत्ता, आणि त्याचे बरेच फायदे असले तरी, सिंथेटिक डेटासह कार्य करताना तुम्हाला ज्याचे निराकरण करणे आवश्यक आहे त्यामध्ये लक्षणीय तोटे देखील आहेत.
येथे त्यांना काही आहेत:
- वास्तविक डेटापासून सिंथेटिक डेटामध्ये जटिलता कॉपी करताना अनेक त्रुटी असू शकतात.
- त्याच्या निंदनीय स्वभावामुळे त्याच्या वागण्यात पक्षपात होतो.
- वास्तविक डेटा हाताळताना अलीकडे समोर आलेल्या सिंथेटिक डेटाचे सरलीकृत प्रतिनिधित्व वापरून प्रशिक्षित केलेल्या अल्गोरिदमच्या कार्यप्रदर्शनात काही लपलेल्या त्रुटी असू शकतात.
- वास्तविक-जगातील डेटामधील सर्व संबंधित विशेषतांची प्रतिकृती बनवणे क्लिष्ट होऊ शकते. हे देखील शक्य आहे की या संपूर्ण ऑपरेशनमध्ये काही आवश्यक बाबींकडे दुर्लक्ष केले जाऊ शकते.
निष्कर्ष
सिंथेटिक डेटाचे उत्पादन स्पष्टपणे लोकांचे लक्ष वेधून घेत आहे.
ही पद्धत सर्व डेटा-निर्मिती प्रकरणांसाठी एक-आकार-फिट-सर्व उत्तर असू शकत नाही.
याशिवाय, तंत्रासाठी AI/ML द्वारे बुद्धिमत्ता आवश्यक असू शकते आणि आंतर-संबंधित डेटा तयार करण्याच्या वास्तविक-जगातील गुंतागुंतीच्या परिस्थिती हाताळण्यास सक्षम असू शकते, आदर्शपणे विशिष्ट डोमेनसाठी योग्य डेटा.
असे असले तरी, हे एक नाविन्यपूर्ण तंत्रज्ञान आहे जे एक अंतर भरून काढते जेथे इतर गोपनीयता-सक्षम तंत्रज्ञान कमी पडतात.
आज सिंथेटिक डेटा उत्पादनासाठी डेटा मास्किंगच्या सहअस्तित्वाची आवश्यकता असू शकते.
भविष्यात, दोघांमध्ये अधिक अभिसरण होऊ शकते, परिणामी अधिक व्यापक डेटा-जनरेटिंग समाधान मिळेल.
टिप्पण्यांमध्ये आपले विचार सामायिक करा!
प्रत्युत्तर द्या