क्या आप कभी अपने पसंदीदा पात्र को आपसे बात करते हुए सुनना चाहते हैं? मशीन लर्निंग की मदद से नेचुरल-साउंडिंग टेक्स्ट-टू-स्पीच धीरे-धीरे हकीकत बनता जा रहा है।
उदाहरण के लिए, Google के NAT TTS मॉडल का उपयोग उनके नए . को सशक्त बनाने के लिए किया जा रहा है कस्टम आवाज सर्विस। यह सेवा रिकॉर्डिंग से प्रशिक्षित आवाज उत्पन्न करने के लिए तंत्रिका नेटवर्क का उपयोग करती है। वेब ऐप्स जैसे उबेरडक अपना स्वयं का संश्लेषित पाठ बनाने के लिए चुनने के लिए सैकड़ों आवाज़ें प्रदान करें।
इस लेख में, हम प्रभावशाली और समान रूप से गूढ़ AI मॉडल को देखेंगे जिसे 15.ai के नाम से जाना जाता है। एक गुमनाम डेवलपर द्वारा बनाया गया, यह सबसे कुशल और भावनात्मक में से एक हो सकता है पाठ से वाक् मॉडल अब तक.
15.ai क्या है?
15.एआई एक एआई वेब एप्लिकेशन है जो भावनात्मक उच्च-निष्ठा टेक्स्ट-टू-स्पीच आवाज उत्पन्न करने में सक्षम है। उपयोगकर्ता 9000 से एचएएल 2001: ए स्पेस ओडिसी में आरपीजी से लेकर एचएएल XNUMX तक विभिन्न प्रकार की आवाजों में से चुन सकते हैं।
कार्यक्रम 15 नाम के तहत काम कर रहे एक अज्ञात पूर्व एमआईटी शोधकर्ता द्वारा विकसित किया गया था। डेवलपर ने कहा है कि इस परियोजना की शुरुआत में विश्वविद्यालय के स्नातक अनुसंधान अवसर कार्यक्रम के हिस्से के रूप में कल्पना की गई थी।
15.ai में उपलब्ध कई आवाजें माई लिटिल पोनी: फ्रेंडशिप इज मैजिक के पात्रों के सार्वजनिक डेटासेट पर प्रशिक्षित हैं। शो के उत्साही प्रशंसकों ने अपने पसंदीदा पात्रों के सटीक टेक्स्ट-टू-स्पीच जेनरेटर बनाने के लक्ष्य के साथ संवाद के घंटों को इकट्ठा करने, ट्रांसक्रिप्ट करने और संसाधित करने के लिए एक सहयोगी प्रयास किया है।
15.ai क्या कर सकता है?
15.ai वेब एप्लिकेशन दर्जनों काल्पनिक पात्रों में से एक का चयन करके काम करता है, जिस पर मॉडल को प्रशिक्षित किया गया है और इनपुट टेक्स्ट सबमिट किया गया है। जेनरेट पर क्लिक करने के बाद, उपयोगकर्ता को दी गई पंक्तियों को बोलते हुए काल्पनिक चरित्र के तीन ऑडियो क्लिप प्राप्त होने चाहिए।
के बाद से ध्यान लगा के पढ़ना या सीखना इस्तेमाल किया गया मॉडल नॉनडेटर्मिनिस्टिक है, 15.ai हर बार थोड़ा अलग भाषण देता है। ठीक उसी तरह जैसे एक अभिनेता को सही डिलीवरी प्राप्त करने के लिए कई टेक की आवश्यकता हो सकती है, 15.ai हर बार अलग-अलग डिलीवरी स्टाइल तैयार करता है जब तक कि उपयोगकर्ता को अपनी पसंद का आउटपुट नहीं मिल जाता।
परियोजना में एक अनूठी विशेषता शामिल है जो उपयोगकर्ताओं को भावनात्मक संदर्भकर्ताओं का उपयोग करके उत्पन्न लाइन की भावना को मैन्युअल रूप से बदलने की अनुमति देती है। ये पैरामीटर एमआईटी का उपयोग करके उपयोगकर्ता-इनपुट इमोजी की भावना को कम करने में सक्षम हैं दीपमोजी मॉडल.
डेवलपर के अनुसार, 15.ai अन्य समान टीटीएस कार्यक्रमों के अलावा जो सेट करता है वह यह है कि मॉडल "भावनाओं और स्वाभाविकता को बरकरार रखते हुए" आवाजों को सटीक रूप से क्लोन करने के लिए बहुत कम डेटा पर निर्भर करता है।
15.ai कैसे काम करता है?
आइए 15.ai के पीछे की तकनीक को देखें।
सबसे पहले, 15.ai के मुख्य विकासकर्ता का कहना है कि कार्यक्रम भावनाओं की अलग-अलग अवस्थाओं के साथ आवाज उत्पन्न करने के लिए एक कस्टम मॉडल का उपयोग करता है। चूंकि लेखक ने अभी तक परियोजना पर एक विस्तृत पेपर प्रकाशित नहीं किया है, इसलिए हम केवल व्यापक अनुमान लगा सकते हैं कि पर्दे के पीछे क्या हो रहा है।
फोनेम्स को पुनः प्राप्त करना
सबसे पहले, आइए देखें कि प्रोग्राम इनपुट टेक्स्ट को कैसे पार्स करता है। इससे पहले कि कार्यक्रम भाषण उत्पन्न कर सके, उसे प्रत्येक व्यक्तिगत शब्द को उसके संबंधित स्वरों के संग्रह में परिवर्तित करना होगा। उदाहरण के लिए, शब्द "कुत्ता" तीन स्वरों से बना है: /d/, /ɒ/, और /ɡ/।
लेकिन 15.ai कैसे जानता है कि प्रत्येक शब्द के लिए कौन से स्वरों का उपयोग करना है?
15.ai के अबाउट पेज के अनुसार, प्रोग्राम एक डिक्शनरी लुकअप टेबल का उपयोग करता है। तालिका स्रोत के रूप में ऑक्सफोर्ड डिक्शनरी एपीआई, विक्षनरी और सीएमयू उच्चारण शब्दकोश का उपयोग करती है। 15.ai नए गढ़े गए शब्दों और वाक्यांशों के स्रोत के रूप में रेडिट और अर्बन डिक्शनरी जैसी अन्य वेबसाइटों का उपयोग करता है।
यदि कोई दिया गया शब्द शब्दकोश में मौजूद नहीं है, तो उसका उच्चारण ध्वन्यात्मक नियमों का उपयोग करके निकाला जाता है, जिसे मॉडल ने इससे सीखा है। लिब्रिटीटीएस डाटासेट। यह डेटासेट अंग्रेजी बोलने वाले लोगों के लगभग 585 घंटे का एक संग्रह है - एक मूल भाषा या बोली में लिखित या बोले गए शब्दों का एक डेटासेट।
भावनाओं को एम्बेड करना
डेवलपर के अनुसार, मॉडल इनपुट टेक्स्ट की कथित भावना का अनुमान लगाने की कोशिश करता है। मॉडल इस कार्य को DeepMoji . के माध्यम से पूरा करता है भावना विश्लेषण नमूना। भावनाओं को व्यक्त करने के लिए भाषा का उपयोग कैसे किया जाता है, यह समझने के लक्ष्य के साथ इस विशेष मॉडल को इमोजी के साथ अरबों ट्वीट्स पर प्रशिक्षित किया गया था। वांछित भावना की ओर आउटपुट में हेरफेर करने के लिए मॉडल का परिणाम टीटीएस मॉडल में एम्बेड किया गया है।
एक बार इनपुट टेक्स्ट से स्वर और भाव निकाले जाने के बाद, अब भाषण को संश्लेषित करने का समय आ गया है।
आवाज क्लोनिंग और संश्लेषण
टेक्स्ट-टू-स्पीच मॉडल जैसे 15.ai को मल्टी-स्पीकर मॉडल के रूप में जाना जाता है। ये मॉडल विभिन्न आवाजों में बोलना सीखने में सक्षम होने के लिए बनाए गए हैं। अपने मॉडल को ठीक से प्रशिक्षित करने के लिए, हमें अद्वितीय आवाज सुविधाओं को निकालने का एक तरीका खोजना होगा और इसे इस तरह से प्रस्तुत करना होगा कि एक कंप्यूटर समझ सके। इस प्रक्रिया को स्पीकर एम्बेडिंग के रूप में जाना जाता है।
वर्तमान टेक्स्ट-टू-स्पीच मॉडल उपयोग करते हैं तंत्रिका जाल वास्तविक ऑडियो आउटपुट बनाने के लिए। तंत्रिका नेटवर्क में आमतौर पर दो मुख्य भाग होते हैं: एक एनकोडर और एक डिकोडर।
एन्कोडर विभिन्न इनपुट वैक्टर के आधार पर एक सारांश वेक्टर बनाने की कोशिश करता है। आउटपुट क्या होना चाहिए, इसका प्रतिनिधित्व करने के लिए फोनेम, भावनात्मक पहलुओं और आवाज सुविधाओं के बारे में जानकारी एन्कोडर में रखी जाती है। डिकोडर तब इस प्रतिनिधित्व को ऑडियो में परिवर्तित करता है और एक कॉन्फिडेंस स्कोर आउटपुट करता है।
15.ai वेब एप्लिकेशन तब सर्वश्रेष्ठ आत्मविश्वास स्कोर के साथ शीर्ष तीन परिणाम देता है।
मुद्दे
एआई-जनित सामग्री जैसे के उदय के साथ deepfakes, उन्नत एआई विकसित करना जो वास्तविक लोगों की नकल कर सकता है, एक गंभीर नैतिक मुद्दा हो सकता है।
वर्तमान में, आप 15.ai वेब एप्लिकेशन से जो आवाजें चुन सकते हैं, वे सभी काल्पनिक पात्र हैं। हालाँकि, इसने ऐप को कुछ विवादों को ऑनलाइन करने से नहीं रोका।
कुछ आवाज अभिनेताओं ने आवाज क्लोनिंग तकनीक के इस्तेमाल पर जोर दिया है। उनकी चिंताओं में प्रतिरूपण, स्पष्ट सामग्री में उनकी आवाज का उपयोग, और संभावना है कि तकनीक आवाज अभिनेता की भूमिका को अप्रचलित कर सकती है।
एक और विवाद इससे पहले 2022 में हुआ था जब Voiceverse NFT नामक एक कंपनी को अपने मार्केटिंग अभियान के लिए सामग्री तैयार करने के लिए 15.ai का उपयोग करते हुए पाया गया था।
निष्कर्ष
दैनिक जीवन में टेक्स्ट-टू-स्पीच पहले से ही काफी प्रचलित है। वॉयस असिस्टेंट, जीपीएस नेविगेटर। और स्वचालित फोन कॉल पहले से ही आम हो गए हैं। हालांकि, ये एप्लिकेशन स्पष्ट रूप से इतने गैर-मानवीय हैं कि हम बता सकते हैं कि ये मशीन-निर्मित भाषण हैं।
नेचुरल-साउंडिंग और इमोशनल टीटीएस तकनीक नए अनुप्रयोगों के लिए द्वार खोल सकती है। हालाँकि, वॉयस क्लोनिंग की नैतिकता अभी भी सबसे अच्छी तरह से संदिग्ध है। यह निश्चित रूप से समझ में आता है कि इनमें से बहुत से शोधकर्ता एल्गोरिदम को जनता के साथ साझा करने के लिए अनिच्छुक क्यों हैं।
एक जवाब लिखें