तुम्हाला तुमच्या आवडत्या पात्राचे तुमच्याशी बोलणे ऐकायचे आहे का? मशिन लर्निंगच्या मदतीने नैसर्गिक-ध्वनी मजकूर-ते-स्पीच हळूहळू वास्तव बनत आहे.
उदाहरणार्थ, Google चे NAT TTS मॉडेल त्यांच्या नवीन शक्तीसाठी वापरले जात आहे सानुकूल आवाज सेवा रेकॉर्डिंगमधून प्रशिक्षित आवाज तयार करण्यासाठी ही सेवा न्यूरल नेटवर्कचा वापर करते. वेब अॅप्स जसे की उबरडुक तुमचा स्वतःचा संश्लेषित मजकूर तयार करण्यासाठी तुम्हाला निवडण्यासाठी शेकडो आवाज प्रदान करा.
या लेखात, आम्ही 15.ai म्हणून ओळखले जाणारे प्रभावी आणि तितकेच गूढ एआय मॉडेल पाहू. निनावी विकसकाने तयार केलेले, ते सर्वात कार्यक्षम आणि भावनिक असू शकते टेक्स्ट-टू-स्पीच मॉडेल्स आतापर्यंत.
15.ai म्हणजे काय?
15.ai हा एक AI वेब ऍप्लिकेशन आहे जो भावनिक उच्च-निश्चितता मजकूर-ते-स्पीच आवाज निर्माण करण्यास सक्षम आहे. वापरकर्ते 9000 पासून Spongebob Squarepants पासून HAL 2001 पर्यंत विविध आवाजांमधून निवडू शकतात: A Space Odyssey.
हा कार्यक्रम 15 या नावाखाली कार्यरत असलेल्या एका निनावी माजी MIT संशोधकाने विकसित केला आहे. विकासकाने असे म्हटले आहे की हा प्रकल्प सुरुवातीला विद्यापीठाच्या पदवीपूर्व संशोधन संधी कार्यक्रमाचा एक भाग म्हणून तयार करण्यात आला होता.
15.ai मध्ये उपलब्ध असलेल्या अनेक आवाजांना My Little Pony: Friendship is Magic मधील पात्रांच्या सार्वजनिक डेटासेटवर प्रशिक्षण दिले जाते. शोच्या उत्साही चाहत्यांनी त्यांच्या आवडत्या पात्रांचे अचूक टेक्स्ट-टू-स्पीच जनरेटर तयार करण्याच्या उद्देशाने संवादाचे तास संकलित करणे, नक्कल करणे आणि प्रक्रिया करण्याचा एक सहयोगी प्रयत्न केला आहे.
15.ai काय करू शकते?
15.ai वेब ऍप्लिकेशन मॉडेलला प्रशिक्षित केलेल्या डझनभर काल्पनिक पात्रांपैकी एक निवडून आणि इनपुट मजकूर सबमिट करून कार्य करते. जनरेट वर क्लिक केल्यानंतर, वापरकर्त्याला दिलेल्या ओळी बोलणाऱ्या काल्पनिक पात्राच्या तीन ऑडिओ क्लिप मिळाल्या पाहिजेत.
पासून खोल शिकणे वापरलेले मॉडेल नॉनडेटरमिनिस्टिक आहे, 15.ai प्रत्येक वेळी थोडे वेगळे भाषण देते. एखाद्या अभिनेत्याला योग्य डिलिव्हरी मिळवण्यासाठी अनेक वेळा लागतील त्याप्रमाणे, 15.ai प्रत्येक वेळी वापरकर्त्याला त्यांच्या आवडीचे आउटपुट मिळेपर्यंत विविध वितरण शैली निर्माण करते.
प्रकल्पामध्ये एक अद्वितीय वैशिष्ट्य समाविष्ट आहे जे वापरकर्त्यांना भावनात्मक संदर्भ वापरून व्युत्पन्न केलेल्या ओळीच्या भावना व्यक्तिचलितपणे बदलण्याची परवानगी देते. हे पॅरामीटर्स एमआयटी वापरून वापरकर्ता-इनपुट इमोजीच्या भावना काढण्यास सक्षम आहेत DeepMoji मॉडेल
डेव्हलपरच्या मते, 15.ai ला इतर तत्सम TTS प्रोग्राम्सपेक्षा वेगळे काय आहे ते म्हणजे "भावना आणि नैसर्गिकता अबाधित ठेवत" आवाज अचूकपणे क्लोन करण्यासाठी मॉडेल फार कमी डेटावर अवलंबून आहे.
15.ai कसे कार्य करते?
15.ai च्या मागे तंत्रज्ञान पाहू.
प्रथम, 15.ai चा मुख्य विकसक म्हणतो की हा कार्यक्रम भावनांच्या वेगवेगळ्या अवस्थांसह आवाज निर्माण करण्यासाठी सानुकूल मॉडेल वापरतो. लेखकाने अद्याप या प्रकल्पावर तपशीलवार पेपर प्रकाशित केला नसल्यामुळे, पडद्यामागे काय घडत आहे याबद्दल आम्ही फक्त व्यापक गृहीतक करू शकतो.
फोनेम्स पुनर्प्राप्त करत आहे
प्रथम, प्रोग्राम इनपुट मजकूर कसा पार्स करतो ते पाहू. प्रोग्रॅमने स्पीच जनरेट करण्याआधी, प्रत्येक शब्दाचे त्याच्या संबंधित फोनम्सच्या संग्रहात रूपांतर करणे आवश्यक आहे. उदाहरणार्थ, "कुत्रा" हा शब्द तीन स्वरांनी बनलेला आहे: /d/, /ɒ/, आणि /ɡ/.
पण प्रत्येक शब्दासाठी कोणते फोनेम वापरायचे हे 15.ai ला कसे कळते?
15.ai च्या अबाउट पेजनुसार, प्रोग्राम डिक्शनरी लुकअप टेबल वापरतो. सारणी ऑक्सफर्ड डिक्शनरी API, विक्शनरी आणि CMU उच्चारण शब्दकोष स्त्रोत म्हणून वापरते. 15.ai नवीन तयार केलेल्या संज्ञा आणि वाक्यांशांसाठी स्त्रोत म्हणून Reddit आणि Urban Dictionary सारख्या वेबसाइटचा वापर करते.
शब्दकोषात कोणताही शब्द अस्तित्त्वात नसल्यास, मॉडेलने शिकलेल्या ध्वन्यात्मक नियमांचा वापर करून त्याचा उच्चार काढला जातो. LibriTTS डेटासेट हा डेटासेट एक कॉर्पस आहे—मूळ भाषा किंवा बोली भाषेतील लिखित किंवा बोलल्या जाणार्या शब्दांचा डेटासेट—सुमारे ५८५ तास इंग्रजी बोलणाऱ्या लोकांचा.
भावना एम्बेड करणे
विकसकाच्या मते, मॉडेल इनपुट मजकूराच्या समजलेल्या भावनांचा अंदाज लावण्याचा प्रयत्न करते. डीपमोजीद्वारे मॉडेल हे कार्य पूर्ण करते भावना विश्लेषण मॉडेल या विशिष्ट मॉडेलला भावना व्यक्त करण्यासाठी भाषा कशी वापरली जाते हे समजून घेण्याच्या उद्देशाने इमोजीसह अब्जावधी ट्विटवर प्रशिक्षित केले गेले. इच्छित भावनांच्या दिशेने आउटपुट हाताळण्यासाठी मॉडेलचा परिणाम TTS मॉडेलमध्ये एम्बेड केला जातो.
एकदा इनपुट मजकूरातून फोनम्स आणि भावना काढल्या गेल्या की, आता भाषण संश्लेषित करण्याची वेळ आली आहे.
व्हॉइस क्लोनिंग आणि संश्लेषण
15.ai सारखे टेक्स्ट-टू-स्पीच मॉडेल मल्टी-स्पीकर मॉडेल म्हणून ओळखले जातात. हे मॉडेल वेगवेगळ्या आवाजात कसे बोलावे हे शिकण्यासाठी तयार केले आहेत. आमचे मॉडेल योग्यरित्या प्रशिक्षित करण्यासाठी, आम्ही अद्वितीय आवाज वैशिष्ट्ये काढण्याचा मार्ग शोधला पाहिजे आणि संगणकाला समजेल अशा प्रकारे त्याचे प्रतिनिधित्व केले पाहिजे. ही प्रक्रिया स्पीकर एम्बेडिंग म्हणून ओळखली जाते.
वर्तमान टेक्स्ट-टू-स्पीच मॉडेल्स वापरतात न्यूरल नेटवर्क वास्तविक ऑडिओ आउटपुट तयार करण्यासाठी. न्यूरल नेटवर्कमध्ये सामान्यत: दोन मुख्य भाग असतात: एन्कोडर आणि डीकोडर.
एन्कोडर विविध इनपुट वेक्टरवर आधारित एकल सारांश वेक्टर तयार करण्याचा प्रयत्न करतो. आउटपुट काय असावे याचे प्रतिनिधित्व तयार करण्यासाठी ध्वनी, भावनिक पैलू आणि आवाज वैशिष्ट्यांविषयी माहिती एन्कोडरमध्ये ठेवली जाते. डीकोडर नंतर हे प्रतिनिधित्व ऑडिओमध्ये रूपांतरित करतो आणि आत्मविश्वास स्कोअर आउटपुट करतो.
15.ai वेब ऍप्लिकेशन नंतर सर्वोत्तम आत्मविश्वास स्कोअरसह शीर्ष तीन निकाल देते.
समस्या
AI-व्युत्पन्न सामग्रीच्या उदयासह जसे की deepfakes, वास्तविक लोकांची नक्कल करू शकणारे प्रगत AI विकसित करणे ही एक गंभीर नैतिक समस्या असू शकते.
सध्या, 15.ai वेब ऍप्लिकेशनमधून तुम्ही निवडू शकता ते आवाज ही सर्व काल्पनिक पात्र आहेत. तथापि, यामुळे अॅपला ऑनलाइन काही वाद निर्माण होण्यापासून थांबवले नाही.
काही आवाज कलाकारांनी व्हॉईस क्लोनिंग तंत्रज्ञानाच्या वापरावर मागे ढकलले आहे. त्यांच्या चिंतेमध्ये तोतयागिरी, सुस्पष्ट सामग्रीमध्ये त्यांच्या आवाजाचा वापर आणि तंत्रज्ञानामुळे व्हॉइस अभिनेत्याची भूमिका अप्रचलित असण्याची शक्यता यांचा समावेश होतो.
2022 च्या सुरुवातीला आणखी एक वाद झाला जेव्हा व्हॉईसवर NFT नावाची कंपनी त्यांच्या विपणन मोहिमेसाठी सामग्री तयार करण्यासाठी 15.ai वापरत असल्याचे आढळून आले.
निष्कर्ष
दैनंदिन जीवनात टेक्स्ट-टू-स्पीच आधीपासूनच प्रचलित आहे. व्हॉइस असिस्टंट, जीपीएस नेव्हिगेटर. आणि स्वयंचलित फोन कॉल्स आधीच सामान्य झाले आहेत. तथापि, हे ऍप्लिकेशन्स स्पष्टपणे मानवेतर आहेत की आम्ही सांगू शकतो की ते मशीन-निर्मित भाषण आहेत.
नैसर्गिक-आवाज देणारे आणि भावनिक TTS तंत्रज्ञान नवीन अनुप्रयोगांसाठी दार उघडू शकते. तथापि, व्हॉईस क्लोनिंगची नैतिकता अद्यापही शंकास्पद आहे. यापैकी बरेच संशोधक अल्गोरिदम लोकांसह सामायिक करण्यास नाखूष का आहेत हे निश्चितपणे अर्थपूर्ण आहे.
प्रत्युत्तर द्या