के तपाईंले कहिल्यै आफ्नो मनपर्ने पात्रको कुरा सुन्न चाहनुहुन्छ? मेसिन लर्निङको मद्दतले प्राकृतिक-ध्वनि पाठ-देखि-वाक् बिस्तारै वास्तविकतामा परिणत हुँदैछ।
उदाहरणका लागि, गुगलको NAT TTS मोडेल तिनीहरूको नयाँ शक्ति बनाउन प्रयोग भइरहेको छ अनुकूलन आवाज सेवा। यो सेवाले रेकर्डिङबाट प्रशिक्षित आवाज उत्पन्न गर्न तंत्रिका नेटवर्कहरू प्रयोग गर्दछ। वेब एपहरू जस्तै Uberduck तपाईंको आफ्नै संश्लेषित पाठ सिर्जना गर्न छनौट गर्नको लागि सयौं आवाजहरू प्रदान गर्नुहोस्।
यस लेखमा, हामी 15.ai को रूपमा चिनिने प्रभावशाली र समान रूपमा रहस्यमय एआई मोडेल हेर्नेछौं। एक अज्ञात विकासकर्ता द्वारा बनाईएको, यो सबैभन्दा कुशल र भावनात्मक मध्ये एक हुन सक्छ पाठ-देखि-वाक् मोडेलहरू अहिले सम्म।
15.ai के हो?
७.ai एक AI वेब अनुप्रयोग हो जुन भावनात्मक उच्च-फिडेलिटी टेक्स्ट-टू-स्पीच आवाजहरू उत्पन्न गर्न सक्षम छ। प्रयोगकर्ताहरूले Spongebob Squarepants देखि HAL 9000 बाट 2001: A Space Odyssey सम्म विभिन्न आवाजहरूबाट छनौट गर्न सक्छन्।
कार्यक्रम 15 नाम अन्तर्गत काम गर्ने एक अज्ञात पूर्व MIT अनुसन्धानकर्ता द्वारा विकसित गरिएको थियो। विकासकर्ताले यो परियोजना प्रारम्भमा विश्वविद्यालयको स्नातक अनुसन्धान अवसर कार्यक्रमको एक भागको रूपमा परिकल्पना गरिएको बताएको छ।
15.ai मा उपलब्ध धेरै आवाजहरू My Little Pony: Friendship is Magic का पात्रहरूको सार्वजनिक डाटासेटहरूमा प्रशिक्षित छन्। शोका उत्साही प्रशंसकहरूले तिनीहरूको मनपर्ने पात्रहरूको सही पाठ-देखि-वाच जेनेरेटरहरू सिर्जना गर्ने लक्ष्यका साथ संवादको घण्टा सङ्कलन, ट्रान्सक्राइब र प्रक्रिया गर्न एक सहयोगी प्रयास गठन गरेका छन्।
15.ai के गर्न सक्छ?
15.ai वेब अनुप्रयोगले दर्जनौं काल्पनिक पात्रहरू मध्ये एउटा छनोट गरेर काम गर्दछ जसमा मोडेललाई तालिम दिइएको छ र इनपुट पाठ पेश गर्दछ। Generate मा क्लिक गरेपछि, प्रयोगकर्ताले काल्पनिक क्यारेक्टरको तीनवटा अडियो क्लिपहरू दिइएका लाइनहरू बोल्ने प्राप्त गर्नुपर्छ।
पछि देखि गहिरो शिक्षा प्रयोग गरिएको मोडेल गैर-निर्धारित छ, 15.ai हरेक पटक अलि फरक बोली आउटपुट गर्दछ। एक अभिनेताले सही डेलिभरी प्राप्त गर्नको लागि कसरी धेरै टेकहरू आवश्यक पर्दछ जस्तै, 15.ai ले प्रयोगकर्ताले आफूलाई मनपर्ने आउटपुट फेला नपरेसम्म हरेक पटक विभिन्न डेलिभरी शैलीहरू उत्पन्न गर्छ।
परियोजनामा एक अद्वितीय सुविधा समावेश छ जसले प्रयोगकर्ताहरूलाई भावनात्मक सन्दर्भकहरू प्रयोग गरेर उत्पन्न रेखाको भावनालाई म्यानुअल रूपमा परिवर्तन गर्न अनुमति दिन्छ। यी प्यारामिटरहरूले MIT को प्रयोग गरेर प्रयोगकर्ता-इनपुट इमोजिसको भावना निकाल्न सक्षम छन्। DeepMoji मोडेल।
विकासकर्ताका अनुसार, 15.ai लाई अन्य समान TTS कार्यक्रमहरू भन्दा फरक सेट गर्ने कुरा यो हो कि मोडेलले "भावनाहरू र प्राकृतिकतालाई अक्षुण्ण राख्दै" आवाजहरूलाई सही रूपमा क्लोन गर्न धेरै थोरै डाटामा निर्भर गर्दछ।
15.ai कसरी काम गर्छ?
15.ai पछाडिको प्रविधिलाई हेरौं।
पहिलो, 15.ai को मुख्य विकासकर्ता भन्छन् कि कार्यक्रमले भावनाको विभिन्न अवस्थाहरूसँग आवाजहरू उत्पन्न गर्न अनुकूलन मोडेल प्रयोग गर्दछ। लेखकले परियोजनामा विस्तृत कागज प्रकाशित गर्न बाँकी रहेकोले, हामी केवल पर्दा पछाडि के भइरहेको छ भनेर व्यापक अनुमान गर्न सक्छौं।
Phonemes पुन: प्राप्त गर्दै
पहिले, कार्यक्रमले इनपुट पाठलाई कसरी पार्स गर्छ भनेर हेरौं। कार्यक्रमले भाषण उत्पन्न गर्नु अघि, यसले प्रत्येक व्यक्तिगत शब्दलाई फोनमहरूको सम्बन्धित संग्रहमा रूपान्तरण गर्नुपर्छ। उदाहरणका लागि, शब्द "कुकुर" तीन फोनमहरू मिलेर बनेको छ: /d/, /ɒ/, र /ɡ/।
तर 15.ai लाई प्रत्येक शब्दको लागि कुन फोनमहरू प्रयोग गर्ने भनेर कसरी थाहा हुन्छ?
15.ai को बारेमा पृष्ठ अनुसार, कार्यक्रमले शब्दकोश लुकअप तालिका प्रयोग गर्दछ। तालिकाले स्रोतको रूपमा Oxford Dictionaries API, Wiktionary, र CMU Pronouncing Dictionary प्रयोग गर्दछ। 15.ai ले अन्य वेबसाइटहरू जस्तै Reddit र Urban Dictionary को नयाँ गठित सर्तहरू र वाक्यांशहरूको स्रोतको रूपमा प्रयोग गर्दछ।
यदि कुनै पनि शब्द शब्दकोशमा अवस्थित छैन भने, यसको उच्चारणलाई मोडेलले सिकेको फोनोलोजिकल नियमहरू प्रयोग गरेर निकालिन्छ। LibriTTS डाटासेट। यो डेटासेट एक मूल भाषा वा बोलीमा लिखित वा बोलिने शब्दहरूको कोर्पस हो - लगभग 585 घण्टा अंग्रेजी बोल्ने मानिसहरूको डेटासेट।
भावनाहरू सम्मिलित गर्दै
विकासकर्ताका अनुसार, मोडेलले इनपुट पाठको कथित भावना अनुमान गर्ने प्रयास गर्दछ। यस मोडेलले DeepMoji मार्फत यो कार्य पूरा गर्छ भावनात्मक विश्लेषण मोडेल। यो विशेष मोडेललाई भावनाहरू अभिव्यक्त गर्न भाषा कसरी प्रयोग गरिन्छ भन्ने बुझ्ने लक्ष्यका साथ इमोजीहरूका साथ अरबौं ट्वीटहरूमा तालिम दिइएको थियो। मोडेलको नतिजालाई TTS मोडेलमा इम्बेड गरिएको छ जसलाई इच्छित भावना तर्फ आउटपुट हेरफेर गर्न।
एक पटक इनपुट पाठबाट फोनमहरू र भावनाहरू निकालेपछि, यो अब भाषण संश्लेषण गर्ने समय हो।
आवाज क्लोनिङ र संश्लेषण
15.ai जस्ता टेक्स्ट-टू-स्पीच मोडेलहरू बहु-स्पीकर मोडेलहरू भनेर चिनिन्छन्। यी मोडेलहरू विभिन्न आवाजहरूमा बोल्ने तरिका सिक्न सक्षम हुनका लागि बनाइएका छन्। हाम्रो मोडेललाई राम्ररी तालिम दिनको लागि, हामीले अद्वितीय आवाज सुविधाहरू निकाल्ने र कम्प्युटरले बुझ्न सक्ने तरिकामा प्रतिनिधित्व गर्ने तरिका खोज्नुपर्छ। यो प्रक्रियालाई स्पिकर इम्बेडिङ भनिन्छ।
वर्तमान पाठ-देखि-वाक् मोडेलहरू प्रयोग तंत्रिका सञ्जालहरू वास्तविक अडियो आउटपुट सिर्जना गर्न। तंत्रिका नेटवर्कमा सामान्यतया दुई मुख्य भागहरू हुन्छन्: एउटा एन्कोडर र डिकोडर।
इन्कोडरले विभिन्न इनपुट भेक्टरहरूमा आधारित एकल सारांश भेक्टर निर्माण गर्ने प्रयास गर्छ। आउटपुट कस्तो हुनुपर्छ भन्ने प्रतिनिधित्व सिर्जना गर्न फोनमहरू, भावनात्मक पक्षहरू, र आवाज सुविधाहरूको बारेमा जानकारी एन्कोडरमा राखिन्छ। डिकोडरले यो प्रतिनिधित्वलाई अडियोमा रूपान्तरण गर्छ र आत्मविश्वास स्कोर आउटपुट गर्दछ।
15.ai वेब अनुप्रयोगले उत्कृष्ट आत्मविश्वास स्कोरको साथ शीर्ष तीन परिणामहरू फर्काउँछ।
मुद्दा
AI-उत्पन्न सामग्रीको उदय संग जस्तै deepfakesवास्तविक मानिसहरूको नक्कल गर्न सक्ने उन्नत एआई विकास गर्नु गम्भीर नैतिक मुद्दा हुन सक्छ।
हाल, तपाईंले 15.ai वेब अनुप्रयोगबाट छनौट गर्न सक्ने आवाजहरू सबै काल्पनिक पात्रहरू हुन्। यद्यपि, यसले एपलाई अनलाइनमा केही विवाद उत्पन्न गर्नबाट रोकेन।
केही आवाज कलाकारहरूले भ्वाइस क्लोनिङ प्रविधिको प्रयोगमा पछाडि धकेलेका छन्। तिनीहरूका चिन्ताहरूमा प्रतिरूपण, स्पष्ट सामग्रीमा उनीहरूको आवाजको प्रयोग, र प्रविधिले आवाज अभिनेताको भूमिकालाई अप्रचलित बनाउन सक्ने सम्भावना समावेश गर्दछ।
अर्को विवाद २०२२ मा सुरु भयो जब भ्वाइसवर्स NFT भनिने कम्पनीले आफ्नो मार्केटिङ अभियानको लागि सामग्री उत्पन्न गर्न 2022.ai प्रयोग गरिरहेको पत्ता लाग्यो।
निष्कर्ष
दैनिक जीवनमा टेक्स्ट-टू-स्पीच पहिले नै प्रचलित छ। भ्वाइस सहायकहरू, GPS नेभिगेटरहरू। र स्वचालित फोन कलहरू पहिले नै सामान्य ठाउँ भइसकेका छन्। यद्यपि, यी एप्लिकेसनहरू स्पष्ट रूपमा गैर-मानवीय छन् कि हामी भन्न सक्छौं कि तिनीहरू मेसिनद्वारा निर्मित भाषण हुन्।
प्राकृतिक ध्वनि र भावनात्मक TTS प्रविधिले नयाँ अनुप्रयोगहरूको लागि ढोका खोल्न सक्छ। यद्यपि, भ्वाइस क्लोनिङको नैतिकता अझै पनि राम्रोसँग शंकास्पद छ। यसले निश्चित रूपमा अर्थ दिन्छ किन यी धेरै शोधकर्ताहरू जनतासँग एल्गोरिथ्म साझा गर्न अनिच्छुक छन्।
जवाफ छाड्नुस्