ڇا توهان ڪڏهن چاهيو ٿا ته توهان جي پسنديده ڪردار توهان سان ڳالهايو؟ مشيني سکيا جي مدد سان قدرتي آواز واري متن کان تقرير آهستي آهستي حقيقت بڻجي رهي آهي.
مثال طور، گوگل جو NAT TTS ماڊل استعمال ڪيو پيو وڃي انهن جي نئين طاقت کي حسب ضرورت آواز خدمت. هي خدمت اعصابي نيٽ ورڪ استعمال ڪري ٿي رڪارڊنگ مان تربيت يافته آواز پيدا ڪرڻ لاءِ. ويب ايپس جهڙوڪ Uberduck سوين آوازون مهيا ڪريو توھان لاءِ چونڊڻ لاءِ توھان جو پنھنجو ٺاھيل متن ٺاھيو.
هن آرٽيڪل ۾، اسان 15.ai جي نالي سان مشهور ۽ هڪجهڙائي واري AI ماڊل تي نظر ڪنداسين. هڪ گمنام ڊولپر پاران ٺاهيل، اهو ٿي سگهي ٿو سڀ کان وڌيڪ موثر ۽ جذباتي متن کان تقرير جا ماڊل اڃان تائين.
15.ai ڇا آهي؟
15. اي هڪ AI ويب ايپليڪيشن آهي جيڪا جذباتي اعليٰ مخلص ٽيڪسٽ کان اسپيچ آوازن کي پيدا ڪرڻ جي قابل آهي. استعمال ڪندڙ مختلف آوازن مان چونڊي سگھن ٿا Spongebob Squarepants کان HAL 9000 کان وٺي 2001: A Space Odyssey.
پروگرام 15 جي نالي سان ڪم ڪندڙ هڪ گمنام اڳوڻي MIT محقق پاران تيار ڪيو ويو آهي. ڊولپر ٻڌايو آهي ته اهو منصوبو شروعاتي طور تي يونيورسٽي جي انڊر گريجوئيٽ ريسرچ موقعن جي پروگرام جي حصي طور تصور ڪيو ويو هو.
15.ai ۾ موجود ڪيتريون ئي آوازون My Little Pony: Friendship is Magic جي ڪردارن جي عوامي ڊيٽا سيٽن تي تربيت يافته آهن. شو جي شوقين مداحن پنهنجي پسنديده ڪردارن جي درست ٽيڪسٽ کان اسپيچ جنريٽر ٺاهڻ جي مقصد سان ڊائلاگ جي ڪلاڪن کي گڏ ڪرڻ، نقل ڪرڻ ۽ پروسيس ڪرڻ لاءِ هڪ گڏيل ڪوشش ٺاهي آهي.
15.ai ڇا ڪري سگھي ٿو؟
15.ai ويب ايپليڪيشن ڪيترن ئي افسانوي ڪردارن مان هڪ کي چونڊڻ سان ڪم ڪري ٿي جنهن تي ماڊل کي تربيت ڏني وئي آهي ۽ ان پٽ ٽيڪسٽ جمع ڪري. Generate تي ڪلڪ ڪرڻ کان پوءِ، استعمال ڪندڙ کي افسانوي ڪردار جا ٽي آڊيو ڪلپس حاصل ڪرڻ گهرجن جيڪي ڏنل لائينون ڳالهائين.
هن کان وٺي تمام گهڻي سکيا استعمال ٿيل ماڊل غير معياري آهي، 15.ai هر وقت ٿورو مختلف تقرير ڪڍي ٿو. ساڳيءَ طرح ڪيئن هڪ اداڪار کي صحيح ترسيل حاصل ڪرڻ لاءِ ڪيترن ئي وقتن جي ضرورت پئجي سگھي ٿي، 15.ai هر ڀيري مختلف ترسيل انداز ٺاهي ٿو جيستائين استعمال ڪندڙ کي پنهنجي پسند جي پيداوار نه ملي.
پروجيڪٽ ۾ هڪ منفرد خصوصيت شامل آهي جيڪا صارفين کي دستي طور تي ٺاهيل لڪير جي جذبات کي جذباتي حوالي سان استعمال ڪندي تبديل ڪرڻ جي اجازت ڏئي ٿي. اهي پيرا ميٽرز استعمال ڪري سگھن ٿا صارف-انپٽ ايموجيس جي جذبي کي MIT جي استعمال ڪندي. ديپ موجي ماڊل.
ڊولپر جي مطابق، 15.ai کي ٻين ساڳين TTS پروگرامن کان ڌار ڪرڻ جو نمونو اهو آهي ته ماڊل آوازن کي صحيح طور تي ڪلون ڪرڻ لاءِ تمام گهٽ ڊيٽا تي ڀاڙي ٿو جڏهن ته ”جذبات ۽ فطرت کي برقرار رکندي“.
15.ai ڪيئن ڪم ڪندو آهي؟
اچو ته 15.ai جي پويان ٽيڪنالاجي کي ڏسو.
پهريون، 15.ai جي مکيه ڊولپر جو چوڻ آهي ته پروگرام هڪ ڪسٽم ماڊل استعمال ڪري ٿو آواز پيدا ڪرڻ لاء جذبات جي مختلف رياستن سان. جيئن ته ليکڪ اڃا تائين هن منصوبي تي تفصيلي مقالو شايع ڪيو آهي، اسان صرف پردي جي پويان ڇا ٿي رهيو آهي بابت وسيع مفهوم ٺاهي سگهون ٿا.
فونيمز ٻيهر حاصل ڪرڻ
پهرين، اچو ته ڏسو ته ڪيئن پروگرام ان پٽ ٽيڪسٽ کي پارس ڪري ٿو. ان کان اڳ جو پروگرام تقرير پيدا ڪري سگھي، ان کي لازمي طور تي ھر ھڪ لفظ کي پنھنجي لاڳاپيل صوتي مجموعن ۾ تبديل ڪرڻ گھرجي. مثال طور، لفظ "ڪتو" ٽن صوتين مان ٺهيل آهي: /d/، /ɒ/، ۽ /ɡ/.
پر 15.ai کي ڪيئن خبر پوي ٿي ته هر لفظ لاءِ ڪهڙا فونيم استعمال ڪرڻا آهن؟
15.ai جي باري ۾ صفحي جي مطابق، پروگرام استعمال ڪري ٿو لغت ڏسڻ واري ٽيبل. جدول آڪسفورڊ ڊڪشنري API، وڪيپيڊيا، ۽ CMU Pronouncing Dictionary کي ذريعن طور استعمال ڪري ٿو. 15.ai ٻين ويب سائيٽن کي استعمال ڪري ٿو جهڙوڪ Reddit ۽ Urban Dictionary نئين ٺهيل اصطلاحن ۽ جملن لاء ذريعن طور.
جيڪڏهن ڪو به لفظ ڊڪشنريءَ ۾ موجود نه آهي ته ان جو تلفظ صوتي قاعدن جي مدد سان ڪڍيو ويندو آهي جنهن ماڊل مان سکيو آهي. LibriTTS ڊيٽا سيٽ. هي ڊيٽا سيٽ هڪ ڪورپس آهي- هڪ مادري ٻولي يا لهجي ۾ لکيل يا ڳالهايل لفظن جو هڪ ڊيٽا سيٽ- لڳ ڀڳ 585 ڪلاڪ انگريزي ڳالهائيندڙ ماڻهن جو.
جذبن کي گڏ ڪرڻ
ڊولپر جي مطابق، ماڊل ان پٽ ٽيڪسٽ جي سمجھي جذبي جو اندازو لڳائڻ جي ڪوشش ڪري ٿو. ماڊل هن ڪم کي ڊيپ موجي ذريعي پورو ڪري ٿو جذبي تجزيه ماڊل هن خاص ماڊل کي ايموجيز سان اربين ٽوئيٽس تي تربيت ڏني وئي هئي انهي مقصد سان ته اهو سمجهڻ ته ٻولي ڪيئن استعمال ٿئي ٿي جذبات جي اظهار لاءِ. ماڊل جو نتيجو TTS ماڊل ۾ شامل ڪيو ويو آهي ته جيئن گهربل جذبي جي پيداوار کي ترتيب ڏيو.
هڪ دفعو ان پٽ ٽيڪسٽ مان فونيمز ۽ جذبا ڪڍيا ويا آهن، اهو هاڻي وقت آهي تقرير کي گڏ ڪرڻ جو.
وائيس ڪلوننگ ۽ سنٿيسس
متن کان تقرير جا ماڊل جهڙوڪ 15.ai ملٽي اسپيڪر ماڊل طور سڃاتل آهن. اهي ماڊل ٺاهيا ويا آهن ته سکڻ جي قابل ٿي مختلف آوازن ۾ ڪيئن ڳالهائڻ. اسان جي ماڊل کي صحيح طور تي تربيت ڏيڻ لاء، اسان کي منفرد آواز جي خاصيتن کي ڪڍڻ لاء هڪ طريقو ڳولڻ گهرجي ۽ انهي طريقي سان نمائندگي ڪرڻ گهرجي جيئن ڪمپيوٽر سمجهي سگهي. اهو عمل اسپيڪر ايمبيڊنگ طور سڃاتو وڃي ٿو.
موجوده متن کان تقرير جا ماڊل استعمال ڪن ٿا نظرياتي نيٽ ورڪ حقيقي آڊيو آئوٽ ٺاهڻ لاء. نيورل نيٽ ورڪ عام طور تي ٻن مکيه حصن تي مشتمل آهي: هڪ انڪوڊر ۽ هڪ ڊيڪوڊر.
انڪوڊر مختلف ان پٽ ویکٹرز جي بنياد تي هڪ واحد خلاصو ویکٹر ٺاهڻ جي ڪوشش ڪندو آهي. فونيمز، جذباتي پهلو، ۽ آواز جي خاصيتن بابت معلومات انڪوڊر ۾ رکيل آهن انهي جي نمائندگي ڪرڻ لاءِ ته پيداوار ڇا هجڻ گهرجي. ڊيڪوڊر وري هن نمائندگي کي آڊيو ۾ بدلائي ٿو ۽ هڪ اعتماد جو نمبر ڪڍي ٿو.
15.ai ويب ايپليڪيشن وري مٿين ٽن نتيجن کي موٽائي ٿو بهترين اعتماد واري سکور سان.
مسئلن
AI-generated مواد جي اڀار سان جيئن deepfakes، ترقي يافته AI جيڪا حقيقي ماڻهن کي نقل ڪري سگهي ٿي هڪ سنگين اخلاقي مسئلو ٿي سگهي ٿي.
في الحال، آواز جيڪي توهان 15.ai ويب ايپليڪيشن مان چونڊي سگهو ٿا اهي سڀئي افسانوي ڪردار آهن. بهرحال، اهو ايپ کي آن لائن ڪجهه تڪرار پيدا ڪرڻ کان روڪي نه سگهيو.
ڪجھ آواز اداڪار آواز ڪلوننگ ٽيڪنالاجي جي استعمال تي پوئتي ڌڪيو آھي. انهن مان خدشات شامل آهن نقالي، انهن جي آواز جو استعمال واضح مواد ۾، ۽ امڪان اهو آهي ته ٽيڪنالاجي آواز جي اداڪار جي ڪردار کي ختم ڪري سگهي ٿي.
ٻيو تڪرار 2022 ۾ شروع ٿيو جڏهن وائسورس اين ايف ٽي نالي هڪ ڪمپني کي دريافت ڪيو ويو ته هو 15.ai استعمال ڪندي پنهنجي مارڪيٽنگ مهم لاءِ مواد ٺاهي.
ٿڪل
متن کان تقرير اڳ ۾ ئي روزاني زندگي ۾ ڪافي پکڙيل آهي. وائس اسسٽنٽ، GPS نيويگيٽر. ۽ خودڪار فون ڪالون اڳ ۾ ئي عام ٿي چڪيون آهن. بهرحال، اهي ايپليڪيشنون واضح طور تي غير انساني طور تي ڪافي آهن ته اسان اهو چئي سگهون ٿا ته اهي مشين سان ٺهيل تقرير آهن.
قدرتي آواز ۽ جذباتي TTS ٽيڪنالاجي شايد نئين ايپليڪيشنن لاء دروازو کوليو. بهرحال، آواز ڪلوننگ جي اخلاقيات اڃا تائين قابل اعتراض آهي. اهو يقيني طور تي سمجھ ۾ اچي ٿو ڇو ته انهن مان ڪيترائي محقق عوام سان الگورتھم کي حصيداري ڪرڻ کان ناگزير آهن.
جواب ڇڏي وڃو