ایا تاسو کله هم غوښتل چې د خپل غوره کرکټر خبرې واورئ؟ طبیعي غږیز متن ته وینا ورو ورو د ماشین زده کړې په مرسته په حقیقت بدلیږي.
د مثال په توګه، د ګوګل د NAT TTS ماډل د دوی نوي ځواک لپاره کارول کیږي دودیز غږ خدمت دا خدمت د عصبي شبکو څخه کار اخلي ترڅو د ریکارډونو څخه روزل شوي غږ رامینځته کړي. ویب ایپس لکه Uberduck ستاسو لپاره په سلګونو غږونه چمتو کړئ ترڅو د خپل ترکیب شوي متن جوړولو لپاره غوره کړئ.
پدې مقاله کې ، موږ به د 15.ai په نوم پیژندل شوي اغیزمن او مساوي راز لرونکي AI ماډل وګورو. د یو نامعلوم پراختیا کونکي لخوا رامینځته شوی ، دا ممکن یو له خورا مؤثره او احساساتي وي د متن څخه تر وینا ماډلونه تر دې دمه.
15.ai څه شی دی؟
15.ai د AI ویب اپلیکیشن دی چې د احساساتي لوړ مخلص متن څخه تر وینا غږونو رامینځته کولو وړتیا لري. کاروونکي کولی شي له 9000 څخه HAL 2001 ته Spongebob Squarepants څخه د مختلفو غږونو څخه غوره کړي: A Space Odyssey.
دا برنامه د MIT یو نامعلوم پخواني څیړونکي لخوا رامینځته شوې چې د 15 په نوم کار کوي. پراختیا کونکي ویلي چې دا پروژه په پیل کې د پوهنتون د انډول فارغ شوي څیړنې فرصتونو برنامې برخې په توګه تصور شوې وه.
ډیری غږونه چې په 15.ai کې شتون لري د My Little Pony څخه د کرکټرونو عامه ډیټا سیټونو کې روزل شوي: ملګرتیا جادو ده. د نندارې لیواله مینه والو د دوی د خوښې کرکټرونو دقیق متن څخه تر وینا جنریټرونو رامینځته کولو هدف سره د ډیالوګ ساعتونو راټولولو ، لیږدونې او پروسس کولو لپاره ګډه هڅه جوړه کړې.
15.ai څه کولی شي؟
د 15.ai ویب اپلیکیشن د لسګونو افسانوي کرکټرونو څخه د یو غوره کولو له لارې کار کوي چې ماډل یې روزل شوی او د متن متن وړاندې کوي. په تولید کلیک کولو وروسته، کاروونکي باید د افسانوي کرکټر درې آډیو کلیپونه ترلاسه کړي چې په ورکړل شوي کرښو خبرې کوي.
څرنګه چې د ژوره زده کړه کارول شوی ماډل غیر متمرکز دی، 15.ai هر وخت یو څه مختلف وینا وړاندې کوي. ورته ورته چې څنګه یو لوبغاړی ممکن د سم تحویلۍ ترلاسه کولو لپاره ډیری وختونو ته اړتیا ولري ، 15.ai هر وخت د تحویلي مختلف سټایلونه رامینځته کوي تر هغه چې کارونکي د دوی خوښولو محصول ومومي.
په پروژه کې یو ځانګړی خصوصیت شامل دی چې کاروونکو ته اجازه ورکوي په لاسي ډول د احساساتي شرایطو په کارولو سره د تولید شوي کرښې احساسات بدل کړي. دا پیرامیټرې د دې وړتیا لري چې د MIT په کارولو سره د کارونکي ان پټ ایموجیز احساس کم کړي ډیپ موجي موډل.
د پراختیا کونکي په وینا، هغه څه چې 15.ai د نورو ورته TTS برنامو څخه جلا کوي دا دي چې ماډل په خورا لږ ډیټا تکیه کوي ترڅو غږونه په دقیق ډول کلون کړي پداسې حال کې چې "احساسات او طبیعي ساتل".
15.ai څنګه کار کوي؟
راځئ چې د 15.ai شاته ټیکنالوژي وګورو.
لومړی، د 15.ai اصلي پراختیا کونکي وايي چې برنامه د احساساتو مختلف حالتونو سره غږونو رامینځته کولو لپاره دودیز ماډل کاروي. څرنګه چې لیکوال لا تر اوسه د پروژې په اړه مفصله مقاله خپره کړې، موږ یوازې د پردې تر شا څه پیښیږي پراخ انګیرنې کولی شو.
د فونیمونو ترلاسه کول
لومړی، راځئ وګورو چې برنامه څنګه د ان پټ متن پارس کوي. مخکې لدې چې برنامه وینا رامینځته کړي ، دا باید هره کلمه د فونیمونو اړونده ټولګه کې بدله کړي. د مثال په توګه، د "سپي" کلمه د دریو فونیمونو څخه جوړه شوې ده: /d/، /ɒ/، او /ɡ/.
مګر 15.ai څنګه پوهیږي چې د هرې کلمې لپاره کوم فونیمونه کارول کیږي؟
د 15.ai د پاڼې په اړه، برنامه د لغت لټون جدول کاروي. جدول د اکسفورډ قاموس API، ويکيشنري، او د CMU تلفظي قاموس د سرچينې په توګه کاروي. 15.ai نورې ویب پاڼې لکه Reddit او Urban Dictionary د نوي جوړ شوي اصطلاحاتو او جملو لپاره د سرچینو په توګه کاروي.
که کومه کلمه په لغت کې شتون ونلري، د هغې تلفظ د فونولوژیکي قواعدو په کارولو سره محاسبه کیږي چې ماډل یې له دې څخه زده کړی دی. LibriTTS ډیټاسیټ دا ډیټاسیټ یو کورپس دی – په مورنۍ ژبه یا ډیلي کې د لیکلو یا ویل شوي کلمو ډیټا سیټ – د شاوخوا 585 ساعتونو خلکو انګلیسي خبرې کوي.
د احساساتو مینځل
د پراختیا کونکي په وینا، ماډل هڅه کوي د ان پټ متن احساس شوي احساس اټکل کړي. ماډل دا دنده د DeepMoji له لارې سرته رسوي جذب تحلیل ماډل دا ځانګړی ماډل د ایموجیز سره په ملیاردونو ټویټونو کې روزل شوی و چې هدف یې پوهیدل چې څنګه ژبه د احساساتو څرګندولو لپاره کارول کیږي. د ماډل پایله د TTS ماډل کې ځای په ځای شوې ترڅو د مطلوب احساس په لور محصول تنظیم کړي.
یوځل چې فونیمونه او احساسات د ان پټ متن څخه ایستل شوي ، اوس د وینا ترکیب کولو وخت دی.
د غږ کلوننګ او ترکیب
د متن څخه تر وینا ماډلونه لکه 15.ai د څو سپیکر ماډلونو په توګه پیژندل کیږي. دا ماډلونه د دې لپاره جوړ شوي چې په مختلفو غږونو کې د خبرو کولو څرنګوالی زده کړي. د دې لپاره چې زموږ ماډل په سمه توګه وروزل شي، موږ باید د ځانګړي غږ ځانګړتیاوو د استخراج لپاره یوه لاره پیدا کړو او په داسې طریقه یې استازیتوب وکړو چې کمپیوټر پوه شي. دا پروسه د سپیکر سرایت په نوم پیژندل کیږي.
د متن څخه تر وینا اوسني ماډلونه کاروي نوریال شبکې د حقیقي آډیو تولید رامینځته کولو لپاره. عصبي شبکه په عمومي ډول له دوو مهمو برخو څخه جوړه ده: یو کوډر او یو کوډر.
کوډ کوونکی هڅه کوي د مختلف ان پټ ویکتورونو پراساس یو واحد لنډیز ویکتور رامینځته کړي. د فونیمونو، احساساتي اړخونو، او غږ ځانګړتیاوو په اړه معلومات په کوډډر کې ځای پر ځای شوي ترڅو د هغه څه استازیتوب وکړي چې محصول باید څه وي. کوډ کونکی بیا دا نمایش په آډیو بدلوي او د باور سکور تولیدوي.
د 15.ai ویب غوښتنلیک بیا د غوره باور نمرې سره غوره درې پایلې بیرته راولي.
مسایل
د AI تولید شوي مینځپانګې وده سره لکه ژړاوی، د پرمختللي AI رامینځته کول چې کولی شي د ریښتیني خلکو تقلید کولی شي جدي اخلاقي مسله وي.
اوس مهال، هغه غږونه چې تاسو یې د 15.ai ویب غوښتنلیک څخه غوره کولی شئ ټول افسانوي کرکټرونه دي. په هرصورت ، دې اپلیکیشن د آنلاین ځینې جنجال رامینځته کولو مخه ونه نیوله.
یو څو غږ لوبغاړو د غږ کلونینګ ټیکنالوژۍ کارولو ته شا اړولې. د دوی په اندیښنو کې تقلید، په ښکاره منځپانګې کې د دوی غږ کارول، او دا احتمال شامل دی چې ټیکنالوژي ممکن د غږ اداکار رول متروک کړي.
بل تناقض د 2022 په پیل کې رامینځته شو کله چې د Voiceverse NFT په نوم یو شرکت وموندل شو چې د دوی د بازارموندنې کمپاین لپاره مینځپانګې رامینځته کولو لپاره 15.ai کاروي.
پایله
له متن څخه وینا لا دمخه په ورځني ژوند کې خورا پراخه ده. د غږ معاونین، د GPS نیویګیټر. او اتومات تلیفون زنګونه لا دمخه یو عام ځای ګرځیدلی. په هرصورت، دا غوښتنلیکونه په ښکاره ډول غیر انساني دي چې موږ کولی شو ووایو چې دا د ماشین جوړ شوي وینا دي.
طبیعي غږ او احساساتي TTS ټیکنالوژي ممکن د نوي غوښتنلیکونو لپاره دروازه پرانیزي. په هرصورت، د غږ کلون کولو اخلاق لاهم په غوره توګه د پوښتنې وړ دي. دا یقینا معنی لري چې ولې ډیری دا څیړونکي د خلکو سره د الګوریتم شریکولو کې زړه نازړه دي.
یو ځواب ورکړئ ووځي