Heç sevdiyiniz personajın sizinlə danışdığını eşitmək istəmisiniz? Təbii səslənən mətndən nitqə maşın öyrənməsinin köməyi ilə yavaş-yavaş reallığa çevrilir.
Məsələn, Google-un NAT TTS modeli yenilərini gücləndirmək üçün istifadə olunur Fərdi Səs xidmət. Bu xidmət qeydlərdən öyrədilmiş səs yaratmaq üçün neyron şəbəkələrdən istifadə edir. kimi veb proqramlar Uberduck öz sintez edilmiş mətninizi yaratmaq üçün seçim etməyiniz üçün yüzlərlə səs təqdim edin.
Bu yazıda biz 15.ai kimi tanınan təsirli və eyni dərəcədə müəmmalı AI modelinə baxacağıq. Anonim tərtibatçı tərəfindən yaradılan bu, ən səmərəli və emosionallardan biri ola bilər mətndən nitqə modellər indiyə qədər.
15.ai nədir?
15.ai emosional yüksək dəqiqlikli mətndən nitqə səslər yaratmağa qadir olan AI veb tətbiqidir. İstifadəçilər Spongebob Squarepants-dan 9000-ci ildən HAL 2001-ə qədər müxtəlif səslər arasından seçim edə bilərlər: A Space Odyssey.
Proqram 15 adı altında çalışan anonim keçmiş MİT tədqiqatçısı tərəfindən hazırlanıb. Tərtibatçı layihənin əvvəlcə universitetin Bakalavr Tədqiqat İmkanları Proqramının bir hissəsi kimi nəzərdə tutulduğunu bildirib.
15.ai-də mövcud olan səslərin çoxu My Little Pony: Dostluq Sehrlidir filmindəki personajların ictimai verilənlər bazası üzərində öyrədilir. Şounun həvəsli pərəstişkarları sevimli personajlarının dəqiq mətndən nitqə generatorlarını yaratmaq məqsədi ilə dialoq saatlarını toplamaq, transkripsiya etmək və işləmək üçün birgə səylər yaratdılar.
15.ai nə edə bilər?
15.ai veb tətbiqi modelin öyrədildiyi onlarla uydurma personajdan birini seçmək və daxil edilmiş mətni təqdim etməklə işləyir. Yarat düyməsini kliklədikdən sonra istifadəçi verilmiş sətirlərdə danışan uydurma personajın üç audio klipini almalıdır.
Bu ildən dərin öyrənmə istifadə edilən model qeyri-deterministikdir, 15.ai hər dəfə bir az fərqli çıxış edir. Aktyorun düzgün çatdırılmanı əldə etmək üçün bir neçə dəfə tələb edə biləcəyi kimi, 15.ai istifadəçi bəyəndiyi çıxışı tapana qədər hər dəfə fərqli çatdırılma üslubları yaradır.
Layihə istifadəçilərə emosional kontekstualizatorlardan istifadə edərək yaradılan xəttin emosiyasını əl ilə dəyişməyə imkan verən unikal funksiyanı ehtiva edir. Bu parametrlər MIT-dən istifadə edərək istifadəçinin daxil etdiyi emojilərin əhval-ruhiyyəsini çıxara bilir DeepMoji model.
Tərtibatçının sözlərinə görə, 15.ai-ni digər oxşar TTS proqramlarından fərqləndirən cəhət ondan ibarətdir ki, model “emosiyaları və təbiiliyi toxunulmaz saxlamaqla” səsləri dəqiq klonlaşdırmaq üçün çox az məlumatdan istifadə edir.
15.ai necə işləyir?
Gəlin 15.ai-nin arxasındakı texnologiyaya nəzər salaq.
Birincisi, 15.ai-nin əsas tərtibatçısı deyir ki, proqram müxtəlif emosiya hallarına malik səsləri yaratmaq üçün fərdi modeldən istifadə edir. Müəllif hələ layihə ilə bağlı təfərrüatlı məqalə dərc etmədiyi üçün biz yalnız pərdə arxasında baş verənlərlə bağlı geniş fərziyyələr irəli sürə bilərik.
Fonemlərin bərpası
Əvvəlcə proqramın daxil edilən mətni necə təhlil etdiyinə baxaq. Proqram nitq yaratmazdan əvvəl hər bir sözü öz müvafiq fonemlər kolleksiyasına çevirməlidir. Məsələn, "it" sözü üç fonemdən ibarətdir: /d/, /ɒ/ və /ɡ/.
Bəs 15.ai hər söz üçün hansı fonemlərdən istifadə edəcəyini necə bilir?
15.ai-nin Haqqında səhifəsinə əsasən, proqram lüğət axtarış cədvəlindən istifadə edir. Cədvəl mənbə kimi Oksford Lüğətləri API, Vikilüğət və CMU Tələffüz Lüğətindən istifadə edir. 15.ai yeni yaradılmış terminlər və ifadələr üçün mənbə kimi Reddit və Urban Dictionary kimi digər internet saytlarından istifadə edir.
Əgər lüğətdə hər hansı bir söz yoxdursa, onun tələffüzü modelin öyrəndiyi fonoloji qaydalardan istifadə etməklə çıxarılır. LibriTTS verilənlər toplusu. Bu verilənlər bazası, təxminən 585 saat ingilis dilində danışan insanların ana dilində və ya ləhcəsində yazılı və ya şifahi sözlərin verilənlər toplusudur.
Emosiyaların Yerləşdirilməsi
Tərtibatçının sözlərinə görə, model daxil edilən mətnin qəbul edilən emosiyasını təxmin etməyə çalışır. Model bu tapşırığı DeepMoji vasitəsilə yerinə yetirir əhval-ruhiyyəni təhlil model. Bu xüsusi model, emosiyaları ifadə etmək üçün dilin necə istifadə edildiyini başa düşmək məqsədi ilə emojiləri olan milyardlarla tvit üzərində təlim keçmişdir. Çıxışı istənilən emosiyaya doğru manipulyasiya etmək üçün modelin nəticəsi TTS modelinə daxil edilmişdir.
Fonemlər və hisslər daxil edilən mətndən çıxarıldıqdan sonra nitqi sintez etməyin vaxtı gəldi.
Səsin klonlanması və sintezi
15.ai kimi mətndən nitqə modellər çox dinamikli modellər kimi tanınır. Bu modellər müxtəlif səslərdə danışmağı öyrənmək üçün qurulmuşdur. Modelimizi düzgün öyrətmək üçün unikal səs xüsusiyyətlərini çıxarmaq və onu kompüterin başa düşəcəyi şəkildə təqdim etmək üçün bir yol tapmalıyıq. Bu proses dinamiklərin yerləşdirilməsi kimi tanınır.
Cari mətndən nitqə modelləri istifadə edir sinir şəbəkələri faktiki audio çıxış yaratmaq üçün. Neyron şəbəkəsi adətən iki əsas hissədən ibarətdir: kodlayıcı və dekoder.
Kodlayıcı müxtəlif giriş vektorları əsasında vahid xülasə vektoru qurmağa çalışır. Çıxışın nə olması lazım olduğunu təsvir etmək üçün fonemlər, emosional aspektlər və səs xüsusiyyətləri haqqında məlumat kodlayıcıya yerləşdirilir. Sonra dekoder bu təqdimatı audioya çevirir və etimad xalını verir.
15.ai veb tətbiqi daha sonra ən yaxşı etimad balı ilə ilk üç nəticəni qaytarır.
Məsələləri
kimi AI tərəfindən yaradılan məzmunun artması ilə deepfakes, real insanları təqlid edə bilən qabaqcıl süni intellekt yaratmaq ciddi etik problem ola bilər.
Hazırda 15.ai veb proqramından seçə biləcəyiniz səslərin hamısı uydurma personajlardır. Bununla belə, bu, tətbiqin internetdə bəzi mübahisələrə səbəb olmasına mane olmadı.
Bir neçə səs aktyoru səs klonlama texnologiyasından istifadəni dayandırdı. Onlardan olan narahatlıqlara imitasiya, onların səsinin açıq məzmunda istifadəsi və texnologiyanın səs aktyorunun rolunu köhnəlməsi ehtimalı daxildir.
Başqa bir mübahisə 2022-ci ilin əvvəlində Voiceverse NFT adlı şirkətin marketinq kampaniyası üçün məzmun yaratmaq üçün 15.ai-dən istifadə etdiyi aşkar edildikdə baş verdi.
Nəticə
Mətn-nitq artıq gündəlik həyatda kifayət qədər geniş yayılmışdır. Səs köməkçiləri, GPS naviqatorları. və avtomatlaşdırılmış telefon zəngləri artıq adi hala çevrilib. Bununla belə, bu proqramlar kifayət qədər qeyri-insani proqramlardır ki, onların maşın istehsalı nitq olduğunu deyə bilərik.
Təbii səsli və emosional TTS texnologiyası yeni tətbiqlər üçün qapı aça bilər. Bununla belə, səs klonlamasının etikası ən yaxşı halda hələ də şübhəlidir. Bu tədqiqatçıların bir çoxunun alqoritmi ictimaiyyətlə bölüşmək istəməməsinin səbəbi şübhəsizdir.
Cavab yaz