Мундариҷа[Пинҳон кардан][Намоиш]
Оё шумо ягон бор мехостед, ки қаҳрамони дӯстдоштаи худро бо шумо сӯҳбат кунад? Матн ба нутқ бо ёрии омӯзиши мошинсозӣ оҳиста-оҳиста ба воқеият табдил меёбад.
Масалан, модели NAT TTS-и Google барои қудрати нави онҳо истифода мешавад Овози фармоишӣ хизматрасонй. Ин хидмат шабакаҳои нейронро барои тавлиди овозе, ки аз сабтҳо омӯзонида шудааст, истифода мебарад. Барномаҳои веб ба монанди Убердак Садҳо овозро пешкаш кунед, то шумо аз онҳо интихоб кунед, то матни синтези шахсии худро эҷод кунед.
Дар ин мақола, мо модели таъсирбахш ва якхела пурасрор AI-ро, ки бо номи 15.ai маъруф аст, дида мебароем. Он аз ҷониби як таҳиягари беном сохта шудааст, он метавонад яке аз самараноктарин ва эҳсосотӣ бошад моделҳои матн ба нутқ то ҳол.
15.ai чист?
15.ai як веб-барномаи AI аст, ки қодир аст садоҳои эҳсосотии баландсифати матн ба нутқро тавлид кунад. Истифодабарандагон метавонанд аз овозҳои гуногун аз Spongebob Squarepants то HAL 9000 аз соли 2001 интихоб кунанд: A Space Odyssey.
Ин барнома аз ҷониби як муҳаққиқи собиқи MIT, ки бо номи 15 кор мекард, беном таҳия шудааст. Таҳиягар изҳор дошт, ки лоиҳа дар ибтидо ҳамчун як қисми Барномаи Имкониятҳои Тадқиқоти Донишҷӯён дар донишгоҳ таҳия шуда буд.
Бисёре аз овозҳое, ки дар 15.ai дастрасанд, дар маҷмӯаи маълумоти оммавии аломатҳои My Little Pony: Дӯстӣ ҷоду аст. Мухлисони ашаддии намоиш як кӯшиши муштаракро барои ҷамъоварӣ, транскрипсия ва коркарди соатҳои муколама бо мақсади эҷоди генераторҳои дақиқи матн ба нутқи қаҳрамонҳои дӯстдоштаи худ ташкил карданд.
15.ai чӣ кор карда метавонад?
Веб-барномаи 15.ai бо интихоби яке аз даҳҳо аломатҳои афсонавӣ, ки модел таълим гирифтааст ва пешниҳоди матни воридотӣ кор мекунад. Пас аз клик кардани тавлид, корбар бояд се клипи аудиоии қаҳрамони афсонавиро гирад, ки дар сатрҳои додашуда сухан меронанд.
Азбаски омӯзиши чуқур модели истифодашаванда ғайримуқаррарӣ аст, 15.ai ҳар дафъа сухани каме дигар мебарорад. Монанди он ки чӣ гуна актёр метавонад барои ба даст овардани таҳвили дуруст чанд вақтро талаб кунад, 15.ai ҳар дафъа то он даме, ки корбар баромади ба онҳо маъқулро пайдо накунад, услубҳои гуногуни таҳвилро тавлид мекунад.
Лоиҳа як хусусияти беназиреро дар бар мегирад, ки ба корбарон имкон медиҳад, ки бо истифода аз контекстизаторҳои эмотсионалӣ эҳсосоти хати тавлидшударо дастӣ тағир диҳанд. Ин параметрҳо метавонанд бо истифода аз MIT эҳсосоти эмодзиҳои вуруди корбарро муайян кунанд DeepMoji модели.
Ба гуфтаи таҳиягар, он чизе, ки 15.ai-ро аз дигар барномаҳои шабеҳи TTS фарқ мекунад, дар он аст, ки модел ба маълумоти хеле кам такя мекунад, то овозҳоро дақиқ клон карда, ҳангоми "нигоҳ доштани эҳсосот ва табиати бетағйир".
15.ai чӣ гуна кор мекунад?
Биёед ба технологияи паси 15.ai назар кунем.
Аввалан, таҳиягари асосии 15.ai мегӯяд, ки барнома модели фармоиширо барои тавлиди овозҳо бо ҳолати гуногуни эҳсосот истифода мебарад. Азбаски муаллиф то ҳол мақолаи муфассалро дар бораи лоиҳа нашр накардааст, мо метавонем танҳо тахминҳои васеъеро дар бораи он чӣ дар паси парда рӯй медиҳад.
Гирифтани фонемаҳо
Аввалан, биёед бубинем, ки барнома матни воридшударо чӣ гуна таҳлил мекунад. Пеш аз он ки барнома нутқ тавлид кунад, он бояд ҳар як калимаи алоҳидаро ба маҷмӯи фонемаҳои мувофиқ табдил диҳад. Масалан, калимаи "саг" аз се фонема иборат аст: /d/, /ɒ/ ва /ɡ/.
Аммо 15.ai аз кучо медонад, ки барои хар як калима кадом фонемахоро истифода бурдан лозим аст?
Бино ба саҳифаи 15.ai дар бораи, барнома ҷадвали ҷустуҷӯи луғатро истифода мебарад. Ҷадвал ҳамчун манбаъ API-и Oxford Dictionaries, Wiktionary ва Луғати Pronouncing CMU-ро истифода мебарад. 15.ai вебсайтҳои дигарро аз қабили Reddit ва Urban Dictionary ҳамчун манбаъ барои истилоҳот ва ибораҳои нав таҳияшуда истифода мебарад.
Агар ягон калимаи додашуда дар луғат мавҷуд набошад, талаффузи он бо истифода аз қоидаҳои фонологӣ, ки модел аз луғат омӯхтааст, бароварда мешавад. LibriTTS маҷмӯи маълумот. Ин маҷмӯаи додаҳо маҷмӯаи маълумотест, ки аз калимаҳои хаттӣ ё гуфтугӯӣ ба забони модарӣ ё лаҳҷа иборат аст, ки тақрибан 585 соат одамоне, ки бо забони англисӣ ҳарф мезананд.
Ҷойгиркунии эҳсосот
Ба гуфтаи таҳиягар, модел кӯшиш мекунад, ки эҳсосоти дарки матни воридшударо тахмин кунад. Модел ин вазифаро тавассути DeepMoji иҷро мекунад таҳлили таҳлил модел. Ин модели мушаххас дар миллиардҳо твитҳо бо эмодзиҳо бо мақсади фаҳмидани тарзи ифодаи эҳсосот аз забон омӯхта шудааст. Натиҷаи модел ба модели TTS ворид карда шудааст, то натиҷаро ба эҳсосоти дилхоҳ идора кунад.
Пас аз он ки фонемаҳо ва эҳсосот аз матни воридотӣ гирифта шуданд, ҳоло вақти синтез кардани нутқ аст.
Клонизатсия ва синтези овоз
Моделҳои матн ба нутқ, ба монанди 15.ai, ҳамчун моделҳои бисёргӯякҳо маълуманд. Ин моделҳо барои омӯхтани тарзи суханронӣ бо овозҳои гуногун сохта шудаанд. Барои дуруст омӯзонидани модели худ, мо бояд роҳи истихроҷи хусусиятҳои беназири овозро пайдо кунем ва онро тавре нишон диҳем, ки компютер фаҳмад. Ин раванд ҳамчун ҷобаҷогузории баландгӯяк маълум аст.
Моделҳои кунунии матн ба нутқ истифода мешаванд шабакаҳои нейралӣ барои эҷоди баромади воқеии аудио. Шабакаи нейрон одатан аз ду қисмати асосӣ иборат аст: рамзгузор ва декодер.
Рамзгузор кӯшиш мекунад, ки вектори ҷамъбастии ягонаро дар асоси векторҳои гуногуни вуруд созад. Маълумот дар бораи фонемаҳо, ҷанбаҳои эмотсионалӣ ва хусусиятҳои овозӣ дар рамзгузор ҷойгир карда мешаванд, то тасвири баромади бояд чӣ гуна бошад. Сипас декодер ин намоишро ба аудио табдил медиҳад ва баҳои эътимодро мебарорад.
Пас аз он веб-барномаи 15.ai се натиҷаи беҳтаринро бо беҳтарин нишондиҳандаи эътимод бармегардонад.
Масъалаҳои
Бо афзоиши мундариҷаи аз ҷониби AI тавлидшуда ба монанди deepfakes, таҳияи AI-и пешрафта, ки метавонад ба одамони воқеӣ тақлид кунад, метавонад як масъалаи ҷиддии ахлоқӣ бошад.
Дар айни замон, овозҳое, ки шумо метавонед аз веб замимаи 15.ai интихоб кунед, ҳама аломатҳои афсонавӣ мебошанд. Бо вуҷуди ин, ин барномаро аз ба вуҷуд овардани баҳсҳои интернетӣ бозмедорад.
Якчанд ҳунарпешаҳои овозӣ истифодаи технологияи клонкунии овозро бозпас гирифтанд. Нигарониҳои онҳо аз ифротгароӣ, истифодаи овози онҳо дар мундариҷаи возеҳ ва эҳтимоли кӯҳна шудани ин технология нақши актёри овозиро дар бар мегирад.
Баҳси дигар дар соли 2022 вақте рух дод, ки ширкате бо номи Voiceverse NFT ошкор шуд, ки 15.ai-ро барои тавлиди мундариҷа барои маъракаи маркетингии худ истифода мебарад.
хулоса
Матн ба сухан аллакай дар ҳаёти ҳаррӯза хеле маъмул аст. Ёрдамчиёни овозӣ, навигаторҳои GPS. ва занги автоматии телефон аллакай ба чои маъмул табдил ёфтааст. Аммо, ин барномаҳо ба таври возеҳ ба қадри кофӣ инсонӣ нестанд, ки мо гуфта метавонем, ки онҳо сухани мошинӣ мебошанд.
Технологияи табиӣ ва эҳсосотии TTS метавонад дари барномаҳои навро боз кунад. Бо вуҷуди ин, этикаи клонкунии овоз то ҳол шубҳанок аст. Ин бешубҳа маъно дорад, ки чаро бисёре аз ин муҳаққиқон аз мубодилаи алгоритм бо мардум худдорӣ мекунанд.
Дин ва мазҳаб