Table of Contents[Veşartin][Rêdan]
We qet xwest ku bibihîzin karaktera xweya bijare bi we re diaxive? Nivîsar-bi-axaftina dengbêjiya xwezayî bi alîkariya fêrbûna makîneyê hêdî hêdî dibe rastiyek.
Mînakî, modela NAT TTS ya Google-ê ji bo hêza wan a nû tê bikar anîn Dengê Custom xizmetkar. Ev karûbar torgilokên neuralî bikar tîne da ku dengek ku ji tomaran hatî perwerdekirin çêbike. Serlêdanên Webê yên wekî Uberduck Ji bo ku hûn ji wan hilbijêrin bi sedan deng peyda bikin da ku hûn nivîsa xweya sentezkirî biafirînin.
Di vê gotarê de, em ê li modela AI-ê ya balkêş û wekhevî ya ku wekî 15.ai tê zanîn binihêrin. Ji hêla pêşdebirek nenas ve hatî afirandin, dibe ku ew yek ji herî bikêr û hestyar be modelên text-bi-axaftinê heta vir.
15.ai çi ye?
15.ai serîlêdanek webê ya AI-ê ye ku karibe dengên nivîs-bi-axaftinê yên hestyarî yên pêbawer biafirîne. Bikarhêner dikarin ji dengek cihêreng ji Spongebob Squarepants heya HAL 9000 ji 2001: A Space Odyssey hilbijêrin.
Bername ji aliyê lêkolînerekî berê yê MÎT'ê yê nenas ve ku di bin navê 15'an de dixebitî, hate çêkirin. Pêşdebir diyar kir ku proje di destpêkê de wekî beşek ji Bernameya Derfetên Lêkolînê ya Zanîngehê ya zanîngehê hate damezrandin.
Gelek dengên ku di 15.ai de têne peyda kirin li ser daneyên giştî yên karakterên My Little Pony: Friendship is Magic têne perwerde kirin. Temaşevanên dilşewat ên pêşandanê bi mebesta afirandina jeneratorên rast-nivîsar-axaftinê yên karakterên xweyên bijare, hewldanek hevkariyê ava kirine da ku bi demjimêrên diyalogê berhev bikin, veguhezînin û pêvajoyê bikin.
15.ai dikare çi bike?
Serlêdana webê 15.ai bi hilbijartina yek ji dehan karakterên xeyalî yên ku model li ser hatine perwerde kirin û şandina nivîsa têketinê dixebite. Piştî ku li ser Hilberîne bikirtînin, pêdivî ye ku bikarhêner sê klîbên dengî yên karakterê xeyalî yên ku rêzikên diyarkirî diaxivin bistînin.
ji ber ku hînbûna kûr modela ku tê bikar anîn nedetermînîst e, 15.ai her carê axaftinek hinekî cûda derdixe. Mîna ku dibe ku lîstikvanek ji bo bidestxistina radestkirina rast hewceyê gelek tedbîran bike, 15.ai her car şêwazên radestkirinê yên cihêreng diafirîne heya ku bikarhêner encamek ku jê hez dike bibîne.
Proje taybetmendiyek bêhempa vedihewîne ku destûrê dide bikarhêneran ku bi destan hestiyariya rêza hilberandî bi karanîna kontekstên hestyarî biguhezînin. Van parameteran dikarin hestiyariya emojîyên têketina bikarhêner bi karanîna MIT-ê derxînin DeepMoji cins.
Li gorî pêşdebiran, ya ku 15.ai ji bernameyên din ên TTS yên mîna hev vediqetîne ev e ku model xwe dispêre daneyên pir hindik da ku dengan bi rengek rast klon bike dema ku "hest û xwezayîbûnê bêpar diparêze".
15.ai Çawa Kar dike?
Ka em li teknolojiya li pişt 15.ai binêrin.
Pêşîn, pêşdebirê sereke yê 15.ai dibêje ku bername modelek xwerû bikar tîne da ku dengan bi rewşên hestyarî yên cihêreng çêbike. Ji ber ku nivîskar hîna kaxezek berfireh li ser projeyê çap nekiriye, em tenê dikarin texmînên berfireh bikin ka çi li paş perdeyê diqewime.
Vegerandina Phonemes
Pêşîn, em binihêrin ka bername çawa nivîsa têketinê pars dike. Berî ku bername bikaribe axaftinê çêbike, divê ew her peyvek ferdî veguherîne berhevoka wê ya dengbêjan. Bo nimûne peyva “kûçik” ji sê foneman pêk tê: /d/, /ɒ/, û /ɡ/.
Lê çawa 15.ai dizane ku ji bo her peyvê kîjan foneman bikar bîne?
Li gorî rûpela Derbarê ya 15.ai, bername tabloya lêgerîna ferhengê bikar tîne. Tabloya Ferhengên Oxford API, Wîkîferheng, û Ferhenga Bilêvkirina CMU wekî çavkanî bikar tîne. 15.ai malperên din ên wekî Reddit û Urban Dictionary wekî çavkanî ji bo şert û hevokên nû hatine çêkirin bikar tîne.
Ger di ferhengê de peyvek diyar nebe, bilêvkirina wê bi qaîdeyên dengnasî yên ku model ji wan fêr bûne tê derxistin. LibriTTS database. Ev danûstendinek komek e - danehevek ji peyvên nivîskî an axaftinê yên bi zimanek an zaravayek zikmakî - bi qasî 585 demjimêran kesên ku bi Englishngilîzî diaxivin pêk tê.
Embedding Emotions
Li gorî pêşdebirker, model hewl dide ku hestiyariya têgihîştî ya nivîsa têketinê texmîn bike. Model vê peywirê bi navgîniya DeepMoji pêk tîne analîzê cins. Ev modela taybetî li ser bi mîlyaran tweetan bi emojis ve hate perwerde kirin ku bi mebesta têgihîştina ziman ji bo îfadekirina hestan çawa tê bikar anîn. Encama modelê di modela TTS-ê de tête bicîh kirin da ku hilberê berbi hesta xwestinê veşêre.
Dema ku fonem û hest ji nivîsa têketinê hatin derxistin, êdî dem hatiye ku axaftinê sentez bikin.
Klonkirina Deng û Sentez
Modelên nivîs-bi-axaftinê yên wekî 15.ai wekî modelên pir-axaftvan têne zanîn. Ev model ji bo ku karibin fêrî axaftinê bi dengên cihêreng bibin hatine çêkirin. Ji bo ku em modela xwe bi rêkûpêk perwerde bikin, divê em rêyek bibînin ku taybetmendiyên dengek bêhempa derxînin û bi rengek ku komputerek jê fam bike temsîl bikin. Ev pêvajo wekî binavkirina dengbêjan tê zanîn.
Modelên niha yên nivîs-bi-axaftinê bikar tînin torên neural ji bo çêkirina derana dengî ya rastîn. Tora neuralî bi gelemperî ji du beşên sereke pêk tê: encoder û dekoder.
Şîfreker hewl dide ku vektorek kurteya yekane li ser bingeha vektorên têketinê yên cihêreng ava bike. Agahiyên li ser fonem, aliyên hestyarî, û taybetmendiyên deng di şîfrekerê de têne danîn da ku nûneriyek çêbikin ku encam çi be. Dûv re dekoder vê nûnertiyê vediguhezîne deng û pêbaweriyek pêbawer derdixe.
Dûv re serîlêdana webê 15.ai sê encamên jorîn bi rêjeya pêbaweriya çêtirîn vedigerîne.
pirsên
Bi zêdebûna naveroka AI-çêkirî ya wekî kûr, pêşvebirina AI-ya pêşkeftî ya ku dikare mirovên rastîn teqlîd bike dikare bibe pirsgirêkek ciddî ya exlaqî.
Heya nuha, dengên ku hûn dikarin ji serîlêdana webê 15.ai hilbijêrin hemî karakterên xeyalî ne. Lêbelê, vê yekê rê neda ku sepanê hin nîqaşên serhêl bicivîne.
Çend aktorên deng li ser karanîna teknolojiya klonkirina deng paşde xistin. Xemgîniyên wan di nav de nenaskirin, karanîna dengê wan di naverokek eşkere de, û îhtîmala ku dibe ku teknolojî rola lîstikvanê dengbêjê kevin bike.
Nakokiyek din berê di sala 2022-an de qewimî dema ku pargîdaniyek bi navê Voiceverse NFT hate kifş kirin ku 15.ai bikar tîne da ku naverokê ji bo kampanyaya kirrûbirra xwe hilberîne.
Xelasî
Nivîs-bi-axaftin jixwe di jiyana rojane de pir berbelav e. Alîkarên deng, navîgatorên GPS. û bangên têlefonê yên otomatîkî berê bûne cîhê gelemperî. Lêbelê, ev serîlêdan bi rengek ne-mirovî ne ku em dikarin bibêjin ku ew axaftina makîneyê ne.
Teknolojiya TTS-a dengê xwezayî û hestyar dibe ku derî ji bo serîlêdanên nû veke. Lêbelê, etîka klonkirina deng hîn jî di çêtirîn de gumanbar e. Bê guman têgihîştî ye ku çima gelek ji van lêkolîneran ji parvekirina algorîtmayê bi gel re nerazî bûne.
Leave a Reply