Ydych chi erioed wedi bod eisiau clywed eich hoff gymeriad yn siarad â chi? Mae testun-i-leferydd sy'n swnio'n naturiol yn dod yn realiti yn raddol gyda chymorth dysgu peirianyddol.
Er enghraifft, mae model NAT TTS Google yn cael ei ddefnyddio i bweru eu model newydd Llais Personol gwasanaeth. Mae'r gwasanaeth hwn yn defnyddio rhwydweithiau niwral i gynhyrchu llais wedi'i hyfforddi o recordiadau. Apiau gwe fel Uberduck darparu cannoedd o leisiau i chi ddewis o'u plith i greu eich testun wedi'i syntheseiddio eich hun.
Yn yr erthygl hon, byddwn yn edrych dros y model AI trawiadol a'r un mor enigmatig a elwir yn 15.ai. Wedi'i greu gan ddatblygwr dienw, gall fod yn un o'r rhai mwyaf effeithlon ac emosiynol modelau testun-i-leferydd hyd yn hyn.
Beth yw 15.ai?
15.ai yn gymhwysiad gwe AI sy'n gallu cynhyrchu lleisiau testun-i-leferydd ffyddlon iawn. Gall defnyddwyr ddewis o amrywiaeth o leisiau o Spongebob Squarepants i HAL 9000 o 2001: A Space Odyssey.
Datblygwyd y rhaglen gan gyn-ymchwilydd MIT dienw yn gweithio o dan yr enw 15. Mae'r datblygwr wedi datgan bod y prosiect wedi'i lunio i ddechrau fel rhan o Raglen Cyfleoedd Ymchwil Israddedig y brifysgol.
Mae llawer o’r lleisiau sydd ar gael yn 15.ai wedi’u hyfforddi ar setiau data cyhoeddus o gymeriadau o My Little Pony: Friendship is Magic. Mae dilynwyr brwd y sioe wedi ffurfio ymdrech gydweithredol i gasglu, trawsgrifio, a phrosesu oriau o ddeialog gyda'r nod o greu generaduron testun-i-leferydd cywir o'u hoff gymeriadau.
Beth all 15.ai wneud?
Mae cymhwysiad gwe 15.ai yn gweithio trwy ddewis un o ddwsinau o gymeriadau ffuglennol y mae'r model wedi'i hyfforddi arnynt a chyflwyno testun mewnbwn. Ar ôl clicio ar Generate, dylai'r defnyddiwr dderbyn tri chlip sain o'r cymeriad ffuglennol yn siarad y llinellau a roddir.
Ers yr dysgu dwfn mae'r model a ddefnyddir yn anbenderfynol, 15.ai yn allbynnu araith ychydig yn wahanol bob tro. Yn debyg i sut y gallai fod angen nifer o alwadau ar actor i gael y cyflenwad cywir, mae 15.ai yn cynhyrchu gwahanol arddulliau cyflwyno bob tro nes bod y defnyddiwr yn dod o hyd i allbwn y mae'n ei hoffi.
Mae'r prosiect yn cynnwys nodwedd unigryw sy'n galluogi defnyddwyr i newid emosiwn y llinell a gynhyrchir â llaw gan ddefnyddio cyd-destunwyr emosiynol. Mae'r paramedrau hyn yn gallu diddwytho teimlad emojis mewnbwn defnyddiwr gan ddefnyddio MIT's DeepMoji model.
Yn ôl y datblygwr, yr hyn sy’n gosod 15.ai ar wahân i raglenni TTS tebyg eraill yw bod y model yn dibynnu ar ychydig iawn o ddata i glonio lleisiau yn gywir wrth “gadw emosiynau a naturioldeb yn gyfan”.
Sut Mae 15.ai yn Gweithio?
Edrychwn ar y dechnoleg y tu ôl i 15.ai.
Yn gyntaf, mae prif ddatblygwr 15.ai yn dweud bod y rhaglen yn defnyddio model wedi'i deilwra i gynhyrchu lleisiau gyda chyflyrau amrywiol o emosiwn. Gan nad yw'r awdur wedi cyhoeddi papur manwl ar y prosiect eto, ni allwn ond gwneud rhagdybiaethau bras o'r hyn sy'n digwydd y tu ôl i'r llenni.
Adalw'r Ffonemau
Yn gyntaf, gadewch i ni edrych ar sut mae'r rhaglen yn dosrannu'r testun mewnbwn. Cyn y gall y rhaglen gynhyrchu lleferydd, rhaid iddi drosi pob gair unigol yn ei chasgliad priodol o ffonemau. Er enghraifft, mae'r gair “ci” yn cynnwys tri ffonem: /d/, /ɒ/, a /ɡ/.
Ond sut mae 15.ai yn gwybod pa ffonemau i'w defnyddio ar gyfer pob gair?
Yn ôl tudalen About 15.ai, mae'r rhaglen yn defnyddio tabl chwilio geiriadur. Mae'r tabl yn defnyddio'r Oxford Dictionaries API, Wiciadur, a'r CMU Pronouncing Dictionary fel ffynonellau. Mae 15.ai yn defnyddio gwefannau eraill fel Reddit ac Urban Dictionary fel ffynonellau ar gyfer termau ac ymadroddion sydd newydd eu bathu.
Os nad oes unrhyw air penodol yn bodoli yn y geiriadur, mae ei ynganiad yn cael ei ddiddwytho gan ddefnyddio rheolau ffonolegol y mae'r model wedi'u dysgu o'r LibriTTS set ddata. Mae’r set ddata hon yn gorpws – set ddata o eiriau ysgrifenedig neu lafar mewn iaith frodorol neu dafodiaith – o tua 585 awr o bobl yn siarad Saesneg.
Ymgorffori Emosiynau
Yn ôl y datblygwr, mae'r model yn ceisio dyfalu emosiwn canfyddedig y testun mewnbwn. Mae'r model yn cyflawni'r dasg hon trwy'r DeepMoji dadansoddiad teimlad model. Hyfforddwyd y model penodol hwn ar biliynau o drydariadau gydag emojis gyda'r nod o ddeall sut mae iaith yn cael ei defnyddio i fynegi emosiynau. Mae canlyniad y model wedi'i ymgorffori yn y model TTS i drin yr allbwn tuag at yr emosiwn dymunol.
Unwaith y bydd y ffonemau a'r teimlad wedi'u tynnu o'r testun mewnbwn, mae bellach yn bryd syntheseiddio lleferydd.
Clonio Llais a Synthesis
Gelwir modelau testun-i-leferydd fel 15.ai yn fodelau aml-siarad. Mae'r modelau hyn wedi'u hadeiladu i ddysgu sut i siarad mewn lleisiau gwahanol. Er mwyn hyfforddi ein model yn iawn, rhaid inni ddod o hyd i ffordd i dynnu'r nodweddion llais unigryw a'i gynrychioli mewn ffordd y gall cyfrifiadur ei ddeall. Gelwir y broses hon yn fewnosod siaradwr.
Mae modelau testun-i-leferydd yn cael eu defnyddio ar hyn o bryd rhwydweithiau nefol i greu'r allbwn sain gwirioneddol. Mae'r rhwydwaith niwral fel arfer yn cynnwys dwy brif ran: amgodiwr a datgodiwr.
Mae'r amgodiwr yn ceisio adeiladu fector cryno unigol yn seiliedig ar fectorau mewnbwn amrywiol. Rhoddir gwybodaeth am y ffonemau, agweddau emosiynol, a nodweddion llais yn yr amgodiwr i greu cynrychioliad o'r hyn y dylai'r allbwn fod. Yna mae'r datgodiwr yn trosi'r cynrychioliad hwn yn sain ac yn allbynnu sgôr hyder.
Yna mae'r cymhwysiad gwe 15.ai yn dychwelyd y tri chanlyniad uchaf gyda'r sgôr hyder gorau.
Materion
Gyda'r cynnydd o gynnwys a gynhyrchir gan AI fel deepfakes, gall datblygu AI uwch a all ddynwared pobl go iawn fod yn fater moesegol difrifol.
Ar hyn o bryd, mae'r lleisiau y gallwch chi eu dewis o'r cymhwysiad gwe 15.ai i gyd yn gymeriadau ffuglennol. Fodd bynnag, ni wnaeth hynny atal yr ap rhag hel rhywfaint o ddadlau ar-lein.
Mae ychydig o actorion llais wedi gwthio yn ôl ar y defnydd o dechnoleg clonio llais. Mae pryderon ganddynt yn cynnwys dynwared, y defnydd o'u llais mewn cynnwys amlwg, a'r posibilrwydd y gallai'r dechnoleg olygu bod rôl yr actor llais wedi darfod.
Digwyddodd dadl arall yn gynharach yn 2022 pan ddarganfuwyd bod cwmni o’r enw Voiceverse NFT yn defnyddio 15.ai i gynhyrchu cynnwys ar gyfer eu hymgyrch farchnata.
Casgliad
Mae testun-i-leferydd eisoes yn eithaf cyffredin ym mywyd beunyddiol. Cynorthwywyr llais, llywwyr GPS. ac mae galwadau ffôn awtomataidd eisoes wedi dod yn gyffredin. Fodd bynnag, mae'r cymwysiadau hyn yn amlwg yn ddigon nad ydynt yn ddynol fel y gallwn ddweud eu bod yn lleferydd peiriant.
Gallai technoleg TTS sy'n swnio'n naturiol ac yn emosiynol agor y drws ar gyfer cymwysiadau newydd. Fodd bynnag, mae moeseg clonio llais yn dal i fod yn amheus ar y gorau. Mae'n sicr yn gwneud synnwyr pam mae llawer o'r ymchwilwyr hyn wedi bod yn amharod i rannu'r algorithm gyda'r cyhoedd.
Gadael ymateb