An robh thu a-riamh ag iarraidh an caractar as fheàrr leat a chluinntinn a’ bruidhinn riut? Tha guth nàdarrach teacsa-gu-cainnte a’ tighinn gu buil mean air mhean le cuideachadh bho ionnsachadh innealan.
Mar eisimpleir, thathas a’ cleachdadh modal NAT TTS aig Google gus cumhachd a thoirt don fhear ùr aca Guth Gnàthach seirbhis. Bidh an t-seirbheis seo a’ cleachdadh lìonraidhean neural gus guth a ghineadh bho chlàraidhean. Aplacaidean lìn mar Uberduck thoir seachad ceudan de ghuthan as urrainn dhut taghadh gus an teacsa synthesized agad fhèin a chruthachadh.
San artaigil seo, seallaidh sinn thairis air a’ mhodal AI drùidhteach agus a cheart cho enigmatic ris an canar 15.ai. Air a chruthachadh le leasaiche gun urra, is dòcha gur e seo aon den fheadhainn as èifeachdaiche agus as tòcail modailean teacsa-gu-cainnt Gu ruige seo.
Dè th' ann an 15.ai?
15.ai na aplacaid lìn AI a tha comasach air guthan teacsa-gu-cainnt tòcail àrd-dhìlseachd a ghineadh. Faodaidh luchd-cleachdaidh taghadh bho ghrunn ghuthan bho Spongebob Squarepants gu HAL 9000 bho 2001: A Space Odyssey.
Chaidh am prògram a leasachadh le neach-rannsachaidh MIT gun urra a bha ag obair fon ainm 15. Tha an leasaiche air innse gun deach am pròiseact a chruthachadh an toiseach mar phàirt de Phrògram Cothroman Rannsachaidh Fo-cheum an oilthigh.
Tha mòran de na guthan a tha rim faighinn ann an 15.ai air an trèanadh air seataichean dàta poblach de charactaran bho My Little Pony: Friendship is Magic. Tha luchd-leantainn dealasach an taisbeanaidh air oidhirp cho-obrachail a dhèanamh gus uairean còmhraidh a chruinneachadh, ath-sgrìobhadh agus a phròiseasadh leis an amas gineadairean teacsa-gu-cainnt ceart a chruthachadh de na caractaran as fheàrr leotha.
Dè as urrainn 15.ai a dhèanamh?
Bidh an tagradh lìn 15.ai ag obair le bhith a’ taghadh aon de dhusanan de charactaran ficseanail air an deach am modail a thrèanadh agus a’ cur a-steach teacsa a-steach. Às deidh dhaibh briogadh air Generate, bu chòir don neach-cleachdaidh trì criomagan claisneachd fhaighinn den charactar ficsean a ’bruidhinn na loidhnichean a chaidh a thoirt seachad.
Bho na ionnsachadh domhainn tha am modail a thathar a’ cleachdadh neo-chinnteach, 15.ai a’ toirt a-mach cainnt beagan eadar-dhealaichte gach turas. Coltach ri mar a dh ’fhaodadh gum bi feum aig cleasaiche air ioma-ghabhail gus an lìbhrigeadh ceart fhaighinn, bidh 15.ai a’ gineadh diofar stoidhlichean lìbhrigidh a h-uile uair gus an lorg an neach-cleachdaidh toradh as toil leotha.
Tha feart sònraichte aig a’ phròiseact a leigeas le luchd-cleachdaidh faireachdainn na loidhne gineadh atharrachadh le làimh a’ cleachdadh co-theacsaichean tòcail. Tha na paramadairean sin comasach air faireachdainn emojis cuir a-steach luchd-cleachdaidh a thomhas a’ cleachdadh MIT DeepMoji modail.
A rèir an leasaiche, is e an rud a tha a’ suidheachadh 15.ai a bharrachd air prògraman TTS eile den aon seòrsa gu bheil am modail an urra ri glè bheag de dhàta gus guthan a ghleusadh gu ceart fhad ‘s a tha e“ a ’cumail faireachdainnean agus nàdarrachd slàn”.
Ciamar a tha 15.ai ag obair?
Bheir sinn sùil air an teicneòlas air cùl 15.ai.
An toiseach, tha prìomh leasaiche 15.ai ag ràdh gu bheil am prògram a’ cleachdadh modal àbhaisteach gus guthan a ghineadh le diofar stàitean faireachdainn. Leis nach eil an t-ùghdar fhathast air pàipear mionaideach fhoillseachadh mun phròiseact, chan urrainn dhuinn ach barailean farsaing a dhèanamh mu na tha a’ tachairt air cùl chùisean.
Luchdaich a-nuas an Phonemes
An toiseach, leig dhuinn sùil a thoirt air mar a bhios am prògram a’ parsadh an teacsa cuir a-steach. Mus urrainn don phrògram cainnt a ghineadh, feumaidh e gach facal fa leth a thionndadh gu bhith na chruinneachadh sònraichte de fhònaichean. Mar eisimpleir, tha am facal “cù” air a dhèanamh suas de thrì fonemes: /d/, /ɒ/, agus /ɡ/.
Ach ciamar a tha fios aig 15.ai dè na fònaichean a bu chòir a chleachdadh airson gach facal?
A rèir duilleag Mu dheidhinn 15.ai, bidh am prògram a’ cleachdadh clàr lorg faclair. Bidh an clàr a’ cleachdadh an Oxford Dictionaries API, Wiktionary, agus an CMU Pronouncing Dictionary mar thùsan. Bidh 15.ai a’ cleachdadh làraich-lìn eile leithid Reddit agus Urban Dictionary mar thùsan airson teirmean is abairtean a chaidh a chruthachadh às ùr.
Mura h-eil facal sònraichte sam bith anns an fhaclair, tha am fuaimneachadh air a thoirt a-mach le bhith a’ cleachdadh riaghailtean foneòlais a dh’ ionnsaich am modail bhon Leabhraichean TTS stòr-dàta. ’S e corpas a th’ anns an t-seata seo – seata de dh’fhaclan sgrìobhte no labhairteach ann an cànan no dualchainnt dhùthchasach – de mu 585 uair de dhaoine a’ bruidhinn Beurla.
A 'toirt a-steach Emotions
A rèir an leasaiche, bidh am modail a’ feuchainn ri tomhas a dhèanamh air faireachdainn an teacsa cuir a-steach. Bidh am modail a’ coileanadh na h-obrach seo tron DeepMoji mion-sgrùdadh faireachdainn modail. Chaidh am modail sònraichte seo a thrèanadh air billeanan de thweets le emojis leis an amas tuigse fhaighinn air mar a thathas a’ cleachdadh cànan gus faireachdainnean a chuir an cèill. Tha toradh a’ mhodail air fhighe a-steach don mhodail TTS gus an toradh a làimhseachadh a dh’ ionnsaigh na faireachdainn a tha thu ag iarraidh.
Aon uair ‘s gu bheil na phonemes agus am faireachdainn air an toirt a-mach às an teacsa cuir a-steach, tha an t-àm ann a-nis cainnt a cho-chur.
Clonadh guth agus synthesis
Canar modalan ioma-labhairt ri modalan teacsa-gu-cainnt leithid 15.ai. Tha na modailean sin air an togail gus a bhith comasach air ionnsachadh mar a bhruidhneas tu ann an diofar ghuthan. Gus am modail againn a thrèanadh gu ceart, feumaidh sinn dòigh a lorg gus na feartan guth sònraichte a thoirt a-mach agus a riochdachadh ann an dòigh a thuigeas coimpiutair. Canar freumhachadh neach-labhairt ris a’ phròiseas seo.
Cleachdaidh modailean teacsa-gu-cainnte gnàthach lìonraidhean neònach gus an fhìor toradh claisneachd a chruthachadh. Mar as trice tha an lìonra neural air a dhèanamh suas de dhà phrìomh phàirt: encoder agus decoder.
Bidh an encoder a’ feuchainn ri aon vectar geàrr-chunntas a thogail stèidhichte air diofar vectaran cuir a-steach. Tha fiosrachadh mu na phonemes, taobhan tòcail, agus feartan guth air an cur a-steach don chòdaiche gus riochdachadh a chruthachadh de na bu chòir don toradh a bhith. Bidh an decoder an uairsin ag atharrachadh an riochdachadh seo gu claisneachd agus a’ toirt a-mach sgòr misneachd.
Bidh an tagradh lìn 15.ai an uairsin a’ tilleadh na trì toraidhean as àirde leis an sgòr misneachd as fheàrr.
cùisean
Le àrdachadh ann an susbaint air a ghineadh le AI leithid cruachan, faodaidh leasachadh AI adhartach a dh’ atharrais air daoine fìor a bhith na fhìor chùis bheusach.
An-dràsta, tha na guthan as urrainn dhut a thaghadh bhon tagradh lìn 15.ai uile nan caractaran ficseanail. Ach, cha do chuir sin stad air an aplacaid bho bhith a’ togail beagan connspaid air-loidhne.
Tha cuid de chleasaichean guth air putadh air ais air cleachdadh teicneòlas clonadh guth. Tha draghan bhuapa a’ toirt a-steach atharrais, cleachdadh an guth ann an susbaint shoilleir, agus an comas gum faodadh an teicneòlas àite a’ chleasaiche guth a thoirt à bith.
Thachair connspaid eile na bu thràithe ann an 2022 nuair a chaidh companaidh leis an t-ainm Voiceverse NFT a lorg a bhith a’ cleachdadh 15.ai gus susbaint a ghineadh airson an iomairt margaidheachd aca.
Co-dhùnadh
Tha teacsa-gu-cainnt mar-thà gu math cumanta ann am beatha làitheil. Luchd-cuideachaidh guth, luchd-seòlaidh GPS. agus tha fiosan fòn fèin-ghluasadach air fàs cumanta mar-thà. Ach, tha na tagraidhean sin gu sònraichte neo-dhaonna gu leòr gun urrainn dhuinn innse gur e cainnt inneal a th’ annta.
Dh’ fhaodadh teicneòlas TTS le fuaim nàdarrach agus tòcail an doras fhosgladh airson tagraidhean ùra. Ach, tha beusachd clonadh guth fhathast teagmhach aig a’ char as fheàrr. Tha e gu cinnteach a’ dèanamh ciall carson a tha mòran den luchd-rannsachaidh sin air a bhith leisg an algairim a cho-roinn leis a’ phoball.
Leave a Reply