Table of Contents[Kache][Montre]
Èske w te janm vle tande karaktè pi renmen w ap pale avè w? Tèks-a-lapawòl ki son natirèl ap vin tounen yon reyalite tou dousman ak èd aprantisaj machin.
Pou egzanp, modèl NAT TTS Google yo te itilize pou pouvwa nouvo yo Custom Voice sèvis. Sèvis sa a sèvi ak rezo neral pou jenere yon vwa ki fòme nan anrejistreman yo. Aplikasyon entènèt tankou Uberduck bay dè santèn de vwa pou w chwazi pou kreye pwòp tèks sentèz ou.
Nan atik sa a, nou pral gade sou modèl AI enpresyonan ak egalman enigmatik ke yo rekonèt kòm 15.ai. Kreye pa yon pwomotè anonim, li ka youn nan pi efikas ak emosyonèl modèl tèks-a-lapawòl twò lwen.
ki sa ki 15.ai?
15.ai se yon aplikasyon entènèt AI ki kapab jenere vwa tèks-a-lapawòl ki gen anpil fidelite. Itilizatè yo ka chwazi nan yon varyete vwa soti nan Sponjbob Squarepants jiska HAL 9000 soti nan 2001: A Space Odyssey.
Pwogram nan te devlope pa yon ansyen chèchè anonim MIT k ap travay sou non 15. Pwomotè a te deklare ke pwojè a te okòmansman vin ansent kòm yon pati nan Pwogram Opòtinite rechèch bakaloreya inivèsite a.
Anpil nan vwa ki disponib nan 15.ai resevwa fòmasyon sou seri done piblik nan karaktè nan My Little Pony: Friendship is Magic. Fanatik grangou emisyon an te fòme yon efò kolaboratif pou kolekte, transkri, ak trete èdtan dyalòg ak objektif pou kreye jeneratè tèks-a-lapawòl pèsonaj yo pi renmen yo.
Kisa 15.ai ka fè?
Aplikasyon entènèt 15.ai a travay lè w chwazi youn nan plizyè douzèn karaktè fiktiv ke modèl la te resevwa fòmasyon epi soumèt tèks opinyon. Apre klike sou Jenere, itilizatè a ta dwe resevwa twa klip odyo nan karaktè fiktiv ki pale liy yo bay yo.
Depi nan pwofondè aprantisaj modèl yo itilize se nondeterministic, 15.ai pwodui yon diskou yon ti kras diferan chak fwa. Menm jan ak ki jan yon aktè ka mande plizyè pran pou jwenn bon livrezon an, 15.ai jenere diferan estil livrezon chak fwa jiskaske itilizatè a jwenn yon pwodiksyon yo renmen.
Pwojè a gen ladan yon karakteristik inik ki pèmèt itilizatè yo manyèlman chanje emosyon nan liy ki pwodwi a lè l sèvi avèk kontèksyalize emosyonèl. Paramèt sa yo kapab dedui santiman emojis antre itilizatè yo lè l sèvi avèk MIT yo DeepMoji modèl.
Dapre pwomotè a, sa ki mete 15.ai apa de lòt pwogram TTS ki sanble se ke modèl la depann sou anpil ti done pou klonaj vwa avèk presizyon pandan y ap "kenbe emosyon ak natirèlite entak".
Ki jan 15.ai travay?
Ann gade nan teknoloji ki dèyè 15.ai.
Premyèman, pwomotè prensipal 15.ai di ke pwogram nan itilize yon modèl koutim pou jenere vwa ak diferan eta emosyon. Depi otè a poko pibliye yon papye detaye sou pwojè a, nou ka sèlman fè gwo sipozisyon sou sa k ap pase dèyè sèn nan.
Rekipere Fonèm yo
Premyèman, ann gade ki jan pwogram nan analize tèks la antre. Anvan pwogram nan ka jenere lapawòl, li dwe konvèti chak mo endividyèl nan koleksyon respektif li yo nan fonèm. Pa egzanp, mo "chen" konpoze de twa fonèm: /d/, /ɒ/, ak /ɡ/.
Men, ki jan 15.ai fè konnen ki fonèm pou itilize pou chak mo?
Dapre paj About 15.ai a, pwogram nan sèvi ak yon tab rechèch diksyonè. Tablo a sèvi ak Oxford Dictionaries API, Wiktionary, ak CMU Pronouncing Dictionary kòm sous. 15.ai sèvi ak lòt sit entènèt tankou Reddit ak Urban Dictionary kòm sous pou tèm ak fraz ki fèk envante.
Si nenpòt mo pa egziste nan diksyonè a, yo dedwi pwononsyasyon li yo ak règ fonolojik modèl la te aprann nan men an. LibriTTS dataset. Ansanm done sa a se yon corpus—yon seri mo ekri oswa pale nan yon lang natif natal oswa dyalèk—nan apeprè 585 èdtan moun ki pale angle.
Anrejistre emosyon yo
Dapre pwomotè a, modèl la ap eseye devine emosyon an konnen nan tèks la opinyon. Modèl la akonpli travay sa a atravè DeepMoji la santiman analiz modèl. Modèl patikilye sa a te fòme sou dè milya de tweets ak emojis ak objektif pou konprann kijan lang yo itilize pou eksprime emosyon. Rezilta a nan modèl la entegre nan modèl la TTS manipile pwodiksyon an nan direksyon pou emosyon an vle.
Yon fwa ke fonèm yo ak santiman yo te ekstrè nan tèks la antre, li se kounye a tan yo sentèz lapawòl.
Klonaj vwa ak sentèz
Modèl tèks-a-lapawòl tankou 15.ai yo konnen kòm modèl milti-oratè. Modèl sa yo bati pou kapab aprann kijan pou pale nan diferan vwa. Pou nou byen antrene modèl nou an, nou dwe jwenn yon fason pou ekstrè karakteristik inik vwa yo epi reprezante li nan yon fason ke yon òdinatè ka konprann. Pwosesis sa a ke yo rekonèt kòm embedding oratè.
Aktyèl modèl tèks-a-lapawòl itilize rezo neral pou kreye aktyèl pwodiksyon odyo a. Rezo neral la anjeneral konsiste de de pati prensipal: yon ankode ak yon dekode.
Ankode a eseye bati yon sèl vektè rezime ki baze sou divès vektè opinyon. Enfòmasyon sou fonèm yo, aspè emosyonèl, ak karakteristik vwa yo mete nan ankode a pou kreye yon reprezantasyon sou sa pwodiksyon an ta dwe. Lè sa a, dekodè a konvèti reprezantasyon sa a nan odyo epi li bay yon nòt konfyans.
Apre sa, aplikasyon entènèt 15.ai a retounen twa premye rezilta yo ak pi bon nòt konfyans.
Pwoblèm
Avèk ogmantasyon kontni AI-pwodwi tankou gwo twou san fon, devlope AI avanse ki ka imite moun reyèl ka yon pwoblèm etik grav.
Kounye a, vwa ou ka chwazi nan aplikasyon entènèt 15.ai yo se tout karaktè fiktiv. Sepandan, sa pa t 'anpeche app a soti nan ranmase kèk konfli sou entènèt.
Kèk aktè vwa te pouse tounen sou itilizasyon teknoloji klonaj vwa. Enkyetid ki soti nan yo gen ladan imitasyon, itilizasyon vwa yo nan kontni eksplisit, ak posibilite ke teknoloji a ta ka rann wòl aktè vwa a demode.
Yon lòt konfli ki te fèt pi bonè nan 2022 lè yo te dekouvri yon konpayi ki rele Voiceverse NFT ap itilize 15.ai pou jenere kontni pou kanpay maketing yo.
konklizyon
Tèks-a-lapawòl se deja byen répandus nan lavi chak jou. Asistan vwa, navigatè GPS. ak apèl telefòn otomatik yo te deja vin komen. Sepandan, aplikasyon sa yo se klèman ki pa imen ase ke nou ka di yo ap machin-fè diskou.
Teknoloji TTS ki sanble natirèl ak emosyonèl ta ka louvri pòt pou nouvo aplikasyon. Sepandan, etik la nan klonaj vwa toujou dout nan pi bon. Li sètènman fè sans poukisa anpil nan chèchè sa yo te ezite pataje algorithm la ak piblik la.
Kite yon Reply