Teburin Abubuwan Ciki[Boye][Nuna]
Shin kun taɓa son jin halin da kuka fi so yayi magana da ku? Rubutu-zuwa-magana mai sauti na halitta sannu a hankali yana zama gaskiya tare da taimakon koyon injin.
Misali, ana amfani da samfurin NAT TTS na Google don sarrafa sabon su Muryar Al'ada hidima. Wannan sabis ɗin yana amfani da hanyoyin sadarwa na jijiyoyi don samar da muryar da aka horar da su daga rikodi. Ka'idodin yanar gizo kamar Uberduck samar muku da ɗaruruwan muryoyin da za ku zaɓa daga don ƙirƙirar rubutun ku.
A cikin wannan labarin, za mu kalli samfurin AI mai ban sha'awa kuma daidai da abin da aka sani da 15.ai. Mai haɓakawa wanda ba a san sunansa ya ƙirƙira shi ba, yana iya zama ɗaya daga cikin mafi inganci da kuzari samfurin rubutu-zuwa-magana ya zuwa yanzu.
Menene 15.ai?
15. ai aikace-aikacen gidan yanar gizo ne na AI wanda ke da ikon ƙirƙirar muryoyin rubutu-zuwa-magana masu motsa rai. Masu amfani za su iya zaɓar daga muryoyi iri-iri daga Spongebob Squarepants zuwa HAL 9000 daga 2001: A Space Odyssey.
Wani tsohon mai binciken MIT ne da ba a bayyana sunansa ba ne ya kirkiro wannan shirin da ke aiki da sunan 15. Mawallafin ya bayyana cewa an fara aiwatar da aikin ne a matsayin wani bangare na Shirin Damar Bincike na Jami’ar.
Yawancin muryoyin da ake samu a cikin 15.ai an horar da su akan bayanan jama'a na haruffa daga My Little Pony: Abotaka sihiri ne. Masoya masu sha'awar wasan kwaikwayon sun yi ƙoƙari na haɗin gwiwa don tattarawa, rubutawa, da aiwatar da sa'o'i na tattaunawa tare da manufar ƙirƙirar ingantattun na'urorin saƙon rubutu-zuwa-magana na haruffan da suka fi so.
Me 15.ai zai iya yi?
Aikace-aikacen gidan yanar gizo na 15.ai yana aiki ta zaɓar ɗaya daga cikin ɗimbin haruffan almara waɗanda aka horar da ƙirar akan su da ƙaddamar da rubutun shigarwa. Bayan danna Ƙirƙira, mai amfani ya kamata ya karɓi shirye-shiryen sauti guda uku na halayen almara yana magana da layin da aka bayar.
tun lokacin da zurfin ilmantarwa samfurin da aka yi amfani da shi ba shi da iyaka, 15.ai yana fitar da magana daban-daban kowane lokaci. Kamar yadda mai wasan kwaikwayo zai iya buƙatar ɗaukar abubuwa da yawa don samun isarwa daidai, 15.ai yana haifar da nau'ikan isarwa daban-daban kowane lokaci har sai mai amfani ya sami fitarwa da yake so.
Aikin ya ƙunshi nau'i na musamman wanda ke ba masu amfani damar canza motsin motsin layin da aka samar da hannu ta hanyar amfani da mahaɗar yanayi. Waɗannan sigogin suna iya cire ra'ayin shigar da mai amfani emojis ta amfani da MIT DeepMoji model.
A cewar mai haɓakawa, abin da ke saita 15.ai baya ga sauran shirye-shiryen TTS masu kama da shi shine cewa ƙirar ta dogara da ɗan ƙaramin bayanai don daidaita muryoyin sauti daidai yayin da "ci gaba da motsin rai da dabi'a".
Ta yaya 15.ai Aiki?
Bari mu dubi fasahar da ke bayan 15.ai.
Da farko, babban mai haɓakawa na 15.ai ya ce shirin yana amfani da ƙirar al'ada don samar da muryoyi tare da yanayi daban-daban na motsin rai. Tun da har yanzu marubucin bai buga cikakken takarda kan aikin ba, za mu iya yin zato ne kawai na abin da ke faruwa a bayan fage.
Maido da Wayoyin Wayoyin
Da farko, bari mu kalli yadda shirin ke rarraba rubutun shigarwa. Kafin shirin ya iya samar da magana, dole ne ya canza kowace kalma ɗaya zuwa tarin waƙoƙin wayoyi daban-daban. Misali, kalmar “kare” ta ƙunshi wayoyi uku: /d/, /ɒ/, da /ɡ/.
Amma ta yaya 15.ai ya san waɗanne wayoyi don amfani da kowace kalma?
Bisa ga shafin 15.ai's Game da, shirin yana amfani da tebur neman ƙamus. Tebur yana amfani da Oxford Dictionaries API, Wiktionary, da CMU Pronouncing Dictionary a matsayin tushe. 15.ai yana amfani da wasu gidajen yanar gizo kamar Reddit da Urban Dictionary a matsayin tushen sabbin sharuɗɗan da jimloli.
Idan babu wata kalma da aka bayar a cikin ƙamus, ana cire furcinta ta amfani da ƙa'idodin sautin da samfurin ya koya daga LibriTTS dataset. Wannan ma'ajin bayanai shine babban ma'aunin bayanai na rubuce-rubuce ko kalmomi a cikin yare ko yare - na kusan sa'o'i 585 na mutanen da ke magana da Ingilishi.
Haɗa Hankali
A cewar mai haɓakawa, ƙirar tana ƙoƙarin kimanta tunanin da aka tsinta na rubutun shigarwa. Samfurin yana cika wannan aikin ta hanyar DeepMoji tantance tunani abin koyi. An horar da wannan samfurin musamman akan biliyoyin tweets tare da emojis tare da manufar fahimtar yadda ake amfani da harshe don bayyana motsin rai. Sakamakon samfurin an saka shi cikin samfurin TTS don sarrafa fitarwa zuwa motsin da ake so.
Da zarar an fitar da sautin wayoyi da jin daɗi daga rubutun shigarwa, yanzu lokaci ya yi da za a haɗa magana.
Cloning Murya da Ƙarfafawa
Rubutun-zuwa-magana irin su 15.ai an san su da ƙirar masu magana da yawa. An gina waɗannan samfuran don su iya koyon yadda ake magana da muryoyi daban-daban. Domin horar da samfurin mu yadda ya kamata, dole ne mu nemo hanyar da za mu fitar da sifofin murya na musamman kuma mu wakilce ta ta hanyar da kwamfuta za ta iya fahimta. Ana kiran wannan tsari da saka lasifika.
Ana amfani da samfurin rubutu-zuwa-magana na yanzu neural networks don ƙirƙirar ainihin fitarwa na sauti. Cibiyar sadarwa ta jijiyoyi yawanci ta ƙunshi manyan sassa biyu: encoder da dikodi.
Mai rikodin rikodin yana ƙoƙarin gina vector taƙaice guda ɗaya dangane da nau'ikan shigarwa daban-daban. Ana sanya bayanai game da sautin wayoyi, abubuwan motsa jiki, da fasalulluka na murya a cikin maɓalli don ƙirƙirar wakilcin abin da fitarwa ya kamata ya kasance. Mai rikodin sa'an nan yana canza wannan wakilcin zuwa sauti kuma yana fitar da ma'aunin amincewa.
Aikace-aikacen gidan yanar gizo na 15.ai sannan ya dawo da manyan sakamako guda uku tare da mafi kyawun ƙimar amincewa.
Batutuwa
Tare da haɓaka abubuwan da aka samar da AI kamar deepfakes, Haɓaka AI mai ci gaba wanda zai iya yin kwaikwayon mutane na gaske na iya zama matsala mai tsanani.
A halin yanzu, muryoyin da zaku iya zaɓar daga aikace-aikacen gidan yanar gizo na 15.ai duk haruffan ƙagaggun ne. Duk da haka, hakan bai hana app ɗin ta haifar da cece-kuce akan layi ba.
Wasu ƴan wasan kwaikwayo na murya sun ja da baya kan amfani da fasahar cloning na murya. Abubuwan da ke damun su sun haɗa da kwaikwaya, yin amfani da muryarsu a zahiri, da yuwuwar fasahar na iya sa aikin mai wasan murya ya ƙare.
Wani rikici ya faru a baya a cikin 2022 lokacin da aka gano wani kamfani mai suna Voiceverse NFT yana amfani da 15.ai don samar da abun ciki don yakin kasuwancin su.
Kammalawa
Rubutu-zuwa-magana ya riga ya zama ruwan dare a rayuwar yau da kullun. Mataimakan murya, GPS navigators. kuma kiran waya mai sarrafa kansa ya riga ya zama ruwan dare gama gari. Koyaya, waɗannan aikace-aikacen ba na ɗan adam ba ne da za mu iya cewa magana ce ta inji.
Fasahar TTS mai sauti da motsin rai na iya buɗe kofa don sabbin aikace-aikace. Koyaya, ɗabi'ar cloning na murya har yanzu abin tambaya ne a mafi kyau. Tabbas yana da ma'ana dalilin da yasa yawancin waɗannan masu bincike suka ƙi raba algorithm tare da jama'a.
Leave a Reply