Та дуртай дүрийнхээ тантай ярилцахыг сонсохыг хүсч байсан уу? Байгалийн дуугаралттай текстийг ярианд шилжүүлэх нь машин сургалтын тусламжтайгаар аажмаар бодит болж байна.
Жишээлбэл, Google-ийн NAT TTS загварыг шинэ загвараа ажиллуулахад ашиглаж байна Тусгай дуу хоолой үйлчилгээ. Энэ үйлчилгээ нь бичлэгээс бэлтгэгдсэн дуу хоолойг үүсгэхийн тулд мэдрэлийн сүлжээг ашигладаг. зэрэг вэб програмууд Убердак Өөрийнхөө нэгтгэсэн текстийг үүсгэхийн тулд хэдэн зуун дуу хоолойгоор хангах.
Энэ нийтлэлд бид 15.ai гэгддэг хиймэл оюун ухааны гайхалтай, бас оньсого мэт загварыг авч үзэх болно. Нэр нь үл мэдэгдэгч хөгжүүлэгчийн бүтээсэн энэ нь хамгийн үр дүнтэй, сэтгэл хөдлөлийн нэг байж магадгүй юм текстээс ярианы загварууд одоо хүртэл.
15.ai гэж юу вэ?
15.ai нь сэтгэл хөдлөм өндөр нарийвчлалтай текстээс ярианы дуу хоолой үүсгэх чадвартай AI вэб програм юм. Хэрэглэгчид Spongebob Squarepants-аас эхлээд 9000 оны HAL 2001: A Space Odyssey хүртэлх олон төрлийн дуу хоолойг сонгох боломжтой.
Уг хөтөлбөрийг 15 нэрээр ажиллаж байсан MIT-ийн нэрээ нууцалсан судлаач боловсруулсан. Хөгжүүлэгчийн хэлснээр уг төслийг анх их сургуулийн бакалаврын судалгааны боломжийн хөтөлбөрийн нэг хэсэг болгон санаачилсан байна.
15.ai-д байгаа ихэнх дуу хоолойг My Little Pony: Найрамдал бол ид шид киноны дүрүүдийн олон нийтийн мэдээллийн багц дээр сургасан. Нэвтрүүлгийн шүтэн бишрэгчид өөрсдийн дуртай дүрүүдийнхээ текстийг ярианы үнэн зөв үүсгэгчийг бий болгох зорилготой харилцан ярианы цагийг цуглуулж, хуулж, боловсруулах хамтын хүчин чармайлт гаргажээ.
15.ai юу хийж чадах вэ?
15.ai вэб програм нь загвар өмсөгчдийн бэлтгэсэн олон арван зохиомол баатруудын аль нэгийг сонгож, текст оруулах замаар ажилладаг. Үүсгэх товчийг дарсны дараа хэрэглэгч өгөгдсөн мөрүүдээр ярьдаг зохиомол дүрийн гурван аудио клипийг хүлээн авах ёстой.
оноос хойш гүн гүнзгий суралцах Ашигласан загвар нь тодорхой бус, 15.ai болгонд арай өөр яриа гаргадаг. Жүжигчин зөв хүргэлтийг авахын тулд хэд хэдэн арга хэмжээ авах шаардлагатай байдагтай адил 15.ai нь хэрэглэгч өөрт таалагдсан үр дүнг олох хүртэл өөр өөр хэв маягийг бий болгодог.
Төсөл нь хэрэглэгчдэд сэтгэл хөдлөлийн контекстизатор ашиглан үүсгэсэн шугамын сэтгэл хөдлөлийг гараар өөрчлөх боломжийг олгодог өвөрмөц онцлогийг агуулдаг. Эдгээр параметрүүд нь MIT-ийн тусламжтайгаар хэрэглэгчийн оруулсан эможигийн мэдрэмжийг тодорхойлох боломжтой DeepMoji загвар.
Хөгжүүлэгчийн хэлснээр 15.ai-г бусад ижил төстэй TTS програмуудаас ялгаж байгаа зүйл нь уг загвар нь маш бага өгөгдөлд тулгуурлан дуу хоолойг үнэн зөв хувилахын зэрэгцээ "сэтгэл хөдлөл, байгалийн байдлыг бүрэн бүтэн байлгах" юм.
15.ai хэрхэн ажилладаг вэ?
15.ai-ийн ард байгаа технологийг харцгаая.
Нэгдүгээрт, 15.ai-ийн гол хөгжүүлэгч хэлэхдээ, уг программ нь янз бүрийн сэтгэл хөдлөлийн төлөвтэй дуу хоолойг үүсгэхийн тулд захиалгат загвар ашигладаг. Зохиогч энэ төслийн талаар дэлгэрэнгүй өгүүлэл нийтлээгүй байгаа тул бид зөвхөн хөшигний ард юу болж байгаа талаар өргөн таамаглал дэвшүүлж чадна.
Утаснуудыг сэргээж байна
Эхлээд програм нь оролтын текстийг хэрхэн задлан шинжилж байгааг харцгаая. Хөтөлбөр нь яриа үүсгэхээс өмнө үг бүрийг өөрийн фонемийн цуглуулга болгон хувиргах ёстой. Жишээлбэл, "нохой" гэдэг үг нь /d/, /ɒ/, /ɡ/ гэсэн гурван авианаас бүрдэнэ.
Гэхдээ 15.ai үг болгонд ямар авиаг ашиглахаа яаж мэдэх вэ?
15.ai сайтын тухай хуудсанд бичсэнээр уг программ нь толь бичгийн хайлтын хүснэгтийг ашигладаг. Хүснэгт нь Оксфордын толь бичгийн API, Wiktionary, CMU Pronouncing Dictionary-г эх сурвалж болгон ашигладаг. 15.ai нь Reddit, Urban Dictionary зэрэг бусад вэбсайтуудыг шинээр зохиосон нэр томъёо, хэллэгийн эх сурвалж болгон ашигладаг.
Хэрэв тухайн үг толь бичигт байхгүй бол түүний дуудлагыг тухайн загвараас сурсан авиа зүйн дүрмийг ашиглан гаргадаг. LibriTTS өгөгдлийн багц. Энэ өгөгдлийн багц нь ойролцоогоор 585 цаг англиар ярьдаг хүмүүсийн төрөлх хэл эсвэл аялгуунд бичсэн эсвэл ярианы үгсийн өгөгдлийн багц юм.
Сэтгэл хөдлөлийг шингээх
Хөгжүүлэгчийн хэлснээр загвар нь оролтын текстийн мэдрэгчтэй сэтгэл хөдлөлийг таах гэж оролддог. Загвар нь DeepMoji-ээр дамжуулан энэ ажлыг гүйцэтгэдэг сэтгэл хөдлөлийн шинжилгээ загвар. Энэхүү загвар нь сэтгэл хөдлөлийг илэрхийлэхэд хэлийг хэрхэн ашигладагийг ойлгох зорилготой эможи бүхий олон тэрбум жиргээн дээр бэлтгэгдсэн. Загварын үр дүнг TTS загварт суулгасан бөгөөд гаралтыг хүссэн сэтгэл хөдлөл рүү чиглүүлдэг.
Оруулсан текстээс фонем болон мэдрэмжийг гаргаж авсны дараа яриаг нэгтгэх цаг болжээ.
Дуут клон ба синтез
15.ai зэрэг текстээс ярианы загваруудыг олон чанга яригч загвар гэж нэрлэдэг. Эдгээр загварууд нь янз бүрийн дуу хоолойгоор хэрхэн ярьж сурах чадвартай байхаар бүтээгдсэн. Загвараа зөв сургахын тулд бид дуу хоолойн өвөрмөц онцлогийг гаргаж, компьютерт ойлгомжтой байдлаар илэрхийлэх арга замыг олох ёстой. Энэ процессыг чанга яригч оруулах гэж нэрлэдэг.
Одоогийн текстээс ярианы загваруудыг ашиглаж байна мэдрэлийн сүлжээ бодит аудио гаралтыг бий болгох. Мэдрэлийн сүлжээ нь ихэвчлэн кодлогч ба декодер гэсэн хоёр үндсэн хэсгээс бүрдэнэ.
Кодлогч нь янз бүрийн оролтын вектор дээр тулгуурлан нэг хураангуй векторыг бүтээхийг оролддог. Гаралт ямар байх ёстойг дүрслэн харуулахын тулд фонем, сэтгэл хөдлөлийн талууд, дуу хоолойны шинж чанаруудын талаархи мэдээллийг кодлогч руу оруулдаг. Дараа нь декодер нь энэ дүрслэлийг аудио болгон хувиргаж, итгэлийн оноог гаргадаг.
Дараа нь 15.ai вэб програм нь хамгийн сайн итгэлийн оноотой эхний гурван үр дүнг буцаана.
асуудлууд
гэх мэт хиймэл оюун ухаанаар үүсгэгдсэн контент нэмэгдэхийн хэрээр гүнзгийрч байна, бодит хүмүүсийг дуурайж чадах дэвшилтэт хиймэл оюун ухаан хөгжүүлэх нь ёс зүйн ноцтой асуудал байж болох юм.
Одоогоор 15.ai вэб программаас сонгож болох дуу хоолой нь бүгд зохиомол дүрүүд юм. Гэсэн хэдий ч энэ нь програмыг онлайнаар маргаан үүсгэхээс сэргийлсэнгүй.
Цөөн хэдэн дуут жүжигчид дуу хоолойг хувилах технологийг ашиглахаас татгалзсан. Тэдний санаа зовниж буй зүйл бол дүр эсгэх, дуу хоолойг нь тодорхой агуулгад ашиглах, технологи нь дуут жүжигчний дүрийг хуучирсан болгож болзошгүй гэх мэт.
Өөр нэг маргаан 2022 оны эхээр Voiceverse NFT нэртэй компани маркетингийн кампанит ажилд зориулж контент үүсгэхийн тулд 15.ai ашигладаг болохыг олж мэдсэн.
Дүгнэлт
Текстээс ярианд шилжих нь өдөр тутмын амьдралд аль хэдийн нэлээд түгээмэл болсон. Дуут туслах, GPS навигатор. автоматжуулсан утасны дуудлага аль хэдийн түгээмэл болсон. Гэсэн хэдий ч эдгээр програмууд нь хүн төрөлхтний хувьд тодорхойгүй байдаг тул бид тэдгээрийг машинд хийсэн яриа гэж хэлж болно.
Байгалийн дуугаралттай, сэтгэл хөдөлгөм TTS технологи нь шинэ хэрэглээний үүд хаалгыг нээж магадгүй юм. Гэсэн хэдий ч дуу хоолойг клончлох ёс зүй нь хамгийн сайндаа эргэлзээтэй хэвээр байна. Эдгээр судлаачдын ихэнх нь алгоритмыг олон нийттэй хуваалцахаас татгалзаж байгаа нь ойлгомжтой.
хариу үлдээх