តើអ្នកធ្លាប់ចង់ស្តាប់តួអង្គដែលអ្នកចូលចិត្តនិយាយជាមួយអ្នកទេ? អត្ថបទទៅការនិយាយដែលស្តាប់ទៅតាមធម្មជាតិកំពុងក្លាយជាការពិតបន្តិចម្តងៗដោយមានជំនួយពីការរៀនដោយម៉ាស៊ីន។
ឧទាហរណ៍ គំរូ NAT TTS របស់ Google កំពុងត្រូវបានប្រើប្រាស់ ដើម្បីផ្តល់ថាមពលថ្មីរបស់ពួកគេ។ សំឡេងផ្ទាល់ខ្លួន សេវាកម្ម។ សេវាកម្មនេះប្រើបណ្តាញសរសៃប្រសាទដើម្បីបង្កើតសំឡេងដែលបានបណ្តុះបណ្តាលពីការថតសំឡេង។ កម្មវិធីបណ្តាញដូចជា Uberduck ផ្តល់សំឡេងរាប់រយសម្រាប់អ្នកដើម្បីជ្រើសរើសដើម្បីបង្កើតអត្ថបទសំយោគផ្ទាល់ខ្លួនរបស់អ្នក។
នៅក្នុងអត្ថបទនេះ យើងនឹងពិនិត្យមើលគំរូ AI ដ៏គួរឱ្យចាប់អារម្មណ៍ និងគួរឱ្យចាប់អារម្មណ៍ដូចគ្នា ដែលត្រូវបានគេស្គាល់ថា 15.ai ។ បង្កើតឡើងដោយអ្នកអភិវឌ្ឍន៍អនាមិក វាអាចជាផ្នែកមួយនៃប្រសិទ្ធភាព និងអារម្មណ៍បំផុត។ គំរូអត្ថបទទៅការនិយាយ សែនឆ្ងាយ។
15.ai ជាអ្វី?
១៥.អាយ គឺជាកម្មវិធីបណ្តាញ AI ដែលមានសមត្ថភាពបង្កើតសំឡេងពីអត្ថបទទៅការនិយាយដែលមានភាពស្មោះត្រង់ខ្ពស់។ អ្នកប្រើប្រាស់អាចជ្រើសរើសពីសម្លេងជាច្រើនពី Spongebob Squarepants ដល់ HAL 9000 ពីឆ្នាំ 2001: A Space Odyssey ។
កម្មវិធីនេះត្រូវបានបង្កើតឡើងដោយអតីតអ្នកស្រាវជ្រាវ MIT ដែលមិនបញ្ចេញឈ្មោះដែលធ្វើការក្រោមឈ្មោះ 15។ អ្នកអភិវឌ្ឍន៍បាននិយាយថាគម្រោងនេះត្រូវបានបង្កើតឡើងដំបូងជាផ្នែកមួយនៃកម្មវិធីឱកាសស្រាវជ្រាវថ្នាក់បរិញ្ញាបត្ររបស់សាកលវិទ្យាល័យ។
សំឡេងជាច្រើនដែលមាននៅក្នុង 15.ai ត្រូវបានបណ្តុះបណ្តាលលើសំណុំទិន្នន័យសាធារណៈនៃតួអង្គពី My Little Pony: Friendship is Magic ។ អ្នកគាំទ្រនៃកម្មវិធីនេះបានបង្កើតកិច្ចខិតខំប្រឹងប្រែងរួមគ្នាដើម្បីប្រមូល ចម្លង និងដំណើរការម៉ោងនៃប្រអប់ ដោយមានគោលដៅបង្កើតម៉ាស៊ីនបង្កើតអត្ថបទទៅការនិយាយត្រឹមត្រូវនៃតួអក្សរដែលពួកគេចូលចិត្ត។
តើ 15.ai អាចធ្វើអ្វីបាន?
កម្មវិធីបណ្តាញ 15.ai ដំណើរការដោយជ្រើសរើសតួអក្សរប្រឌិតមួយក្នុងចំណោមតួអក្សរប្រឌិតរាប់សិបដែលគំរូត្រូវបានបណ្តុះបណ្តាល និងបញ្ជូនអត្ថបទបញ្ចូល។ បន្ទាប់ពីចុចលើ បង្កើត អ្នកប្រើប្រាស់គួរតែទទួលបានឈុតអូឌីយ៉ូបីនៃតួអក្សរប្រឌិតនិយាយបន្ទាត់ដែលបានផ្តល់ឱ្យ។
ចាប់តាំងពី ការរៀនសូត្រជ្រៅ គំរូដែលប្រើគឺមិនកំណត់ទេ 15.ai បញ្ចេញការនិយាយខុសគ្នាបន្តិចរាល់ពេល។ ស្រដៀងគ្នាទៅនឹងរបៀបដែលតារាសម្តែងអាចត្រូវការពេលវេលាច្រើនដើម្បីទទួលបានការដឹកជញ្ជូនត្រឹមត្រូវ 15.ai បង្កើតរចនាប័ទ្មចែកចាយផ្សេងៗគ្នារាល់ពេលរហូតដល់អ្នកប្រើប្រាស់រកឃើញលទ្ធផលដែលពួកគេចូលចិត្ត។
គម្រោងនេះរួមបញ្ចូលលក្ខណៈពិសេសតែមួយគត់ដែលអនុញ្ញាតឱ្យអ្នកប្រើផ្លាស់ប្តូរអារម្មណ៍នៃបន្ទាត់ដែលបានបង្កើតដោយដៃដោយប្រើឧបករណ៍បំប្លែងបរិបទអារម្មណ៍។ ប៉ារ៉ាម៉ែត្រទាំងនេះអាចកាត់ចេញនូវអារម្មណ៍នៃ emojis បញ្ចូលដោយអ្នកប្រើប្រាស់ដោយប្រើ MIT's DeepMoji គំរូ។
យោងតាមអ្នកអភិវឌ្ឍន៍ អ្វីដែលកំណត់ 15.ai ខុសពីកម្មវិធី TTS ស្រដៀងគ្នាផ្សេងទៀតគឺថា គំរូនេះពឹងផ្អែកលើទិន្នន័យតិចតួចបំផុតក្នុងការក្លូនសំឡេងឱ្យបានត្រឹមត្រូវ ខណៈពេលដែល "រក្សាអារម្មណ៍ និងធម្មជាតិឱ្យនៅដដែល"។
តើ 15.ai ដំណើរការយ៉ាងដូចម្តេច?
សូមក្រឡេកមើលបច្ចេកវិទ្យានៅពីក្រោយ 15.ai ។
ដំបូង អ្នកអភិវឌ្ឍន៍សំខាន់នៃ 15.ai និយាយថា កម្មវិធីនេះប្រើគំរូផ្ទាល់ខ្លួនដើម្បីបង្កើតសំឡេងជាមួយនឹងស្ថានភាពអារម្មណ៍ខុសៗគ្នា។ ដោយសារអ្នកនិពន្ធមិនទាន់បានបោះពុម្ពអត្ថបទលម្អិតអំពីគម្រោងនេះ យើងអាចធ្វើការសន្និដ្ឋានយ៉ាងទូលំទូលាយអំពីអ្វីដែលកំពុងកើតឡើងនៅពីក្រោយឆាក។
ការទាញយក Phonemes មកវិញ
ដំបូង សូមមើលពីរបៀបដែលកម្មវិធីញែកអត្ថបទបញ្ចូល។ មុនពេលកម្មវិធីអាចបង្កើតការនិយាយ វាត្រូវតែបំប្លែងពាក្យនីមួយៗទៅជាបណ្តុំនៃ phonemes រៀងៗខ្លួន។ ឧទាហរណ៍ ពាក្យ "ឆ្កែ" ត្រូវបានផ្សំឡើងដោយសូរសព្ទចំនួនបី៖ /d/, /ɒ/, និង /ɡ/។
ប៉ុន្តែតើ 15.ai ដឹងថាតើទូរស័ព្ទមួយណាត្រូវប្រើសម្រាប់ពាក្យនីមួយៗដោយរបៀបណា?
យោងតាមទំព័រអំពី 15.ai កម្មវិធីនេះប្រើតារាងរកមើលវចនានុក្រម។ តារាងប្រើ Oxford Dictionaries API, Wiktionary, និង CMU Pronouncing Dictionary ជាប្រភព។ 15.ai ប្រើប្រាស់គេហទំព័រផ្សេងទៀតដូចជា Reddit និង Urban Dictionary ជាប្រភពសម្រាប់ពាក្យ និងឃ្លាដែលបានបង្កើតថ្មី។
ប្រសិនបើពាក្យណាមួយដែលផ្តល់ឱ្យមិនមាននៅក្នុងវចនានុក្រមការបញ្ចេញសំឡេងរបស់វាត្រូវបានកាត់ចេញដោយប្រើក្បួនសូរស័ព្ទដែលគំរូបានរៀនពី LibriTTS សំណុំទិន្នន័យ សំណុំទិន្នន័យនេះគឺជា corpus ដែលជាសំណុំទិន្នន័យនៃពាក្យដែលសរសេរ ឬនិយាយជាភាសាកំណើត ឬគ្រាមភាសា របស់មនុស្សប្រហែល 585 ម៉ោងដែលនិយាយភាសាអង់គ្លេស។
ការបញ្ចូលអារម្មណ៍
យោងតាមអ្នកអភិវឌ្ឍន៍ ម៉ូដែលនេះព្យាយាមទាយពីអារម្មណ៍យល់ឃើញនៃអត្ថបទបញ្ចូល។ ម៉ូដែលនេះសម្រេចកិច្ចការនេះតាមរយៈ DeepMoji ការវិភាគមនោសញ្ចេតនា គំរូ។ គំរូពិសេសនេះត្រូវបានបណ្តុះបណ្តាលលើ tweets រាប់ពាន់លានជាមួយ emojis ជាមួយនឹងគោលដៅនៃការយល់ដឹងពីរបៀបដែលភាសាត្រូវបានប្រើដើម្បីបង្ហាញពីអារម្មណ៍។ លទ្ធផលនៃគំរូត្រូវបានបញ្ចូលទៅក្នុងគំរូ TTS ដើម្បីរៀបចំលទ្ធផលឆ្ពោះទៅរកអារម្មណ៍ដែលចង់បាន។
នៅពេលដែលសូរសព្ទ និងមនោសញ្ចេតនាត្រូវបានស្រង់ចេញពីអត្ថបទបញ្ចូល នោះវាដល់ពេលហើយដើម្បីសំយោគការនិយាយ។
ការក្លូនសំឡេង និងការសំយោគ
គំរូអត្ថបទទៅការនិយាយដូចជា 15.ai ត្រូវបានគេស្គាល់ថាជាគំរូពហុវាគ្មិន។ ម៉ូដែលទាំងនេះត្រូវបានបង្កើតឡើងដើម្បីអាចរៀនពីរបៀបនិយាយក្នុងសំឡេងផ្សេងៗគ្នា។ ដើម្បីបណ្ដុះបណ្ដាលគំរូរបស់យើងឱ្យបានត្រឹមត្រូវ យើងត្រូវស្វែងរកវិធីដើម្បីទាញយកលក្ខណៈពិសេសសំឡេងតែមួយគត់ និងតំណាងឱ្យវាតាមរបៀបដែលកុំព្យូទ័រអាចយល់បាន។ ដំណើរការនេះត្រូវបានគេស្គាល់ថាជាការបង្កប់ឧបករណ៍បំពងសំឡេង។
គំរូអត្ថបទទៅការនិយាយបច្ចុប្បន្នប្រើ បណ្តាញសរសៃប្រសាទ ដើម្បីបង្កើតលទ្ធផលអូឌីយ៉ូពិតប្រាកដ។ បណ្តាញសរសៃប្រសាទជាធម្មតាមានពីរផ្នែកសំខាន់ៗ៖ ឧបករណ៍បំលែងកូដ និងឧបករណ៍ឌិកូដ។
កម្មវិធីបម្លែងកូដព្យាយាមបង្កើតវ៉ិចទ័រសង្ខេបតែមួយដោយផ្អែកលើវ៉ិចទ័របញ្ចូលផ្សេងៗ។ ព័ត៌មានអំពីសូរសព្ទ ទិដ្ឋភាពអារម្មណ៍ និងលក្ខណៈសំឡេងត្រូវបានដាក់ចូលទៅក្នុងឧបករណ៍បំប្លែងកូដដើម្បីបង្កើតតំណាងនៃអ្វីដែលលទ្ធផលគួរតែជា។ បន្ទាប់មក ឧបករណ៍ឌិកូដបំប្លែងតំណាងនេះទៅជាសំឡេង ហើយផ្តល់ពិន្ទុទំនុកចិត្ត។
កម្មវិធីបណ្តាញ 15.ai បន្ទាប់មកបង្ហាញលទ្ធផលកំពូលទាំងបីជាមួយនឹងពិន្ទុទំនុកចិត្តល្អបំផុត។
បញ្ហា
ជាមួយនឹងការកើនឡើងនៃមាតិកាដែលបង្កើតដោយ AI ដូចជា deepfakesការអភិវឌ្ឍន៍ AI កម្រិតខ្ពស់ដែលអាចធ្វើត្រាប់តាមមនុស្សពិតអាចជាបញ្ហាសីលធម៌ធ្ងន់ធ្ងរ។
បច្ចុប្បន្ន សំឡេងដែលអ្នកអាចជ្រើសរើសបានពីកម្មវិធីបណ្ដាញ 15.ai គឺជាតួអក្សរប្រឌិតទាំងអស់។ ទោះជាយ៉ាងណាក៏ដោយ នោះមិនបានបញ្ឈប់កម្មវិធីពីការប្រមូលភាពចម្រូងចម្រាសលើអ៊ីនធឺណិតទេ។
អ្នកសំដែងសំឡេងពីរបីនាក់បានរុញច្រានការប្រើប្រាស់បច្ចេកវិជ្ជាចម្លងសំឡេង។ កង្វល់ពីពួកគេរួមមានការក្លែងបន្លំ ការប្រើប្រាស់សំឡេងរបស់ពួកគេក្នុងខ្លឹមសារច្បាស់លាស់ និងលទ្ធភាពដែលបច្ចេកវិទ្យាអាចធ្វើឲ្យតួនាទីរបស់តួសម្តែងសំឡេងលែងប្រើ។
ភាពចម្រូងចម្រាសមួយទៀតបានកើតឡើងនៅដើមឆ្នាំ 2022 នៅពេលដែលក្រុមហ៊ុនមួយដែលមានឈ្មោះថា Voiceverse NFT ត្រូវបានគេរកឃើញថាកំពុងប្រើប្រាស់ 15.ai ដើម្បីបង្កើតមាតិកាសម្រាប់យុទ្ធនាការទីផ្សាររបស់ពួកគេ។
សន្និដ្ឋាន
អត្ថបទទៅការនិយាយគឺមានច្រើនហើយក្នុងជីវិតប្រចាំថ្ងៃ។ ជំនួយការសំឡេង អ្នករុករក GPS ។ ហើយការហៅទូរស័ព្ទដោយស្វ័យប្រវត្តិបានក្លាយជាកន្លែងទូទៅរួចទៅហើយ។ ទោះជាយ៉ាងណាក៏ដោយ កម្មវិធីទាំងនេះគឺមិនមានលក្ខណៈមនុស្សគ្រប់គ្រាន់ទេ ដែលយើងអាចប្រាប់បានថា វាគឺជាការនិយាយដែលបង្កើតដោយម៉ាស៊ីន។
បច្ចេកវិទ្យា TTS សំឡេងធម្មជាតិ និងអារម្មណ៍អាចបើកទ្វារសម្រាប់កម្មវិធីថ្មី។ ទោះយ៉ាងណាក៏ដោយ ក្រមសីលធម៌នៃការចម្លងសំឡេងនៅតែជាចម្ងល់នៅល្អបំផុត។ វាពិតជាធ្វើឱ្យយល់បានថាហេតុអ្វីបានជាអ្នកស្រាវជ្រាវទាំងនេះជាច្រើនមានការស្ទាក់ស្ទើរក្នុងការចែករំលែកក្បួនដោះស្រាយជាមួយសាធារណៈជន។
សូមផ្ដល់យោបល់