Jukebox AI - បង្កើតតន្ត្រីដោយប្រើបណ្តាញសរសៃប្រសាទ

មាតិកា[លាក់][បង្ហាញ]

តើ Jukebox AI ជាអ្វី?
តើ Jukebox ដំណើរការយ៉ាងដូចម្តេច?+-
ដែនកំណត់នៃម៉ូដែល Jukebox
សន្និដ្ឋាន

តើអ្នកអាចប្រើ AI ដើម្បីបង្កើតកំណត់ត្រាថ្មីពីសិល្បករដែលអ្នកចូលចិត្តបានទេ?

របកគំហើញថ្មីៗនៅក្នុងការរៀនម៉ាស៊ីនបានបង្ហាញថា គំរូឥឡូវនេះមានសមត្ថភាពក្នុងការយល់អំពីទិន្នន័យស្មុគស្មាញដូចជាអត្ថបទ និងរូបភាព។ Jukebox របស់ OpenAI បង្ហាញថាសូម្បីតែតន្ត្រីអាចត្រូវបានយកគំរូតាមបណ្តាញសរសៃប្រសាទយ៉ាងជាក់លាក់។

តន្ត្រីគឺជាវត្ថុស្មុគស្មាញសម្រាប់គំរូ។ អ្នកត្រូវពិចារណាទាំងលក្ខណៈសាមញ្ញដូចជា ចង្វាក់ កម្រិតសំឡេង និងកម្រិតសំឡេង និងលក្ខណៈស្មុគស្មាញបន្ថែមទៀតដូចជាទំនុកច្រៀង ឧបករណ៍ និងរចនាសម្ព័ន្ធតន្ត្រី។

ការប្រើប្រាស់កម្រិតខ្ពស់ ការរៀនម៉ាស៊ីន បច្ចេកទេស OpenAI បានរកឃើញវិធីមួយដើម្បីបំប្លែងសំឡេងឆៅទៅជាតំណាងដែលម៉ូដែលផ្សេងទៀតអាចប្រើបាន។

អត្ថបទនេះនឹងពន្យល់ពីអ្វីដែល Jukebox អាចធ្វើបាន របៀបដែលវាដំណើរការ និងដែនកំណត់បច្ចុប្បន្ននៃបច្ចេកវិទ្យា។

តើ Jukebox AI ជាអ្វី?

ជុកប្រអប់ គឺជាគំរូសុទ្ធសរសៃប្រសាទដោយ OpenAI ដែលអាចបង្កើតតន្ត្រីជាមួយនឹងការច្រៀង។ ម៉ូដែលនេះអាចផលិតតន្ត្រីតាមប្រភេទ និងរចនាប័ទ្មសិល្បករជាច្រើន។

jukebox AI បង្កើតបទចម្រៀងពីសិល្បករដែលគេស្គាល់

ជាឧទាហរណ៍ Jukebox អាចផលិតបទចម្រៀងរ៉ុកនៅក្នុងរចនាប័ទ្មរបស់ Elvis Presley ឬបទភ្លេងហ៊ីបហបនៅក្នុងរចនាប័ទ្មរបស់ Kanye West ។ អ្នកអាចទស្សនានេះ។ គេហទំព័រ ដើម្បីស្វែងយល់ថាតើម៉ូដែលនេះមានប្រសិទ្ធភាពយ៉ាងណាក្នុងការចាប់យកសំឡេងរបស់សិល្បករតន្ត្រី និងប្រភេទដែលអ្នកចូលចិត្ត។

គំរូទាមទារប្រភេទ សិល្បករ និងអត្ថបទចម្រៀងជាការបញ្ចូល។ ការបញ្ចូលនេះណែនាំគំរូដែលបានបណ្តុះបណ្តាលលើសិល្បកររាប់លាននាក់ និងទិន្នន័យអត្ថបទចម្រៀង។

តើ Jukebox ដំណើរការយ៉ាងដូចម្តេច?

សូមក្រឡេកមើលពីរបៀបដែល Jukebox គ្រប់គ្រងដើម្បីបង្កើតអូឌីយ៉ូឆៅប្រលោមលោកពីគំរូដែលត្រូវបានបណ្តុះបណ្តាលលើបទចម្រៀងរាប់លាន។

ដំណើរការអ៊ិនកូដ

ខណៈពេលដែលម៉ូដែលជំនាន់តន្ត្រីមួយចំនួនប្រើទិន្នន័យបណ្តុះបណ្តាល MIDI Jukebox ត្រូវបានបណ្តុះបណ្តាលលើឯកសារអូឌីយ៉ូឆៅពិតប្រាកដ។ ដើម្បីបង្រួមអូឌីយ៉ូទៅក្នុងចន្លោះដាច់ដោយឡែក Jukebox ប្រើវិធីសាស្ត្របំប្លែងកូដដោយស្វ័យប្រវត្តិដែលគេស្គាល់ថា VQ-VAE។

VQ-VAE តំណាងឱ្យ Vector Quantized Variational Autoencoder ដែលអាចស្តាប់ទៅដូចជាស្មុគស្មាញបន្តិច ដូច្នេះសូមបំបែកវាចុះ។

ជាដំបូង ចូរយើងព្យាយាមយល់ពីអ្វីដែលយើងចង់ធ្វើនៅទីនេះ។ បើប្រៀបធៀបទៅនឹងអត្ថបទចម្រៀង ឬតន្ត្រីសន្លឹក ឯកសារអូឌីយ៉ូឆៅគឺស្មុគស្មាញជាងច្រើន។ ប្រសិនបើយើងចង់ឱ្យគំរូរបស់យើង "រៀន" ពីបទចម្រៀង យើងនឹងត្រូវបំប្លែងវាទៅជាតំណាងដែលបង្រួម និងងាយស្រួលជាងមុន។ ក្នុង ការរៀនម៉ាស៊ីនយើងហៅតំណាងមូលដ្ឋាននេះថា ក ចន្លោះមិនទាន់ឃើញ.

ចន្លោះមិនទាន់ឃើញគឺជាកំណែដែលបានបង្ហាប់នៃការបញ្ចូលគំរូមួយ។

An ស្វ័យប្រវត្តិ គឺជាបច្ចេកទេសសិក្សាដែលគ្មានការត្រួតពិនិត្យដែលប្រើ បណ្តាញសរសៃប្រសាទ ដើម្បីស្វែងរកតំណាងដែលមិនទាន់ឃើញច្បាស់មិនមែនជាលីនេអ៊ែរសម្រាប់ការចែកចាយទិន្នន័យដែលបានផ្តល់ឱ្យ។ autoencoder មានពីរផ្នែក៖ encoder និង decoder ។

នេះ អ៊ិនកូដឌ័រ ព្យាយាមស្វែងរកចន្លោះដែលមិនទាន់ឃើញពីសំណុំនៃទិន្នន័យឆៅខណៈពេលដែល ឌិកូឌ័រ ប្រើតំណាងដែលមិនទាន់ឃើញច្បាស់ ដើម្បីព្យាយាមបង្កើតវាឡើងវិញទៅក្នុងទម្រង់ដើមរបស់វា។ កម្មវិធី autoencoder សិក្សាយ៉ាងសំខាន់ពីរបៀបបង្ហាប់ទិន្នន័យឆៅតាមរបៀបដែលកាត់បន្ថយកំហុសក្នុងការបង្កើតឡើងវិញ។

ឥឡូវនេះយើងដឹងពីអ្វីដែល autoencoder ធ្វើនោះ ចូរយើងព្យាយាមយល់ពីអ្វីដែលយើងមានន័យដោយ autoencoder "បំរែបំរួល" ។ បើប្រៀបធៀបទៅនឹង autoencoders ធម្មតា, autoencoders បំរែបំរួលបន្ថែមមួយមុនចន្លោះមិនទាន់ឃើញច្បាស់។

ដោយមិនចាំបាច់ចូលទៅក្នុងគណិតវិទ្យាទេ ការបន្ថែមប្រូបាប៊ីលីកមុននឹងធ្វើឱ្យការចែកចាយមិនទាន់ឃើញច្បាស់ត្រូវបានបង្រួមយ៉ាងជិតស្និទ្ធ។ ភាពខុសគ្នាចំបងរវាង VAE និង VQ-VAE គឺថា ក្រោយមកទៀតប្រើតំណាងដែលមិនទាន់ឃើញច្បាស់ដាច់ដោយឡែកជាជាងការបន្តមួយ។ ដ្យាក្រាមនៃស្ថាបត្យកម្មរបស់ jukebox AI សម្រាប់អ៊ិនកូដ និងឌិកូដ

កម្រិត VQ-VAE នីមួយៗធ្វើការអ៊ិនកូដដោយឯករាជ្យ។ ការអ៊ិនកូដកម្រិតខាងក្រោមបង្កើតការស្ថាបនាឡើងវិញប្រកបដោយគុណភាពខ្ពស់បំផុត។ ការអ៊ិនកូដកម្រិតកំពូលរក្សាព័ត៌មានតន្ត្រីសំខាន់ៗ។

ការប្រើប្រាស់ Transformers

jukebox AI ប្រើ transformers ដើម្បីបង្កើតឈុតអូឌីយ៉ូបន្ទាប់នៅក្នុងបទ

ឥឡូវនេះយើងមានលេខកូដតន្ត្រីដែលបានអ៊ិនកូដដោយ VQ-VAE យើងអាចព្យាយាម បង្កើតតន្ត្រី នៅក្នុងចន្លោះដាច់ដោយឡែកដែលបានបង្ហាប់នេះ។

Jukebox ប្រើ autoregressive transformers ដើម្បីបង្កើតអូឌីយ៉ូលទ្ធផល។ Transformers គឺជាបណ្តាញសរសៃប្រសាទមួយប្រភេទដែលដំណើរការល្អបំផុតជាមួយនឹងទិន្នន័យតាមលំដាប់លំដោយ។ ដែលបានផ្ដល់ឱ្យនូវលំដាប់នៃសញ្ញាសម្ងាត់ គំរូប្លែងនឹងព្យាយាមទស្សន៍ទាយនិមិត្តសញ្ញាបន្ទាប់។

Jukebox ប្រើបំរែបំរួលសាមញ្ញនៃ Sparse Transformers ។ នៅពេលដែលម៉ូដែលមុនទាំងអស់ត្រូវបានបណ្តុះបណ្តាល ប្លែងបង្កើតកូដដែលបានបង្ហាប់ដែលបន្ទាប់មកត្រូវបានឌិកូដត្រឡប់ទៅជាអូឌីយ៉ូឆៅដោយប្រើឧបករណ៍ឌិកូដ VQ-VAE ។

ការកំណត់ប្រភេទសិល្បករ និងប្រភេទនៅក្នុង Jukebox

គំរូ jukebox AI ដំបូងព្យាយាមយល់ពីរបៀបដែលបទចម្រៀងស្តាប់ទៅដូចជាប្រភេទជាក់លាក់ ឬសិល្បករ

គំរូបង្កើតរបស់ Jukebox ត្រូវបានធ្វើឱ្យអាចគ្រប់គ្រងបានកាន់តែច្រើនដោយការផ្តល់នូវសញ្ញាតាមលក្ខខណ្ឌបន្ថែមក្នុងអំឡុងពេលជំហានហ្វឹកហាត់។

ម៉ូដែលទីមួយត្រូវបានផ្តល់ដោយសិល្បករ និងប្រភេទស្លាកសម្រាប់បទចម្រៀងនីមួយៗ។ នេះកាត់បន្ថយការព្យាករណ៍នៃសំឡេង និងអនុញ្ញាតឱ្យម៉ូដែលសម្រេចបាននូវគុណភាពប្រសើរជាងមុន។ ស្លាកសញ្ញាក៏អនុញ្ញាតឱ្យយើងគ្រប់គ្រងគំរូតាមរចនាប័ទ្មជាក់លាក់មួយ។

ក្រៅពីសិល្បករ និងប្រភេទ សញ្ញាពេលវេលាត្រូវបានបន្ថែមអំឡុងពេលហ្វឹកហាត់។ សញ្ញាទាំងនេះរួមមានរយៈពេលនៃបទចម្រៀង ពេលវេលាចាប់ផ្តើមនៃគំរូជាក់លាក់មួយ និងប្រភាគនៃបទចម្រៀងដែលបានកន្លងផុតទៅ។ ព័ត៌មានបន្ថែមនេះជួយឱ្យម៉ូដែលយល់ពីគំរូសំឡេងដែលពឹងផ្អែកលើរចនាសម្ព័ន្ធទាំងមូល។

ជាឧទាហរណ៍ គំរូអាចដឹងថាការទះដៃសម្រាប់តន្ត្រីបន្តផ្ទាល់កើតឡើងនៅចុងបញ្ចប់នៃបទចម្រៀងមួយ។ ជាឧទាហរណ៍ គំរូក៏អាចរៀនបានដែរថា ប្រភេទខ្លះមានផ្នែកឧបករណ៍វែងជាងផ្នែកផ្សេងទៀត។

អត្ថបទចម្រៀង

ម៉ូដែលដែលមានលក្ខខណ្ឌដែលបានរៀបរាប់នៅក្នុងផ្នែកមុន មានសមត្ថភាពបង្កើតសំឡេងច្រៀងបានច្រើន។ ទោះយ៉ាងណាក៏ដោយ សំឡេងទាំងនេះមានទំនោរទៅមិនចុះសម្រុងគ្នា និងមិនអាចស្គាល់បាន។

ដើម្បីគ្រប់គ្រងគំរូបង្កើតនៅពេលនិយាយអំពីការបង្កើតទំនុកច្រៀង អ្នកស្រាវជ្រាវផ្តល់បរិបទបន្ថែមទៀតនៅពេលបណ្តុះបណ្តាល។ អ្នកស្រាវជ្រាវបានប្រើ ដើម្បីជួយធ្វើផែនទីទិន្នន័យអត្ថបទចម្រៀងទៅនឹងពេលវេលានៃសំឡេងពិតប្រាកដ សុល ដើម្បីទាញយកសំលេងនិង NUS AutoLyricsAlign ដើម្បីទទួលបានការតម្រឹមកម្រិតពាក្យនៃអត្ថបទចម្រៀង។

ដែនកំណត់នៃម៉ូដែល Jukebox

ដែនកំណត់សំខាន់មួយនៃ Jukebox គឺការយល់ដឹងអំពីរចនាសម្ព័ន្ធតន្ត្រីធំជាង។ ជាឧទាហរណ៍ ឃ្លីបខ្លី 20 វិនាទីនៃលទ្ធផលអាចស្តាប់ទៅគួរអោយចាប់អារម្មណ៍ ប៉ុន្តែអ្នកស្តាប់នឹងសម្គាល់ឃើញថា រចនាសម្ព័ន្ធតន្ត្រីធម្មតានៃការច្រៀងបន្ទរ និងខគម្ពីរដដែលៗគឺអវត្តមាននៅក្នុងលទ្ធផលចុងក្រោយ។

ម៉ូដែលនេះក៏យឺតក្នុងការបង្ហាញផងដែរ។ វាត្រូវចំណាយពេលប្រហែល 9 ម៉ោងដើម្បីបញ្ចេញសំឡេងពេញមួយនាទី។ វាកំណត់ចំនួនបទចម្រៀងដែលអាចបង្កើតបាន និងរារាំងគំរូពីការប្រើប្រាស់នៅក្នុងកម្មវិធីអន្តរកម្ម។

ជាចុងក្រោយ អ្នកស្រាវជ្រាវបានកត់សម្គាល់ថា សំណុំទិន្នន័យគំរូជាភាសាអង់គ្លេស និងបង្ហាញជាចម្បងនូវអនុសញ្ញាតន្ត្រីលោកខាងលិច។ អ្នកស្រាវជ្រាវ AI អាចផ្តោតលើការស្រាវជ្រាវនាពេលអនាគតលើការបង្កើតតន្ត្រីជាភាសាផ្សេងទៀត និងរចនាប័ទ្មតន្ត្រីមិនមែនលោកខាងលិច។

សន្និដ្ឋាន

គម្រោង Jukebox រំលេចនូវសមត្ថភាពដែលកំពុងកើនឡើងនៃម៉ូដែលរៀនម៉ាស៊ីន ដើម្បីបង្កើតតំណាងត្រឹមត្រូវនៃទិន្នន័យស្មុគស្មាញ ដូចជាសំឡេងឆៅជាដើម។ របកគំហើញស្រដៀងគ្នានេះកំពុងកើតឡើងនៅក្នុងអត្ថបទ ដូចដែលបានឃើញនៅក្នុងគម្រោងដូចជា GPT-3និងរូបភាព ដូចដែលបានឃើញនៅក្នុង OpenAI's DALL-E2.

ខណៈពេលដែលការស្រាវជ្រាវនៅក្នុងលំហនេះគួរឱ្យចាប់អារម្មណ៍ វានៅតែមានការព្រួយបារម្ភអំពីសិទ្ធិកម្មសិទ្ធិបញ្ញា និងផលប៉ះពាល់នៃគំរូទាំងនេះអាចមានលើឧស្សាហកម្មច្នៃប្រឌិតទាំងមូល។ អ្នកស្រាវជ្រាវ និងអ្នកច្នៃប្រឌិតគួរតែបន្តសហការយ៉ាងជិតស្និទ្ធ ដើម្បីធានាថាគំរូទាំងនេះអាចបន្តធ្វើឱ្យប្រសើរឡើង។

គំរូតន្ត្រីជំនាន់ក្រោយៗទៀតប្រហែលជាអាចដើរតួជាឧបករណ៍សម្រាប់តន្ត្រីករ ឬជាកម្មវិធីសម្រាប់អ្នកច្នៃប្រឌិតដែលត្រូវការតន្ត្រីផ្ទាល់ខ្លួនសម្រាប់គម្រោង។

Jukebox AI - បង្កើតតន្ត្រីដោយប្រើបណ្តាញសរសៃប្រសាទ

តើ Jukebox AI ជាអ្វី?