သင်အကြိုက်ဆုံးအနုပညာရှင်ထံမှ စံချိန်သစ်တစ်ခုဖန်တီးရန် AI ကိုသုံးနိုင်ပါသလား။
စက်သင်ယူမှုတွင် မကြာသေးမီက အောင်မြင်မှုများသည် မော်ဒယ်များသည် စာသားနှင့် ရုပ်ပုံများကဲ့သို့ ရှုပ်ထွေးသောဒေတာများကို နားလည်နိုင်စွမ်းရှိကြောင်း ပြသခဲ့သည်။ OpenAI ၏ Jukebox သည် ဂီတကို အာရုံကြောကွန်ရက်ဖြင့် တိကျစွာ စံနမူနာယူနိုင်ကြောင်း သက်သေပြသည်။
ဂီတသည် မော်ဒယ်အတွက် ရှုပ်ထွေးသော အရာတစ်ခုဖြစ်သည်။ သီချင်းစာသားများ၊ တူရိယာများနှင့် ဂီတဖွဲ့စည်းပုံကဲ့သို့သော ရိုးရှင်းသောအင်္ဂါရပ်နှစ်ခုလုံးကို ထည့်သွင်းစဉ်းစားရန် လိုအပ်သည်။
အဆင့်မြင့်အသုံးပြုခြင်း။ စက်သင်ယူမှု နည်းပညာများ၊ OpenAI သည် အကြမ်းထည် အသံကို အခြားမော်ဒယ်များ အသုံးပြုနိုင်သည့် ကိုယ်စားပြုအဖြစ်သို့ ပြောင်းလဲရန် နည်းလမ်းကို ရှာဖွေတွေ့ရှိခဲ့သည်။
ဤဆောင်းပါးတွင် Jukebox သည် မည်သို့လုပ်ဆောင်နိုင်သည်၊ ၎င်းလုပ်ဆောင်ပုံနှင့် နည်းပညာ၏ လက်ရှိကန့်သတ်ချက်များကို ရှင်းပြပါမည်။
Jukebox AI ဆိုတာဘာလဲ။
ဖျော်ဖြေရေး OpenAI မှ သီဆိုနိုင်သော အာရုံကြောစနစ်ပုံစံတစ်ခုဖြစ်သည်။ မော်ဒယ်သည် ဂီတအမျိုးအစားများနှင့် အနုပညာရှင်များ၏ စတိုင်အမျိုးမျိုးဖြင့် ထုတ်လုပ်နိုင်သည်။
ဥပမာအားဖြင့်၊ Jukebox သည် Elvis Presley ပုံစံဖြင့် ရော့ခ်သီချင်းတစ်ပုဒ် သို့မဟုတ် Kanye West စတိုင် ဟစ်ဟော့တေးသွားကို ထုတ်လုပ်နိုင်သည်။ ဒီကိုသွားကြည့်နိုင်ပါတယ်။ က်ဘ်ဆိုက် မော်ဒယ်သည် သင်နှစ်သက်သော ဂီတအနုပညာရှင်များနှင့် အမျိုးအစားများ၏ အသံကို ဖမ်းယူရာတွင် မည်မျှထိရောက်ကြောင်း ရှာဖွေရန်။
မော်ဒယ်သည် ထည့်သွင်းမှုအဖြစ် အမျိုးအစား၊ အနုပညာရှင်နှင့် သီချင်းစာသား လိုအပ်သည်။ ဤထည့်သွင်းမှုသည် သန်းပေါင်းများစွာသော အနုပညာရှင်များနှင့် သီချင်းစာသားဒေတာများပေါ်တွင် လေ့ကျင့်ထားသော မော်ဒယ်တစ်ဦးကို လမ်းညွှန်ပေးပါသည်။
Jukebox ဘယ်လိုအလုပ်လုပ်သလဲ။
Jukebox သည် သီချင်းပေါင်း သန်းပေါင်းများစွာကို လေ့ကျင့်သင်ကြားထားသည့် မော်ဒယ်မှ ဆန်းသစ်သော အသံဖိုင်ကို မည်သို့ထုတ်လုပ်နိုင်သည်ကို ကြည့်ကြပါစို့။
Encoding Process
အချို့သော ဂီတမျိုးဆက်မော်ဒယ်များသည် MIDI လေ့ကျင့်ရေးဒေတာကို အသုံးပြုနေသော်လည်း Jukebox သည် တကယ့်အကြမ်းထည်အသံဖိုင်တွင် လေ့ကျင့်ထားသည်။ အသံကို သီးခြားနေရာအဖြစ် ချုံ့ရန် Jukebox သည် VQ-VAE ဟုသိသော အော်တိုကုဒ်ဒါချဉ်းကပ်မှုကို အသုံးပြုသည်။
VQ-VAE Vector Quantized Variational Autoencoder သည် အနည်းငယ်ရှုပ်ထွေးပုံရသည်၊ ထို့ကြောင့် ခွဲကြည့်ရအောင်။
ဦးစွာ၊ ဤနေရာတွင် ကျွန်ုပ်တို့ ဘာလုပ်ချင်သည်ကို နားလည်ရန် ကြိုးစားကြပါစို့။ သီချင်းစာသား သို့မဟုတ် စာရွက်ဂီတနှင့် နှိုင်းယှဉ်ပါက အကြမ်းထည်အသံဖိုင်သည် အလွန်ရှုပ်ထွေးပါသည်။ ကျွန်ုပ်တို့၏မော်ဒယ်သည် သီချင်းများမှ “သင်ယူ” လိုပါက ၎င်းကို ပိုမိုချုံ့ပြီး ရိုးရှင်းသော ကိုယ်စားပြုမှုအဖြစ်သို့ ပြောင်းလဲရမည်ဖြစ်သည်။ ၌ စက်သင်ယူမှုဒါကို အရင်းခံကိုယ်စားပြုခြင်းလို့ ခေါ်ပါတယ်။ ငုပ်လျှိုးနေသောနေရာ.
An autoencode ကြီးကြပ်မှုမရှိဘဲ သင်ယူမှုနည်းစနစ်တစ်ခုသည် a ကိုအသုံးပြုသည်။ အာရုံကြောကွန်ယက်ကို ပေးထားသော ဒေတာဖြန့်ဖြူးမှုအတွက် လိုင်းမဟုတ်သော ငုပ်လျှိုးနေသော ကိုယ်စားပြုမှုများကို ရှာဖွေရန်။ autoencoder တွင် အပိုင်းနှစ်ပိုင်းပါဝင်သည်- ကုဒ်ဒါနှင့် ဒီကုဒ်ဒါ။
အဆိုပါ အန်ကုဒ် ဒေတာအကြမ်းအစုတစ်ခုမှ ငုပ်လျှိုးနေသောနေရာကို ရှာရန်ကြိုးစားနေစဉ် ဒီကုဒ်ဒါ ၎င်း၏မူလဖော်မတ်သို့ ပြန်လည်တည်ဆောက်ရန် ကြိုးစားရန် ငုပ်လျှိုးနေသော ကိုယ်စားပြုမှုကို အသုံးပြုသည်။ autoencoder သည် ပြန်လည်တည်ဆောက်ရေးဆိုင်ရာ အမှားအယွင်းကို အနည်းဆုံးဖြစ်စေသောနည်းဖြင့် ဒေတာအကြမ်းကို ချုံ့နည်းကို အခြေခံအားဖြင့် လေ့လာသည်။
ယခု ကျွန်ုပ်တို့သည် autoencoder ၏လုပ်ဆောင်ပုံကိုသိပြီး၊ “အမျိုးမျိုးသော” autoencoder မှကျွန်ုပ်တို့ဆိုလိုသည်ကိုနားလည်ရန်ကြိုးစားကြပါစို့။ ပုံမှန် autoencoders များနှင့် နှိုင်းယှဉ်ပါက၊ အမျိုးမျိုးသော autoencoders များသည် ငုပ်လျှိုးနေသော space မတိုင်မီ တစ်ခုထပ်ထည့်ပါသည်။
သင်္ချာဘာသာရပ်တွင် မပါဝင်ဘဲ၊ ကြိုတင်ဖြစ်နိုင်ခြေကို ပေါင်းထည့်ခြင်းသည် ငုပ်လျှိုးနေသော ဖြန့်ဖြူးမှုကို နီးကပ်စွာ စုစည်းစေသည်။ VAE နှင့် VQ-VAE အကြား အဓိကကွာခြားချက်မှာ စဉ်ဆက်မပြတ်တစ်ခုထက် သီးခြားလျှို့ဝှက်ထားသော ကိုယ်စားပြုမှုကို အသုံးပြုခြင်းဖြစ်သည်။
VQ-VAE အဆင့်တစ်ခုစီသည် ထည့်သွင်းမှုကို သီးခြားကုဒ်လုပ်သည်။ အောက်ခြေအဆင့် ကုဒ်နံပါတ်သည် အရည်အသွေးအမြင့်ဆုံး ပြန်လည်တည်ဆောက်မှုကို ထုတ်လုပ်သည်။ ထိပ်တန်းအဆင့် ကုဒ်နံပါတ်သည် မရှိမဖြစ် ဂီတအချက်အလက်ကို ထိန်းသိမ်းထားသည်။
Transformers ကိုအသုံးပြုခြင်း။
ယခု ကျွန်ုပ်တို့တွင် VQ-VAE မှ ကုဒ်နံပါတ်တပ်ထားသော တေးဂီတကုဒ်များ ရှိသဖြင့် ကြိုးစားနိုင်ပါပြီ။ ဂီတကိုဖန်တီးပါ။ ဤ compressed discrete space တွင်။
Jukebox ကိုအသုံးပြုသည်။ autoregressive ထရန်စဖော်မာများ အထွက်အသံကိုဖန်တီးရန်။ Transformers များသည် sequenced data ဖြင့် အကောင်းဆုံးလုပ်ဆောင်နိုင်သော အာရုံကြောကွန်ရက်အမျိုးအစားတစ်ခုဖြစ်သည်။ တိုကင်များ၏ အစီအစဥ်အရ၊ Transformer မော်ဒယ်သည် နောက်တိုကင်ကို ခန့်မှန်းရန် ကြိုးစားမည်ဖြစ်သည်။
Jukebox သည် Sparse Transformers ၏ ရိုးရှင်းသော မူကွဲကို အသုံးပြုသည်။ ယခင်မော်ဒယ်များအားလုံးကို လေ့ကျင့်သင်ကြားပြီးသည်နှင့်၊ ထရန်စဖော်မာသည် VQ-VAE ဒီကုဒ်ဒါကို အသုံးပြု၍ အကြမ်းအသံအဖြစ်သို့ ပြန်လည်ကုဒ်လုပ်ထားသော ကုဒ်များကို ထရန်စဖော်မာမှ ထုတ်ပေးပါသည်။
Jukebox တွင် အနုပညာရှင်နှင့် အမျိုးအစား သတ်မှတ်ချက်များ
Jukebox ၏ မျိုးဆက်သစ် မော်ဒယ်သည် လေ့ကျင့်ရေး အဆင့်အတွင်း နောက်ထပ် အခြေအနေ အချက်ပြ အချက်ပြမှုများကို ပံ့ပိုးပေးခြင်းဖြင့် ပိုမို ထိန်းချုပ်နိုင်စေပါသည်။
ပထမဆုံး မော်ဒယ်များကို သီချင်းတိုင်းအတွက် အနုပညာရှင်များနှင့် အမျိုးအစား အညွှန်းများက ပံ့ပိုးပေးပါသည်။ ၎င်းသည် အသံခန့်မှန်းချက်၏ အင်ထရိုပီကို လျော့နည်းစေပြီး မော်ဒယ်ကို ပိုမိုကောင်းမွန်သော အရည်အသွေးကို ရရှိစေမည်ဖြစ်သည်။ အညွှန်းများသည် ကျွန်ုပ်တို့အား မော်ဒယ်ကို သီးခြားစတိုင်ဖြင့် ထိန်းကျောင်းနိုင်စေပါသည်။
အနုပညာရှင်နှင့် အမျိုးအစားအပြင်၊ လေ့ကျင့်ချိန်အတွင်း အချိန်ကိုက်အချက်ပြမှုများကို ထည့်သွင်းထားသည်။ ဤအချက်ပြမှုများတွင် သီချင်း၏ကြာချိန်၊ နမူနာတစ်ခု၏ စတင်ချိန်နှင့် ကုန်ဆုံးသွားသော သီချင်းအပိုင်းအစတို့ ပါဝင်သည်။ ဤနောက်ထပ်အချက်အလက်များသည် မော်ဒယ်တစ်ခုလုံး၏ တည်ဆောက်ပုံအပေါ် မူတည်သော အသံပုံစံများကို နားလည်စေရန် ကူညီပေးပါသည်။
ဥပမာအားဖြင့်၊ တိုက်ရိုက်ဂီတအတွက် လက်ခုပ်သံသည် သီချင်းတစ်ပုဒ်၏အဆုံးတွင် ဖြစ်ပေါ်လာကြောင်း မော်ဒယ်က လေ့လာနိုင်သည်။ ဥပမာအားဖြင့်၊ အချို့အမျိုးအစားများသည် အခြားအမျိုးအစားများထက် တီးမှုတ်သည့်အပိုင်းများ ပိုရှည်ကြောင်း မော်ဒယ်က လေ့လာနိုင်သည်။
သီချင်းစာသား
ယခင်အပိုင်းတွင်ဖော်ပြထားသော တပ်ထားသော မော်ဒယ်များသည် အမျိုးမျိုးသော သီချင်းသံများကို ဖန်တီးပေးနိုင်သည်။ သို့သော် ဤအသံများသည် ရှုပ်ထွေးနေပြီး မှတ်မိနိုင်ဖွယ်မရှိပေ။
lyric မျိုးဆက်နှင့် ပတ်သက်လာသောအခါ generative model ကို ထိန်းချုပ်ရန်၊ သုတေသီများသည် လေ့ကျင့်ချိန်၌ ပိုမိုအကြောင်းအရာကို ပံ့ပိုးပေးသည်။ စာသားအချက်အလက်ကို အမှန်တကယ်အသံတွင် အချိန်ကိုက်မြေပုံဆွဲရန် သုတေသီများက အသုံးပြုခဲ့သည်။ spleeter တေးသံများကို ထုတ်ယူရန်နှင့် NUS AutoLyricsAlign သီချင်းစာသား၏ စကားလုံးအဆင့် ချိန်ညှိမှုများကို ရယူရန်။
Jukebox Model ၏ကန့်သတ်ချက်များ
Jukebox ၏ အဓိက ကန့်သတ်ချက်တစ်ခုမှာ ကြီးမားသော ဂီတဖွဲ့စည်းပုံများကို နားလည်ခြင်းပင်ဖြစ်သည်။ ဥပမာအားဖြင့်၊ အထွက်၏ စက္ကန့် 20 အပိုင်းတိုသည် စွဲမက်ဖွယ်ကောင်းသော်လည်း နားထောင်သူများသည် အထပ်ထပ်သံပြိုင်များနှင့် အခန်းငယ်များ၏ ပုံမှန်ဂီတဖွဲ့စည်းပုံသည် နောက်ဆုံးထွက်ရှိမှုတွင် မရှိတော့သည်ကို သတိပြုမိပါလိမ့်မည်။
မော်ဒယ်သည် တင်ဆက်ရန် နှေးကွေးသည်။ အသံတစ်မိနစ်ကို အပြည့်အ၀ပြန်ဆိုရန် အချိန် 9 နာရီခန့်ကြာသည်။ ၎င်းသည် ထုတ်ပေးနိုင်သော သီချင်းအရေအတွက်ကို ကန့်သတ်ထားပြီး မော်ဒယ်ကို အပြန်အလှန်အကျိုးပြုသည့်အက်ပ်များတွင် အသုံးပြုခြင်းမှ တားဆီးသည်။
နောက်ဆုံးအနေဖြင့်၊ နမူနာဒေတာအတွဲသည် အင်္ဂလိပ်ဘာသာဖြင့် အဓိကဖြစ်ပြီး အနောက်တိုင်းဂီတဆိုင်ရာ စည်းမျဉ်းများကို အဓိကပြသထားကြောင်း သုတေသီများက သတိပြုမိခဲ့သည်။ AI သုတေသီများသည် အခြားဘာသာစကားများနှင့် အနောက်တိုင်းမဟုတ်သော ဂီတပုံစံများဖြင့် ဂီတဖန်တီးမှုအပေါ် အနာဂတ်သုတေသနကို အာရုံစိုက်နိုင်သည်။
ကောက်ချက်
Jukebox ပရောဂျက်သည် အသံကြမ်းကဲ့သို့သော ရှုပ်ထွေးသောဒေတာများ၏ တိကျသော ငုပ်လျှိုးနေသော ကိုယ်စားပြုမှုများကို ဖန်တီးရန်အတွက် စက်သင်ယူမှုမော်ဒယ်များ၏ ကြီးထွားလာနိုင်စွမ်းကို မီးမောင်းထိုးပြပါသည်။ ကဲ့သို့သော ပရောဂျက်များတွင် တွေ့ရသည့်အတိုင်း စာသားတွင် အလားတူ အောင်မြင်မှုများ ဖြစ်ပေါ်နေသည်။ GPT-3OpenAI တွင်တွေ့မြင်ရသည့်အတိုင်း ပုံများ၊ DALL-E2.
ဤနေရာရှိ သုတေသနသည် အထင်ကြီးလောက်စရာဖြစ်သော်လည်း၊ ဉာဏပစ္စည်းမူပိုင်ခွင့်နှင့်ပတ်သက်သော စိုးရိမ်ပူပန်မှုများနှင့် ဤပုံစံများသည် ဖန်တီးမှုလုပ်ငန်းနယ်ပယ်တစ်ခုလုံးအပေါ် သက်ရောက်မှုရှိနိုင်သည် ။ သုတေသီများနှင့် ဖန်တီးသူများသည် ဤမော်ဒယ်များကို ဆက်လက်တိုးတက်ကောင်းမွန်လာစေရန် သေချာစေရန် အနီးကပ်ပူးပေါင်းဆောင်ရွက်သင့်သည်။
အနာဂတ်မျိုးဆက်သစ်ဂီတမော်ဒယ်များသည် ဂီတသမားများအတွက် ကိရိယာတစ်ခုအဖြစ် သို့မဟုတ် ပရောဂျက်များအတွက် စိတ်ကြိုက်ဂီတလိုအပ်သော ဖန်တီးသူများအတွက် အက်ပ်တစ်ခုအဖြစ် မကြာမီလုပ်ဆောင်နိုင်တော့မည်ဖြစ်သည်။
တစ်ဦးစာပြန်ရန် Leave