ከምትወደው አርቲስት አዲስ መዝገብ ለመፍጠር AI መጠቀም ትችላለህ?
በማሽን ትምህርት ውስጥ ያሉ የቅርብ ጊዜ ግኝቶች ሞዴሎች አሁን እንደ ጽሑፍ እና ምስሎች ያሉ ውስብስብ መረጃዎችን የመረዳት ችሎታ እንዳላቸው ያሳያሉ። የOpenAI's Jukebox ሙዚቃ እንኳን ሳይቀር በነርቭ ኔትወርክ በትክክል መቀረጽ እንደሚቻል ያረጋግጣል።
ሙዚቃ ለመምሰል ውስብስብ ነገር ነው። ሁለቱንም ቀላል ባህሪያት እንደ ጊዜ, ድምጽ እና ድምጽ እና እንደ ግጥሞች, መሳሪያዎች እና የሙዚቃ መዋቅር የመሳሰሉ ውስብስብ ባህሪያትን ግምት ውስጥ ማስገባት አለብዎት.
የላቀ በመጠቀም የማሽን መማር ቴክኒኮች፣ OpenAI ጥሬ ድምጽን ሌሎች ሞዴሎች ሊጠቀሙበት ወደሚችሉት ውክልና የሚቀይርበት መንገድ አግኝቷል።
ይህ ጽሑፍ ጁክቦክስ ምን ማድረግ እንደሚችል፣ እንዴት እንደሚሰራ እና የቴክኖሎጂውን ወቅታዊ ውስንነቶች ያብራራል።
Jukebox AI ምንድን ነው?
ጁክሎግ ሙዚቃን በዘፈን ማመንጨት የሚችል በOpenAI የነርቭ መረብ ሞዴል ነው። ሞዴሉ ሙዚቃን በተለያዩ ዘውጎች እና የአርቲስቶች ቅጦች ማምረት ይችላል.
ለምሳሌ፣ ጁክቦክስ በኤልቪስ ፕሪስሊ ዘይቤ ወይም የሂፕ ሆፕ ዜማ በካንዬ ዌስት ዘይቤ የሮክ ዘፈን ማዘጋጀት ይችላል። ይህንን መጎብኘት ይችላሉ። ድህረገፅ ሞዴሉ የእርስዎን ተወዳጅ የሙዚቃ አርቲስቶች እና ዘውጎች ድምጽ በመቅረጽ ላይ ምን ያህል ውጤታማ እንደሆነ ለማሰስ።
ሞዴሉ እንደ ግብአት ዘውግ፣ አርቲስት እና ግጥሞችን ይፈልጋል። ይህ ግቤት በሚሊዮኖች በሚቆጠሩ አርቲስቶች እና የግጥም መረጃዎች ላይ የሰለጠነ ሞዴልን ይመራል።
Jukebox እንዴት ነው የሚሰራው?
ጁክቦክስ በሚሊዮኖች በሚቆጠሩ ዘፈኖች ላይ ከሰለጠነ ሞዴል ልቦለድ ጥሬ ኦዲዮን እንዴት እንደሚያመነጭ እንይ።
ኢንኮዲንግ ሂደት
አንዳንድ የሙዚቃ ትውልድ ሞዴሎች የMIDI ስልጠና መረጃን ሲጠቀሙ፣ ጁኬቦክስ በጥሬው የድምጽ ፋይል ላይ የሰለጠኑ ናቸው። ኦዲዮውን ወደ የተለየ ቦታ ለመጨመቅ ጁኬቦክስ VQ-VAE በመባል የሚታወቀውን ራስ-መቀየሪያ ዘዴን ይጠቀማል።
VQ-VAE ቬክተር ኳንቲዝድ ተለዋዋጭ አውቶኢንኮደር ማለት ነው፣ እሱም ትንሽ የተወሳሰበ ሊመስል ይችላል፣ ስለዚህ እንከፋፍለው።
በመጀመሪያ፣ እዚህ ምን ማድረግ እንደምንፈልግ ለመረዳት እንሞክር። ከግጥሞች ወይም ሉህ ሙዚቃ ጋር ሲነጻጸር፣ ጥሬ የድምጽ ፋይል በጣም የተወሳሰበ ነው። ሞዴላችን ከዘፈኖች "እንዲማር" ከፈለግን ወደ ተጨመቀ እና ቀለል ያለ ውክልና መቀየር አለብን። ውስጥ የማሽን መማርይህን መሰረታዊ ውክልና ብለን እንጠራዋለን ሀ ድብቅ ቦታ.
An autoencode ቁጥጥር የማይደረግበት የመማሪያ ዘዴ ነው ሀ የነርቭ ኔትወርክ ለተወሰነ የውሂብ ስርጭት ቀጥተኛ ያልሆኑ ስውር ውክልናዎችን ለማግኘት። አውቶኢንኮደር ሁለት ክፍሎችን ያቀፈ ነው፡ ኢንኮደር እና ዲኮደር።
የ መቀየሪያ ከጥሬ መረጃ ስብስብ ውስጥ ድብቅ ቦታን ለማግኘት ሲሞክር እ.ኤ.አ ዲኮደር ወደ መጀመሪያው ቅርጸቱ መልሶ ለመገንባት የሚሞክር ድብቅ ውክልና ይጠቀማል። አውቶኢንኮደር በመሠረቱ እንዴት የመልሶ ግንባታ ስህተትን በሚቀንስ መልኩ ጥሬ ውሂቡን መጭመቅ እንደሚቻል ይማራል።
አሁን አውቶኢንኮደር ምን እንደሚሰራ ካወቅን፣ “ተለዋዋጭ” autoencoder ስንል ምን ማለታችን እንደሆነ ለመረዳት እንሞክር። ከተለመዱት አውቶኢንኮደሮች ጋር ሲነፃፀር፣የተለያዩ አውቶኢንኮደሮች ከድብቅ ቦታ በፊት ይጨምራሉ።
ወደ ሒሳብ ዘልቀው ሳይገቡ፣ ፕሮባቢሊቲካል ቅድመ ሁኔታን መጨመር ድብቅ ስርጭቱን በቅርበት እንዲይዝ ያደርገዋል። በ VAE እና VQ-VAE መካከል ያለው ዋና ልዩነት የኋለኛው ከቀጣይነት ይልቅ ልዩ የሆነ ድብቅ ውክልና ይጠቀማል።
እያንዳንዱ የVQ-VAE ደረጃ ግቤቱን በራሱ ኮድ ያደርገዋል። የታችኛው ደረጃ ኢንኮዲንግ ከፍተኛ ጥራት ያለው መልሶ ግንባታ ያስገኛል. ከፍተኛ-ደረጃ ኢንኮዲንግ አስፈላጊ የሙዚቃ መረጃን ይይዛል።
ትራንስፎርመሮችን መጠቀም
አሁን በVQ-VAE የተመሰጠሩ የሙዚቃ ኮዶች ስላለን፣ መሞከር እንችላለን ሙዚቃ ማመንጨት በዚህ የታመቀ discrete ቦታ.
Jukebox ይጠቀማል autoregressive ትራንስፎርመር የውጤት ድምጽ ለመፍጠር. ትራንስፎርመሮች በተከታታይ መረጃ በተሻለ ሁኔታ የሚሰራ የነርቭ ኔትወርክ አይነት ናቸው። የቶከኖች ቅደም ተከተል ከተሰጠ, የትራንስፎርመር ሞዴል ቀጣዩን ቶከን ለመተንበይ ይሞክራል.
ጁክቦክስ ቀለል ያለ የስፓርሴ ትራንስፎርመሮችን ይጠቀማል። ሁሉም የቀደሙ ሞዴሎች ከሰለጠኑ በኋላ፣ ትራንስፎርመሩ የተጨመቁ ኮዶችን ያመነጫል ከዚያም VQ-VAE ዲኮደርን በመጠቀም ወደ ጥሬ ኦዲዮ ይመለሳሉ።
አርቲስት እና ዘውግ ኮንዲሽን በጁክቦክስ
በስልጠናው ደረጃ ላይ ተጨማሪ ሁኔታዊ ምልክቶችን በማቅረብ የጁክቦክስ አመንጪ ሞዴል የበለጠ ቁጥጥር የሚደረግበት ነው።
የመጀመሪያዎቹ ሞዴሎች ለእያንዳንዱ ዘፈን በአርቲስቶች እና በዘውግ መለያዎች ቀርበዋል. ይህ የድምፅ ትንበያ ኢንትሮፒን ይቀንሳል እና ሞዴሉን የተሻለ ጥራት እንዲያገኝ ያስችለዋል. መለያዎቹ ሞዴሉን በተለየ ዘይቤ ለመምራት ያስችሉናል።
ከአርቲስቱ እና ዘውግ በተጨማሪ የጊዜ ምልክቶች በስልጠና ጊዜ ይታከላሉ። እነዚህ ምልክቶች የዘፈኑ ርዝመት፣ የአንድ የተወሰነ ናሙና የሚጀምርበት ጊዜ እና የዘፈኑ ክፍል ያለፈውን ያካትታሉ። ይህ ተጨማሪ መረጃ ሞዴሉ በአጠቃላይ መዋቅር ላይ የሚመረኮዙ የኦዲዮ ቅጦችን እንዲረዳ ይረዳል.
ለምሳሌ፣ ሞዴሉ ለቀጥታ ሙዚቃ ጭብጨባ በዘፈን መጨረሻ ላይ እንደሚከሰት ሊማር ይችላል። ሞዴሉ አንዳንድ ዘውጎች ከሌሎቹ የበለጠ ረጅም የመሳሪያ ክፍሎች እንዳላቸው መማር ይችላል.
ግጥሞች
በቀድሞው ክፍል ውስጥ የተገለጹት ኮንዲሽነሮች ሞዴሎች የተለያዩ የዘፈን ድምፆችን ማመንጨት ይችላሉ. ይሁን እንጂ እነዚህ ድምፆች የማይጣጣሙ እና የማይታወቁ ይሆናሉ.
የግጥም ማመንጨትን በተመለከተ የጄኔሬቲቭ ሞዴልን ለመቆጣጠር, ተመራማሪዎቹ በስልጠና ጊዜ የበለጠ አውድ ያቀርባሉ. የግጥም መረጃዎችን በእውነተኛው ኦዲዮ ላይ ያለውን ጊዜ ለመቅረጽ ለመርዳት ተመራማሪዎቹ ተጠቅመዋል ሳፕቶር ድምጾችን ለማውጣት እና NUS AutoLyrics አሰላለፍ የግጥሞቹን የቃል ደረጃ አሰላለፍ ለማግኘት።
የጁክቦክስ ሞዴል ገደቦች
የጁክቦክስ ዋነኛ ገደቦች አንዱ ስለ ትላልቅ የሙዚቃ አወቃቀሮች ያለው ግንዛቤ ነው። ለምሳሌ፣ የውጤቱ አጭር የ20 ሰከንድ ክሊፕ አስደናቂ ሊመስል ይችላል፣ ነገር ግን አድማጮች የተለመደው የሙዚቃ ዝማሬ እና ግጥም በመጨረሻው ውጤት ላይ እንደማይገኙ ያስተውላሉ።
ሞዴሉ ለመስራት ቀርፋፋ ነው። የአንድ ደቂቃ ድምጽ ሙሉ ለሙሉ ለመስራት 9 ሰአታት ያህል ይወስዳል። ይህ የሚመነጩትን የዘፈኖች ብዛት ይገድባል እና ሞዴሉ በይነተገናኝ መተግበሪያዎች ውስጥ ጥቅም ላይ እንዳይውል ይከለክላል።
በመጨረሻም ተመራማሪዎቹ የናሙና ዳታ ስብስብ በዋነኛነት በእንግሊዘኛ መሆኑን እና በዋነኛነት የምዕራባውያን የሙዚቃ ስምምነቶችን ያሳያል። የ AI ተመራማሪዎች በሌሎች ቋንቋዎች እና ምዕራባዊ ባልሆኑ የሙዚቃ ቅጦች ላይ ሙዚቃን በማፍለቅ ላይ የወደፊት ምርምር ላይ ማተኮር ይችላሉ.
መደምደሚያ
የጁክቦክስ ፕሮጀክት የማሽን መማሪያ ሞዴሎችን እንደ ጥሬ ኦዲዮ ያሉ ውስብስብ መረጃዎችን ትክክለኛ ድብቅ ውክልና ለመፍጠር እያደገ ያለውን ችሎታ ያጎላል። በመሳሰሉት ፕሮጀክቶች ላይ እንደሚታየው በጽሁፉ ውስጥ ተመሳሳይ ግኝቶች እየተከሰቱ ነው። GPT-3በOpenAI's ላይ እንደሚታየው ምስሎች እና ምስሎች ዳኤል-ኢ2.
በዚህ ቦታ የተደረገው ጥናት አስደናቂ ቢሆንም፣ ስለ አእምሯዊ ንብረት መብቶች አሁንም ስጋቶች አሉ እና እነዚህ ሞዴሎች በአጠቃላይ በፈጠራ ኢንዱስትሪዎች ላይ የሚያሳድሩት ተጽዕኖ። እነዚህ ሞዴሎች መሻሻላቸውን እንዲቀጥሉ ተመራማሪዎች እና ፈጣሪዎች በቅርበት ተባብረው መቀጠል አለባቸው።
የወደፊት አመንጪ ሙዚቃ ሞዴሎች በቅርቡ ለሙዚቀኞች መሣሪያ ወይም ለፕሮጀክቶች ብጁ ሙዚቃ ለሚያስፈልጋቸው የፈጠራ ፈጣሪዎች መተግበሪያ ሆነው ሊያገለግሉ ይችላሉ።
መልስ ይስጡ