შეგიძლიათ გამოიყენოთ AI თქვენი საყვარელი შემსრულებლისგან ახალი ჩანაწერის შესაქმნელად?
მანქანური სწავლების ბოლოდროინდელმა მიღწევებმა აჩვენა, რომ მოდელებს ახლა შეუძლიათ რთული მონაცემების გაგება, როგორიცაა ტექსტი და სურათები. OpenAI-ს ჯუკბოქსი ამტკიცებს, რომ მუსიკის მოდელირებაც კი შესაძლებელია ზუსტად ნერვული ქსელით.
მუსიკა მოდელისთვის რთული ობიექტია. თქვენ უნდა გაითვალისწინოთ როგორც მარტივი მახასიათებლები, როგორიცაა ტემპი, ხმამაღალი ხმა და ხმა და უფრო რთული მახასიათებლები, როგორიცაა ლექსები, ინსტრუმენტები და მუსიკალური სტრუქტურა.
გაფართოების გამოყენება მანქანა სწავლის ტექნიკით, OpenAI-მ იპოვა ნედლეული აუდიოს გადაქცევის გზა, რომელიც სხვა მოდელებს შეუძლიათ გამოიყენონ.
ეს სტატია აგიხსნით რა შეუძლია Jukebox-ს, როგორ მუშაობს და ტექნოლოგიის ამჟამინდელი შეზღუდვები.
რა არის Jukebox AI?
ჯუკბოქსი არის OpenAI-ის ნერვული ქსელის მოდელი, რომელსაც შეუძლია მუსიკის გენერირება სიმღერით. მოდელს შეუძლია აწარმოოს მუსიკა სხვადასხვა ჟანრში და ხელოვანთა სტილში.
მაგალითად, ჯუკბოქსს შეუძლია შექმნას როკ სიმღერა ელვის პრესლის სტილში ან ჰიპ ჰოპ მელოდია კანიე უესტის სტილში. შეგიძლიათ ეწვიოთ ამას ნახვა გამოიკვლიეთ რამდენად ეფექტურია მოდელი თქვენი საყვარელი მუსიკალური შემსრულებლებისა და ჟანრების ჟღერადობის აღქმაში.
მოდელი საჭიროებს ჟანრს, მხატვარს და ტექსტს, როგორც შეყვანის სახით. ეს შენატანი ხელმძღვანელობს მილიონობით შემსრულებლისა და ლირიკის მონაცემებზე გაწვრთნილ მოდელს.
როგორ მუშაობს ჯუკბოქსი?
მოდი ვნახოთ, როგორ ახერხებს ჯუკბოქსი ახალი აუდიოს გენერირებას მილიონობით სიმღერაზე გაწვრთნილი მოდელისგან.
კოდირების პროცესი
მიუხედავად იმისა, რომ მუსიკის თაობის ზოგიერთი მოდელი იყენებს MIDI სასწავლო მონაცემებს, ჯუკბოქსი ვარჯიშობს რეალურ აუდიო ფაილზე. აუდიოს დისკრეტულ სივრცეში შეკუმშვისთვის, ჯუკბოქსი იყენებს ავტომატური კოდირების მიდგომას, რომელიც ცნობილია როგორც VQ-VAE.
VQ-VAE ნიშნავს Vector Quantized Variational Autoencoder-ს, რომელიც შეიძლება ცოტა რთულად ჟღერდეს, ასე რომ, მოდით დავშალოთ.
პირველ რიგში, შევეცადოთ გავიგოთ, რისი გაკეთება გვინდა აქ. ტექსტებთან ან ფურცელ მუსიკასთან შედარებით, ნედლი აუდიო ფაილი გაცილებით რთულია. თუ გვინდა, რომ ჩვენმა მოდელმა „ისწავლოს“ სიმღერებიდან, მოგვიწევს მისი გადაქცევა უფრო შეკუმშულ და გამარტივებულ წარმოდგენად. In მანქანა სწავლის, ჩვენ ვუწოდებთ ამ ძირითად წარმოდგენას ა ფარული სივრცე.
An ავტომატური კოდირება არის უკონტროლო სწავლის ტექნიკა, რომელიც იყენებს ა ნერვული ქსელის იპოვონ არაწრფივი ფარული წარმოდგენები მოცემული მონაცემთა განაწილებისთვის. ავტოინკოდერი შედგება ორი ნაწილისგან: შიფრატორი და დეკოდერი.
ის Encoder ცდილობს მოიძიოს ფარული სივრცე ნედლეული მონაცემების ნაკრებიდან, ხოლო დეკოდერი იყენებს ლატენტურ წარმოდგენას, რათა შეეცადოს მისი რეკონსტრუქცია თავდაპირველ ფორმატში. ავტოინკოდერი არსებითად სწავლობს, თუ როგორ უნდა შეკუმშოს ნედლეული მონაცემები ისე, რომ მინიმუმამდე დაიყვანოს რეკონსტრუქციის შეცდომა.
ახლა, როდესაც ჩვენ ვიცით რას აკეთებს ავტოინკოდერი, შევეცადოთ გავიგოთ რას ვგულისხმობთ „ვარიაციულ“ ავტოინკოდერში. ტიპიურ ავტოენკოდერებთან შედარებით, ვარიაციური ავტოკოდერები ამატებენ წინა ფარულ სივრცეს.
მათემატიკაში ჩაძირვის გარეშე, სავარაუდო აპრილის დამატება ინარჩუნებს ლატენტურ განაწილებას მჭიდროდ დატკეპნილი. მთავარი განსხვავება VAE-სა და VQ-VAE-ს შორის არის ის, რომ ეს უკანასკნელი იყენებს დისკრეტულ ლატენტურ წარმოდგენას და არა უწყვეტს.
თითოეული VQ-VAE დონე დამოუკიდებლად შიფრავს შეყვანას. ქვედა დონის კოდირება იძლევა უმაღლესი ხარისხის რეკონსტრუქციას. უმაღლესი დონის კოდირება ინახავს აუცილებელ მუსიკალურ ინფორმაციას.
ტრანსფორმატორების გამოყენება
ახლა, როდესაც ჩვენ გვაქვს VQ-VAE კოდირებული მუსიკალური კოდები, შეგვიძლია ვცადოთ მუსიკის გენერირება ამ შეკუმშულ დისკრეტულ სივრცეში.
ჯუკბოქსი იყენებს ავტორეგრესიული ტრანსფორმატორები გამომავალი აუდიოს შესაქმნელად. ტრანსფორმატორები არის ნერვული ქსელის ტიპი, რომელიც საუკეთესოდ მუშაობს თანმიმდევრულ მონაცემებთან. ნიშნების თანმიმდევრობის გათვალისწინებით, ტრანსფორმატორის მოდელი შეეცდება შემდეგი ნიშნის წინასწარმეტყველებას.
ჯუკბოქსი იყენებს Sparse Transformers-ის გამარტივებულ ვარიანტს. ყველა წინა მოდელის გაწვრთნის შემდეგ, ტრანსფორმატორი წარმოქმნის შეკუმშულ კოდებს, რომლებიც შემდეგ დეკოდირდება დაუმუშავებელ აუდიოში VQ-VAE დეკოდერის გამოყენებით.
არტისტი და ჟანრული კონდიცირება ჯუკბოქსში
Jukebox-ის გენერაციული მოდელი უფრო კონტროლირებადი ხდება დამატებითი პირობითი სიგნალების მიწოდებით ვარჯიშის საფეხურზე.
პირველი მოდელები მოწოდებულია შემსრულებლებისა და ჟანრის ლეიბლების მიერ თითოეული სიმღერისთვის. ეს ამცირებს აუდიო პროგნოზის ენტროპიას და საშუალებას აძლევს მოდელს მიაღწიოს უკეთეს ხარისხს. ეტიკეტები ასევე გვაძლევს საშუალებას მოდელის კონკრეტულ სტილში წარმართვა.
მხატვრისა და ჟანრის გარდა, ვარჯიშის დროს ემატება დროის სიგნალები. ეს სიგნალები მოიცავს სიმღერის ხანგრძლივობას, კონკრეტული ნიმუშის დაწყების დროს და სიმღერის ნაწილს, რომელიც გავიდა. ეს დამატებითი ინფორმაცია ეხმარება მოდელს გაიგოს აუდიო შაბლონები, რომლებიც ეყრდნობა მთლიან სტრუქტურას.
მაგალითად, მოდელმა შეიძლება გაიგოს, რომ ცოცხალი მუსიკის აპლოდისმენტები სიმღერის ბოლოს ხდება. მოდელს ასევე შეუძლია გაიგოს, მაგალითად, რომ ზოგიერთ ჟანრს უფრო გრძელი ინსტრუმენტული განყოფილებები აქვს, ვიდრე სხვებს.
ტექსტი
წინა ნაწილში ნახსენები პირობით მოდელებს შეუძლიათ გამოიმუშავონ მრავალფეროვანი სასიმღერო ხმები. თუმცა, ეს ხმები, როგორც წესი, არათანმიმდევრული და ამოუცნობია.
გენერაციული მოდელის გასაკონტროლებლად, როდესაც საქმე ეხება ლირიკულ გენერაციას, მკვლევარები აწვდიან მეტ კონტექსტს ტრენინგის დროს. იმისთვის, რომ დაეხმარონ ლირიკული მონაცემების რეალურ აუდიო დროზე დასახვას, მკვლევარებმა გამოიყენეს სლეიტერი ვოკალის ამოღება და NUS AutoLyrics Align ლირიკის სიტყვის დონეზე გასწორების მისაღებად.
ჯუკბოქსის მოდელის შეზღუდვები
ჯუკბოქსის ერთ-ერთი მთავარი შეზღუდვა არის უფრო დიდი მუსიკალური სტრუქტურების გაგება. მაგალითად, გამომავალი 20 წამიანი მოკლე კლიპი შეიძლება შთამბეჭდავად ჟღერდეს, მაგრამ მსმენელები შეამჩნევენ, რომ გუნდებისა და ლექსების გამეორების ტიპიური მუსიკალური სტრუქტურა არ არის საბოლოო გამოსავალში.
მოდელი ასევე ნელა იმუშავებს. ერთი წუთის აუდიოს სრულად გადმოცემას დაახლოებით 9 საათი სჭირდება. ეს ზღუდავს სიმღერების რაოდენობას, რომლებიც შეიძლება გენერირებული იყოს და ხელს უშლის მოდელის გამოყენებას ინტერაქტიულ აპლიკაციებში.
და ბოლოს, მკვლევარებმა აღნიშნეს, რომ ნიმუშის მონაცემთა ნაკრები ძირითადად ინგლისურ ენაზეა და ძირითადად დასავლურ მუსიკალურ კონვენციებს აჩვენებს. ხელოვნური ინტელექტის მკვლევარებს შეუძლიათ მომავალ კვლევებზე ფოკუსირება მოახდინონ სხვა ენებზე და არადასავლურ მუსიკალურ სტილზე მუსიკის გენერირებაზე.
დასკვნა
Jukebox-ის პროექტი ხაზს უსვამს მანქანური სწავლების მოდელების მზარდ შესაძლებლობებს რთული მონაცემების ზუსტი ფარული წარმოდგენების შესაქმნელად, როგორიცაა ნედლი აუდიო. მსგავსი გარღვევები ხდება ტექსტში, როგორც ჩანს პროექტებში, როგორიცაა GPT-3და სურათები, როგორც ჩანს OpenAI-ში DALL-E2.
მიუხედავად იმისა, რომ კვლევა ამ სივრცეში იყო შთამბეჭდავი, ჯერ კიდევ არსებობს შეშფოთება ინტელექტუალური საკუთრების უფლებებთან და გავლენას ამ მოდელებზე, როგორც მთლიანობაში, შემოქმედებით ინდუსტრიებზე. მკვლევარებმა და კრეატიულებმა უნდა გააგრძელონ მჭიდრო თანამშრომლობა, რათა უზრუნველყონ ამ მოდელების გაუმჯობესება.
მომავალი გენერაციული მუსიკის მოდელები შესაძლოა მალე იმოქმედონ როგორც ინსტრუმენტი მუსიკოსებისთვის ან როგორც აპლიკაცია კრეატიულებისთვის, რომლებსაც სჭირდებათ მორგებული მუსიკა პროექტებისთვის.
დატოვე პასუხი