Bạn có thể sử dụng AI để tạo kỷ lục mới từ nghệ sĩ yêu thích của mình không?
Những đột phá gần đây trong học máy đã chỉ ra rằng các mô hình hiện có khả năng hiểu dữ liệu phức tạp như văn bản và hình ảnh. Jukebox của OpenAI chứng minh rằng ngay cả âm nhạc cũng có thể được mô hình hóa chính xác bằng mạng nơ-ron.
Âm nhạc là một đối tượng phức tạp để làm mô hình. Bạn phải xem xét cả các tính năng đơn giản như nhịp độ, độ to và cao độ và các tính năng phức tạp hơn như lời bài hát, nhạc cụ và cấu trúc âm nhạc.
Sử dụng nâng cao học máy kỹ thuật, OpenAI đã tìm ra một cách để chuyển đổi âm thanh thô thành một bản biểu diễn mà các mô hình khác có thể sử dụng.
Bài viết này sẽ giải thích những gì Jukebox có thể làm, cách nó hoạt động và những hạn chế hiện tại của công nghệ.
Jukebox AI là gì?
Hộp đựng là một mô hình mạng thần kinh của OpenAI có thể tạo ra âm nhạc với giọng hát. Mô hình có thể tạo ra âm nhạc ở nhiều thể loại và phong cách nghệ sĩ.
Ví dụ, Jukebox có thể tạo ra một bài hát rock theo phong cách của Elvis Presley hoặc một giai điệu hip hop theo phong cách của Kanye West. Bạn có thể ghé thăm cái này trang mạng để khám phá mức độ hiệu quả của mô hình trong việc ghi lại âm thanh của các thể loại và nghệ sĩ âm nhạc yêu thích của bạn.
Mô hình yêu cầu thể loại, nghệ sĩ và lời bài hát làm đầu vào. Đầu vào này hướng dẫn một mô hình được đào tạo dựa trên hàng triệu nghệ sĩ và dữ liệu lời bài hát.
Jukebox hoạt động như thế nào?
Hãy xem cách Jukebox quản lý để tạo ra âm thanh thô mới lạ từ một mô hình được đào tạo trên hàng triệu bài hát.
Quá trình mã hóa
Trong khi một số mô hình tạo nhạc sử dụng dữ liệu đào tạo MIDI, Jukebox được đào tạo trên tệp âm thanh thô thực tế. Để nén âm thanh vào một không gian riêng biệt, Jukebox sử dụng phương pháp mã hóa tự động được gọi là VQ-VAE.
VQ-VAE là viết tắt của Vector Quantized Variational Autoencoder, nghe có vẻ hơi phức tạp, vì vậy chúng ta hãy chia nhỏ nó ra.
Trước tiên, chúng ta hãy cố gắng hiểu những gì chúng ta muốn làm ở đây. So với lời bài hát hoặc bản nhạc, một tệp âm thanh thô phức tạp hơn rất nhiều. Nếu chúng tôi muốn mô hình của mình “học hỏi” từ các bài hát, chúng tôi sẽ phải chuyển đổi nó thành một biểu diễn nén và đơn giản hơn. Trong học máy, chúng tôi gọi đại diện cơ bản này là không gian tiềm ẩn.
An tự động mã hóa là một kỹ thuật học tập không giám sát sử dụng mạng lưới thần kinh để tìm các biểu diễn tiềm ẩn phi tuyến tính cho một phân phối dữ liệu nhất định. Bộ mã tự động bao gồm hai phần: bộ mã hóa và bộ giải mã.
Sản phẩm mã hóa cố gắng tìm không gian tiềm ẩn từ một tập hợp dữ liệu thô trong khi bộ giải mã sử dụng biểu diễn tiềm ẩn để cố gắng tái tạo lại nó về định dạng ban đầu. Tự động mã hóa về cơ bản học cách nén dữ liệu thô theo cách giảm thiểu lỗi xây dựng lại.
Bây giờ chúng ta biết những gì một trình mã tự động làm, hãy cố gắng hiểu ý nghĩa của chúng tôi đối với một trình mã tự động “biến thể”. So với các bộ mã tự động thông thường, bộ mã tự động biến thể thêm dấu trước vào khoảng trống.
Không cần đi sâu vào toán học, việc thêm một xác suất trước sẽ giữ cho phân bố tiềm ẩn được nén chặt chẽ. Sự khác biệt chính giữa VAE và VQ-VAE là cái sau sử dụng đại diện tiềm ẩn rời rạc thay vì liên tục.
Mỗi mức VQ-VAE mã hóa đầu vào một cách độc lập. Mã hóa mức dưới cùng tạo ra bản tái tạo chất lượng cao nhất. Mã hóa cấp cao nhất giữ lại thông tin âm nhạc cần thiết.
Sử dụng máy biến áp
Bây giờ chúng ta có mã âm nhạc được mã hóa bởi VQ-VAE, chúng ta có thể thử tạo nhạc trong không gian rời rạc nén này.
Jukebox sử dụng máy biến áp tự phục hồi để tạo âm thanh đầu ra. Máy biến áp là một loại mạng thần kinh hoạt động tốt nhất với dữ liệu được sắp xếp theo trình tự. Đưa ra một chuỗi mã thông báo, một mô hình biến áp sẽ cố gắng dự đoán mã thông báo tiếp theo.
Jukebox sử dụng một biến thể đơn giản của Máy biến áp thưa thớt. Sau khi tất cả các mô hình trước đó được đào tạo, máy biến áp tạo ra các mã nén, sau đó được giải mã trở lại thành âm thanh thô bằng bộ giải mã VQ-VAE.
Nghệ sĩ và thể loại điều hòa trong Jukebox
Mô hình tổng hợp của Jukebox được thực hiện dễ kiểm soát hơn bằng cách cung cấp các tín hiệu điều kiện bổ sung trong bước đào tạo.
Các mô hình đầu tiên được cung cấp bởi các nghệ sĩ và nhãn thể loại cho mỗi bài hát. Điều này làm giảm entropy của dự đoán âm thanh và cho phép mô hình đạt được chất lượng tốt hơn. Các nhãn cũng cho phép chúng tôi điều khiển mô hình theo một phong cách cụ thể.
Bên cạnh nghệ sĩ và thể loại, tín hiệu thời gian được thêm vào trong thời gian đào tạo. Những tín hiệu này bao gồm thời lượng của bài hát, thời gian bắt đầu của một mẫu cụ thể và phần thời lượng của bài hát đã trôi qua. Thông tin bổ sung này giúp mô hình hiểu các mẫu âm thanh dựa trên cấu trúc tổng thể.
Ví dụ, người mẫu có thể biết rằng tiếng vỗ tay cho nhạc sống xảy ra ở cuối bài hát. Ví dụ, mô hình cũng có thể tìm hiểu rằng một số thể loại có phần nhạc cụ dài hơn những thể loại khác.
Lyrics
Các mô hình điều hòa được đề cập trong phần trước có khả năng tạo ra nhiều loại giọng hát. Tuy nhiên, những giọng nói này có xu hướng không mạch lạc và khó nhận biết.
Để kiểm soát mô hình chung khi nói đến việc tạo lời bài hát, các nhà nghiên cứu cung cấp thêm ngữ cảnh tại thời điểm đào tạo. Để giúp ánh xạ dữ liệu lời bài hát với thời gian trên âm thanh thực tế, các nhà nghiên cứu đã sử dụng Lá lách để trích xuất giọng hát và NUS AutoLời bài hátAlign để có được căn chỉnh cấp độ từ của lời bài hát.
Hạn chế của Jukebox Model
Một trong những hạn chế chính của Jukebox là sự hiểu biết của nó về các cấu trúc âm nhạc lớn hơn. Ví dụ, một đoạn clip ngắn 20 giây của đầu ra nghe có vẻ ấn tượng, nhưng người nghe sẽ nhận thấy rằng cấu trúc âm nhạc điển hình của các đoạn điệp khúc và câu lặp lại không có trong đầu ra cuối cùng.
Mô hình cũng chậm kết xuất. Mất khoảng 9 giờ để hiển thị đầy đủ một phút âm thanh. Điều này giới hạn số lượng bài hát có thể được tạo và ngăn mô hình được sử dụng trong các ứng dụng tương tác.
Cuối cùng, các nhà nghiên cứu đã lưu ý rằng tập dữ liệu mẫu chủ yếu bằng tiếng Anh và hiển thị chủ yếu các quy ước âm nhạc phương Tây. Các nhà nghiên cứu AI có thể tập trung nghiên cứu trong tương lai vào việc tạo ra âm nhạc bằng các ngôn ngữ khác và các phong cách âm nhạc không phải phương Tây.
Kết luận
Dự án Jukebox nêu bật khả năng ngày càng tăng của các mô hình học máy để tạo ra các biểu diễn tiềm ẩn chính xác của dữ liệu phức tạp như âm thanh thô. Những đột phá tương tự đang xảy ra trong văn bản, như đã thấy trong các dự án như GPT-3và hình ảnh, như được thấy trong OpenAI's DALL-E2.
Mặc dù nghiên cứu trong không gian này đã rất ấn tượng, vẫn còn những lo ngại về quyền sở hữu trí tuệ và tác động của các mô hình này có thể có đối với các ngành công nghiệp sáng tạo nói chung. Các nhà nghiên cứu và nhà sáng tạo nên tiếp tục hợp tác chặt chẽ để đảm bảo rằng các mô hình này có thể tiếp tục cải thiện.
Các mô hình âm nhạc tổng hợp trong tương lai có thể sớm hoạt động như một công cụ cho các nhạc sĩ hoặc như một ứng dụng cho các nhà quảng cáo cần nhạc tùy chỉnh cho các dự án.
Bình luận