Google đã công bố MusicLM, trí tuệ nhân tạo tạo ra âm nhạc từ những từ bạn nhập, giống như DALL-E 2. Đây là một mô hình ngôn ngữ do Google Research tạo ra. Bên cạnh đó, họ đã thiết kế độc quyền nó để sáng tạo âm nhạc.
Và, nó đã được đào tạo trên một tập dữ liệu lớn gồm các tệp nhạc và có thể tạo ra âm nhạc theo nhiều phong cách và hình thức. Nếu bạn quan tâm đến âm nhạc; thì bạn nên kiểm tra những gì MusicLM sẽ cung cấp.
Với MusicLM, bạn sản xuất âm nhạc theo một số kỹ thuật và hình thức. Ví dụ: bạn có thể tạo các bản nhạc piano, nhịp trống và giai điệu cho lời bài hát.
Ngoài ra, bạn có thể tinh chỉnh các kiểu nhất định hoặc bao gồm đầu vào do người dùng cung cấp. Nó có nghĩa là tạo ra âm nhạc gắn kết hài hòa và nhịp nhàng. Vì vậy, hãy đi sâu vào và xem MusicLM là gì.
Những nỗ lực trước đây
MusicLM không phải là hệ thống âm nhạc đầu tiên do AI tạo ra. Riffusion, Dance Diffusion, Google's AudioML và OpenAI's Hộp đựng là những ví dụ về các phương pháp so sánh. Tuy nhiên, những hệ thống trước đó đã bị hạn chế bởi những hạn chế về công nghệ.
Ngoài ra, việc thiếu dữ liệu đào tạo khiến việc sáng tác các giai điệu chất lượng cao trở nên khó khăn. Tuy nhiên, MusicLM có khả năng tạo ra âm nhạc với mức độ tinh tế và chân thực hơn.
Tổng quan MusicLM
MusicLM tìm hiểu cấu trúc và phong cách âm nhạc. Do đó, nó được đào tạo trên một tập dữ liệu khổng lồ về MIDI và các tệp nhạc tượng trưng. Giống như các chương trình tương tự, MusicLM được xây dựng trên kiến trúc Transformer.
Sử dụng các kỹ thuật tự chú ý để tập trung vào các thành phần đầu vào cụ thể, kiến trúc biến áp của MusicLM được sử dụng để trích xuất cấu trúc và phong cách âm nhạc từ một tập dữ liệu lớn. Nhờ đó, bạn có thể tạo ra âm nhạc gắn kết hài hòa và nhịp nhàng.
Và, bản nhạc này có thể bắt chước cách tổ chức đầu vào của người dùng. Do đó, bạn sẽ có thể nhận được kết quả âm nhạc mà bạn mô tả cụ thể cho chương trình.
Thành công của lần trước mô hình ngôn ngữ, chẳng hạn như GPT-2 và GPT-3, đã chứng tỏ khả năng tạo ra văn bản mạch lạc và trôi chảy, đã truyền cảm hứng cho MusicLM. Mặt khác, MusicLM là mô hình ngôn ngữ đầu tiên được xây dựng dành riêng cho thế hệ âm nhạc.
Và, chúng tôi nghĩ rằng nó sẽ được coi là một trong những mô hình phức tạp nhất.
Nó hoạt động như thế nào?
DALL-E 2 và MusicLM của Google trí tuệ nhân tạo chia sẻ rất nhiều điểm tương đồng về cấu trúc. Tuy nhiên, lần này bài viết của bạn được chuyển tải bằng âm nhạc hơn là bằng hình ảnh. Tại thời điểm này, bạn hoàn toàn có thể xây dựng toàn bộ tác phẩm. Ngoài ra, bạn có thể tạo nhịp điệu chỉ bằng một nhạc cụ.
Bạn có thể xem một số nghiên cứu mẫu do nhóm AI của Google tạo trên trang Github của MusicLM. Mặc dù AI vẫn đang trong giai đoạn nghiên cứu và phát triển, nhưng âm thanh mà nó có thể tạo ra có độ phân giải cao. Ngoài ra, đã có những đề xuất, chẳng hạn như tích hợp AI này với ChatGPT. Sự tích hợp này có thể dẫn đến âm nhạc phức tạp và sáng tạo hơn.
Từ Humming đến Hit Melodies
MusicLM kết hợp bốn mô hình AI riêng biệt: MuLan, AudioLM, w2v-BERT và Soundstream. Mặc dù mỗi mô hình này có một tập hợp các khả năng riêng biệt. Tuy nhiên, khi chúng được tích hợp, chúng đã tạo ra MusicLM!
Các nhạc sĩ và chuyên gia trong ngành đã chú ý đến khả năng của MusicLM trong việc chuyển đổi ngay cả những tiếng vo ve và tiếng thì thầm cơ bản nhất thành toàn bộ giai điệu. Bằng cách kết hợp với ChatGPT, nó có thể tạo ra âm nhạc độc đáo.
Bạn có thể nghe và khám phá âm nhạc và âm thanh do MusicLM tạo ra trên trang mạng. Tuy nhiên, hãy nhớ rằng nó hiện đang trong giai đoạn thử nghiệm. Rõ ràng là MusicLM có khả năng biến đổi hoàn toàn ngành kinh doanh âm nhạc khi công nghệ phát triển.
Âm nhạc do AI tạo ra với các sắc thái giống con người
Để tạo ra các bài hát có ý nghĩa dựa trên các mô tả kỹ lưỡng, MusicLM đã được đào tạo trên một bộ dữ liệu lớn gồm 280,000 giờ âm nhạc. Ví dụ: bạn có thể tạo “giai điệu dubstep du dương với âm trầm sâu và nhịp trống phức tạp”. Hoặc, bạn có thể yêu cầu nó tạo ra “một bài hát nhạc pop hấp dẫn với đoạn riff ghi-ta quyến rũ và giọng ca nội lực”. Trí tưởng tượng của bạn là giới hạn trong trường hợp này.
Các bài hát được sản xuất giống với những bài hát do các nhạc sĩ con người sáng tác. Các mẫu của MusicLM cực kỳ ấn tượng. Đó là sự thật đặc biệt là không có con người tham gia vào quá trình sáng tác. MusicLM có thể lặp lại các khía cạnh sắc thái như đoạn nhạc, giai điệu và cảm xúc. Bên cạnh đó, nó hoạt động ngay cả khi được cung cấp các thông số kỹ thuật phức tạp và rõ ràng.
Những đặc điểm quan trọng
Vẽ chú thích điều hòa
Điều chỉnh chú thích vẽ tranh là một chức năng của MusicLM. Bạn có thể sản xuất nhạc dựa trên mô tả văn bản hoặc “chú thích” của một bức tranh. Điều này ngụ ý rằng MusicLM có khả năng tạo ra âm nhạc nắm bắt được cảm xúc, tâm trạng và ý tưởng được thể hiện trong một bức tranh. Khả năng này rất hữu ích cho việc tạo nhạc cho phim, trò chơi videovà tất cả các loại phương tiện trực quan.
Story Mode
Tính năng Chế độ câu chuyện lấy văn bản câu chuyện làm đầu vào. Do đó, nó tạo ra nhạc nền đi kèm. Người dùng có thể sử dụng chức năng này để tạo nhạc nền cho một câu chuyện, trò chơi điện tử hoặc phim bằng cách mô tả kịch bản hoặc giai điệu cảm xúc.
Story Mode là một công cụ hữu ích cho các nghệ sĩ truyền thông. Do đó, nó có thể tạo ra một loạt các phong cách âm nhạc và nhạc cụ. Chế độ Câu chuyện của MusicLM sẽ tăng tác động cảm xúc của một cảnh. Vì vậy, người xem có thể có thêm một mức độ đắm chìm trong câu chuyện.
Trình độ kinh nghiệm nhạc sĩ
Bạn có thể tùy chỉnh độ khó của bản nhạc đã tạo. Người dùng có thể chọn giữa ba cấp độ dựa trên cấp độ kỹ năng của họ. Ngoài ra, họ có thể chỉ định mức độ phức tạp ưa thích: người mới bắt đầu, trung cấp hoặc nâng cao.
Tính năng này sẽ hữu ích nếu bạn có một chút kiến thức chuyên môn về âm nhạc và muốn thử nghiệm các tác phẩm mới. Tuy nhiên, nếu bạn là một nhạc sĩ có kinh nghiệm, bạn có thể tạo ra âm nhạc phức tạp và tinh tế. Mục tiêu của MusicLM với tính năng này là mang lại trải nghiệm dễ tiếp cận cho tất cả người dùng.
Đa dạng thế hệ
Với chức năng Đa dạng thế hệ, bạn có thể tạo ra nhiều phiên bản của một bài hát từ cùng một đầu vào. Và, bạn có thể có nhiều loại đầu ra khác nhau. Điều này ngụ ý rằng AI có thể tạo ra nhiều phiên bản của một bài hát.
Ngoài ra, còn có các giai điệu xen kẽ hoặc các bước hợp âm, trong khi vẫn giữ cấu trúc và phong cách cơ bản của bài hát. Tính năng này giúp việc sáng tạo âm nhạc của AI trở nên sáng tạo hơn. Do đó, nó làm cho việc sáng tạo âm nhạc trở nên giống với việc sáng tác bài hát của con người hơn.
Những hạn chế có thể có của MusicLM
Google vẫn chưa cung cấp MusicLM cho công chúng vì nó vẫn đang được phát triển. Do đó, bạn chưa thể đưa ra các mẫu cụ thể về loại nhạc mà MusicLM có thể sản xuất. Hơn nữa, vẫn còn một chút không biết MusicLM có thể có những hạn chế nào.
Vì công nghệ này vẫn đang ở giai đoạn đầu nên nó có thể có một số hạn chế nhất định đối với chất lượng âm nhạc được sản xuất hoặc khả năng xử lý các đầu vào cụ thể.
Chất lượng méo mó của các mẫu được sản xuất là một trong những nhược điểm chính. Đây là sản phẩm phụ cần thiết của quy trình đào tạo được sử dụng để phát triển MusicLM.
Một nhược điểm khác là, mặc dù MusicLM có khả năng sản xuất giọng hát kỹ thuật. Điều này bao gồm các bài hát hợp xướng. “Lời bài hát” do MusicLM sản xuất đôi khi có vẻ vô nghĩa. Bên cạnh đó, chúng có thể khó hiểu. Tuy nhiên, MusicLM vẫn đang được phát triển và những vấn đề này có thể được cải thiện.
Chú thích cuối
Cuối cùng, chúng tôi tin rằng công nghệ nền tảng của Google MusicLM vừa thú vị vừa hấp dẫn. Thật đáng kinh ngạc khi một AI có thể tạo ra âm nhạc theo nhiều phong cách khác nhau, với mức độ chân thực cao hơn. MusicLM có tiềm năng thay đổi ngành kinh doanh âm nhạc. Và, chúng tôi rất vui mừng được xem công nghệ này phát triển như thế nào.
Bình luận