ตู้เพลง AI - การสร้างเพลงโดยใช้โครงข่ายประสาทเทียม

สารบัญ[ซ่อน][แสดง]

ตู้เพลง AI คืออะไร?
ตู้เพลงทำงานอย่างไร+-
ข้อจำกัดของ Jukebox Model
สรุป

คุณสามารถใช้ AI เพื่อสร้างบันทึกใหม่จากศิลปินที่คุณชื่นชอบได้หรือไม่?

ความก้าวหน้าล่าสุดในการเรียนรู้ของเครื่องได้แสดงให้เห็นว่าขณะนี้โมเดลสามารถเข้าใจข้อมูลที่ซับซ้อน เช่น ข้อความและรูปภาพ ตู้เพลงของ OpenAI พิสูจน์ให้เห็นว่าแม้แต่เพลงก็สามารถสร้างแบบจำลองได้อย่างแม่นยำด้วยโครงข่ายประสาทเทียม

ดนตรีเป็นวัตถุที่ซับซ้อนในการสร้างแบบจำลอง คุณต้องพิจารณาทั้งคุณสมบัติง่ายๆ เช่น จังหวะ ความดัง และระดับเสียง และคุณลักษณะที่ซับซ้อนมากขึ้น เช่น เนื้อเพลง เครื่องดนตรี และโครงสร้างทางดนตรี

ใช้ขั้นสูง เรียนรู้เครื่อง เทคนิค OpenAI ได้ค้นพบวิธีการแปลงเสียงดิบเป็นการแสดงที่รุ่นอื่นสามารถใช้ได้

บทความนี้จะอธิบายว่า Jukebox สามารถทำอะไรได้บ้าง มันทำงานอย่างไร และข้อจำกัดในปัจจุบันของเทคโนโลยี

ตู้เพลง AI คืออะไร?

ตู้เพลง เป็นโมเดลโครงข่ายประสาทโดย OpenAI ที่สามารถสร้างเสียงดนตรีได้ด้วยการร้องเพลง นางแบบสามารถผลิตเพลงได้หลากหลายแนวเพลงและสไตล์ศิลปิน

ตู้เพลง AI สร้างเพลงจากศิลปินที่มีชื่อเสียง

ตัวอย่างเช่น Jukebox สามารถผลิตเพลงร็อคในสไตล์ของ Elvis Presley หรือเพลงฮิปฮอปในสไตล์ของ Kanye West เชิญแวะชมได้ เว็บไซต์ เพื่อสำรวจว่าตัวแบบมีประสิทธิภาพเพียงใดในการจับภาพเสียงของศิลปินและแนวเพลงที่คุณชื่นชอบ

โมเดลนี้ต้องมีประเภท ศิลปิน และเนื้อเพลงเป็นข้อมูลเข้า ข้อมูลนี้จะแนะนำโมเดลที่ได้รับการฝึกฝนจากศิลปินหลายล้านคนและข้อมูลเนื้อเพลง

ตู้เพลงทำงานอย่างไร

มาดูกันว่า Jukebox จัดการสร้างเสียงดิบที่แปลกใหม่จากโมเดลที่ได้รับการฝึกฝนจากเพลงนับล้านได้อย่างไร

กระบวนการเข้ารหัส

แม้ว่าโมเดลการสร้างเพลงบางรุ่นจะใช้ข้อมูลการฝึก MIDI แต่ Jukebox จะได้รับการฝึกอบรมเกี่ยวกับไฟล์เสียงดิบจริง ในการบีบอัดเสียงลงในพื้นที่แยก Jukebox ใช้วิธีเข้ารหัสอัตโนมัติที่เรียกว่า VQ-VAE

VQ-VAE ย่อมาจาก Vector Quantized Variational Autoencoder ซึ่งอาจฟังดูซับซ้อนเล็กน้อย เรามาทำลายมันกัน

อันดับแรก ให้พยายามทำความเข้าใจว่าเราต้องการทำอะไรที่นี่ เมื่อเทียบกับเนื้อเพลงหรือโน้ตเพลง ไฟล์เสียงดิบนั้นซับซ้อนกว่ามาก หากเราต้องการให้แบบจำลองของเรา "เรียนรู้" จากเพลง เราจะต้องแปลงเป็นรูปแบบที่บีบอัดและเรียบง่ายยิ่งขึ้น ใน เรียนรู้เครื่องเราเรียกสิ่งนี้ว่าการแสดงแทน a พื้นที่แฝง.

พื้นที่แฝงคือเวอร์ชันบีบอัดของอินพุตตัวอย่าง

An ตัวเข้ารหัสอัตโนมัติ เป็นเทคนิคการเรียนรู้แบบ unsupervised ที่ใช้ a เครือข่ายประสาท เพื่อค้นหาการแสดงแทนแฝงแบบไม่เชิงเส้นสำหรับการกระจายข้อมูลที่กำหนด ตัวเข้ารหัสอัตโนมัติประกอบด้วยสองส่วน: ตัวเข้ารหัสและตัวถอดรหัส

พื้นที่ encoder พยายามค้นหาพื้นที่แฝงจากชุดข้อมูลดิบในขณะที่ ถอดรหัส ใช้การแสดงแฝงเพื่อพยายามสร้างกลับเป็นรูปแบบเดิม ตัวเข้ารหัสอัตโนมัติเรียนรู้วิธีบีบอัดข้อมูลดิบเป็นหลักในลักษณะที่ลดข้อผิดพลาดในการสร้างใหม่

ตอนนี้เรารู้แล้วว่าตัวเข้ารหัสอัตโนมัติทำหน้าที่อะไร เรามาลองทำความเข้าใจว่าเราหมายถึงอะไรโดยตัวเข้ารหัสอัตโนมัติ "แบบแปรผัน" เมื่อเทียบกับตัวเข้ารหัสอัตโนมัติทั่วไป ตัวเข้ารหัสอัตโนมัติแบบแปรผันจะเพิ่ม a ก่อนพื้นที่แฝง

หากไม่เจาะลึกในวิชาคณิตศาสตร์ การเพิ่มความน่าจะเป็นก่อนหน้าจะรักษาการกระจายที่แฝงไว้อย่างใกล้ชิด ความแตกต่างหลัก ระหว่าง VAE และ VQ-VAE คือ แบบหลังใช้การแสดงแฝงแบบไม่ต่อเนื่อง แทนที่จะเป็นแบบต่อเนื่อง ไดอะแกรมสถาปัตยกรรมของตู้เพลง AI สำหรับการเข้ารหัสและถอดรหัส

แต่ละระดับ VQ-VAE เข้ารหัสอินพุตอย่างอิสระ การเข้ารหัสระดับล่างทำให้เกิดการสร้างใหม่ที่มีคุณภาพสูงสุด การเข้ารหัสระดับบนสุดเก็บข้อมูลดนตรีที่จำเป็น

การใช้ Transformers

ตู้เพลง AI ใช้หม้อแปลงเพื่อสร้างคลิปเสียงถัดไปในแทร็ก

ตอนนี้เรามีรหัสเพลงที่เข้ารหัสโดย VQ-VAE แล้ว เราสามารถลองทำได้ สร้างเพลง ในพื้นที่ที่ไม่ต่อเนื่องที่ถูกบีบอัดนี้

ตู้เพลงใช้ หม้อแปลงไฟฟ้าแบบถดถอย เพื่อสร้างเอาต์พุตเสียง Transformers เป็นโครงข่ายประสาทชนิดหนึ่งที่ทำงานได้ดีที่สุดกับข้อมูลตามลำดับ จากลำดับของโทเค็น โมเดลหม้อแปลงจะพยายามทำนายโทเค็นถัดไป

ตู้เพลงใช้ตัวแปรแบบง่ายของ Sparse Transformers เมื่อโมเดลก่อนหน้าทั้งหมดได้รับการฝึกอบรมแล้ว หม้อแปลงจะสร้างรหัสบีบอัดซึ่งจะถูกถอดรหัสกลับเป็นเสียงดิบโดยใช้ตัวถอดรหัส VQ-VAE

การปรับศิลปินและแนวเพลงในตู้เพลง

โมเดล AI ของตู้เพลงเริ่มต้นพยายามทำความเข้าใจว่าเพลงฟังดูเหมือนเป็นแนวเพลงหรือศิลปินที่เฉพาะเจาะจงอย่างไร

โมเดลกำเนิดของ Jukebox สามารถควบคุมได้มากขึ้นโดยให้สัญญาณแบบมีเงื่อนไขเพิ่มเติมในระหว่างขั้นตอนการฝึก

รุ่นแรกจัดทำโดยศิลปินและป้ายกำกับประเภทสำหรับแต่ละเพลง ซึ่งจะช่วยลดเอนโทรปีของการทำนายเสียงและช่วยให้โมเดลได้รับคุณภาพที่ดีขึ้น ฉลากยังช่วยให้เราควบคุมโมเดลในลักษณะเฉพาะได้

นอกจากศิลปินและแนวเพลงแล้ว ยังมีการเพิ่มสัญญาณบอกเวลาระหว่างเวลาฝึกอีกด้วย สัญญาณเหล่านี้รวมถึงความยาวของเพลง เวลาเริ่มต้นของตัวอย่างเฉพาะ และเศษส่วนของเพลงที่ผ่านไป ข้อมูลเพิ่มเติมนี้ช่วยให้โมเดลเข้าใจรูปแบบเสียงที่ขึ้นอยู่กับโครงสร้างโดยรวม

ตัวอย่างเช่น นางแบบอาจเรียนรู้ว่าเสียงปรบมือสำหรับดนตรีสดเกิดขึ้นที่ส่วนท้ายของเพลง ตัวแบบยังสามารถเรียนรู้ได้อีกด้วย ตัวอย่างเช่น บางประเภทมีส่วนบรรเลงที่ยาวกว่าประเภทอื่นๆ

เนื้อร้องของเพลง

โมเดลปรับอากาศที่กล่าวถึงในส่วนก่อนหน้านี้สามารถสร้างเสียงร้องได้หลากหลาย อย่างไรก็ตาม เสียงเหล่านี้มักจะไม่สอดคล้องกันและไม่สามารถจดจำได้

เพื่อควบคุมรูปแบบการกำเนิดเมื่อพูดถึงการสร้างเนื้อเพลง นักวิจัยให้บริบทเพิ่มเติมในเวลาฝึกอบรม เพื่อช่วยจับคู่ข้อมูลเนื้อเพลงกับจังหวะเวลาของเสียงจริง นักวิจัยได้ใช้ ม้าม เพื่อแยกเสียงร้องและ NUS Autoเนื้อเพลงAlign เพื่อให้ได้ตำแหน่งระดับคำของเนื้อเพลง

ข้อจำกัดของ Jukebox Model

ข้อจำกัดหลักของ Jukebox คือความเข้าใจโครงสร้างดนตรีที่ใหญ่ขึ้น ตัวอย่างเช่น คลิปเอาต์พุตสั้น 20 วินาทีอาจฟังดูน่าประทับใจ แต่ผู้ฟังจะสังเกตเห็นว่าโครงสร้างทางดนตรีทั่วไปของการขับร้องและท่อนร้องซ้ำนั้นขาดหายไปในเอาต์พุตสุดท้าย

โมเดลยังแสดงผลได้ช้า ใช้เวลาประมาณ 9 ชั่วโมงในการเรนเดอร์เสียงเต็ม XNUMX นาที ซึ่งจะจำกัดจำนวนเพลงที่สามารถสร้างได้และป้องกันไม่ให้ใช้โมเดลในแอปพลิเคชันแบบโต้ตอบ

สุดท้ายนี้ นักวิจัยตั้งข้อสังเกตว่าชุดข้อมูลตัวอย่างส่วนใหญ่เป็นภาษาอังกฤษและแสดงหลักดนตรีตะวันตกเป็นหลัก นักวิจัย AI สามารถมุ่งเน้นการวิจัยในอนาคตเกี่ยวกับการสร้างเพลงในภาษาอื่นและรูปแบบดนตรีที่ไม่ใช่แบบตะวันตก

สรุป

โปรเจ็กต์ Jukebox เน้นย้ำถึงความสามารถที่เพิ่มขึ้นของโมเดลแมชชีนเลิร์นนิงเพื่อสร้างการแสดงแทนข้อมูลที่ซับซ้อน เช่น เสียงดิบ ความก้าวหน้าที่คล้ายกันกำลังเกิดขึ้นในข้อความดังที่เห็นในโครงการเช่น จีพีที-3และรูปภาพตามที่เห็นใน OpenAI's DALL-E2.

แม้ว่าการวิจัยในพื้นที่นี้จะน่าประทับใจ แต่ก็ยังมีความกังวลเกี่ยวกับสิทธิ์ในทรัพย์สินทางปัญญาและผลกระทบที่โมเดลเหล่านี้อาจมีต่ออุตสาหกรรมสร้างสรรค์โดยรวม นักวิจัยและครีเอทีฟควรทำงานร่วมกันอย่างใกล้ชิดเพื่อให้แน่ใจว่าโมเดลเหล่านี้สามารถปรับปรุงต่อไปได้

โมเดลเพลงกำเนิดในอนาคตอาจสามารถทำหน้าที่เป็นเครื่องมือสำหรับนักดนตรีหรือเป็นแอปพลิเคชันสำหรับนักสร้างสรรค์ที่ต้องการเพลงที่กำหนดเองสำหรับโปรเจ็กต์

ตู้เพลง AI – การสร้างเพลงโดยใช้โครงข่ายประสาทเทียม

ตู้เพลง AI คืออะไร?