คุณสามารถใช้ AI เพื่อสร้างบันทึกใหม่จากศิลปินที่คุณชื่นชอบได้หรือไม่?
ความก้าวหน้าล่าสุดในการเรียนรู้ของเครื่องได้แสดงให้เห็นว่าขณะนี้โมเดลสามารถเข้าใจข้อมูลที่ซับซ้อน เช่น ข้อความและรูปภาพ ตู้เพลงของ OpenAI พิสูจน์ให้เห็นว่าแม้แต่เพลงก็สามารถสร้างแบบจำลองได้อย่างแม่นยำด้วยโครงข่ายประสาทเทียม
ดนตรีเป็นวัตถุที่ซับซ้อนในการสร้างแบบจำลอง คุณต้องพิจารณาทั้งคุณสมบัติง่ายๆ เช่น จังหวะ ความดัง และระดับเสียง และคุณลักษณะที่ซับซ้อนมากขึ้น เช่น เนื้อเพลง เครื่องดนตรี และโครงสร้างทางดนตรี
ใช้ขั้นสูง เรียนรู้เครื่อง เทคนิค OpenAI ได้ค้นพบวิธีการแปลงเสียงดิบเป็นการแสดงที่รุ่นอื่นสามารถใช้ได้
บทความนี้จะอธิบายว่า Jukebox สามารถทำอะไรได้บ้าง มันทำงานอย่างไร และข้อจำกัดในปัจจุบันของเทคโนโลยี
ตู้เพลง AI คืออะไร?
ตู้เพลง เป็นโมเดลโครงข่ายประสาทโดย OpenAI ที่สามารถสร้างเสียงดนตรีได้ด้วยการร้องเพลง นางแบบสามารถผลิตเพลงได้หลากหลายแนวเพลงและสไตล์ศิลปิน
ตัวอย่างเช่น Jukebox สามารถผลิตเพลงร็อคในสไตล์ของ Elvis Presley หรือเพลงฮิปฮอปในสไตล์ของ Kanye West เชิญแวะชมได้ เว็บไซต์ เพื่อสำรวจว่าตัวแบบมีประสิทธิภาพเพียงใดในการจับภาพเสียงของศิลปินและแนวเพลงที่คุณชื่นชอบ
โมเดลนี้ต้องมีประเภท ศิลปิน และเนื้อเพลงเป็นข้อมูลเข้า ข้อมูลนี้จะแนะนำโมเดลที่ได้รับการฝึกฝนจากศิลปินหลายล้านคนและข้อมูลเนื้อเพลง
ตู้เพลงทำงานอย่างไร
มาดูกันว่า Jukebox จัดการสร้างเสียงดิบที่แปลกใหม่จากโมเดลที่ได้รับการฝึกฝนจากเพลงนับล้านได้อย่างไร
กระบวนการเข้ารหัส
แม้ว่าโมเดลการสร้างเพลงบางรุ่นจะใช้ข้อมูลการฝึก MIDI แต่ Jukebox จะได้รับการฝึกอบรมเกี่ยวกับไฟล์เสียงดิบจริง ในการบีบอัดเสียงลงในพื้นที่แยก Jukebox ใช้วิธีเข้ารหัสอัตโนมัติที่เรียกว่า VQ-VAE
VQ-VAE ย่อมาจาก Vector Quantized Variational Autoencoder ซึ่งอาจฟังดูซับซ้อนเล็กน้อย เรามาทำลายมันกัน
อันดับแรก ให้พยายามทำความเข้าใจว่าเราต้องการทำอะไรที่นี่ เมื่อเทียบกับเนื้อเพลงหรือโน้ตเพลง ไฟล์เสียงดิบนั้นซับซ้อนกว่ามาก หากเราต้องการให้แบบจำลองของเรา "เรียนรู้" จากเพลง เราจะต้องแปลงเป็นรูปแบบที่บีบอัดและเรียบง่ายยิ่งขึ้น ใน เรียนรู้เครื่องเราเรียกสิ่งนี้ว่าการแสดงแทน a พื้นที่แฝง.
An ตัวเข้ารหัสอัตโนมัติ เป็นเทคนิคการเรียนรู้แบบ unsupervised ที่ใช้ a เครือข่ายประสาท เพื่อค้นหาการแสดงแทนแฝงแบบไม่เชิงเส้นสำหรับการกระจายข้อมูลที่กำหนด ตัวเข้ารหัสอัตโนมัติประกอบด้วยสองส่วน: ตัวเข้ารหัสและตัวถอดรหัส
พื้นที่ encoder พยายามค้นหาพื้นที่แฝงจากชุดข้อมูลดิบในขณะที่ ถอดรหัส ใช้การแสดงแฝงเพื่อพยายามสร้างกลับเป็นรูปแบบเดิม ตัวเข้ารหัสอัตโนมัติเรียนรู้วิธีบีบอัดข้อมูลดิบเป็นหลักในลักษณะที่ลดข้อผิดพลาดในการสร้างใหม่
ตอนนี้เรารู้แล้วว่าตัวเข้ารหัสอัตโนมัติทำหน้าที่อะไร เรามาลองทำความเข้าใจว่าเราหมายถึงอะไรโดยตัวเข้ารหัสอัตโนมัติ "แบบแปรผัน" เมื่อเทียบกับตัวเข้ารหัสอัตโนมัติทั่วไป ตัวเข้ารหัสอัตโนมัติแบบแปรผันจะเพิ่ม a ก่อนพื้นที่แฝง
หากไม่เจาะลึกในวิชาคณิตศาสตร์ การเพิ่มความน่าจะเป็นก่อนหน้าจะรักษาการกระจายที่แฝงไว้อย่างใกล้ชิด ความแตกต่างหลัก ระหว่าง VAE และ VQ-VAE คือ แบบหลังใช้การแสดงแฝงแบบไม่ต่อเนื่อง แทนที่จะเป็นแบบต่อเนื่อง
แต่ละระดับ VQ-VAE เข้ารหัสอินพุตอย่างอิสระ การเข้ารหัสระดับล่างทำให้เกิดการสร้างใหม่ที่มีคุณภาพสูงสุด การเข้ารหัสระดับบนสุดเก็บข้อมูลดนตรีที่จำเป็น
การใช้ Transformers
ตอนนี้เรามีรหัสเพลงที่เข้ารหัสโดย VQ-VAE แล้ว เราสามารถลองทำได้ สร้างเพลง ในพื้นที่ที่ไม่ต่อเนื่องที่ถูกบีบอัดนี้
ตู้เพลงใช้ หม้อแปลงไฟฟ้าแบบถดถอย เพื่อสร้างเอาต์พุตเสียง Transformers เป็นโครงข่ายประสาทชนิดหนึ่งที่ทำงานได้ดีที่สุดกับข้อมูลตามลำดับ จากลำดับของโทเค็น โมเดลหม้อแปลงจะพยายามทำนายโทเค็นถัดไป
ตู้เพลงใช้ตัวแปรแบบง่ายของ Sparse Transformers เมื่อโมเดลก่อนหน้าทั้งหมดได้รับการฝึกอบรมแล้ว หม้อแปลงจะสร้างรหัสบีบอัดซึ่งจะถูกถอดรหัสกลับเป็นเสียงดิบโดยใช้ตัวถอดรหัส VQ-VAE
การปรับศิลปินและแนวเพลงในตู้เพลง
โมเดลกำเนิดของ Jukebox สามารถควบคุมได้มากขึ้นโดยให้สัญญาณแบบมีเงื่อนไขเพิ่มเติมในระหว่างขั้นตอนการฝึก
รุ่นแรกจัดทำโดยศิลปินและป้ายกำกับประเภทสำหรับแต่ละเพลง ซึ่งจะช่วยลดเอนโทรปีของการทำนายเสียงและช่วยให้โมเดลได้รับคุณภาพที่ดีขึ้น ฉลากยังช่วยให้เราควบคุมโมเดลในลักษณะเฉพาะได้
นอกจากศิลปินและแนวเพลงแล้ว ยังมีการเพิ่มสัญญาณบอกเวลาระหว่างเวลาฝึกอีกด้วย สัญญาณเหล่านี้รวมถึงความยาวของเพลง เวลาเริ่มต้นของตัวอย่างเฉพาะ และเศษส่วนของเพลงที่ผ่านไป ข้อมูลเพิ่มเติมนี้ช่วยให้โมเดลเข้าใจรูปแบบเสียงที่ขึ้นอยู่กับโครงสร้างโดยรวม
ตัวอย่างเช่น นางแบบอาจเรียนรู้ว่าเสียงปรบมือสำหรับดนตรีสดเกิดขึ้นที่ส่วนท้ายของเพลง ตัวแบบยังสามารถเรียนรู้ได้อีกด้วย ตัวอย่างเช่น บางประเภทมีส่วนบรรเลงที่ยาวกว่าประเภทอื่นๆ
เนื้อร้องของเพลง
โมเดลปรับอากาศที่กล่าวถึงในส่วนก่อนหน้านี้สามารถสร้างเสียงร้องได้หลากหลาย อย่างไรก็ตาม เสียงเหล่านี้มักจะไม่สอดคล้องกันและไม่สามารถจดจำได้
เพื่อควบคุมรูปแบบการกำเนิดเมื่อพูดถึงการสร้างเนื้อเพลง นักวิจัยให้บริบทเพิ่มเติมในเวลาฝึกอบรม เพื่อช่วยจับคู่ข้อมูลเนื้อเพลงกับจังหวะเวลาของเสียงจริง นักวิจัยได้ใช้ ม้าม เพื่อแยกเสียงร้องและ NUS Autoเนื้อเพลงAlign เพื่อให้ได้ตำแหน่งระดับคำของเนื้อเพลง
ข้อจำกัดของ Jukebox Model
ข้อจำกัดหลักของ Jukebox คือความเข้าใจโครงสร้างดนตรีที่ใหญ่ขึ้น ตัวอย่างเช่น คลิปเอาต์พุตสั้น 20 วินาทีอาจฟังดูน่าประทับใจ แต่ผู้ฟังจะสังเกตเห็นว่าโครงสร้างทางดนตรีทั่วไปของการขับร้องและท่อนร้องซ้ำนั้นขาดหายไปในเอาต์พุตสุดท้าย
โมเดลยังแสดงผลได้ช้า ใช้เวลาประมาณ 9 ชั่วโมงในการเรนเดอร์เสียงเต็ม XNUMX นาที ซึ่งจะจำกัดจำนวนเพลงที่สามารถสร้างได้และป้องกันไม่ให้ใช้โมเดลในแอปพลิเคชันแบบโต้ตอบ
สุดท้ายนี้ นักวิจัยตั้งข้อสังเกตว่าชุดข้อมูลตัวอย่างส่วนใหญ่เป็นภาษาอังกฤษและแสดงหลักดนตรีตะวันตกเป็นหลัก นักวิจัย AI สามารถมุ่งเน้นการวิจัยในอนาคตเกี่ยวกับการสร้างเพลงในภาษาอื่นและรูปแบบดนตรีที่ไม่ใช่แบบตะวันตก
สรุป
โปรเจ็กต์ Jukebox เน้นย้ำถึงความสามารถที่เพิ่มขึ้นของโมเดลแมชชีนเลิร์นนิงเพื่อสร้างการแสดงแทนข้อมูลที่ซับซ้อน เช่น เสียงดิบ ความก้าวหน้าที่คล้ายกันกำลังเกิดขึ้นในข้อความดังที่เห็นในโครงการเช่น จีพีที-3และรูปภาพตามที่เห็นใน OpenAI's DALL-E2.
แม้ว่าการวิจัยในพื้นที่นี้จะน่าประทับใจ แต่ก็ยังมีความกังวลเกี่ยวกับสิทธิ์ในทรัพย์สินทางปัญญาและผลกระทบที่โมเดลเหล่านี้อาจมีต่ออุตสาหกรรมสร้างสรรค์โดยรวม นักวิจัยและครีเอทีฟควรทำงานร่วมกันอย่างใกล้ชิดเพื่อให้แน่ใจว่าโมเดลเหล่านี้สามารถปรับปรุงต่อไปได้
โมเดลเพลงกำเนิดในอนาคตอาจสามารถทำหน้าที่เป็นเครื่องมือสำหรับนักดนตรีหรือเป็นแอปพลิเคชันสำหรับนักสร้างสรรค์ที่ต้องการเพลงที่กำหนดเองสำหรับโปรเจ็กต์
เขียนความเห็น