นับเป็นงานที่สำคัญและเป็นที่ต้องการของคอมพิวเตอร์วิทัศน์และกราฟิกในการผลิตภาพยนตร์พอร์ตเทรตที่สร้างสรรค์ที่มีความสามารถสูงสุด
แม้ว่าจะมีการเสนอโมเดลที่มีประสิทธิภาพหลายตัวสำหรับการปรับภาพพอร์ตเทรตตาม StyleGAN ที่มีศักยภาพ แต่เทคนิคเชิงภาพเหล่านี้มีข้อเสียที่ชัดเจนเมื่อใช้กับวิดีโอ เช่น ขนาดเฟรมคงที่ ข้อกำหนดสำหรับการจัดตำแหน่งใบหน้า การไม่มีรายละเอียดที่ไม่ใช่ใบหน้า และความไม่สอดคล้องกันชั่วคราว
เฟรมเวิร์ก VToonify ที่ปฏิวัติวงการใช้เพื่อจัดการกับการถ่ายโอนสไตล์วิดีโอแนวตั้งที่มีความละเอียดสูงที่ควบคุมได้ยาก
เราจะตรวจสอบการศึกษาล่าสุดเกี่ยวกับ VToonify ในบทความนี้ รวมถึงการทำงาน ข้อเสีย และปัจจัยอื่นๆ
Vtoonify คืออะไร?
เฟรมเวิร์ก VToonify ช่วยให้สามารถส่งสัญญาณวิดีโอแนวตั้งความละเอียดสูงที่ปรับแต่งได้
VToonify ใช้เลเยอร์ระดับกลางและระดับสูงของ StyleGAN เพื่อสร้างภาพบุคคลเชิงศิลปะคุณภาพสูงโดยอิงตามลักษณะเนื้อหาหลายขนาดที่ดึงมาโดยตัวเข้ารหัสเพื่อรักษารายละเอียดของเฟรม
สถาปัตยกรรมที่บิดเบี้ยวอย่างสมบูรณ์ที่เป็นผลลัพธ์นั้นนำใบหน้าที่ไม่อยู่ในแนวเดียวกันในภาพยนตร์ขนาดต่างๆ
เฟรมเวิร์กนี้เข้ากันได้กับโมเดลการปรับสีของรูปภาพที่ใช้ StyleGAN ในปัจจุบัน ทำให้สามารถขยายไปยังการสร้างวิดีโอโทนิฟิเคชั่น และสืบทอดคุณลักษณะที่น่าสนใจ เช่น การปรับแต่งสีและความเข้มที่ปรับได้
ศึกษา แนะนำสองอินสแตนซ์ของ VToonify ตาม Toonify และ DualStyleGAN สำหรับการถ่ายโอนสไตล์วิดีโอแนวตั้งตามคอลเลกชันและตามแบบอย่าง ตามลำดับ
ผลการทดลองอย่างกว้างขวางแสดงให้เห็นว่าเฟรมเวิร์ก VToonify ที่เสนอนั้นมีประสิทธิภาพเหนือกว่าแนวทางที่มีอยู่ในการสร้างภาพยนตร์พอร์ตเทรตแนวศิลปะคุณภาพสูงที่เชื่อมโยงกันชั่วขณะด้วยพารามิเตอร์รูปแบบที่หลากหลาย
นักวิจัยให้ สมุดบันทึก Google Colabเพื่อให้มือของคุณสกปรกได้
มันทำงานอย่างไร?
เพื่อให้การถ่ายโอนรูปแบบวิดีโอแนวตั้งที่มีความละเอียดสูงบรรลุผลสำเร็จ VToonify ได้รวมข้อดีของเฟรมเวิร์กการแปลรูปภาพเข้ากับเฟรมเวิร์กที่ใช้ StyleGAN
เพื่อรองรับขนาดอินพุตที่แตกต่างกัน ระบบการแปลรูปภาพจึงใช้เครือข่ายแบบหมุนวนอย่างเต็มที่ ในทางกลับกัน การฝึกตั้งแต่เริ่มต้น ทำให้การส่งแบบมีความละเอียดสูงและควบคุมไม่ได้
โมเดล StyleGAN ที่ผ่านการฝึกอบรมล่วงหน้านั้นใช้ในเฟรมเวิร์กที่ใช้ StyleGAN สำหรับการถ่ายโอนสไตล์ที่มีความละเอียดสูงและควบคุม แม้ว่าจะจำกัดขนาดภาพคงที่และการสูญเสียรายละเอียด
StyleGAN ได้รับการแก้ไขในเฟรมเวิร์กแบบไฮบริดโดยการลบฟีเจอร์อินพุตขนาดคงที่และเลเยอร์ที่มีความละเอียดต่ำ ส่งผลให้สถาปัตยกรรมตัวเข้ารหัส-เจนเนอเรเตอร์แบบหมุนวนอย่างสมบูรณ์คล้ายกับเฟรมเวิร์กการแปลรูปภาพ
เพื่อรักษารายละเอียดของเฟรม ให้ฝึกตัวเข้ารหัสเพื่อแยกคุณลักษณะเนื้อหาแบบหลายสเกลของเฟรมอินพุตเป็นข้อกำหนดเนื้อหาเพิ่มเติมสำหรับตัวสร้าง Vtoonify สืบทอดความยืดหยุ่นในการควบคุมสไตล์ของรุ่น StyleGAN โดยใส่ลงในเครื่องกำเนิดเพื่อกลั่นทั้งข้อมูลและแบบจำลอง
ข้อจำกัดของ StyleGAN และ Vtoonify ที่เสนอ
ภาพเหมือนศิลปะเป็นเรื่องปกติในชีวิตประจำวันของเราเช่นเดียวกับในธุรกิจสร้างสรรค์เช่นศิลปะ โซเชียลมีเดีย ภาพแทนตัว ภาพยนตร์ โฆษณาเพื่อความบันเทิง และอื่นๆ
ด้วยการพัฒนาของ การเรียนรู้ลึก ๆ เทคโนโลยี ทำให้ตอนนี้สามารถสร้างภาพพอร์ตเทรตศิลปะคุณภาพสูงจากภาพถ่ายใบหน้าจริงโดยใช้การถ่ายโอนรูปแบบภาพเหมือนอัตโนมัติ
มีวิธีสร้างความสำเร็จมากมายสำหรับการถ่ายโอนสไตล์ตามรูปภาพ ซึ่งหลายวิธีที่ผู้ใช้เริ่มต้นสามารถเข้าถึงได้ง่ายในรูปแบบของแอปพลิเคชันมือถือ เนื้อหาวิดีโอได้กลายเป็นแกนนำของฟีดโซเชียลมีเดียของเราอย่างรวดเร็วในช่วงหลายปีที่ผ่านมา
การเพิ่มขึ้นของโซเชียลมีเดียและภาพยนตร์ชั่วคราวได้เพิ่มความต้องการในการตัดต่อวิดีโอที่เป็นนวัตกรรมใหม่ เช่น การถ่ายโอนรูปแบบวิดีโอแนวตั้ง เพื่อสร้างวิดีโอที่ประสบความสำเร็จและน่าสนใจ
เทคนิคที่เน้นรูปภาพที่มีอยู่มีข้อเสียอย่างมากเมื่อนำไปใช้กับภาพยนตร์ ซึ่งจำกัดประโยชน์ในการจัดสไตล์วิดีโอแนวตั้งอัตโนมัติ
StyleGAN เป็นแกนหลักทั่วไปในการพัฒนารูปแบบการถ่ายโอนรูปแบบภาพพอร์ตเทรต เนื่องจากความสามารถในการสร้างใบหน้าคุณภาพสูงพร้อมการจัดการสไตล์ที่ปรับได้
ระบบที่ใช้ StyleGAN (หรือที่รู้จักในชื่อการทำให้เป็นภาพสี) จะเข้ารหัสใบหน้าจริงในพื้นที่แฝงของ StyleGAN จากนั้นนำโค้ดสไตล์ที่เป็นผลลัพธ์ไปใช้กับ StyleGAN อื่นที่ปรับแต่งชุดข้อมูลภาพบุคคลแนวศิลป์เพื่อสร้างเวอร์ชันที่มีสไตล์
StyleGAN สร้างรูปภาพด้วยใบหน้าที่เรียงชิดกันและมีขนาดคงที่ ซึ่งไม่เหมาะกับใบหน้าแบบไดนามิกในฟุตเทจในโลกแห่งความเป็นจริง การครอบตัดใบหน้าและการจัดตำแหน่งในวิดีโอในบางครั้งส่งผลให้ใบหน้าบางส่วนและท่าทางที่ไม่สะดวก นักวิจัยเรียกปัญหานี้ว่า 'ข้อ จำกัด การปลูกพืชคงที่' ของ StyleGAN
สำหรับใบหน้าที่ไม่อยู่ในแนวเดียวกัน มีการเสนอ StyleGAN3; อย่างไรก็ตาม รองรับเฉพาะขนาดรูปภาพที่ตั้งไว้เท่านั้น
นอกจากนี้ ผลการศึกษาเมื่อเร็วๆ นี้พบว่าการเข้ารหัสใบหน้าที่ไม่จัดแนวนั้นท้าทายกว่าใบหน้าที่จัดแนว การเข้ารหัสใบหน้าที่ไม่ถูกต้องเป็นอันตรายต่อการถ่ายโอนรูปแบบแนวตั้ง ส่งผลให้เกิดปัญหาต่างๆ เช่น การเปลี่ยนแปลงข้อมูลประจำตัวและส่วนประกอบที่ขาดหายไปในเฟรมที่สร้างใหม่และจัดรูปแบบ
ตามที่กล่าวไว้ เทคนิคที่มีประสิทธิภาพสำหรับการถ่ายโอนสไตล์วิดีโอแนวตั้งต้องจัดการกับปัญหาต่อไปนี้:
- เพื่อรักษาการเคลื่อนไหวที่สมจริง วิธีการดังกล่าวจะต้องสามารถจัดการกับใบหน้าที่ไม่ตรงแนวและขนาดวิดีโอที่หลากหลายได้ ขนาดวิดีโอขนาดใหญ่หรือมุมมองที่กว้างสามารถบันทึกข้อมูลเพิ่มเติมได้ในขณะเดียวกันก็ป้องกันไม่ให้ใบหน้าเคลื่อนออกจากเฟรม
- เพื่อแข่งขันกับอุปกรณ์ HD ที่ใช้กันทั่วไปในปัจจุบัน วิดีโอความละเอียดสูงเป็นสิ่งจำเป็น
- ควรมีการควบคุมสไตล์ที่ยืดหยุ่นให้ผู้ใช้ปรับเปลี่ยนและเลือกทางเลือกเมื่อพัฒนาระบบโต้ตอบกับผู้ใช้ที่สมจริง
เพื่อจุดประสงค์นี้ นักวิจัยแนะนำ VToonify ซึ่งเป็นเฟรมเวิร์กไฮบริดแบบใหม่สำหรับการแปลงวิดีโอเป็นวิดีโอ เพื่อเอาชนะข้อจำกัดการครอบตัดแบบตายตัว นักวิจัยได้ศึกษาความเท่าเทียมกันของการแปลใน StyleGAN ก่อน
VToonify ผสมผสานประโยชน์ของสถาปัตยกรรมที่ใช้ StyleGAN และเฟรมเวิร์กการแปลรูปภาพ เพื่อให้ได้การถ่ายโอนรูปแบบวิดีโอแนวตั้งที่มีความละเอียดสูงที่ปรับได้
ต่อไปนี้เป็นผลงานที่สำคัญ:
- นักวิจัยตรวจสอบข้อจำกัดการครอบตัดคงที่ของ StyleGAN และเสนอวิธีแก้ปัญหาตามความเท่าเทียมกันของการแปล
- นักวิจัยนำเสนอเฟรมเวิร์ก VToonify ที่ปรับเปลี่ยนได้อย่างสมบูรณ์สำหรับการถ่ายโอนรูปแบบวิดีโอแนวตั้งที่มีความละเอียดสูงซึ่งควบคุมได้ ซึ่งสนับสนุนใบหน้าที่ไม่อยู่ในแนวเดียวกันและขนาดวิดีโอที่แตกต่างกัน
- นักวิจัยสร้าง VToonify บนแกนหลักของ Toonify และ DualStyleGAN และย่อ backbones ในแง่ของข้อมูลและแบบจำลองเพื่อเปิดใช้งานการถ่ายโอนสไตล์วิดีโอแนวตั้งตามคอลเลกชันและตามแบบอย่าง
เปรียบเทียบ Vtoonify กับรุ่นอื่นๆ ที่ล้ำสมัย
ทูนิฟาย
ทำหน้าที่เป็นรากฐานสำหรับการถ่ายโอนสไตล์ตามคอลเลกชันบนใบหน้าที่จัดแนวโดยใช้ StyleGAN ในการดึงโค้ดสไตล์ นักวิจัยต้องจัดตำแหน่งใบหน้าและครอบตัดรูปภาพ 256256 สำหรับ PSP Toonify ใช้เพื่อสร้างผลลัพธ์ที่มีสไตล์ด้วยรหัสสไตล์ 1024*1024
สุดท้าย จัดแนวผลลัพธ์ในวิดีโอใหม่ให้อยู่ในตำแหน่งเดิม พื้นที่ที่ไม่ได้จัดสไตล์ถูกตั้งค่าเป็นสีดำ
DualStyleGAN
เป็นแกนหลักสำหรับการถ่ายโอนสไตล์ที่เป็นแบบอย่างตาม StyleGAN พวกเขาใช้เทคนิคข้อมูลก่อนและหลังการประมวลผลเดียวกันกับ Toonify
Pix2pixHD
เป็นโมเดลการแปลรูปภาพเป็นรูปภาพซึ่งมักใช้ในการย่อโมเดลที่ได้รับการฝึกอบรมล่วงหน้าสำหรับการแก้ไขที่มีความละเอียดสูง มีการฝึกอบรมโดยใช้ข้อมูลที่จับคู่
นักวิจัยใช้ pix2pixHD เป็นอินพุตแมปอินสแตนซ์เพิ่มเติม เนื่องจากใช้การแยกวิเคราะห์แมป
การเคลื่อนไหวสั่งซื้อครั้งแรก
FOM เป็นโมเดลแอนิเมชั่นรูปภาพทั่วไป ได้รับการฝึกอบรมเกี่ยวกับภาพ 256256 และทำงานได้ไม่ดีกับขนาดภาพอื่น ๆ ด้วยเหตุนี้ นักวิจัยจึงปรับขนาดเฟรมวิดีโอเป็น 256*256 สำหรับ FOM เป็นแอนิเมชันก่อน แล้วจึงปรับขนาดผลลัพธ์เป็นขนาดดั้งเดิม
สำหรับการเปรียบเทียบที่ยุติธรรม FOM ใช้กรอบที่มีสไตล์อันแรกของแนวทางเป็นภาพรูปแบบอ้างอิง
ดาแกน
เป็นโมเดลแอนิเมชั่นใบหน้า 3 มิติ พวกเขาใช้วิธีการเตรียมข้อมูลและหลังการประมวลผลแบบเดียวกับ FOM
ข้อดี
- สามารถใช้ในงานศิลปะ ภาพแทนตัวของโซเชียลมีเดีย ภาพยนตร์ โฆษณาเพื่อความบันเทิง และอื่นๆ
- Vtoonify ยังสามารถใช้ใน metaverse
ข้อ จำกัด
- วิธีการนี้แยกทั้งข้อมูลและโมเดลจากแบ็คโบนที่ใช้ StyleGAN ส่งผลให้เกิดข้อมูลและอคติของโมเดล
- สิ่งประดิษฐ์ส่วนใหญ่เกิดจากความแตกต่างของขนาดระหว่างบริเวณใบหน้าที่มีสไตล์และส่วนอื่นๆ
- กลยุทธ์นี้ประสบความสำเร็จน้อยกว่าเมื่อต้องรับมือกับสิ่งต่าง ๆ ในบริเวณใบหน้า
สรุป
สุดท้าย VToonify เป็นเฟรมเวิร์กสำหรับการแปลงวิดีโอความละเอียดสูงที่มีการควบคุมสไตล์
เฟรมเวิร์กนี้มีประสิทธิภาพที่ยอดเยี่ยมในการจัดการวิดีโอ และช่วยให้สามารถควบคุมสไตล์โครงสร้าง สไตล์สี และระดับของสไตล์ได้อย่างกว้างขวาง โดยการย่อโมเดลการแปลงภาพตาม StyleGAN ในแง่ของทั้งสอง ข้อมูลสังเคราะห์ และโครงสร้างเครือข่าย
เขียนความเห็น