Vtoonify: การถ่ายโอนสไตล์วิดีโอแนวตั้งความละเอียดสูงที่ควบคุมได้

สารบัญ[ซ่อน][แสดง]

Vtoonify คืออะไร?
มันทำงานอย่างไร?
ข้อจำกัดของ StyleGAN และ Vtoonify ที่เสนอ
เปรียบเทียบ Vtoonify กับรุ่นอื่นๆ ที่ล้ำสมัย+-
ข้อดี+-
- ข้อ จำกัด
สรุป

นับเป็นงานที่สำคัญและเป็นที่ต้องการของคอมพิวเตอร์วิทัศน์และกราฟิกในการผลิตภาพยนตร์พอร์ตเทรตที่สร้างสรรค์ที่มีความสามารถสูงสุด

แม้ว่าจะมีการเสนอโมเดลที่มีประสิทธิภาพหลายตัวสำหรับการปรับภาพพอร์ตเทรตตาม StyleGAN ที่มีศักยภาพ แต่เทคนิคเชิงภาพเหล่านี้มีข้อเสียที่ชัดเจนเมื่อใช้กับวิดีโอ เช่น ขนาดเฟรมคงที่ ข้อกำหนดสำหรับการจัดตำแหน่งใบหน้า การไม่มีรายละเอียดที่ไม่ใช่ใบหน้า และความไม่สอดคล้องกันชั่วคราว

เฟรมเวิร์ก VToonify ที่ปฏิวัติวงการใช้เพื่อจัดการกับการถ่ายโอนสไตล์วิดีโอแนวตั้งที่มีความละเอียดสูงที่ควบคุมได้ยาก

เราจะตรวจสอบการศึกษาล่าสุดเกี่ยวกับ VToonify ในบทความนี้ รวมถึงการทำงาน ข้อเสีย และปัจจัยอื่นๆ

Vtoonify คืออะไร?

เฟรมเวิร์ก VToonify ช่วยให้สามารถส่งสัญญาณวิดีโอแนวตั้งความละเอียดสูงที่ปรับแต่งได้

VToonify ใช้เลเยอร์ระดับกลางและระดับสูงของ StyleGAN เพื่อสร้างภาพบุคคลเชิงศิลปะคุณภาพสูงโดยอิงตามลักษณะเนื้อหาหลายขนาดที่ดึงมาโดยตัวเข้ารหัสเพื่อรักษารายละเอียดของเฟรม

สถาปัตยกรรมที่บิดเบี้ยวอย่างสมบูรณ์ที่เป็นผลลัพธ์นั้นนำใบหน้าที่ไม่อยู่ในแนวเดียวกันในภาพยนตร์ขนาดต่างๆ

วีทูนิฟาย

เฟรมเวิร์กนี้เข้ากันได้กับโมเดลการปรับสีของรูปภาพที่ใช้ StyleGAN ในปัจจุบัน ทำให้สามารถขยายไปยังการสร้างวิดีโอโทนิฟิเคชั่น และสืบทอดคุณลักษณะที่น่าสนใจ เช่น การปรับแต่งสีและความเข้มที่ปรับได้

ศึกษา แนะนำสองอินสแตนซ์ของ VToonify ตาม Toonify และ DualStyleGAN สำหรับการถ่ายโอนสไตล์วิดีโอแนวตั้งตามคอลเลกชันและตามแบบอย่าง ตามลำดับ

ผลการทดลองอย่างกว้างขวางแสดงให้เห็นว่าเฟรมเวิร์ก VToonify ที่เสนอนั้นมีประสิทธิภาพเหนือกว่าแนวทางที่มีอยู่ในการสร้างภาพยนตร์พอร์ตเทรตแนวศิลปะคุณภาพสูงที่เชื่อมโยงกันชั่วขณะด้วยพารามิเตอร์รูปแบบที่หลากหลาย

นักวิจัยให้ สมุดบันทึก Google Colabเพื่อให้มือของคุณสกปรกได้

มันทำงานอย่างไร?

เพื่อให้การถ่ายโอนรูปแบบวิดีโอแนวตั้งที่มีความละเอียดสูงบรรลุผลสำเร็จ VToonify ได้รวมข้อดีของเฟรมเวิร์กการแปลรูปภาพเข้ากับเฟรมเวิร์กที่ใช้ StyleGAN

Vtoonify ทำงาน

เพื่อรองรับขนาดอินพุตที่แตกต่างกัน ระบบการแปลรูปภาพจึงใช้เครือข่ายแบบหมุนวนอย่างเต็มที่ ในทางกลับกัน การฝึกตั้งแต่เริ่มต้น ทำให้การส่งแบบมีความละเอียดสูงและควบคุมไม่ได้

โมเดล StyleGAN ที่ผ่านการฝึกอบรมล่วงหน้านั้นใช้ในเฟรมเวิร์กที่ใช้ StyleGAN สำหรับการถ่ายโอนสไตล์ที่มีความละเอียดสูงและควบคุม แม้ว่าจะจำกัดขนาดภาพคงที่และการสูญเสียรายละเอียด

StyleGAN ได้รับการแก้ไขในเฟรมเวิร์กแบบไฮบริดโดยการลบฟีเจอร์อินพุตขนาดคงที่และเลเยอร์ที่มีความละเอียดต่ำ ส่งผลให้สถาปัตยกรรมตัวเข้ารหัส-เจนเนอเรเตอร์แบบหมุนวนอย่างสมบูรณ์คล้ายกับเฟรมเวิร์กการแปลรูปภาพ

เพื่อรักษารายละเอียดของเฟรม ให้ฝึกตัวเข้ารหัสเพื่อแยกคุณลักษณะเนื้อหาแบบหลายสเกลของเฟรมอินพุตเป็นข้อกำหนดเนื้อหาเพิ่มเติมสำหรับตัวสร้าง Vtoonify สืบทอดความยืดหยุ่นในการควบคุมสไตล์ของรุ่น StyleGAN โดยใส่ลงในเครื่องกำเนิดเพื่อกลั่นทั้งข้อมูลและแบบจำลอง

ข้อจำกัดของ StyleGAN และ Vtoonify ที่เสนอ

ภาพเหมือนศิลปะเป็นเรื่องปกติในชีวิตประจำวันของเราเช่นเดียวกับในธุรกิจสร้างสรรค์เช่นศิลปะ โซเชียลมีเดีย ภาพแทนตัว ภาพยนตร์ โฆษณาเพื่อความบันเทิง และอื่นๆ

ด้วยการพัฒนาของ การเรียนรู้ลึก ๆ เทคโนโลยี ทำให้ตอนนี้สามารถสร้างภาพพอร์ตเทรตศิลปะคุณภาพสูงจากภาพถ่ายใบหน้าจริงโดยใช้การถ่ายโอนรูปแบบภาพเหมือนอัตโนมัติ

มีวิธีสร้างความสำเร็จมากมายสำหรับการถ่ายโอนสไตล์ตามรูปภาพ ซึ่งหลายวิธีที่ผู้ใช้เริ่มต้นสามารถเข้าถึงได้ง่ายในรูปแบบของแอปพลิเคชันมือถือ เนื้อหาวิดีโอได้กลายเป็นแกนนำของฟีดโซเชียลมีเดียของเราอย่างรวดเร็วในช่วงหลายปีที่ผ่านมา

การเพิ่มขึ้นของโซเชียลมีเดียและภาพยนตร์ชั่วคราวได้เพิ่มความต้องการในการตัดต่อวิดีโอที่เป็นนวัตกรรมใหม่ เช่น การถ่ายโอนรูปแบบวิดีโอแนวตั้ง เพื่อสร้างวิดีโอที่ประสบความสำเร็จและน่าสนใจ

เทคนิคที่เน้นรูปภาพที่มีอยู่มีข้อเสียอย่างมากเมื่อนำไปใช้กับภาพยนตร์ ซึ่งจำกัดประโยชน์ในการจัดสไตล์วิดีโอแนวตั้งอัตโนมัติ

StyleGAN เป็นแกนหลักทั่วไปในการพัฒนารูปแบบการถ่ายโอนรูปแบบภาพพอร์ตเทรต เนื่องจากความสามารถในการสร้างใบหน้าคุณภาพสูงพร้อมการจัดการสไตล์ที่ปรับได้

ระบบที่ใช้ StyleGAN (หรือที่รู้จักในชื่อการทำให้เป็นภาพสี) จะเข้ารหัสใบหน้าจริงในพื้นที่แฝงของ StyleGAN จากนั้นนำโค้ดสไตล์ที่เป็นผลลัพธ์ไปใช้กับ StyleGAN อื่นที่ปรับแต่งชุดข้อมูลภาพบุคคลแนวศิลป์เพื่อสร้างเวอร์ชันที่มีสไตล์

StyleGAN สร้างรูปภาพด้วยใบหน้าที่เรียงชิดกันและมีขนาดคงที่ ซึ่งไม่เหมาะกับใบหน้าแบบไดนามิกในฟุตเทจในโลกแห่งความเป็นจริง การครอบตัดใบหน้าและการจัดตำแหน่งในวิดีโอในบางครั้งส่งผลให้ใบหน้าบางส่วนและท่าทางที่ไม่สะดวก นักวิจัยเรียกปัญหานี้ว่า 'ข้อ จำกัด การปลูกพืชคงที่' ของ StyleGAN

สำหรับใบหน้าที่ไม่อยู่ในแนวเดียวกัน มีการเสนอ StyleGAN3; อย่างไรก็ตาม รองรับเฉพาะขนาดรูปภาพที่ตั้งไว้เท่านั้น

นอกจากนี้ ผลการศึกษาเมื่อเร็วๆ นี้พบว่าการเข้ารหัสใบหน้าที่ไม่จัดแนวนั้นท้าทายกว่าใบหน้าที่จัดแนว การเข้ารหัสใบหน้าที่ไม่ถูกต้องเป็นอันตรายต่อการถ่ายโอนรูปแบบแนวตั้ง ส่งผลให้เกิดปัญหาต่างๆ เช่น การเปลี่ยนแปลงข้อมูลประจำตัวและส่วนประกอบที่ขาดหายไปในเฟรมที่สร้างใหม่และจัดรูปแบบ

ตามที่กล่าวไว้ เทคนิคที่มีประสิทธิภาพสำหรับการถ่ายโอนสไตล์วิดีโอแนวตั้งต้องจัดการกับปัญหาต่อไปนี้:

เพื่อรักษาการเคลื่อนไหวที่สมจริง วิธีการดังกล่าวจะต้องสามารถจัดการกับใบหน้าที่ไม่ตรงแนวและขนาดวิดีโอที่หลากหลายได้ ขนาดวิดีโอขนาดใหญ่หรือมุมมองที่กว้างสามารถบันทึกข้อมูลเพิ่มเติมได้ในขณะเดียวกันก็ป้องกันไม่ให้ใบหน้าเคลื่อนออกจากเฟรม
เพื่อแข่งขันกับอุปกรณ์ HD ที่ใช้กันทั่วไปในปัจจุบัน วิดีโอความละเอียดสูงเป็นสิ่งจำเป็น
ควรมีการควบคุมสไตล์ที่ยืดหยุ่นให้ผู้ใช้ปรับเปลี่ยนและเลือกทางเลือกเมื่อพัฒนาระบบโต้ตอบกับผู้ใช้ที่สมจริง

เพื่อจุดประสงค์นี้ นักวิจัยแนะนำ VToonify ซึ่งเป็นเฟรมเวิร์กไฮบริดแบบใหม่สำหรับการแปลงวิดีโอเป็นวิดีโอ เพื่อเอาชนะข้อจำกัดการครอบตัดแบบตายตัว นักวิจัยได้ศึกษาความเท่าเทียมกันของการแปลใน StyleGAN ก่อน

VToonify ผสมผสานประโยชน์ของสถาปัตยกรรมที่ใช้ StyleGAN และเฟรมเวิร์กการแปลรูปภาพ เพื่อให้ได้การถ่ายโอนรูปแบบวิดีโอแนวตั้งที่มีความละเอียดสูงที่ปรับได้

ต่อไปนี้เป็นผลงานที่สำคัญ:

นักวิจัยตรวจสอบข้อจำกัดการครอบตัดคงที่ของ StyleGAN และเสนอวิธีแก้ปัญหาตามความเท่าเทียมกันของการแปล
นักวิจัยนำเสนอเฟรมเวิร์ก VToonify ที่ปรับเปลี่ยนได้อย่างสมบูรณ์สำหรับการถ่ายโอนรูปแบบวิดีโอแนวตั้งที่มีความละเอียดสูงซึ่งควบคุมได้ ซึ่งสนับสนุนใบหน้าที่ไม่อยู่ในแนวเดียวกันและขนาดวิดีโอที่แตกต่างกัน
นักวิจัยสร้าง VToonify บนแกนหลักของ Toonify และ DualStyleGAN และย่อ backbones ในแง่ของข้อมูลและแบบจำลองเพื่อเปิดใช้งานการถ่ายโอนสไตล์วิดีโอแนวตั้งตามคอลเลกชันและตามแบบอย่าง

เปรียบเทียบ Vtoonify กับรุ่นอื่นๆ ที่ล้ำสมัย

ทูนิฟาย

ทำหน้าที่เป็นรากฐานสำหรับการถ่ายโอนสไตล์ตามคอลเลกชันบนใบหน้าที่จัดแนวโดยใช้ StyleGAN ในการดึงโค้ดสไตล์ นักวิจัยต้องจัดตำแหน่งใบหน้าและครอบตัดรูปภาพ 256256 สำหรับ PSP Toonify ใช้เพื่อสร้างผลลัพธ์ที่มีสไตล์ด้วยรหัสสไตล์ 1024*1024

สุดท้าย จัดแนวผลลัพธ์ในวิดีโอใหม่ให้อยู่ในตำแหน่งเดิม พื้นที่ที่ไม่ได้จัดสไตล์ถูกตั้งค่าเป็นสีดำ

เปรียบเทียบ Vtoonify กับโมเดลที่ทันสมัยอื่นๆ

DualStyleGAN

เป็นแกนหลักสำหรับการถ่ายโอนสไตล์ที่เป็นแบบอย่างตาม StyleGAN พวกเขาใช้เทคนิคข้อมูลก่อนและหลังการประมวลผลเดียวกันกับ Toonify

Pix2pixHD

เป็นโมเดลการแปลรูปภาพเป็นรูปภาพซึ่งมักใช้ในการย่อโมเดลที่ได้รับการฝึกอบรมล่วงหน้าสำหรับการแก้ไขที่มีความละเอียดสูง มีการฝึกอบรมโดยใช้ข้อมูลที่จับคู่

นักวิจัยใช้ pix2pixHD เป็นอินพุตแมปอินสแตนซ์เพิ่มเติม เนื่องจากใช้การแยกวิเคราะห์แมป

การเคลื่อนไหวสั่งซื้อครั้งแรก

FOM เป็นโมเดลแอนิเมชั่นรูปภาพทั่วไป ได้รับการฝึกอบรมเกี่ยวกับภาพ 256256 และทำงานได้ไม่ดีกับขนาดภาพอื่น ๆ ด้วยเหตุนี้ นักวิจัยจึงปรับขนาดเฟรมวิดีโอเป็น 256*256 สำหรับ FOM เป็นแอนิเมชันก่อน แล้วจึงปรับขนาดผลลัพธ์เป็นขนาดดั้งเดิม

สำหรับการเปรียบเทียบที่ยุติธรรม FOM ใช้กรอบที่มีสไตล์อันแรกของแนวทางเป็นภาพรูปแบบอ้างอิง

ดาแกน

เป็นโมเดลแอนิเมชั่นใบหน้า 3 มิติ พวกเขาใช้วิธีการเตรียมข้อมูลและหลังการประมวลผลแบบเดียวกับ FOM

การเปรียบเทียบ

ข้อดี

สามารถใช้ในงานศิลปะ ภาพแทนตัวของโซเชียลมีเดีย ภาพยนตร์ โฆษณาเพื่อความบันเทิง และอื่นๆ
Vtoonify ยังสามารถใช้ใน metaverse

ข้อ จำกัด

วิธีการนี้แยกทั้งข้อมูลและโมเดลจากแบ็คโบนที่ใช้ StyleGAN ส่งผลให้เกิดข้อมูลและอคติของโมเดล
สิ่งประดิษฐ์ส่วนใหญ่เกิดจากความแตกต่างของขนาดระหว่างบริเวณใบหน้าที่มีสไตล์และส่วนอื่นๆ
กลยุทธ์นี้ประสบความสำเร็จน้อยกว่าเมื่อต้องรับมือกับสิ่งต่าง ๆ ในบริเวณใบหน้า

สรุป

สุดท้าย VToonify เป็นเฟรมเวิร์กสำหรับการแปลงวิดีโอความละเอียดสูงที่มีการควบคุมสไตล์

เฟรมเวิร์กนี้มีประสิทธิภาพที่ยอดเยี่ยมในการจัดการวิดีโอ และช่วยให้สามารถควบคุมสไตล์โครงสร้าง สไตล์สี และระดับของสไตล์ได้อย่างกว้างขวาง โดยการย่อโมเดลการแปลงภาพตาม StyleGAN ในแง่ของทั้งสอง ข้อมูลสังเคราะห์ และโครงสร้างเครือข่าย

Vtoonify: การถ่ายโอนสไตล์วิดีโอแนวตั้งความละเอียดสูงที่ควบคุมได้

Vtoonify คืออะไร?

มันทำงานอย่างไร?

ข้อจำกัดของ StyleGAN และ Vtoonify ที่เสนอ