HumanRF: แนวทางการปฏิวัติการเข้ารหัสวิดีโอของมนุษย์แบบหลายมุมมอง

คุณเคยดูภาพยนตร์ เล่นวิดีโอเกม หรือใช้ความจริงเสมือนและสังเกตเห็นอะไรผิดปกติเกี่ยวกับการเคลื่อนไหวของตัวละครมนุษย์และปรากฏตัวหรือไม่?

การสร้างมนุษย์ที่สร้างจากคอมพิวเตอร์ที่เหมือนจริงและมีรายละเอียดนั้นเป็นจุดมุ่งหมายของการวิจัยคอมพิวเตอร์กราฟิกและการมองเห็นด้วยคอมพิวเตอร์มาช้านาน

พื้นที่ มนุษย์RF โครงการเป็นก้าวแรกที่น่าตื่นเต้นสู่เป้าหมายนั้น

HumanRF คือการแสดงฉากประสาทแบบไดนามิกที่ใช้อินพุตวิดีโอแบบหลายมุมมองเพื่อจับภาพการเคลื่อนไหวร่างกายทั้งหมดของมนุษย์ มาดูกันว่ามันเกี่ยวกับอะไรและอะไรคือประโยชน์ที่เป็นไปได้ของเทคโนโลยีนี้

มนุษย์

การจับภาพประสิทธิภาพของมนุษย์

การสร้างภาพเสมือนจริงของการตั้งค่าเสมือนเป็นปัญหามาช้านาน คอมพิวเตอร์กราฟฟิค.

ตามเนื้อผ้า ศิลปินสร้างวัตถุ 3 มิติด้วยมือ อย่างไรก็ตาม การศึกษาเมื่อเร็วๆ นี้ ได้มุ่งความสนใจไปที่การสร้างการแสดงภาพ 3 มิติขึ้นมาใหม่จากข้อมูลในโลกแห่งความเป็นจริง

โดยเฉพาะอย่างยิ่ง การจับและสังเคราะห์การแสดงของมนุษย์ที่เหมือนจริง เป็นจุดสนใจของการศึกษาสำหรับการใช้งานต่างๆ เช่น การผลิตภาพยนตร์ เกมคอมพิวเตอร์ และการนำเสนอทางไกล

ความก้าวหน้าของฟิลด์ Radiance Neural Neural แบบไดนามิก

ในช่วงไม่กี่ปีที่ผ่านมา มีความก้าวหน้าอย่างมากในการจัดการกับความท้าทายเหล่านี้ผ่านการใช้สนามไดนามิกนิวรัลเรเดียนซ์ฟิลด์ (NeRF) NeRF สามารถสร้างฟิลด์ 3 มิติขึ้นใหม่ที่เข้ารหัสใน Perceptron หลายชั้น (MLP) ทำให้สามารถสังเคราะห์มุมมองใหม่ได้

แม้ว่าในตอนแรก NeRF จะมุ่งเน้นไปที่ฉากที่อยู่นิ่ง แต่งานล่าสุดได้ระบุถึงฉากที่มีไดนามิกโดยใช้ฟิลด์การปรับสภาพเวลาหรือการเสียรูป อย่างไรก็ตาม วิธีการเหล่านี้ยังคงต่อสู้กับซีเควนซ์ที่ยาวขึ้นซึ่งมีการเคลื่อนไหวที่ซับซ้อน โดยเฉพาะอย่างยิ่งเมื่อต้องจับภาพมนุษย์ที่กำลังเคลื่อนไหว

ฐานข้อมูลของ ActorsHQ

เพื่อแก้ไขข้อบกพร่องเหล่านี้ ผู้เชี่ยวชาญเสนอ ActorsHQ ซึ่งเป็นชุดข้อมูลความเที่ยงตรงสูงชุดใหม่ของมนุษย์ที่สวมเสื้อผ้าขณะเคลื่อนไหวซึ่งปรับให้เหมาะสำหรับการสังเคราะห์มุมมองที่เหมือนจริงจากภาพถ่าย ชุดข้อมูลประกอบด้วยการบันทึกแบบหลายมุมมองจากกล้องที่ซิงโครไนซ์ 160 ตัว โดยแต่ละตัวบันทึกสตรีมวิดีโอขนาด 12 เมกะพิกเซล

ชุดข้อมูลนี้ช่วยให้สามารถสร้างการแสดงฉากใหม่ที่ขยายการเข้ารหัสแฮชแบบ Instant-NGP ไปยังโดเมนชั่วคราวโดยการรวมมิติเวลาควบคู่ไปกับการสลายตัวของสเปซ-ไทม์ระดับต่ำของตารางคุณลักษณะ

ชุด

แนะนำ HumanRF

HumanRF คือการแสดงฉากประสาทแบบไดนามิก 4 มิติที่จับการเคลื่อนไหวทั้งตัวจากอินพุตวิดีโอแบบหลายมุมมองและอนุญาตให้เล่นจากมุมมองที่ไม่เคยเห็นมาก่อน เป็นเทคนิคสำหรับการบันทึกวิดีโอที่เก็บข้อมูลจำนวนมากโดยใช้พื้นที่เพียงเล็กน้อย

สามารถทำได้โดยการแบ่งพื้นที่และเวลาออกเป็นชิ้นเล็ก ๆ คล้ายกับการถอดประกอบชุดเลโก้และประกอบใหม่

เทคโนโลยี HumanRF สามารถจับการเคลื่อนไหวของผู้คนในวิดีโอได้เป็นอย่างดี แม้ว่าพวกเขาจะเคลื่อนไหวยากหรือซับซ้อนก็ตาม ผู้สร้างเทคโนโลยีนี้แสดงให้เห็นถึงประสิทธิภาพของ HumanRF ในชุดข้อมูล ActorsHQ ที่เพิ่งเปิดตัว ซึ่งแสดงให้เห็นถึงการปรับปรุงที่สำคัญเหนือวิธีการที่ทันสมัยที่มีอยู่

ไม่มีชื่อ

เป็นไปได้อย่างไรที่จะสร้าง HumanRF และการทำงานภายในของมันคืออะไร?

ภาพรวมของวิธี HumanRF

การสลายตัวของ 4D Feature Grid

การสลายตัวของฟีเจอร์กริด 4D เป็นองค์ประกอบที่สำคัญของ HumanRF ด้วยการรวมส่วน 4D ที่แบ่งพาร์ติชันอย่างเหมาะสม วิธีนี้จะจำลองฉาก 3 มิติแบบไดนามิก แต่ละเซกเมนต์มีตารางฟีเจอร์ 4D ที่ฝึกได้ของตัวเอง ซึ่งจะเข้ารหัสลำดับของเฟรม

เพื่อแสดงข้อมูลเชิงพื้นที่และเวลาให้กระชับยิ่งขึ้น ตารางคุณลักษณะ 4 มิติถูกกำหนดให้เป็นองค์ประกอบของตารางคุณลักษณะ 3 มิติ 1 รายการและตารางคุณลักษณะ 4 มิติ XNUMX รายการ การสลายตัวของฟีเจอร์กริด XNUMXD ช่วยให้วิธีนี้สร้างภาพคุณภาพสูงพร้อมรายละเอียดระดับสูงในขณะที่ใช้พื้นที่น้อยลง

การแบ่งพาร์ติชันชั่วคราวแบบปรับได้

HumanRF ใช้ perceptrons หลายชั้นแบบตื้นพร้อมแฮชกริดคุณลักษณะกระจัดกระจายเพื่อแสดงข้อมูลหลายมุมมองที่ยาวตามอำเภอใจได้อย่างมีประสิทธิภาพ ตารางคุณสมบัติ 4D ขนาดกะทัดรัดใช้เพื่อแสดงการแบ่งเซ็กเมนต์ชั่วคราวอย่างเหมาะสมซึ่งประกอบกันเป็นโดเมนเวลา

โดยไม่คำนึงถึงบริบทชั่วคราว วิธีการนี้บรรลุอำนาจการแสดงที่เหนือกว่าโดยใช้การแบ่งพาร์ติชันชั่วคราวแบบปรับได้เพื่อให้แน่ใจว่าปริมาณพื้นที่ 3 มิติทั้งหมดที่ครอบคลุมโดยแต่ละส่วนมีขนาดใกล้เคียงกัน ไม่ว่าวิดีโอจะมีความยาวเท่าใด การแบ่งพาร์ติชันชั่วคราวแบบปรับเปลี่ยนได้จะช่วยในการสร้างการนำเสนอที่สอดคล้องกัน

การควบคุมด้วยการสูญเสียแบบ 2 มิติเท่านั้น

ข้อผิดพลาดระหว่างภาพ RGB ที่เรนเดอร์และอินพุตและมาสก์เบื้องหน้าวัดโดย HumanRF โดยใช้การสูญเสีย 2D-only ที่ได้รับการดูแล

เทคนิคนี้บรรลุความสอดคล้องทางโลกโดยใช้ MLP ที่ใช้ร่วมกันและการสลายตัวแบบ 4 มิติ และผลลัพธ์จะคล้ายกันมากกับขนาดของส่วนที่ดีที่สุด

1 รุ่น

วิธีนี้มีประสิทธิภาพและง่ายกว่าในการฝึกมากกว่าวิธีที่ใช้การสูญเสีย 3 มิติ เนื่องจากใช้การสูญเสีย 2 มิติเท่านั้น

วิธีการนี้ให้ผลลัพธ์ที่เหนือกว่าวิธีการทดสอบเชิงทดลองอื่นๆ ทำให้เป็นกลยุทธ์ที่มีแนวโน้มดีในการสร้างภาพนักแสดงที่เป็นมนุษย์ซึ่งกำลังเคลื่อนไหวซึ่งมีความสามารถสูง

พื้นที่การใช้งานที่เป็นไปได้

ยกระดับวิดีโอเกมและความจริงเสมือน

การสร้างตัวละครเสมือนจริงตามเวลาจริงสำหรับ วิดีโอเกม และแอปพลิเคชัน VR เป็นไปได้ด้วย HumanRF การเคลื่อนไหวของนักแสดงที่เป็นมนุษย์สามารถบันทึกได้จากมุมต่างๆ จากนั้นข้อมูลจะสามารถประมวลผลผ่าน HumanRF

สิ่งนี้ช่วยให้ นักพัฒนาเกม เพื่อสร้างตัวละครที่สามารถเคลื่อนไหวและโต้ตอบกับสภาพแวดล้อมได้สมจริงยิ่งขึ้น ทำให้ผู้เล่นได้รับประสบการณ์ที่น่าดึงดูดยิ่งขึ้น

โมชั่นแคปเจอร์ในการผลิตภาพยนตร์

ด้วยการสร้างภาพเคลื่อนไหวที่ชัดเจนของนักแสดง HumanRF สามารถปรับปรุงการจับการเคลื่อนไหวในกระบวนการสร้างภาพยนตร์

ผู้สร้างภาพยนตร์สามารถสร้างการแสดงที่สมจริงและมีไดนามิกที่สามารถแก้ไขได้จากมุมต่างๆ โดยใช้กล้องหลายตัวเพื่อบันทึกการแสดงของนักแสดงและ HumanRF เพื่อสร้างการแสดง 4 มิติ

สิ่งนี้ช่วยลดความจำเป็นในการถ่ายภาพซ้ำและลดต้นทุนการผลิต

การปรับปรุงการประชุมเสมือนจริงและการประชุมทางไกล

ด้วยการสร้างแบบจำลอง 3 มิติของผู้เข้าร่วมที่อยู่ห่างไกลในแบบเรียลไทม์ HumanRF ช่วยให้สามารถสร้างการประชุมเสมือนจริงที่ดื่มด่ำและสมจริง

ผู้เข้าร่วมในการประชุมเสมือนจริงสามารถมีประสบการณ์ที่น่าสนใจและโต้ตอบได้มากขึ้นโดยจับการเคลื่อนไหวของผู้เข้าร่วมระยะไกลจากมุมต่างๆ และประมวลผลข้อมูลผ่าน HumanRF

นอกจากนี้ยังสามารถใช้ HumanRF เพื่อสร้างมุมมองคุณภาพสูงของผู้เข้าร่วมระยะไกลในระหว่าง การประชุมทางวิดีโอนำไปสู่การทำงานร่วมกันและการสื่อสารที่ดีขึ้น

อำนวยความสะดวกด้านการศึกษาและการฝึกอบรม

HumanRF สามารถใช้เพื่อสร้างการจำลองแบบไดนามิกและสมจริงในสภาพแวดล้อมการฝึกอบรมและการศึกษา

การจำลองการฝึกอบรมที่ช่วยให้ผู้เข้ารับการฝึกอบรมสามารถฝึกฝนและเรียนรู้ในสภาพแวดล้อมที่สมจริงและน่าสนใจยิ่งขึ้น สามารถทำได้โดยการบันทึกการเคลื่อนไหวของผู้สอนหรือนักแสดงที่ปฏิบัติงานบางอย่างและประมวลผลข้อมูลผ่าน HumanRF

ตัวอย่างเช่น HumanRF สามารถใช้ในการพัฒนาแบบจำลองสำหรับการขับรถ การบิน หรือการฝึกอบรมทางการแพทย์

การเพิ่มความปลอดภัยและการเฝ้าระวัง

ในแอปพลิเคชันการเฝ้าระวังและการรักษาความปลอดภัย สามารถใช้ HumanRF เพื่อสร้างแบบจำลอง 3 มิติของบุคคลหรือกลุ่มที่มีไดนามิกและสมจริง เจ้าหน้าที่รักษาความปลอดภัยสามารถแสดงการเคลื่อนไหวและพฤติกรรมของบุคคลได้แม่นยำยิ่งขึ้นโดยจับการเคลื่อนไหวของบุคคลจากมุมมองต่างๆ และประมวลผลข้อมูลผ่าน HumanRF

สิ่งนี้ช่วยปรับปรุงการระบุและการติดตามภัยคุกคามที่อาจเกิดขึ้น เจ้าหน้าที่รักษาความปลอดภัยสามารถฝึกฝนและเตรียมพร้อมสำหรับสถานการณ์ต่างๆ โดยใช้ HumanRF เพื่อสร้างสถานการณ์จำลองสถานการณ์ฉุกเฉิน

สรุปแล้วอนาคตจะเป็นอย่างไร?

HumanRF เป็นวิธีการที่มีประสิทธิภาพในการสร้างมุมมองเฉพาะที่มีคุณภาพสูงของนักแสดงที่เคลื่อนไหวได้ ได้แสดงผลลัพธ์ที่น่าพึงพอใจในการใช้งานที่หลากหลาย รวมถึงการจับการเคลื่อนไหว ความจริงเสมือน และการแสดงทางไกล ศักยภาพของ HumanRF ไม่ได้จำกัดเฉพาะแอปพลิเคชันเหล่านี้ มีแอปพลิเคชั่นที่เป็นไปได้เพิ่มเติมมากมายสำหรับเทคโนโลยีนี้

คาดว่าจะปรับปรุงเมื่อการศึกษาในภาคส่วนนี้พัฒนาขึ้น มีประสิทธิภาพและแม่นยำยิ่งขึ้น

อัลกอริธึมและสถาปัตยกรรมใหม่จะนำไปสู่วิธีการขั้นสูงในการสร้างแบบจำลองและการแสดงภาพนักแสดงของมนุษย์ที่กำลังเคลื่อนไหว ซึ่งอาจนำไปสู่ความก้าวหน้าที่น่าสนใจมากมายในอุตสาหกรรมภาพยนตร์ เกม และการสื่อสาร

นอกจากนี้การประยุกต์ใช้ โมเดลการเรียนรู้เชิงลึก ร่วมกับ HumanRF เป็นทิศทางที่เป็นไปได้สำหรับการศึกษาในอนาคต สิ่งนี้อาจนำไปสู่เทคโนโลยีการวิเคราะห์และการสร้างแบบจำลองการเคลื่อนไหวของมนุษย์ที่มีประสิทธิภาพและประสิทธิผลมากขึ้น

นอกจากนี้ การรวม HumanRF เข้ากับเทคโนโลยีอื่นๆ เช่น ระบบป้อนกลับแบบสัมผัสและความจริงเสริมอาจก่อให้เกิดแอปพลิเคชันใหม่ในการฝึกอบรมทางการแพทย์ การศึกษา และการบำบัด