DreamFusion – สร้างโมเดล 3 มิติจากข้อความ

สารบัญ[ซ่อน][แสดง]

ดรีมฟิวชั่นคืออะไร?
มันทำงานอย่างไร?+-
ข้อ จำกัด
สรุป

คุณอาจเคยได้ยินเกี่ยวกับประสิทธิภาพของโมเดล AI แปลงข้อความเป็นรูปภาพในช่วงสองสามปีที่ผ่านมา แต่คุณรู้หรือไม่ว่าเทคโนโลยีเดียวกันนี้สามารถช่วยให้ก้าวกระโดดจาก 2D เป็น 3D ได้?

โมเดล 3 มิติที่สร้างโดย AI มีกรณีการใช้งานที่กว้างขวางในภูมิทัศน์ดิจิทัลในปัจจุบัน วิดีโอเกม และภาพยนตร์ต้องพึ่งพาศิลปิน 3 มิติที่มีทักษะและซอฟต์แวร์การสร้างแบบจำลอง เช่น Blender เพื่อสร้างเนื้อหา 3 มิติเพื่อเติมฉากที่สร้างด้วยคอมพิวเตอร์

อย่างไรก็ตาม เป็นไปได้ไหมที่อุตสาหกรรมสามารถใช้การเรียนรู้ของเครื่องเพื่อสร้างเนื้อหา 3 มิติโดยใช้ความพยายามน้อยลง คล้ายกับที่ศิลปิน 2D ในปัจจุบันเริ่มนำเทคโนโลยีเช่น DALL-E และ กลางการเดินทาง?

บทความนี้จะสำรวจอัลกอริทึมใหม่ที่พยายามสร้างโมเดลข้อความเป็น 3 มิติที่มีประสิทธิภาพโดยใช้ที่มีอยู่ แบบจำลองการแพร่กระจาย.

ความหมายของ ดรีมฟิวชั่น?

ปัญหาสำคัญประการหนึ่งในการสร้างแบบจำลองการแพร่กระจายที่สร้างสินทรัพย์ 3 มิติโดยตรงก็คือ มีข้อมูล 3 มิติไม่มากนัก แบบจำลองการแพร่กระจาย 2D มีประสิทธิภาพมากเนื่องจากชุดข้อมูลขนาดใหญ่ที่พบในอินเทอร์เน็ต ไม่สามารถพูดได้เช่นเดียวกันกับเนื้อหา 3 มิติ

เทคนิคการสร้าง 3D บางอย่างสามารถแก้ไขการขาดข้อมูลนี้ได้โดยการใช้ประโยชน์จากข้อมูล 2D ที่มีมากมายนี้

Dreamfusion สร้างโมเดล 3 มิติที่เชื่อมโยงกันจากคำอธิบายข้อความที่มีให้

ดรีมฟิวชั่น เป็นแบบจำลองเชิงสร้างสรรค์ที่สามารถสร้างแบบจำลอง 3 มิติตามคำอธิบายข้อความที่มีให้ โมเดล DreamFusion ใช้โมเดลการแพร่กระจายข้อความเป็นรูปภาพที่ผ่านการฝึกอบรมมาล่วงหน้าเพื่อสร้างโมเดลสามมิติที่เหมือนจริงจากข้อความแจ้ง

แม้จะไม่มีข้อมูลการฝึกอบรม 3 มิติ แต่วิธีการนี้ได้สร้างเนื้อหา 3 มิติที่สอดคล้องกันโดยมีรูปลักษณ์และความลึกที่มีความแม่นยำสูง

มันทำงานอย่างไร?

อัลกอริทึม DreamFusion ประกอบด้วยโมเดลหลัก 2 โมเดล ได้แก่ โมเดลการแพร่กระจาย XNUMX มิติ และ เครือข่ายประสาท ที่สามารถแปลงภาพ 2 มิติเป็นฉาก 3 มิติที่เหนียวแน่น

Imagen Text-to-Image Model ของ Google

ส่วนแรกของอัลกอริทึมคือแบบจำลองการแพร่กระจาย โมเดลนี้มีหน้าที่แปลงข้อความเป็นรูปภาพ

ภาพ เป็นแบบจำลองการแพร่กระจายที่สามารถสร้างตัวอย่างรูปแบบต่างๆ ของภาพขนาดใหญ่ของวัตถุหนึ่งๆ ในกรณีนี้ รูปแบบรูปภาพของเราควรครอบคลุมทุกมุมที่เป็นไปได้ของวัตถุที่ให้มา ตัวอย่างเช่น หากเราต้องการสร้างโมเดล 3 มิติของม้า เราก็ต้องการภาพ 2 มิติของม้าจากทุกมุมที่เป็นไปได้ เป้าหมายคือการใช้ Imagen เพื่อให้ข้อมูลมากที่สุดเท่าที่จะเป็นไปได้ (สี การสะท้อนแสง ความหนาแน่น) สำหรับโมเดลถัดไปในอัลกอริทึมของเรา

Dreamfusion ใช้ Imagen ของ Google เพื่อสร้างรูปภาพจากข้อความ

การสร้างโมเดล 3 มิติด้วย NeRF

ถัดไป Dreamfusion ใช้โมเดลที่เรียกว่า สนามเรเดียนประสาท หรือ NeRF เพื่อสร้างโมเดล 3 มิติจากชุดภาพที่สร้างขึ้นจริง NeRF สามารถสร้างฉาก 3 มิติที่ซับซ้อนได้ด้วยชุดข้อมูลของภาพ 2 มิติ

มาลองทำความเข้าใจว่า NeRF ทำงานอย่างไร

แบบจำลองนี้มีจุดประสงค์เพื่อสร้างฟังก์ชันฉากปริมาตรที่ต่อเนื่องซึ่งปรับให้เหมาะสมจากชุดข้อมูลที่ให้มาของภาพ 2 มิติ

ถ้าโมเดลสร้างฟังก์ชัน อินพุตและเอาต์พุตคืออะไร

ฟังก์ชันฉากรับตำแหน่ง 3 มิติและทิศทางการดู 2 มิติเป็นอินพุต จากนั้นฟังก์ชันจะแสดงผลสี (ในรูปของ RGB) และความหนาแน่นของปริมาตรเฉพาะ

ในการสร้างภาพ 2 มิติจากมุมมองเฉพาะ แบบจำลองจะสร้างชุดของจุด 3 มิติและเรียกใช้จุดเหล่านั้นผ่านฟังก์ชันฉากเพื่อส่งกลับชุดของค่าความหนาแน่นของสีและปริมาตร จากนั้นเทคนิคการเรนเดอร์ปริมาณจะแปลงค่าเหล่านั้นเป็นเอาต์พุตภาพ 2 มิติ

Dreamfusion ใช้โมเดล NeRF เพื่อสร้างฟังก์ชันที่สร้างมุมมองใหม่ของฉาก

การใช้ NeRF และโมเดลการแพร่กระจาย 2 มิติร่วมกัน

ตอนนี้เรารู้แล้วว่า NeRF ทำงานอย่างไร มาดูกันว่าโมเดลนี้สามารถสร้างโมเดล 3 มิติที่แม่นยำจากภาพที่เราสร้างขึ้นได้อย่างไร

สำหรับข้อความแจ้งแต่ละรายการ DreamFusion จะฝึก NeRF ที่เริ่มต้นแบบสุ่มตั้งแต่เริ่มต้น การวนซ้ำแต่ละครั้งจะเลือกตำแหน่งกล้องแบบสุ่มในชุดพิกัดทรงกลม ลองนึกถึงโมเดลที่อยู่ในทรงกลมแก้ว แต่ละครั้งที่เราสร้างภาพใหม่ของโมเดล 3 มิติ เราจะเลือกจุดสุ่มในทรงกลมของเราเป็นจุดชมวิวของผลลัพธ์ของเรา DreamFusion จะเลือกตำแหน่งแสงแบบสุ่ม l เพื่อใช้ในการเรนเดอร์

เมื่อเรามีตำแหน่งกล้องและแสงแล้ว โมเดล NeRF จะถูกเรนเดอร์ DreamFusion จะสุ่มเลือกระหว่างเรนเดอร์สี เรนเดอร์ไร้พื้นผิว และเรนเดอร์อัลเบโดที่ไม่มีการแรเงา

Dreamfusion แสดงภาพจากมุมต่างๆ

เราได้กล่าวไว้ก่อนหน้านี้ว่าเราต้องการให้โมเดลข้อความเป็นรูปภาพ (Imagen) สร้างรูปภาพที่เพียงพอสำหรับสร้างตัวอย่างที่เป็นตัวแทน

Dreamfusion ทำสิ่งนี้ให้สำเร็จได้อย่างไร?

Dreamfusion เพียงแค่แก้ไขพรอมต์อินพุตเล็กน้อยเพื่อให้ได้มุมที่ต้องการ ตัวอย่างเช่น เราสามารถบรรลุมุมเงยสูงได้โดยเพิ่ม "มุมมองด้านบน" ต่อท้ายข้อความแจ้งของเรา เราสามารถสร้างมุมอื่นๆ ได้โดยการต่อท้ายวลี เช่น "มุมมองด้านหน้า" "มุมมองด้านข้าง" และ "มุมมองด้านหลัง"

ฉากจะถูกเรนเดอร์ซ้ำๆ จากตำแหน่งกล้องแบบสุ่ม การแสดงผลเหล่านี้จะผ่านฟังก์ชันการสูญเสียการกลั่นคะแนน วิธีการไล่ระดับสีอย่างง่ายจะค่อยๆ ปรับปรุง แบบจำลอง 3D จนกว่าจะตรงกับฉากที่บรรยายไว้

เมื่อเราเรนเดอร์โมเดล 3 มิติโดยใช้ NeRF แล้ว เราสามารถใช้ อัลกอริทึม Marching Cubes เพื่อส่งออกตาข่าย 3 มิติของโมเดลของเรา ตาข่ายนี้สามารถนำเข้าไปยังโปรแกรมเรนเดอร์ 3D หรือซอฟต์แวร์การสร้างแบบจำลองยอดนิยมได้

ข้อ จำกัด

ในขณะที่ผลลัพธ์ของ DreamFusion นั้นน่าประทับใจเพียงพอเนื่องจากใช้โมเดลการแพร่กระจายข้อความเป็นรูปภาพในรูปแบบใหม่ นักวิจัยได้สังเกตเห็นข้อจำกัดบางประการ

ฟังก์ชันการสูญเสีย SDS ถูกพบว่าให้ผลลัพธ์ที่อิ่มตัวมากเกินไปและราบรื่นเกินไป คุณสามารถสังเกตเห็นสิ่งนี้ได้จากการใช้สีที่ไม่เป็นธรรมชาติและไม่มีรายละเอียดที่แม่นยำซึ่งพบได้ในเอาต์พุต

อัลกอริทึม DreamFusion ยังถูกจำกัดด้วยความละเอียดของเอาต์พุตของโมเดล Imagen ซึ่งก็คือ 64 x 64 พิกเซล สิ่งนี้นำไปสู่แบบจำลองที่สังเคราะห์ขึ้นโดยขาดรายละเอียดปลีกย่อย

สุดท้ายนี้ นักวิจัยได้ตั้งข้อสังเกตว่ามีความท้าทายอยู่แล้วในการสังเคราะห์โมเดล 3 มิติจากข้อมูล 2 มิติ มีโมเดล 3 มิติที่เป็นไปได้มากมายที่เราสามารถสร้างจากชุดภาพ 2 มิติ ซึ่งทำให้การปรับให้เหมาะสมค่อนข้างยากและคลุมเครือด้วยซ้ำ

สรุป

การเรนเดอร์ 3 มิติของ DreamFusion ทำงานได้ดีมากเนื่องจากความสามารถของโมเดลการแพร่กระจายข้อความเป็นรูปภาพเพื่อสร้างวัตถุหรือฉากใดๆ เครือข่ายประสาทสามารถเข้าใจฉากในพื้นที่ 3 มิติได้โดยไม่ต้องใช้ข้อมูลการฝึกสอน 3 มิติ เป็นเรื่องที่น่าประทับใจ ฉันแนะนำให้อ่าน กระดาษทั้งหมด เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับรายละเอียดทางเทคนิคของอัลกอริทึม DreamFusion

หวังว่าเทคโนโลยีนี้จะปรับปรุงเพื่อสร้างโมเดล 3 มิติที่เหมือนภาพถ่ายในที่สุด ลองนึกภาพวิดีโอเกมหรือการจำลองทั้งหมดที่ใช้สภาพแวดล้อมที่สร้างโดย AI มันสามารถลดอุปสรรคในการเข้าสำหรับนักพัฒนาวิดีโอเกมในการสร้างโลก 3 มิติที่สมจริง!

คุณคิดว่าโมเดล text-to-3D จะมีบทบาทอย่างไรในอนาคต

DreamFusion – การสร้างโมเดล 3 มิติจากข้อความ

DreamFusion – การสร้างโมเดล 3 มิติจากข้อความ

ความหมายของ ดรีมฟิวชั่น?

มันทำงานอย่างไร?

Imagen Text-to-Image Model ของ Google

การสร้างโมเดล 3 มิติด้วย NeRF

การใช้ NeRF และโมเดลการแพร่กระจาย 2 มิติร่วมกัน

ข้อ จำกัด

สรุป

เกี่ยวกับเรา ดีออน เมเนอร์

บทความเพิ่มเติมเกี่ยวกับ HashDork:

วิธีลดอาการประสาทหลอนใน AI ของคุณ

โคลอสเซียน vs เฮย์เก้น

จดหมายข่าวเทคโนโลยีแห่งอนาคตนี้ไม่ห่วย

DreamFusion – การสร้างโมเดล 3 มิติจากข้อความ

ความหมายของ ดรีมฟิวชั่น?

มันทำงานอย่างไร?

Imagen Text-to-Image Model ของ Google

การสร้างโมเดล 3 มิติด้วย NeRF

การใช้ NeRF และโมเดลการแพร่กระจาย 2 มิติร่วมกัน

ข้อ จำกัด

สรุป

เกี่ยวกับเรา ดีออน เมเนอร์

บทความเพิ่มเติมเกี่ยวกับ HashDork:

วิธีลดอาการประสาทหลอนใน AI ของคุณ

10 เครื่องมือ AI ที่ดีที่สุดสำหรับโซเชียลมีเดีย

โคลอสเซียน vs เฮย์เก้น

10 เครื่องมือสร้างวิดีโอแอนิเมชั่น AI ที่ดีที่สุด

ปฏิสัมพันธ์ของผู้อ่าน

เขียนความเห็น ยกเลิกการตอบ

จดหมายข่าวเทคโนโลยีแห่งอนาคตนี้ไม่ห่วย