คุณอาจเคยได้ยินเกี่ยวกับประสิทธิภาพของโมเดล AI แปลงข้อความเป็นรูปภาพในช่วงสองสามปีที่ผ่านมา แต่คุณรู้หรือไม่ว่าเทคโนโลยีเดียวกันนี้สามารถช่วยให้ก้าวกระโดดจาก 2D เป็น 3D ได้?
โมเดล 3 มิติที่สร้างโดย AI มีกรณีการใช้งานที่กว้างขวางในภูมิทัศน์ดิจิทัลในปัจจุบัน วิดีโอเกม และภาพยนตร์ต้องพึ่งพาศิลปิน 3 มิติที่มีทักษะและซอฟต์แวร์การสร้างแบบจำลอง เช่น Blender เพื่อสร้างเนื้อหา 3 มิติเพื่อเติมฉากที่สร้างด้วยคอมพิวเตอร์
อย่างไรก็ตาม เป็นไปได้ไหมที่อุตสาหกรรมสามารถใช้การเรียนรู้ของเครื่องเพื่อสร้างเนื้อหา 3 มิติโดยใช้ความพยายามน้อยลง คล้ายกับที่ศิลปิน 2D ในปัจจุบันเริ่มนำเทคโนโลยีเช่น DALL-E และ กลางการเดินทาง?
บทความนี้จะสำรวจอัลกอริทึมใหม่ที่พยายามสร้างโมเดลข้อความเป็น 3 มิติที่มีประสิทธิภาพโดยใช้ที่มีอยู่ แบบจำลองการแพร่กระจาย.
ความหมายของ ดรีมฟิวชั่น?
ปัญหาสำคัญประการหนึ่งในการสร้างแบบจำลองการแพร่กระจายที่สร้างสินทรัพย์ 3 มิติโดยตรงก็คือ มีข้อมูล 3 มิติไม่มากนัก แบบจำลองการแพร่กระจาย 2D มีประสิทธิภาพมากเนื่องจากชุดข้อมูลขนาดใหญ่ที่พบในอินเทอร์เน็ต ไม่สามารถพูดได้เช่นเดียวกันกับเนื้อหา 3 มิติ
เทคนิคการสร้าง 3D บางอย่างสามารถแก้ไขการขาดข้อมูลนี้ได้โดยการใช้ประโยชน์จากข้อมูล 2D ที่มีมากมายนี้
ดรีมฟิวชั่น เป็นแบบจำลองเชิงสร้างสรรค์ที่สามารถสร้างแบบจำลอง 3 มิติตามคำอธิบายข้อความที่มีให้ โมเดล DreamFusion ใช้โมเดลการแพร่กระจายข้อความเป็นรูปภาพที่ผ่านการฝึกอบรมมาล่วงหน้าเพื่อสร้างโมเดลสามมิติที่เหมือนจริงจากข้อความแจ้ง
แม้จะไม่มีข้อมูลการฝึกอบรม 3 มิติ แต่วิธีการนี้ได้สร้างเนื้อหา 3 มิติที่สอดคล้องกันโดยมีรูปลักษณ์และความลึกที่มีความแม่นยำสูง
มันทำงานอย่างไร?
อัลกอริทึม DreamFusion ประกอบด้วยโมเดลหลัก 2 โมเดล ได้แก่ โมเดลการแพร่กระจาย XNUMX มิติ และ เครือข่ายประสาท ที่สามารถแปลงภาพ 2 มิติเป็นฉาก 3 มิติที่เหนียวแน่น
Imagen Text-to-Image Model ของ Google
ส่วนแรกของอัลกอริทึมคือแบบจำลองการแพร่กระจาย โมเดลนี้มีหน้าที่แปลงข้อความเป็นรูปภาพ
ภาพ เป็นแบบจำลองการแพร่กระจายที่สามารถสร้างตัวอย่างรูปแบบต่างๆ ของภาพขนาดใหญ่ของวัตถุหนึ่งๆ ในกรณีนี้ รูปแบบรูปภาพของเราควรครอบคลุมทุกมุมที่เป็นไปได้ของวัตถุที่ให้มา ตัวอย่างเช่น หากเราต้องการสร้างโมเดล 3 มิติของม้า เราก็ต้องการภาพ 2 มิติของม้าจากทุกมุมที่เป็นไปได้ เป้าหมายคือการใช้ Imagen เพื่อให้ข้อมูลมากที่สุดเท่าที่จะเป็นไปได้ (สี การสะท้อนแสง ความหนาแน่น) สำหรับโมเดลถัดไปในอัลกอริทึมของเรา
การสร้างโมเดล 3 มิติด้วย NeRF
ถัดไป Dreamfusion ใช้โมเดลที่เรียกว่า สนามเรเดียนประสาท หรือ NeRF เพื่อสร้างโมเดล 3 มิติจากชุดภาพที่สร้างขึ้นจริง NeRF สามารถสร้างฉาก 3 มิติที่ซับซ้อนได้ด้วยชุดข้อมูลของภาพ 2 มิติ
มาลองทำความเข้าใจว่า NeRF ทำงานอย่างไร
แบบจำลองนี้มีจุดประสงค์เพื่อสร้างฟังก์ชันฉากปริมาตรที่ต่อเนื่องซึ่งปรับให้เหมาะสมจากชุดข้อมูลที่ให้มาของภาพ 2 มิติ
ถ้าโมเดลสร้างฟังก์ชัน อินพุตและเอาต์พุตคืออะไร
ฟังก์ชันฉากรับตำแหน่ง 3 มิติและทิศทางการดู 2 มิติเป็นอินพุต จากนั้นฟังก์ชันจะแสดงผลสี (ในรูปของ RGB) และความหนาแน่นของปริมาตรเฉพาะ
ในการสร้างภาพ 2 มิติจากมุมมองเฉพาะ แบบจำลองจะสร้างชุดของจุด 3 มิติและเรียกใช้จุดเหล่านั้นผ่านฟังก์ชันฉากเพื่อส่งกลับชุดของค่าความหนาแน่นของสีและปริมาตร จากนั้นเทคนิคการเรนเดอร์ปริมาณจะแปลงค่าเหล่านั้นเป็นเอาต์พุตภาพ 2 มิติ
การใช้ NeRF และโมเดลการแพร่กระจาย 2 มิติร่วมกัน
ตอนนี้เรารู้แล้วว่า NeRF ทำงานอย่างไร มาดูกันว่าโมเดลนี้สามารถสร้างโมเดล 3 มิติที่แม่นยำจากภาพที่เราสร้างขึ้นได้อย่างไร
สำหรับข้อความแจ้งแต่ละรายการ DreamFusion จะฝึก NeRF ที่เริ่มต้นแบบสุ่มตั้งแต่เริ่มต้น การวนซ้ำแต่ละครั้งจะเลือกตำแหน่งกล้องแบบสุ่มในชุดพิกัดทรงกลม ลองนึกถึงโมเดลที่อยู่ในทรงกลมแก้ว แต่ละครั้งที่เราสร้างภาพใหม่ของโมเดล 3 มิติ เราจะเลือกจุดสุ่มในทรงกลมของเราเป็นจุดชมวิวของผลลัพธ์ของเรา DreamFusion จะเลือกตำแหน่งแสงแบบสุ่ม l เพื่อใช้ในการเรนเดอร์
เมื่อเรามีตำแหน่งกล้องและแสงแล้ว โมเดล NeRF จะถูกเรนเดอร์ DreamFusion จะสุ่มเลือกระหว่างเรนเดอร์สี เรนเดอร์ไร้พื้นผิว และเรนเดอร์อัลเบโดที่ไม่มีการแรเงา
เราได้กล่าวไว้ก่อนหน้านี้ว่าเราต้องการให้โมเดลข้อความเป็นรูปภาพ (Imagen) สร้างรูปภาพที่เพียงพอสำหรับสร้างตัวอย่างที่เป็นตัวแทน
Dreamfusion ทำสิ่งนี้ให้สำเร็จได้อย่างไร?
Dreamfusion เพียงแค่แก้ไขพรอมต์อินพุตเล็กน้อยเพื่อให้ได้มุมที่ต้องการ ตัวอย่างเช่น เราสามารถบรรลุมุมเงยสูงได้โดยเพิ่ม "มุมมองด้านบน" ต่อท้ายข้อความแจ้งของเรา เราสามารถสร้างมุมอื่นๆ ได้โดยการต่อท้ายวลี เช่น "มุมมองด้านหน้า" "มุมมองด้านข้าง" และ "มุมมองด้านหลัง"
ฉากจะถูกเรนเดอร์ซ้ำๆ จากตำแหน่งกล้องแบบสุ่ม การแสดงผลเหล่านี้จะผ่านฟังก์ชันการสูญเสียการกลั่นคะแนน วิธีการไล่ระดับสีอย่างง่ายจะค่อยๆ ปรับปรุง แบบจำลอง 3D จนกว่าจะตรงกับฉากที่บรรยายไว้
เมื่อเราเรนเดอร์โมเดล 3 มิติโดยใช้ NeRF แล้ว เราสามารถใช้ อัลกอริทึม Marching Cubes เพื่อส่งออกตาข่าย 3 มิติของโมเดลของเรา ตาข่ายนี้สามารถนำเข้าไปยังโปรแกรมเรนเดอร์ 3D หรือซอฟต์แวร์การสร้างแบบจำลองยอดนิยมได้
ข้อ จำกัด
ในขณะที่ผลลัพธ์ของ DreamFusion นั้นน่าประทับใจเพียงพอเนื่องจากใช้โมเดลการแพร่กระจายข้อความเป็นรูปภาพในรูปแบบใหม่ นักวิจัยได้สังเกตเห็นข้อจำกัดบางประการ
ฟังก์ชันการสูญเสีย SDS ถูกพบว่าให้ผลลัพธ์ที่อิ่มตัวมากเกินไปและราบรื่นเกินไป คุณสามารถสังเกตเห็นสิ่งนี้ได้จากการใช้สีที่ไม่เป็นธรรมชาติและไม่มีรายละเอียดที่แม่นยำซึ่งพบได้ในเอาต์พุต
อัลกอริทึม DreamFusion ยังถูกจำกัดด้วยความละเอียดของเอาต์พุตของโมเดล Imagen ซึ่งก็คือ 64 x 64 พิกเซล สิ่งนี้นำไปสู่แบบจำลองที่สังเคราะห์ขึ้นโดยขาดรายละเอียดปลีกย่อย
สุดท้ายนี้ นักวิจัยได้ตั้งข้อสังเกตว่ามีความท้าทายอยู่แล้วในการสังเคราะห์โมเดล 3 มิติจากข้อมูล 2 มิติ มีโมเดล 3 มิติที่เป็นไปได้มากมายที่เราสามารถสร้างจากชุดภาพ 2 มิติ ซึ่งทำให้การปรับให้เหมาะสมค่อนข้างยากและคลุมเครือด้วยซ้ำ
สรุป
การเรนเดอร์ 3 มิติของ DreamFusion ทำงานได้ดีมากเนื่องจากความสามารถของโมเดลการแพร่กระจายข้อความเป็นรูปภาพเพื่อสร้างวัตถุหรือฉากใดๆ เครือข่ายประสาทสามารถเข้าใจฉากในพื้นที่ 3 มิติได้โดยไม่ต้องใช้ข้อมูลการฝึกสอน 3 มิติ เป็นเรื่องที่น่าประทับใจ ฉันแนะนำให้อ่าน กระดาษทั้งหมด เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับรายละเอียดทางเทคนิคของอัลกอริทึม DreamFusion
หวังว่าเทคโนโลยีนี้จะปรับปรุงเพื่อสร้างโมเดล 3 มิติที่เหมือนภาพถ่ายในที่สุด ลองนึกภาพวิดีโอเกมหรือการจำลองทั้งหมดที่ใช้สภาพแวดล้อมที่สร้างโดย AI มันสามารถลดอุปสรรคในการเข้าสำหรับนักพัฒนาวิดีโอเกมในการสร้างโลก 3 มิติที่สมจริง!
คุณคิดว่าโมเดล text-to-3D จะมีบทบาทอย่างไรในอนาคต
เขียนความเห็น