אולי שמעתם על כמה חזקים הפכו דגמי AI של טקסט לתמונה בשנתיים האחרונות. אבל האם ידעת שאותה טכנולוגיה יכולה לעזור לבצע את הקפיצה מדו-ממד לתלת-ממד?
למודלים תלת מימדיים שנוצרו בינה מלאכותית יש שימוש נרחב בנוף הדיגיטלי של היום. משחקי וידאו וסרטים מסתמכים על אמני תלת מימד מיומנים ותוכנות דוגמנות כמו בלנדר כדי ליצור נכסי תלת מימד כדי לאכלס סצנות שנוצרו על ידי מחשב.
עם זאת, האם ייתכן שהתעשייה תוכל להשתמש בלמידת מכונה כדי ליצור נכסי תלת-ממד בפחות מאמץ, בדומה לאופן שבו אמני דו-ממד מתחילים היום לאמץ טכנולוגיה כמו DALL-E ו אמצע מסע?
מאמר זה יחקור אלגוריתם חדש שמנסה ליצור מודל יעיל של טקסט לתלת-ממד באמצעות קיים מודלים של דיפוזיה.
מה Dreamfusion?
בעיה מרכזית אחת ביצירת מודל דיפוזיה שמייצר נכסי תלת מימד ישירות היא שפשוט אין הרבה נתונים תלת מימדיים זמינים. מודלים של דיפוזיה דו-ממדיים הפכו לחזקים כל כך בגלל מערך הנתונים העצום של תמונות שנמצאו באינטרנט. אי אפשר לומר את אותו הדבר עם נכסי תלת מימד.
כמה טכניקות יצירת תלת-ממד עוקפות את המחסור הזה בנתונים על ידי ניצול השפע הזה של נתונים דו-ממדיים.
DreamFusion הוא מודל מחולל שיכול ליצור מודלים תלת מימדיים המבוססים על תיאור טקסט שסופק. מודל DreamFusion משתמש במודל פיזור טקסט לתמונה מיומן מראש כדי ליצור מודלים תלת מימדיים מציאותיים מהנחיות טקסט.
למרות שאין לה נתוני אימון תלת מימד, גישה זו יצרה נכסי תלת מימד קוהרנטיים עם מראה ועומק בנאמנות גבוהה.
איך זה עובד?
אלגוריתם DreamFusion מורכב משני דגמים עיקריים: מודל דיפוזיה דו-ממדי וא רשת עצבית שיכול להמיר תמונות דו-ממדיות לסצנה תלת-ממדית מגובשת.
מודל הטקסט לתמונה התמונות של גוגל
החלק הראשון של האלגוריתם הוא מודל הדיפוזיה. מודל זה אחראי על המרת טקסט לתמונות.
תמונה הוא מודל דיפוזיה שיכול ליצור מדגם גדול של וריאציות תמונה של אובייקט מסוים. במקרה זה, וריאציות התמונה שלנו צריכות לכסות את כל הזוויות האפשריות של האובייקט שסופק. לדוגמה, אם נרצה ליצור מודל תלת מימד של סוס, היינו רוצים תמונות דו מימדיות של הסוס מכל הזוויות האפשריות. המטרה היא להשתמש ב-Image כדי לספק מידע רב ככל האפשר (צבעים, השתקפויות, צפיפות) עבור הדגם הבא באלגוריתם שלנו.
יצירת מודלים תלת מימדיים עם NeRF
בשלב הבא, Dreamfusion משתמש במודל המכונה a שדה קרינה עצבית או NeRF כדי ליצור למעשה את המודל התלת-ממדי מתוך סט התמונות שנוצר. NeRFs מסוגלים ליצור סצנות תלת-ממד מורכבות בהינתן מערך נתונים של תמונות דו-ממדיות.
בואו ננסה להבין כיצד פועל NeRF.
המודל שואף ליצור פונקציית סצנה נפחית רציפה המותאמת ממערך הנתונים המסופק של תמונות דו-ממדיות.
אם המודל יוצר פונקציה, מה הקלט והפלט?
פונקציית הסצנה מקבלת מיקום תלת מימד וכיוון צפייה דו מימדי כקלט. לאחר מכן הפונקציה מוציאה צבע (בצורת RGB) וצפיפות נפח ספציפית.
כדי ליצור תמונה דו-ממדית מנקודת מבט ספציפית, המודל יפיק סט של נקודות תלת-ממד ויריץ את הנקודות הללו דרך פונקציית הסצנה כדי להחזיר קבוצה של ערכי צפיפות צבע ונפח. לאחר מכן טכניקות עיבוד נפח ימירו את הערכים הללו לפלט תמונה דו-ממדית.
שימוש במודלים של NeRF ו-2D דיפוזיה ביחד
עכשיו כשאנחנו יודעים איך NeRF עובד, בואו נראה איך המודל הזה יכול ליצור מודלים תלת מימדיים מדויקים מהתמונות שנוצרו.
עבור כל הנחית טקסט שסופקה, DreamFusion מאמנת NeRF מאותחל באקראי מאפס. כל איטרציה בוחרת מיקום מצלמה אקראי בקבוצה של קואורדינטות כדוריות. חשבו על הדגם העטוף בכדור זכוכית. בכל פעם שאנו יוצרים תמונה חדשה של מודל התלת-ממד שלנו, נבחר נקודה אקראית בכדור שלנו כנקודת התצפית של הפלט שלנו. DreamFusion תבחר גם במיקום אור אקראי l לשימוש לעיבוד.
ברגע שיש לנו מצלמה ומיקום אור, דגם NeRF יוצג. DreamFusion גם תבחר באופן אקראי בין רינדור צבעוני, רינדור ללא טקסטורה ורינדור של האלבדו ללא כל הצללה.
הזכרנו קודם לכן שאנחנו רוצים שמודל הטקסט לתמונה שלנו (Imagen) יפיק מספיק תמונות כדי ליצור מדגם מייצג.
איך Dreamfusion משיגה זאת?
Dreamfusion פשוט משנה מעט את הנחיית הקלט כדי להשיג את הזוויות המיועדות. לדוגמה, אנו יכולים להשיג זוויות גובה גבוהות על ידי הוספה של "מבט עילי" להנחיה שלנו. אנו יכולים ליצור זוויות אחרות על ידי הוספת ביטויים כגון "מבט קדמי", "מבט מהצד" ו"מבט לאחור".
סצנות מעובדות שוב ושוב מעמדות מצלמה אקראיות. עיבודים אלה עוברים לאחר מכן דרך פונקציית אובדן זיקוק ניקוד. גישת ירידה פשוטה בשיפוע תשפר לאט לאט את דגם תלת ממדי עד שתתאים לסצנה המתוארת בטקסט.
לאחר עיבוד המודל התלת-ממדי באמצעות NeRF, נוכל להשתמש ב- אלגוריתם Marching Cubes כדי להפיק רשת תלת מימדית של הדגם שלנו. לאחר מכן ניתן לייבא את הרשת הזו לתוך מעבדי 3D פופולריים או תוכנות דוגמנות.
מגבלות
בעוד שהתפוקה של DreamFusion מרשימה מספיק מכיוון שהיא משתמשת במודלים קיימים של פיזור טקסט לתמונה בצורה חדשה, החוקרים ציינו כמה מגבלות.
נצפתה שפונקציית אובדן SDS מייצרת תוצאות רוויות יתר והחלקות יתר. אתה יכול לראות זאת בצביעה הלא טבעית ובחוסר הפרטים המדויקים שנמצאים בפלטים.
אלגוריתם DreamFusion מוגבל גם על ידי הרזולוציה של פלט דגם Imagen, שהיא 64 על 64 פיקסלים. זה מוביל לכך שלדגמים המסונתזים חסרים פרטים עדינים יותר.
לבסוף, החוקרים ציינו כי קיים אתגר מובנה בסינתזה של מודלים תלת מימדיים מנתונים דו מימדיים. ישנם הרבה מודלים תלת-ממדיים אפשריים שאנו יכולים להפיק מסט של תמונות דו-ממדיות, מה שהופך את האופטימיזציה לקשה למדי ואף מעורפלת.
סיכום
עיבודי התלת מימד של DreamFusion עובדים כל כך טוב בגלל היכולת של מודלים של פיזור טקסט לתמונה ליצור כל אובייקט או סצנה. זה מרשים איך רשת נוירונים יכולה להבין סצנה בחלל תלת-ממד ללא כל נתוני אימון תלת-ממדיים. אני ממליץ לקרוא את נייר שלם למידע נוסף על הפרטים הטכניים של אלגוריתם DreamFusion.
יש לקוות שטכנולוגיה זו תשתפר כדי ליצור בסופו של דבר מודלים תלת מימדיים פוטומיים. דמיינו לעצמכם משחקי וידאו שלמים או סימולציות המשתמשות בסביבות שנוצרו בינה מלאכותית. זה יכול להוריד את מחסום הכניסה למפתחי משחקי וידאו ליצור עולמות תלת מימד סוחפים!
איזה תפקיד לדעתך ישחקו מודלים של טקסט לתלת-ממד בעתיד?
השאירו תגובה