איר קען האָבן געהערט וועגן ווי שטאַרק טעקסט-צו-בילד אַי מאָדעלס האָבן ווערן אין די לעצטע פּאָר פון יאָרן. אָבער צי האָט איר וויסן אַז די זעלבע טעכנאָלאָגיע קען העלפֿן מאַכן דעם שפּרינגען פון 2 ד צו 3 ד?
אַי-דזשענערייטאַד 3 ד מאָדעלס האָבן אַ ברייט נוצן פאַל אין הייַנט ס דיגיטאַל לאַנדשאַפט. וידאו גאַמעס און פילם פאַרלאָזנ זיך באָקע 3 ד אַרטיס און מאָדעלינג ווייכווארג אַזאַ ווי בלענדער צו שאַפֿן 3 ד אַסעץ צו באַפעלקערן קאָמפּיוטער-דזשענערייטאַד סינז.
אָבער, איז עס מעגלעך אַז די אינדוסטריע קען נוצן מאַשין לערנען צו שאַפֿן 3D אַסעץ מיט ווייניקער מי, ענלעך צו ווי 2D אַרטיס הייַנט אָנהייבן צו אַדאַפּט טעכנאָלאָגיע אַזאַ ווי DALL-E און מידדזשאָורניי?
דער אַרטיקל וועט ויספאָרשן אַ ראָמאַן אַלגערידאַם וואָס פרוווט צו שאַפֿן אַן עפעקטיוו טעקסט-צו-3 ד מאָדעל ניצן יגזיסטינג דיפיוזשאַן מאָדעלס.
וואָס איז דרעאַמפוסיאָן?
איין הויפּט פּראָבלעם מיט קריייטינג אַ דיפיוזשאַן מאָדעל וואָס דזשענערייץ 3 ד אַסעץ גלייַך איז אַז עס איז פשוט נישט אַ פּלאַץ פון 3 ד דאַטן בנימצא. 2D דיפיוזשאַן מאָדעלס האָבן ווערן אַזוי שטאַרק ווייַל פון די וואַסט דאַטאַסעט פון בילדער געפֿונען אויף דער אינטערנעץ. דער זעלביקער קענען ניט זיין געזאָגט מיט 3D אַסעץ.
עטלעכע 3 ד גענעראַטיווע טעקניקס אַרבעט אַרום דעם פעלן פון דאַטן דורך די נוצן פון דעם זעט פון 2 ד דאַטן.
DreamFusion איז אַ גענעראַטיוו מאָדעל וואָס קענען מאַכן 3 ד מאָדעלס באזירט אויף אַ צוגעשטעלט טעקסט באַשרייַבונג. די DreamFusion מאָדעל ניצט אַ פאַר-טריינד טעקסט-צו-בילד דיפיוזשאַן מאָדעל צו דזשענערייט רעאַליסטיש דריי-דימענשאַנאַל מאָדעלס פֿון טעקסט פּראַמפּס.
טראָץ קיין 3 ד טריינינג דאַטן, דעם צוגאַנג האט דזשענערייטאַד קאָוכיראַנט 3 ד אַסעץ מיט הויך-פאַדעלאַטי אויסזען און טיף.
ווי טוט עס וואָרק?
די DreamFusion אַלגערידאַם באשטייט פון צוויי הויפּט מאָדעלס: אַ 2D דיפיוזשאַן מאָדעל און אַ נעוראַל נעץ וואָס קענען בייַטן 2 ד בילדער אין אַ קאָוכיסיוו 3 ד סצענע.
Google ס בילד טעקסט-צו-בילד מאָדעל
דער ערשטער טייל פון די אַלגערידאַם איז די דיפיוזשאַן מאָדעל. דער מאָדעל איז פאַראַנטוואָרטלעך פֿאַר קאַנווערטינג טעקסט צו בילדער.
בילד איז אַ דיפיוזשאַן מאָדעל וואָס קענען דזשענערייט אַ גרויס מוסטער פון בילד ווערייישאַנז פון אַ באַזונדער כייפעץ. אין דעם פאַל, אונדזער בילד ווערייישאַנז זאָל דעקן אַלע מעגלעך אַנגלעס פון די צוגעשטעלט כייפעץ. פֿאַר בייַשפּיל, אויב מיר וועלן צו דזשענערייט אַ 3 ד מאָדעל פון אַ פערד, מיר וועלן וועלן 2 ד בילדער פון דעם פערד פֿון אַלע מעגלעך אַנגלעס. דער ציל איז צו נוצן Imagen צו צושטעלן ווי פיל אינפֿאָרמאַציע ווי מעגלעך (פארבן, ריפלעקשאַנז, געדיכטקייַט) פֿאַר די ווייַטער מאָדעל אין אונדזער אַלגערידאַם.
קריייטינג 3 ד מאָדעלס מיט NeRF
דערנאָך, Dreamfusion ניצט אַ מאָדעל באקאנט ווי אַ נעוראַל ראַדיאַנסע פעלד אָדער NeRF צו אַקטשאַוואַלי מאַכן די 3D מאָדעל פֿון די דזשענערייטאַד בילד שטעלן. NeRFs זענען ביכולת צו שאַפֿן קאָמפּלעקס 3 ד סינז מיט אַ דאַטאַסעט פון 2 ד בילדער.
לאָמיר פּרובירן צו פֿאַרשטיין ווי אַ NeRF אַרבעט.
דער מאָדעל יימז צו שאַפֿן אַ קעסיידערדיק וואָלומעטריק סצענע פונקציע אָפּטימיזעד פֿון די צוגעשטעלט דאַטאַסעט פון 2 ד בילדער.
אויב דער מאָדעל קריייץ אַ פֿונקציע, וואָס זענען די אַרייַנשרייַב און רעזולטאַט?
די סצענע פֿונקציע נעמט אין אַ 3 ד אָרט און אַ 2 ד וויוינג ריכטונג ווי אַרייַנשרייַב. דער פֿונקציע דעמאָלט אַוטפּוץ אַ קאָליר (אין די פאָרעם פון RGB) און אַ ספּעציפיש באַנד געדיכטקייַט.
צו דזשענערייט אַ 2 ד בילד פֿון אַ ספּעציפיש וויופּוינט, דער מאָדעל וועט דזשענערייט אַ סכום פון 3 ד פונקטן און לויפן די פונקטן דורך די סצענע פונקציע צו צוריקקומען אַ סכום פון קאָליר און באַנד געדיכטקייַט וואַלועס. באַנד רענדערינג טעקניקס וועט דעמאָלט גער די וואַלועס אין אַ 2 ד בילד רעזולטאַט.
ניצן NeRF און 2D דיפפוסיאָן מאָדעלס צוזאַמען
איצט אַז מיר וויסן ווי אַ NeRF אַרבעט, לאָמיר זען ווי דער מאָדעל קענען דזשענערייט פּינטלעך 3D מאָדעלס פֿון אונדזער דזשענערייטאַד בילדער.
פֿאַר יעדער צוגעשטעלט טעקסט פּינטלעך, DreamFusion טריינז אַ ראַנדאַמלי יניטיאַלייזד NeRF פֿון קראַצן. יעדער יטעראַטיאָן טשוזיז אַ טראַפ אַפּאַראַט שטעלע אין אַ גאַנג פון ספעריש קאָואָרדאַנאַץ. טראַכטן פון די מאָדעל ענקייסט אין אַ גלאז קויל. יעדער מאָל מיר דזשענערייט אַ נייַע בילד פון אונדזער 3 ד מאָדעל, מיר וועלן קלייַבן אַ טראַפ - פונט אין אונדזער קויל ווי די ויסקוק פונט פון אונדזער פּראָדוקציע. DreamFusion וועט אויך קלייַבן אַ טראַפ - ליכט שטעלע l צו נוצן פֿאַר רענדערינג.
אַמאָל מיר האָבן אַ אַפּאַראַט און ליכט שטעלע, אַ NeRF מאָדעל וועט זיין רענדערד. DreamFusion וועט אויך ראַנדאַמלי קלייַבן צווישן אַ בונט רענדערינג, אַ טעקסטורעלעסס רענדערינג און אַ רענדערינג פון די אַלבעדאָ אָן קיין שיידינג.
מיר האָבן פריער דערמאנט אַז מיר וועלן אונדזער טעקסט-צו-בילד מאָדעל (Imagen) צו פּראָדוצירן גענוג בילדער צו שאַפֿן אַ רעפּריזענאַטיוו מוסטער.
ווי טוט Dreamfusion טאָן דאָס?
Dreamfusion פשוט מאַדאַפייז די אַרייַנשרייַב פּינטלעך אַ ביסל צו דערגרייכן די בדעה אַנגלעס. פֿאַר בייַשפּיל, מיר קענען דערגרייכן הויך הייך אַנגלעס דורך אַדינג "אָווערהעד מיינונג" צו אונדזער פּינטלעך. מיר קענען דזשענערייט אנדערע אַנגלעס דורך אַדינג פראַסעס אַזאַ ווי "פראָנט מיינונג", "זייַט מיינונג" און "צוריק מיינונג".
סינז זענען ריפּיטידלי רענדערד פֿון טראַפ אַפּאַראַט שטעלעס. די רענדערינגז דעמאָלט פאָרן דורך אַ כעזשבן דיסטאַליישאַן אָנווער פֿונקציע. א פּשוט גראַדיענט אַראָפּגאַנג צוגאַנג וועט סלאָולי פֿאַרבעסערן די 3 ד מאָדעל ביז עס שוועבעלעך די סצענע דיסקרייבד דורך די טעקסט.
אַמאָל מיר האָבן רענדערד די 3D מאָדעל ניצן NeRF, מיר קענען נוצן די מאַרטשינג קובעס אַלגערידאַם צו פּראָדוצירן אַ 3 ד ייגל פון אונדזער מאָדעל. דער מעש קענען דעריבער זיין ימפּאָרטיד אין פאָלקס 3 ד רענדערערס אָדער מאָדעלינג ווייכווארג.
לימיטאַטיאָנס
כאָטש די רעזולטאַט פון DreamFusion איז ימפּרעסיוו גענוג זינט עס ניצט יגזיסטינג טעקסט-צו-בילד דיפיוזשאַן מאָדעלס אויף אַ ראָמאַן וועג, די ריסערטשערז האָבן באמערקט עטלעכע לימיטיישאַנז.
די SDS אָנווער פֿונקציע איז באמערקט צו פּראָדוצירן אָוווערסאַטוראַטעד און איבער-סמודד רעזולטאַטן. איר קענען אָבסערווירן דעם אין די ומנאַטירלעך קאַלערינג און פעלן פון גענוי דעטאַל געפֿונען אין די אַוטפּוץ.
די DreamFusion אַלגערידאַם איז אויך לימיטעד דורך די האַכלאָטע פון די Imagen מאָדעל רעזולטאַט, וואָס איז 64 x 64 בילדצעלן. דאָס פירט צו די סינטאַסייזד מאָדעלס פעלן פיינער פרטים.
לעסאָף, די ריסערטשערז האָבן באמערקט אַז עס איז אַ טאָכיק אַרויסרופן אין סינטאַסייזינג 3 ד מאָדעלס פֿון 2 ד דאַטן. עס זענען פילע מעגלעך 3 ד מאָדעלס וואָס מיר קענען דזשענערייט פֿון אַ סכום פון 2 ד בילדער, וואָס מאכט אַפּטאַמאַזיישאַן גאַנץ שווער און אפילו אַמביגיואַס.
סאָף
די 3 ד רענדערינגז פון DreamFusion אַרבעט אַזוי גוט ווייַל פון די פיייקייט פון טעקסט-צו-בילד דיפיוזשאַן מאָדעלס צו שאַפֿן קיין כייפעץ אָדער סצענע. עס איז ימפּרעסיוו ווי אַ נעוראַל נעץ קענען פֿאַרשטיין אַ סצענע אין 3 ד פּלאַץ אָן קיין 3 ד טריינינג דאַטן. איך רעקאָמענדירן לייענען די גאַנץ פּאַפּיר צו לערנען מער וועגן די טעכניש דעטאַילס פון די DreamFusion אַלגערידאַם.
אַלעווייַ, דעם טעכנאָלאָגיע וועט פֿאַרבעסערן צו יווענטשאַוואַלי שאַפֿן פאָטאָ-רעאַליסטיש 3 ד מאָדעלס. ימאַדזשאַן גאַנץ ווידעא שפּילערייַ אָדער סימיאַליישאַנז וואָס נוצן אַי-דזשענערייטאַד ינווייראַנמאַנץ. עס קען פאַרמינערן די אַרייַנטרעטן שלאַבאַן פֿאַר ווידעא שפּיל דעוועלאָפּערס צו שאַפֿן יממערסיווע 3 ד וועלטן!
וואָס ראָלע טאָן איר טראַכטן טעקסט-צו-3 ד מאָדעלס וועלן שפּילן אין דער צוקונפֿט?
לאָזן אַ ענטפֿערן