טיש פון קאָנטענץ[באַהאַלטן][ווייַזן]
איר זענט רובֿ מסתּמא אַווער אַז אַ קאָמפּיוטער קענען באַשרייַבן אַ בילד.
פֿאַר בייַשפּיל, אַ בילד פון אַ הונט פּלייינג מיט דיין קינדער קענען זיין איבערגעזעצט ווי 'הונט און קינדער אין דעם גאָרטן.' אָבער צי האָט איר וויסן אַז די פאַרקערט וועג אַרום איז איצט פיזאַבאַל? איר דרוקן עטלעכע ווערטער, און די מאַשין דזשענערייץ אַ נייַע בילד.
ניט ענלעך אַ Google זוכן, וואָס זוך אויף יגזיסטינג פאָוטאַגראַפס, דאָס איז אַלע פריש. אין די לעצטע יאָרן, OpenAI איז געווען איינער פון די לידינג אָרגאַנאַזיישאַנז, ריפּאָרטינג סטאַנינג אַוטקאַמז.
זיי באַן זייער אַלגערידאַמז אויף מאַסיוו טעקסט און בילד דאַטאַבייסיז. זיי פארעפנטלעכט אַ פּאַפּיר אויף זייער GLIDE בילד מאָדעל, וואָס איז געווען טריינד אויף הונדערטער פון מיליאַנז פון פאָטאָס. אין טערמינען פון פאָטאָרעאַליזם, עס אַוטפּערפאָרמז זייער פריערדיק 'DALL-E' מאָדעל.
אין דעם פּאָסטן, מיר וועלן קוקן אויף OpenAI's GLIDE, איינער פון עטלעכע פאַסאַנייטינג ינישאַטיווז אַימעד צו פּראָדוצירן און אָלטערינג פאָטאָרעאַליסטיק בילדער מיט טעקסט-גיידיד דיפיוזשאַן מאָדעלס. לאמיר אנהייבן.
וואָס איז עפענען אַי גלייד?
כאָטש רובֿ בילדער קענען זיין דיסקרייבד אין ווערטער, קריייטינג בילדער פֿון טעקסט ינפּוץ דאַרף ספּעשאַלייזד וויסן און אַ באַטייטיק סומע פון צייט.
אַלאַוינג אַן אַי אַגענט צו פּראָדוצירן פאָטאָרעאַליסטיק בילדער פֿון נאַטירלעך שפּראַך פּראַמפּס ניט בלויז אַלאַוז מענטשן צו שאַפֿן רייַך און דייווערס וויזשאַוואַל מאַטעריאַל מיט אַנפּרעסידענטיד יז, אָבער אויך אַלאַוז סימפּלער יטעראַטיוו ראַפינירטקייַט און פייַן-גריינד קאָנטראָל פון די בילדער באשאפן.
GLIDE קענען ווערן גענוצט צו רעדאַגירן יגזיסטינג פאָטאָס דורך ניצן נאַטירלעך שפּראַך טעקסט פּראַמפּס צו אַרייַנלייגן נייַ אַבדזשעקץ, שאַפֿן שאַדאָוז און ריפלעקשאַנז, דורכפירן. בילד ינפּיינטינג, און אזוי ווייטער.
עס קענען אויך ווענדן יקערדיק שורה דראַווינגס אין פאָטאָרעאַליסטיק פאָוטאַגראַפס, און עס האט יקסעפּשאַנאַל נול מוסטער מאַנופאַקטורינג און פאַרריכטן קייפּאַבילאַטיז פֿאַר קאָמפּלעקס סיטואַטיאָנס.
לעצטע פאָרשונג האט דעמאַנסטרייטיד אַז ליקעליהאָאָד-באזירט דיפיוזשאַן מאָדעלס קענען אויך פּראָדוצירן הויך-קוואַליטעט סינטעטיש בילדער, ספּעציעל ווען קאַמביינד מיט אַ גיידינג צוגאַנג וואָס באַלאַנסאַז פאַרשיידנקייַט און פאַדעלאַטי.
OpenAI ארויס אַ גיידיד דיפיוזשאַן מאָדעל מאי, וואָס אַלאַוז דיפיוזשאַן מאָדעלס צו זיין קאַנדישאַנאַל אויף די לאַבעלס פון אַ קלאַססיפיער. GLIDE ימפּרוווז דעם הצלחה דורך ברענגען גיידיד דיפיוזשאַן צו די פּראָבלעם פון טעקסט-קאַנדישאַנאַל בילד שאַפונג.
נאָך טריינינג אַ 3.5 ביליאָן פּאַראַמעטער GLIDE דיפיוזשאַן מאָדעל ניצן אַ טעקסט ענקאָדער צו באַדינגען אויף נאַטירלעך שפּראַך דיסקריפּשאַנז, די ריסערטשערז טעסטעד צוויי אָלטערנאַטיוו גיידינג סטראַטעגיעס: CLIP גיידאַנס און קלאַסאַפייער-פריי גיידאַנס.
CLIP איז אַ סקאַלאַבלע טעכניק פֿאַר לערנען שלאָס רעפּראַזאַנטיישאַנז פון טעקסט און בילדער וואָס גיט אַ כעזשבן באזירט אויף ווי נאָענט אַ בילד איז צו אַ קעפּל.
די מאַנשאַפֿט געוויינט דעם סטראַטעגיע אין זייער דיפיוזשאַן מאָדעלס דורך פאַרבייַטן די קלאַססיפיער מיט אַ CLIP מאָדעל וואָס "גיידז" די מאָדעלס. דערווייַל, קלאַססיפיער-פריי גיידאַנס איז אַ סטראַטעגיע פֿאַר דירעקטינג דיפיוזשאַן מאָדעלס וואָס טאָן ניט אַרייַנציען די טריינינג פון אַ באַזונדער קלאַסאַפייער.
GLIDE אַרטשיטעקטורע
די GLIDE אַרקאַטעקטשער באשטייט פון דריי קאַמפּאָונאַנץ: אַן אַבלאַטעד דיפיוזשאַן מאָדעל (ADM) טריינד צו דזשענערייט אַ 64 × 64 בילד, אַ טעקסט מאָדעל (טראַנספאָרמער) וואָס ינפלואַנסיז בילד דזשענעריישאַן דורך אַ טעקסט פּינטלעך, און אַ ופּסאַמפּלינג מאָדעל וואָס קאַנווערץ אונדזער קליין 64 × 64. בילדער צו מער ינטערפּריטאַבאַל 256 רענטגענ 256 בילדצעלן.
דער ערשטער צוויי קאַמפּאָונאַנץ אַרבעט צוזאַמען צו קאָנטראָלירן דעם בילד דזשענערייטינג פּראָצעס אַזוי אַז עס אַפּראָופּרייטלי ריפלעקס די טעקסט פּינטלעך, בשעת די יענער איז פארלאנגט צו מאַכן די בילדער וואָס מיר מאַכן גרינגער צו באַגרייַפן. די GLIDE פּרויעקט איז ינספּייערד דורך אַ באַריכט ארויס אין 2021 וואָס האָט געוויזן אַז ADM טעקניקס אַוטפּערפאָרמד דערווייַל פאָלקס, מאָדערן גענעראַטיווע מאָדעלס אין טערמינען פון בילד מוסטער קוואַליטעט.
פֿאַר די ADM, די GLIDE מחברים געוויינט די זעלבע ImageNet 64 x 64 מאָדעל ווי Dhariwal און Nichol, אָבער מיט 512 טשאַנאַלז אַנשטאָט פון 64. די ImageNet מאָדעל האט בעערעך 2.3 ביליאָן פּאַראַמעטערס ווי אַ רעזולטאַט פון דעם.
די GLIDE מאַנשאַפֿט, ניט ענלעך Dhariwal און Nichol, געוואלט צו האָבן אַ גרעסערע דירעקט קאָנטראָל איבער די בילד דזשענערייטינג פּראָצעס, אַזוי זיי קאַמביינד די וויזשאַוואַל מאָדעל מיט אַן ופמערקזאַמקייט-ענייבאַלד טראַנספאָרמער. GLIDE גיט איר עטלעכע קאָנטראָל איבער די בילד דזשענערייטינג פּראָצעס רעזולטאַט דורך פּראַסעסינג די טעקסט אַרייַנשרייַב פּראַמפּס.
דאָס איז דערגרייכט דורך טריינינג די טראַנספאָרמער מאָדעל אויף אַ פּאַסיק גרויס דאַטאַבייס פון פאָטאָס און קאַפּשאַנז (ענלעך צו די וואָס איז געניצט אין די DALL-E פּרויעקט).
דער טעקסט איז טכילעס ענקאָודיד אין אַ סעריע פון ק טאָקענס אין סדר צו קאַנדישאַנינג עס. נאָך דעם, די טאָקענס זענען לאָודיד אין אַ טראַנספאָרמער מאָדעל. דער רעזולטאַט פון די טראַנספאָרמער קענען זיין געוויינט אין צוויי וועגן. פֿאַר די ADM מאָדעל, די לעצט סימען עמבעדדינג איז יוטאַלייזד אַנשטאָט פון די קלאַס עמבעדדינג.
צווייטנס, די לעצטע שיכטע פון די סימען עמבעדינגז - אַ סעריע פון שטריך וועקטאָרס - איז פּראַדזשעקטאַד ינדיפּענדאַנטלי צו די דימענשאַנז פֿאַר יעדער ופמערקזאַמקייט שיכטע אין די ADM מאָדעל און קאַנקאַטאַנייטאַד צו יעדער ופמערקזאַמקייט קאָנטעקסט.
אין פאַקט, דאָס ינייבאַלז די ADM מאָדעל צו פּראָדוצירן אַ בילד פון נייַע קאַמבאַניישאַנז פון ענלעך טעקסט טאָקענס אויף אַ יינציק און פאָטאָרעאַליסטיק מאָדע, באזירט אויף זיין געלערנט קאַמפּריכענשאַן פון די ינפּוץ ווערטער און זייער פֿאַרבונדענע בילדער. דער טעקסט-ענקאָדינג טראַנספאָרמער כּולל 1.2 ביליאָן פּאַראַמעטערס און ימפּלויז 24 לעפטאָוווער בלאַקס מיט אַ ברייט פון 2048.
צום סוף, די ופּסאַמפּלער דיפיוזשאַן מאָדעל ינקלודז אַרום 1.5 ביליאָן פּאַראַמעטערס און וועריז פון די יקערדיק מאָדעל אין אַז זיין טעקסט ענקאָדער איז קלענערער, מיט אַ ברייט פון 1024 און 384 באַזע טשאַנאַלז, קאַמפּערד מיט די באַזע מאָדעל. דער מאָדעל, ווי דער נאָמען ינדיקייץ, אַידז אין די אַפּגרייד פון די מוסטער צו פֿאַרבעסערן ינטערפּריטאַביליטי פֿאַר ביידע מאשינען און יומאַנז.
דיפפוסיאָן מאָדעל
GLIDE דזשענערייץ בילדער מיט זיין אייגענע ווערסיע פון די ADM (ADM-G פֿאַר "גיידיד"). די ADM-G מאָדעל איז אַ מאַדאַפאַקיישאַן פון די דיפיוזשאַן ו-נעט מאָדעל. א דיפיוזשאַן ו-נעט מאָדעל איז דראַמאַטיקלי אַנדערש פון די מערסט פּראָסט בילד סינטעז טעקניקס אַזאַ ווי VAE, GAN און טראַנספאָרמערס.
זיי בויען אַ מאַרקאָוו קייט פון דיפיוזשאַן סטעפּס צו ביסלעכווייַז אַרייַנשפּריצן טראַפ ראַש אין די דאַטן, און דערנאָך לערנען צו פאַרקערט די דיפיוזשאַן פּראָצעס און ריבילד די פארלאנגט דאַטן סאַמפּאַלז פון די ראַש אַליין. עס אַפּערייץ אין צוויי סטאַגעס: פאָרויס און פאַרקערט דיפיוזשאַן.
די פאָרויס דיפיוזשאַן אופֿן, געגעבן אַ דאַטן פונט פון די אמת פאַרשפּרייטונג מוסטער, מוסיף אַ קליינטשיק סומע פון ראַש צו די מוסטער איבער אַ פּריסעט סעריע פון סטעפּס. ווען די סטעפּס פאַרגרעסערן אין גרייס און צוגאַנג ומענדיקייַט, דער מוסטער פארלירט אַלע רעקאַגנייזאַבאַל קעראַקטעריסטיקס און די סיקוואַנס הייבט צו ריזעמבאַל אַן יסאָטראָפּיק גאַוסיאַן ויסבייג.
בעשאַס די צוריק דיפיוזשאַן פאַסע, די דיפיוזשאַן מאָדעל לערנט צו פאַרקערט די השפּעה פון די צוגעגעבן ראַש אויף די בילדער און פירן די געשאפן בילד צוריק צו זיין אָריגינעל פאָרעם דורך פּרווון צו ריזעמבאַל די אָריגינעל אַרייַנשרייַב מוסטער פאַרשפּרייטונג.
א געענדיקט מאָדעל קען טאָן דאָס מיט אַ פאַקטיש גאַוסיאַן ראַש אַרייַנשרייַב און אַ פּינטלעך. די ADM-G מעטאָד איז אַנדערש פון די פריערדיקע אין אַז אַ מאָדעל, אָדער CLIP אָדער אַ קאַסטאַמייזד טראַנספאָרמער, ימפּאַקץ די צוריק דיפיוזשאַן פאַסע דורך ניצן די טעקסט פּינטלעך טאָקענס וואָס זענען אַרייַנגעשיקט.
גליטשן קייפּאַבילאַטיז
1. דור פון בילד
די מערסט פאָלקס און וויידלי געוויינט נוצן פון GLIDE וועט מיסטאָמע זיין בילד סינטעז. כאָטש די בילדער זענען באַשיידן און GLIDE האט שוועריקייטן מיט כייַע / מענטש פארמען, די פּאָטענציעל פֿאַר איין-שאָס בילד פּראָדוקציע איז כּמעט סאָף.
עס קענען מאַכן פאָטאָס פון אַנימאַלס, סאַלעבריטיז, לאַנדסקייפּס, בנינים, און פיל מער, און עס קענען טאָן דאָס אין אַ פאַרשיידנקייַט פון קונסט סטיילז און פאָטאָ-רעאַליסטיש. די מחברים פון די ריסערטשערז באַשטעטיקן אַז GLIDE איז טויגעוודיק פון ינטערפּריטיישאַן און אַדאַפּטינג אַ ברייט פאַרשיידנקייַט פון טעקסטשאַוואַל ינפּוץ אין אַ וויזשאַוואַל פֿאָרמאַט, ווי געוויזן אין די סאַמפּאַלז אונטן.
2. גליטשן ינפּיינטינג
GLIDE ס אָטאַמאַטיק פאָטאָ פּיינטינג איז אַרגיואַבלי די מערסט פאַסאַנייטינג נוצן. GLIDE קענען נעמען אַן יגזיסטינג בילד ווי אַרייַנשרייַב, פּראָצעס עס מיט די טעקסט פּינטלעך אין זינען פֿאַר לאָוקיישאַנז וואָס דאַרפֿן צו זיין אָלטערד, און דעריבער מאַכן אַקטיוו מאָדיפיקאַטיאָנס צו די פּאַרץ מיט יז.
עס מוזן זיין געוויינט אין קאַנדזשאַנגקשאַן מיט אַן עדיטינג מאָדעל, אַזאַ ווי SDEdit, צו פּראָדוצירן אפילו בעסער רעזולטאַטן. אין דער צוקונפֿט, אַפּפּס וואָס נוצן די קייפּאַבילאַטיז ווי די קען זיין קריטיש אין די אַנטוויקלונג פון קאָד-פריי בילד-אָלטערינג אַפּראָוטשיז.
סאָף
איצט אַז מיר האָבן דורכגעקאָכט דעם פּראָצעס, איר זאָל אָנכאַפּן די פאַנדאַמענטאַלז פון ווי GLIDE אַרבעט, ווי געזונט ווי די ברייט פון זייַן קייפּאַבילאַטיז אין בילד שאַפונג און אין-בילד מאָדיפיקאַטיאָן.
לאָזן אַ ענטפֿערן