טיש פון קאָנטענץ[באַהאַלטן][ווייַזן]
אין די לעצטע יאָרן, טיפ-לערנען מאָדעלס האָבן ווערן מער עפעקטיוו צו פֿאַרשטיין מענטש שפּראַך.
טראַכטן פון פּראַדזשעקס ווי גפּט-קסנומקס, וואָס איז איצט ביכולת צו שאַפֿן גאַנץ אַרטיקלען און וועבסיטעס. GitHub האט לעצטנס באַקענענ גיטהוב קאָפּילאָט, אַ דינסט וואָס גיט גאַנץ קאָד סניפּאַץ דורך פשוט דיסקרייבינג די טיפּ פון קאָד איר דאַרפֿן.
רעסעאַרטשערס ביי OpenAI, Facebook און Google האָבן ארבעטן אויף וועגן צו נוצן טיף לערנען צו האַנדלען מיט אן אנדער אַרבעט: קאַפּטיאָנינג בילדער. ניצן אַ גרויס דאַטאַסעט מיט מיליאַנז פון איינסן, זיי האָבן קומען אַרויף מיט עטלעכע כידעשדיק רעזולטאַטן.
לעצטנס, די ריסערטשערז האָבן געפרוווט צו דורכפירן די פאַרקערט אַרבעט: שאַפֿן בילדער פון אַ קעפּל. איז עס איצט מעגלעך צו שאַפֿן אַ גאָר נייַע בילד פון אַ באַשרייַבונג?
דער פירער וועט ויספאָרשן צוויי פון די מערסט אַוואַנסירטע טעקסט-צו-בילד מאָדעלס: OpenAI's DALL-E 2 און Google's Imagen AI. יעדער פון די פּראַדזשעקס האט ינטראָודוסט גראַונדברייקינג מעטהאָדס וואָס קען טוישן די געזעלשאַפט ווי מיר וויסן עס.
אָבער קודם, לאָזן אונדז פֿאַרשטיין וואָס מיר מיינען מיט טעקסט-צו-בילד דור.
וואָס איז טעקסט-צו-בילד דור?
טעקסט-צו-בילד מאָדעלס לאָזן קאָמפּיוטערס צו שאַפֿן נייַע און יינציק בילדער באזירט אויף פּראַמפּס. מענטשן קענען איצט צושטעלן אַ טעקסט באַשרייַבונג פון אַ בילד וואָס זיי ווילן צו פּראָדוצירן, און דער מאָדעל וועט פּרובירן צו מאַכן אַ וויזשאַוואַל וואָס גלייַכן די באַשרייַבונג ווי ענג ווי מעגלעך.
מאַשין לערנען מאָדעלס האָבן לעווערידזשד די נוצן פון גרויס דאַטאַסעץ מיט בילד-קעפּל פּערז צו פֿאַרבעסערן פאָרשטעלונג.
רובֿ טעקסט-צו-בילד מאָדעלס נוצן אַ טראַנספאָרמער שפּראַך מאָדעל צו טייַטשן פּראַמפּס. דעם טיפּ פון מאָדעל איז אַ נעוראַל נעץ וואָס פרוווט צו לערנען דעם קאָנטעקסט און סעמאַנטיק טייַטש פון נאַטירלעך שפּראַך.
ווייַטער, דזשענעראַטיוו מאָדעלס אַזאַ ווי דיפיוזשאַן מאָדעלס און דזשענעראַטיוו אַדווערסאַריאַל נעטוואָרקס זענען געניצט פֿאַר בילד סינטעז.
וואָס איז DALLE 2?
DALL-E2 איז א קאמפיוטער מאדעל פון OpenAI וואס איז ארויס אין אפריל 2022. דער מאדעל איז אויסגעלערנט געווארן אויף א דאַטאַבייס פון מיליאנען אנגעצייכנט בילדער צו פארבינדן ווערטער און פראַסעס צו בילדער.
יוזערז קענען דרוקן אַ פּשוט פראַזע, אַזאַ ווי "אַ קאַץ עסן לאַזאַניאַ", און DALL-E 2 וועט דזשענערייט זיין אייגענע ינטערפּריטיישאַן פון וואָס די פראַזע איז טריינג צו באַשרייַבן.
חוץ קריייטינג בילדער פֿון קראַצן, DALL-E 2 קענען אויך רעדאַגירן יגזיסטינג בילדער. אין דעם ביישפּיל אונטן, DALL-E איז ביכולת צו דזשענערייט אַ מאַדאַפייד בילד פון אַ פּלאַץ מיט אַ צוגעלייגט קאַנאַפּע.
DALL-E 2 איז בלויז איינער פון פילע ענלעך פראיעקטן OpenAI האט באפרייט אין די לעצטע יאָרן. OpenAI's GPT-3 איז געווארן נוזווערדי ווען עס סימד צו דזשענערייט טעקסט פון וועריינג סטיילז.
דערווייַל, DALL-E 2 איז נאָך אין ביתא טעסטינג. אינטערעסירט יוזערז קענען צייכן אַרויף פֿאַר זייער ווארט ליסטע און וואַרטן פֿאַר אַקסעס.
ווי טוט עס אַרבעט?
כאָטש די רעזולטאַטן פון DALL-E 2 זענען ימפּרעסיוו, איר קען זיין וואַנדערינג ווי דאָס אַלע אַרבעט.
DALL-E 2 איז אַ ביישפּיל פון אַ מולטימאָדאַל ימפּלאַמענטיישאַן פון OpenAI ס GPT-3 פּרויעקט.
ערשטער, דער באַניצער ס טעקסט פּינטלעך איז געשטעלט אין אַ טעקסט ענקאָדער וואָס מאַפּס די פּינטלעך צו אַ פאַרטרעטונג פּלאַץ. DALL-E 2 ניצט אן אנדער אָפּענאַי מאָדעל גערופן CLIP (קאָנטראַסטיווע שפּראַך-בילד פאַר-טריינינג) צו באַקומען סעמאַנטיק אינפֿאָרמאַציע פֿון נאַטירלעך שפּראַך.
ווייַטער, אַ מאָדעל באקאנט ווי די פריערדיק מאַפּס די טעקסט קאָדירונג אין אַ בילד קאָדירונג. דער בילד קאָדירונג זאָל כאַפּן די סעמאַנטיק אינפֿאָרמאַציע געפֿונען אין די טעקסט קאָדירונג שריט.
צו שאַפֿן די פאַקטיש בילד, DALL-E 2 ניצט אַ בילד דעקאָדער צו דזשענערייט אַ וויזשאַוואַל מיט סעמאַנטיק אינפֿאָרמאַציע און בילד קאָדירונג דעטאַילס. OpenAI ניצט אַ מאַדאַפייד ווערסיע פון די גליטשן מאָדעל צו דורכפירן בילד דור. GLIDE רילייז אויף אַ דיפיוזשאַן מאָדעל צו שאַפֿן בילדער.
די אַדישאַן פון GLIDE צו די DALL-E 2 מאָדעל ינייבאַלד מער פאָטאָרעאַליסטיק רעזולטאַט. זינט די GLIDE מאָדעל איז סטאָטשאַסטיק אָדער ראַנדאַמלי באשלאסן, די DALL-E 2 מאָדעל קענען לייכט מאַכן ווערייישאַנז דורך פליסנדיק די מאָדעל ווידער און ווידער.
לימיטאַטיאָנס
טראָץ די ימפּרעסיוו רעזולטאַטן פון די DALL-E 2 מאָדעל, עס נאָך פייסאַז עטלעכע לימיטיישאַנז.
אויסלייג טעקסט
פּראַמפּס וואָס פּרובירן צו מאַכן DALL-E 2 דזשענערייט טעקסט אַנטדעקן אַז עס האט שוועריקייטן אויסלייג ווערטער. עקספּערץ יבערנעמען אַז דאָס קען זיין ווייַל אויסלייג אינפֿאָרמאַציע איז נישט טייל פון די טריינינג דאַטאַסעט.
קאָמפּאָסיטיאָנאַל ריזאַנינג
רעסעאַרטשערס אָבסערווירן אַז DALL-E 2 נאָך האט עטלעכע שוועריקייטן מיט קאַמפּאַזישאַנאַל ריזאַנינג. סימפּלי, דער מאָדעל קענען פֿאַרשטיין יחיד אַספּעקץ פון אַ בילד און נאָך האָבן קאָנפליקט צו געפֿינען די באַציונגען צווישן די אַספּעקץ.
פֿאַר בייַשפּיל, אויב געגעבן די פּינטלעך "רויט קוב אויף שפּיץ פון אַ בלוי קוב", DALL-E וועט דזשענערייט אַ בלוי קוב און אַ רויט קוב אַקיעראַטלי אָבער פאַרלאָזן צו ריכטיק שטעלן זיי. דער מאָדעל איז אויך באמערקט צו האָבן שוועריקייטן מיט פּראַמפּס וואָס דאַרפן אַ ספּעציפיש נומער פון אַבדזשעקץ צו זיין ציען אויס.
פאָרורטייל אין די דאַטאַבייס
אויב די פּינטלעך כּולל קיין אנדערע דעטאַילס, DALL-E איז באמערקט צו ויסמאָלן ווייַס אָדער מערב מענטשן און ינווייראַנמאַנץ. דעם רעפּריזענאַטיוו פאָרורטייל אַקערז ווייַל פון די זעט פון מערב-סענטריק בילדער אין די דאַטאַסעט.
דער מאָדעל איז אויך באמערקט צו נאָכפאָלגן דזשענדער סטערעאָטיפּעס. פֿאַר בייַשפּיל, טייפּינג אין די פּינטלעך "פלי באַגלייטער" מערסטנס דזשענערייץ בילדער פון פרויען פלי באדינער.
וואָס איז Google Imagen AI?
גוגל 'ס בילד אַי איז אַ מאָדעל וואָס יימז צו שאַפֿן פאָטאָרעאַליסטיק בילדער פֿון אַרייַנשרייַב טעקסט. ענלעך צו DALL-E, דער מאָדעל אויך ניצט טראַנספאָרמער שפּראַך מאָדעלס צו פֿאַרשטיין דעם טעקסט און רילייז אויף די נוצן פון דיפיוזשאַן מאָדעלס צו שאַפֿן הויך-קוואַליטעט בילדער.
צוזאמען מיט Imagen, Google האט אויך באפרייט אַ בענטשמאַרק פֿאַר טעקסט-צו-בילד מאָדעלס גערופֿן DrawBench. מיט DrawBench, זיי זענען ביכולת צו אָבסערווירן אַז מענטשלעך רייטערז בילכער בילד רעזולטאַט איבער אנדערע מאָדעלס אַרייַנגערעכנט DALL-E 2.
ווי טוט עס אַרבעט?
ענלעך צו DALL-E, Imagen ערשטער קאַנווערץ די באַניצער פּינטלעך אין אַ טעקסט עמבעדדינג דורך אַ פאַרפרוירן טעקסט ענקאָדער.
Imagen ניצט אַ דיפיוזשאַן מאָדעל וואָס לערנט ווי צו קאָנווערט אַ מוסטער פון ראַש אין בילדער. דער ערשט רעזולטאַט פון די בילדער איז נידעריק האַכלאָטע און זענען שפּעטער דורכגעגאנגען דורך אן אנדער מאָדעל באקאנט ווי אַ סופּער-האַכלאָטע דיפיוזשאַן מאָדעל צו פאַרגרעסערן די האַכלאָטע פון די לעצט בילד. דער ערשטער דיפיוזשאַן מאָדעל אַוטפּוץ אַ 64 × 64 פּיקסעל בילד און איז שפּעטער בלאָון אַרויף צו אַ הויך-האַכלאָטע 1024 × 1024 בילד.
באַזירט אויף דער פאָרשונג פון די Imagen מאַנשאַפֿט, גרויס פאַרפרוירן שפּראַך מאָדעלס טריינד בלויז אויף טעקסט דאַטן זענען נאָך העכסט עפעקטיוו טעקסט ענקאָדערס פֿאַר טעקסט-צו-בילד דור.
דער לערנען אויך ינטראַדוסיז די באַגריף פון דינאַמיש שוועללינג. דעם אופֿן אַלאַוז בילדער צו דערשייַנען מער פאָטאָרעאַליסטיש דורך ינקריסינג גיידאַנס ווייץ ווען דזשענערייטינג די בילד.
פאָרשטעלונג פון DALLE 2 ווס Imagen
פּרילימאַנערי רעזולטאַטן פון Google ס בענטשמאַרק ווייַזן אַז מענטשלעך ריספּאַנדאַנץ בעסער בילדער דזשענערייטאַד דורך Imagen איבער DALL-E 2 און אנדערע טעקסט-צו-בילד מאָדעלס אַזאַ ווי לייטאַנט דיפפוסיאָן און VQGAN + CLIP.
רעזולטאַט פֿון די Imagen מאַנשאַפֿט האט אויך געוויזן אַז זייער מאָדעל פּערפאָרמז בעסער אויסלייג טעקסט, אַ באַוווסט שוואַכקייַט פון די DALL-E 2 מאָדעל.
אָבער, זינט Google האט נישט נאָך באפרייט דעם מאָדעל צו דעם ציבור, עס איז נאָך צו זען ווי פּינטלעך Google ס בענטשמאַרקס זענען.
סאָף
די העכערונג פון פאָטאָרעאַליסטיק טעקסט-צו-בילד מאָדעלס איז קאָנטראָווערסיאַל ווייַל די מאָדעלס זענען צייַטיק פֿאַר אַנעטיקאַל נוצן.
די טעכנאָלאָגיע קען פירן צו דער שאַפונג פון יקספּליסאַט אינהאַלט אָדער ווי אַ געצייַג פֿאַר דיסינפאָרמאַטיאָן. רעסעאַרטשערס פון ביידע Google און OpenAI זענען אַווער פון דעם, וואָס איז טייל וואָס די טעקנאַלאַדזשיז זענען נאָך נישט צוטריטלעך פֿאַר אַלעמען.
טעקסט-צו-בילד מאָדעלס אויך האָבן באַטייַטיק עקאָנאָמיש ימפּלאַקיישאַנז. וועט פּראַפעשאַנז אַזאַ ווי מאָדעלס, פאַטאַגראַפערז און קינסטלער זיין אַפעקטאַד אויב מאָדעלס אַזאַ ווי DALL-E ווערן מיינסטרים?
אין דער מאָמענט, די מאָדעלס נאָך האָבן לימיטיישאַנז. האלטן קיין אַי-דזשענערייטאַד בילד צו קאָנטראָלירן וועט אַנטדעקן זייַן ימפּערפעקשאַנז. מיט OpenAI און Google קאָנקורירן פֿאַר די מערסט עפעקטיוו מאָדעלס, עס קען זיין אַ ענין פון צייט איידער אַ באמת שליימעסדיק רעזולטאַט איז דזשענערייטאַד: אַ בילד וואָס איז ניט אַנדערש פון די פאַקטיש זאַך.
וואָס טאָן איר טראַכטן וועט פּאַסירן ווען טעכנאָלאָגיע גייט אַזוי ווייַט?
לאָזן אַ ענטפֿערן