טיש פון קאָנטענץ[באַהאַלטן][ווייַזן]
גרויס טעקסט-צו-בילד מאָדעלס געמאכט אַ באַטייטיק העכערונג אין דער אַנטוויקלונג פון אַי דורך פּראַדוסינג הויך-קוואַליטעט און דיווערסאַפייד בילד סינטעז פֿון אַ געגעבן טעקסט פּינטלעך.
די מאָדעלס קענען נישט סינטאַסייז יינציק רעפּראַזאַנטיישאַנז פון סאַבדזשעקץ אין פאַרשידן סעטטינגס אָדער צו רעפּלאַקייט די אויסזען פון סאַבדזשעקץ אין אַ געגעבן רעפֿערענץ שטעלן.
ניי רעלעאַסעד טעקנאַלאַדזשיז ווי OpenAI's DALL.E2 אָדער StabilityAI's סטאַביל דיפיוזשאַן און מידדזשאָורני נעמען שוין די אינטערנעט דורך שטורעם. עס איז איצט צייט צו קאַסטאַמייז די רעזולטאַטן. אָבער ווי?
Google DreamBooth AI איז אנגעקומען.
דרעאַמבאָאָט האט די פיייקייט צו דערקענען די טעמע פון אַ בילד, דעקאָנסטרוירן עס פֿון זיין אָריגינעל קאָנטעקסט, און דעמאָלט פּונקט סינטאַסייז עס אין אַ נייַע געוואלט קאָנטעקסט. אין דערצו, עס קענען זיין געוויינט מיט קראַנט אַי בילד גענעראַטאָרס.
אין דעם אַרטיקל, מיר וועלן נעמען אַ טיף קוק אין DreamBooth, זיין נוצן, זיין טוטאָריאַל, זיין לימיטיישאַנז און פיל מער.
וואָס איז דרעאַמבאָאָט?
דרעאַמבאָאָט, אַ שפּאָגל נייַ טעקסט-צו-בילד דיפיוזשאַן מאָדעל, איז געווען דערלאנגט דורך Google. א געשריבן פּינטלעך קענען זיין געוויינט ווי גיידאַנס דורך Google DreamBooth AI צו דזשענערייט אַ ברייט קייט פון פאָטאָס פון דער באַניצער ס אויסגעקליבן טעמע אין פאַרשידענע סעטטינגס.
א פאָרשונג גרופּע פון באָסטאָן אוניווערסיטעט און Google דעוועלאָפּעד דרעאַמבאָאָטה, אַ קאַטינג-ברעג טעכניק פֿאַר ענדערן טעקסט-צו-בילד מאָדעלס וואָס האָבן אַנדערגאָן ברייט פאַר-טריינינג.
דער קוילעלדיק באַגריף איז גאַנץ סטרייטפאָרווערד: זיי ווילן צו פאַרגרעסערן די שפּראַך זעאונג ווערטערבוך אַזוי אַז ומגעוויינטלעך טאָקען IDs זענען פארבונדן מיט מנהג טעמעס וואָס יוזערז קענען דעפינירן.
דער הויפּט ציל פון די מאָדעל איז צו פאַרבינדן ניצערס צו די טעקסט-צו-בילד דיפיוזשאַן מאָדעל דורך געבן זיי די רעסורסן זיי דאַרפֿן צו פּראָדוצירן פאָטאָרעאַליסטיק רעפּראַזאַנטיישאַנז פון די ינסטאַנסיז פון זייער אויסגעקליבן ונטערטעניק.
ווי אַ קאַנסאַקוואַנס, דעם טעכניק מיינט צו אַרבעטן געזונט פֿאַר סאַמערייזינג טשאַלאַנדזשיז אין אַ קייט פון סיטואַטיאָנס.
Google's DreamBooth איז אַנדערש פון די פריערדיקע טעקסט-צו-בילד מכשירים, אַזאַ ווי DALL-E2, סטאַביל דיפיוזשאַן, און מידדזשאָורניי, אין אַז עס גיט יוזערז מער קאָנטראָל איבער די טעמע בילד איידער זיי לאָזן זיי מאַניפּולירן די דיפיוזשאַן מאָדעל ניצן טעקסט-באזירט ינפּוץ.
איינריכטונגען
- DreamBooth AI קען פֿאַרבעסערן אַ טעקסט-צו-בילד מאָדעל מיט 3-5 בילדער.
- אָריגינעל פאָטאָרעאַליסטיק פאָטאָס קענען זיין באשאפן מיט DreamBooth AI.
- אין אַדישאַן, די DreamBooth AI קענען מאַכן פאָטאָס פון אַ טעמע פֿון קייפל אַנגלעס.
אַפּפּליקאַטיאָן
קונסט רענדישאַנז
די אַרבעט איז ספּעציעל אַנדערש פון סטיל אַריבערפירן, וואָס האלט די סעמאַנטיקס פון די מקור סצענע בשעת ינקאָרפּערייטינג די נוסח פון אן אנדער בילד אין דער אָריגינעל סצענע.
באַזירט אויף דער שעפעריש צוגאַנג, די אַי קענען ויספירן באַטייטיק סצענע אָלטעריישאַנז און האַלטן די לעגיטימאַציע און טעמע בייַשפּיל ספּעסיפיקס.
פאַרמאָג מאָדיפיקאַטיאָן
די קעראַקטעריסטיקס פון די ונטערטעניק בייַשפּיל קענען זיין מאַדאַפייד דורך DreamBooth AI.
אַקסעססאָריזאַטיאָן
די שטאַרק קאַמפּאַזישאַן איידער די דור מאָדעל איז וואָס מאכט די פיייקייט פון DreamBooth AI צו באַצירן אַבדזשעקץ אַזוי טשיקאַווע.
רעקאָנטעקסטואַליזאַטיאָן
DreamBooth AI קענען פּראָדוצירן אָפּשיידנדיק בילדער פֿאַר אַ זיכער ונטערטעניק בייַשפּיל דורך געבן אַ טריינד מאָדעל אַ זאַץ וואָס כולל די יינציק ידענטיפיער און די קלאַס נאָמינירן.
עס קענען דזשענערייט די ונטערטעניק אין יינציק, ביז אַהער אַנכערד-פון שטעלעס, אַרטיקולאַטיאָנס און סצענע סטרוקטור אלא ווי טשאַנגינג די סוויווע. רעאַליסטיש ריפלעקשאַנז און שאַדאָוז, ווי געזונט ווי ינטעראַקשאַנז צווישן די ונטערטעניק און אַרומיק אַבדזשעקץ.
דרעאַמבאָאָט טוטאָריאַל
אין דעם טוטאָריאַל, מיר וועלן נאָכפאָלגן די גוגל קאָללאַב העפט,און איך וועל דיך דורכגיין, וואס וועט דיר מאכן פארשטאנד און באנוצן אליין.
באַשטעטיקן גפּו און ינסטאַלירן לייברעריז
דער ערשטער שריט איז צו געפֿינען וואָס טייפּס פון GPU און VRAM זענען בארעכטיגט. ינסטאָלינג אַ ביסל רעקווירעמענץ און דיפּענדאַנסיז איז אויך נייטיק. סימפּלי דריקן די שפּיל קנעפּל, און וואַרטן ביז עס וועט ענדיקן.
שאַפֿן אַ חשבון אויף Huggingface און דזשענערייט אַ סימען
דער ווייַטער שריט איז צו רעגיסטרירן פֿאַר אַ Huggingface חשבון. ווען איר האָט פאַרטיק, גיט סעטטינגס אין די שפּיץ רעכט ווינקל. איר וועט אָנקומען אויף דער ווייַטער בלאַט.
שאַפֿן די סימען און נאָמען ווי געבעטן פֿון דאָ. די סימען זאָל זיין קאַפּיד און פּייסטיד אין די Google קאָללאַב אין דער צעל אונטן.
ינסטאַלירן קספאָרמערס
אין דעם בינע, איר קענען פשוט דריקן די שפּיל קנעפּל צו ינסטאַלירן קספאָרמערס דורך געבן אַ קליק אויף די רונטימע.
פאַרבינדן צו דרייוו
איצט איר נאָר האָבן צו לויפן דעם צעל צו פאַרבינדן צו Google דרייוו.
אַרייַן די פּינטלעך
אין די פאלגענדע צעל, איר נאָר האָבן צו אַרייַן די פּינטלעך.
ופּלאָאַדינג בילדער
אין דעם שריט, איר נאָר האָבן צו צופֿעליקער די בילדער איר געוואלט צו באַן.
באַן אַי מאָדעל
דאָס איז די מערסט וויכטיק פאַסע, ווייַל איר וועט נוצן DreamBooth צו באַן אַ נייַע אַי מאָדעל באזירט אויף אַלע דיין דערלאנגט רעפֿערענץ פאָוטאַגראַפס. איר מוזן באַגרענעצן דיין ופמערקזאַמקייט צו צוויי אַרייַנשרייַב פעלדער. "-פֿאַר בייַשפּיל פּינטלעך" איז דער ערשטער פּאַראַמעטער. איר מוזן צושטעלן אַ העכסט באַזונדער נאָמען דאָ.
די אַרגומענט "-באַגריף רשימה" איז די רגע קריטיש אַרייַנשרייַב פעלד. עס מוזן זיין ריניימד צו גלייַכן דעם איינער געניצט אין די 'טוישן די פּינטלעך' אָפּטיילונג.
דזשענערייט אַי בילדער
די אַי בילדער וועט זיין באשאפן אין דעם בינע, ווו איר קענען אַרייַנשרייַב די טעקסט אינסטרוקציעס.
דרעאַמבאָאָט לימיטיישאַנז
- די באַפֿעל פּינטלעך ווערט אַ שלאַבאַן צו מאַכן יטעריישאַנז אין דער טעמע מיט הויך דעטאַל דיגריז. DreamBooth קענען טוישן דעם קאָנטעקסט פון די טעמע, אָבער אויב דער מאָדעל וויל צו טוישן די טעמע זיך, עס זענען ישוז מיט די ראַם.
- אן אנדער אַרויסגעבן איז אָוווערפיטינג די רעזולטאַט בילד צו די אַרייַנשרייַב בילד. אויב עס זענען נישט גענוג בילדער סאַפּלייד, די ונטערטעניק קען נישט זיין קאַנסידערד אָדער קען זיין בלענדיד מיט דעם קאָנטעקסט פון די דערלאנגט בילדער. ווען אַ קאָנטעקסט פֿאַר אַ מאָדנע דור איז געבעטן, די זעלבע זאַך נעמט אָרט.
סאָף
צו פּראָדוצירן אַוטפּוץ פון אַ איין טעקסט אַרייַנשרייַב, די פאַרנעם פון טעקסט-צו-בילד מאָדעלס דאַרפן מיליאַנז פון פּאַראַמעטערס און לייברעריז.
דרעאַמבאָאָט סימפּלאַפייז אינהאַלט אַקוואַזישאַן און באַניץ פֿאַר קאָנסומערס דורך ריקוויירינג בלויז די אַרייַנשרייַב פון דריי צו פינף טעמע פאָוטאַגראַפס צוזאַמען מיט אַ טעקסטשאַוואַל הינטערגרונט.
לאָזן אַ ענטפֿערן