מודלים גדולים של טקסט לתמונה עשו התקדמות משמעותית בפיתוח הבינה המלאכותית על ידי הפקת סינתזת תמונות באיכות גבוהה ומגוונת מהנחיית טקסט נתונה.
מודלים אלה אינם מסוגלים לסנתז ייצוגים ייחודיים של נושאים במסגרות שונות או לשכפל את המראה של נושאים בקבוצת התייחסות נתונה.
טכנולוגיות שפורסמו לאחרונה כמו DALL.E2 של OpenAI או של StabilityAI דיפוזיה יציבה ומידג'ורני כבר כובשים את האינטרנט בסערה. הגיע הזמן להתאים אישית את התוצאות. ובכל זאת איך?
Google DreamBooth AI הגיע.
ל- DreamBooth יש את היכולת לזהות את נושא התמונה, לפרק אותה מההקשר המקורי שלה, ואז לסנתז אותה במדויק להקשר חדש רצוי. בנוסף, ניתן להשתמש בו עם מחוללי תמונות AI עדכניים.
במאמר זה, נסקור לעומק את DreamBooth, השימוש בו, המדריך שלו, המגבלות שלו ועוד הרבה יותר.
מה זה Dreambooth?
תא חלומות, מודל דיפוזי טקסט לתמונה חדש לגמרי, הוצג על ידי גוגל. הנחיה כתובה יכולה לשמש כהנחיה של Google DreamBooth AI כדי ליצור מגוון רחב של תמונות של הנושא הנבחר של המשתמש בהגדרות שונות.
קבוצת מחקר מאוניברסיטת בוסטון וגוגל פיתחה את DreamBooth, טכניקה חדשנית לשינוי מודלים של טקסט לתמונה שעברו הכשרה מקיפה.
הרעיון הכללי הוא די פשוט: הם רוצים להגדיל את מילון חזון השפה כך שמזהי אסימונים לא שכיחים משויכים לנושאים מותאמים אישית שמשתמשים יכולים להגדיר.
המטרה העיקרית של המודל היא לחבר משתמשים ל- מודל פיזור טקסט לתמונה על ידי מתן המשאבים הדרושים להם כדי לייצר ייצוגים פוטוריאליסטיים של המופעים של הנושא שנבחר.
כתוצאה מכך, נראה כי טכניקה זו פועלת היטב לסיכום אתגרים במגוון מצבים.
DreamBooth של גוגל שונה מכלי טקסט לתמונה קודמים, כגון DALL-E2, דיפוזיה יציבה, ו אמצע מסע, בכך שהוא נותן למשתמשים שליטה רבה יותר על תמונת הנושא לפני שהוא נותן להם לתפעל את מודל הדיפוזיה באמצעות קלט מבוסס טקסט.
תכונות
- DreamBooth AI עשוי לשפר מודל טקסט לתמונה עם 3-5 תמונות.
- ניתן ליצור תמונות פוטוריאליסטיות מקוריות עם DreamBooth AI.
- בנוסף, ה- DreamBooth AI יכול ליצור תמונות של נושא ממספר זוויות.
בקשה
עיבודי אמנות
משימה זו שונה באופן ספציפי מהעברת סגנון, אשר שומרת על הסמנטיקה של סצנת המקור תוך שילוב הסגנון של תמונה אחרת בסצנה המקורית.
בהתבסס על הגישה היצירתית, ה-AI יכול לבצע שינויים משמעותיים בסצנה תוך שמירה על הזיהוי והפרטים של מופע הנושא.
שינוי נכס
ניתן לשנות את המאפיינים של מופע הנושא על ידי DreamBooth AI.
אקססוריזציה
הקומפוזיציה החזקה לפני מודל הדור היא מה שהופך את היכולת של DreamBooth AI לעטר אובייקטים כל כך מעניין.
קונטקסטואליזציה מחדש
DreamBooth AI יכול לייצר תמונות ייחודיות עבור מופע נושא מסוים על ידי מתן משפט למודל מאומן הכולל את המזהה הייחודי ואת שם העצם של הכיתה.
זה יכול ליצור את הנושא בתנוחות, ניסוחים ומבנה סצנה ייחודיים שלא היו מוכרים להם בעבר, במקום לשנות את הסביבה. השתקפויות וצללים מציאותיים, כמו גם אינטראקציות בין הנושא לאובייקטים שמסביב.
הדרכת Dreambooth
במדריך זה, נעקוב אחר ה מחברת Google Collab, ואדריך אותך דרכו, מה שיגרום לך להבין ולהשתמש בו בעצמך.
הגדרת GPU והתקנת ספריות
לגלות אילו סוגי GPU ו-VRAM זמינים הוא הצעד הראשון. יש צורך גם בהתקנה של כמה דרישות ותלות. כל שעליך לעשות הוא ללחוץ על כפתור ההפעלה ולאחר מכן להמתין לסיום.
צור חשבון ב- Huggingface והפק אסימון
השלב הבא הוא להירשם לחשבון Huggingface. כשתסיים, לחץ על הגדרות בפינה השמאלית העליונה. תגיעו לעמוד הבא.
צור את האסימון והשם כמתבקש מכאן. יש להעתיק את האסימון ולהדביק אותו ב-Google collab בתא למטה.
התקן xformers
בשלב זה, אתה יכול פשוט ללחוץ על כפתור ההפעלה כדי להתקין xformers על ידי לחיצה על זמן הריצה.
התחבר ל-Drive
כעת, אתה רק צריך להפעיל את התא הזה כדי להתחבר ל-Google Drive.
הזן את ההנחיה
בתא הבא, אתה רק צריך להזין את ההנחיה.
מעלה תמונות
בשלב זה, אתה רק צריך להעלות את התמונות שרצית לאמן.
רכבת מודל AI
זהו השלב החשוב ביותר, מכיוון שתשתמש ב-DreamBooth כדי להכשיר מודל AI חדש המבוסס על כל צילומי ההתייחסות שלך. עליך להגביל את תשומת הלב שלך לשני שדות קלט. "-instance prompt" הוא הפרמטר הראשון. עליך לספק כאן שם מאוד מובחן.
הארגומנט '–concept list' הוא שדה הקלט הקריטי השני. יש לשנות את שמו כך שיתאים לזה המשמש בקטע 'שנה את ההנחיה'.
צור תמונות AI
תמונות AI ייווצרו בשלב זה, שם תוכל להזין את הוראות הטקסט.
מגבלות Dreambooth
- שורת הפקודה הופכת לחסום לביצוע איטרציות בנושא עם דרגות פירוט גבוהות. DreamBooth יכול לשנות את ההקשר של הנושא, אבל אם המודל רוצה לשנות את הנושא עצמו, יש בעיות עם המסגרת.
- בעיה נוספת היא התאמת יתר של תמונת הפלט לתמונת הקלט. אם אין מספיק תמונות מסופקות, ייתכן שהנושא לא ייחשב או יתמזג עם ההקשר של התמונות שנשלחו. כאשר נשאל הקשר לדור מוזר, אותו דבר מתרחש.
סיכום
כדי להפיק פלטים מקלט טקסט בודד, רוב המודלים של טקסט לתמונה דורשים מיליוני פרמטרים וספריות.
DreamBooth מפשט את רכישת התוכן והשימוש עבור הצרכנים על ידי דרישת קלט בלבד של שלושה עד חמישה צילומי נושא יחד עם רקע טקסטואלי.
השאירו תגובה