תוכן העניינים[להתחבא][הופעה]
סביר להניח שאתה מודע לכך שמחשב יכול לתאר תמונה.
לדוגמה, תמונה של כלב משחק עם ילדיכם יכולה להיות מתורגמת ל'כלב וילדים בגינה'. אבל האם ידעת שהדרך ההפוכה אפשרית כעת גם כן? אתה מקליד כמה מילים, והמכונה יוצרת תמונה חדשה.
בניגוד לחיפוש בגוגל, שמחפש תמונות קיימות, כל זה טרי. בשנים האחרונות, OpenAI היה אחד הארגונים המובילים, ודיווח על תוצאות מדהימות.
הם מאמנים את האלגוריתמים שלהם על מסדי נתונים מסיביים של טקסט ותמונות. הם פרסמו מאמר על דגם ה-GLIDE שלהם, שהוכשר על מאות מיליוני תמונות. במונחים של פוטוריאליזם, הוא מתעלה על דגם ה-DALL-E הקודם שלהם.
בפוסט זה, נסתכל על GLIDE של OpenAI, אחת מכמה יוזמות מרתקות שמטרתן לייצר ולשנות תמונות פוטוריאליסטיות עם מודלים של דיפוזיה מונחי טקסט. בואו נתחיל.
מה פתח את AI Glide?
בעוד שניתן לתאר את רוב התמונות במילים, יצירת תמונות מקלט טקסט מחייבת ידע מיוחד וכמות משמעותית של זמן.
מתן אפשרות לסוכן בינה מלאכותית להפיק תמונות פוטוריאליסטיות מהנחיות שפה טבעית לא רק מאפשר לאנשים ליצור חומר חזותי עשיר ומגוון בקלות חסרת תקדים, אלא גם מאפשר חידוד איטרטיבי פשוט יותר ושליטה עדינה בתמונות שנוצרו.
ניתן להשתמש ב-GLIDE כדי לערוך תמונות קיימות על ידי שימוש בהנחיות טקסט בשפה טבעית כדי להוסיף אובייקטים חדשים, ליצור צללים והשתקפויות, לבצע ציור תמונה, וכן הלאה.
הוא יכול גם להפוך שרטוטי קו בסיסיים לצילומים פוטוריאליסטיים, ויש לו יכולות ייצור ותיקון יוצאות דופן של אפס דגימות עבור מצבים מורכבים.
מחקרים עדכניים הוכיחו כי מודלים של דיפוזיה מבוססי סבירות יכולים גם לייצר תמונות סינתטיות באיכות גבוהה, במיוחד בשילוב עם גישה מנחה המאזנת מגוון ונאמנות.
OpenAI פרסמה את א מודל דיפוזיה מודרך בחודש מאי, מה שמאפשר להתנות מודלים של דיפוזיה בתוויות של מסווג. GLIDE משפר הצלחה זו על ידי הבאת דיפוזיה מודרכת לבעיה של יצירת תמונה מותנית בטקסט.
לאחר אימון מודל דיפוזיה של GLIDE של 3.5 מיליארד פרמטרים תוך שימוש במקודד טקסט כדי להתנות על תיאורי שפה טבעית, החוקרים בדקו שתי אסטרטגיות הנחייה חלופיות: הנחיית CLIP והדרכה ללא מסווג.
CLIP היא טכניקה ניתנת להרחבה ללימוד ייצוגים משותפים של טקסט ותמונות המספקת ציון המבוסס על מידת הקירבה של תמונה לכיתוב.
הצוות השתמש באסטרטגיה זו במודלים של דיפוזיה על ידי החלפת המסווג במודל CLIP ש"מנחה" את המודלים. בינתיים, הנחיה ללא מסווג היא אסטרטגיה להכוונת מודלים של דיפוזיה שאינם כרוכים באימון של מסווג נפרד.
ארכיטקטורת GLIDE
ארכיטקטורת ה-GLIDE מורכבת משלושה מרכיבים: מודל דיפוזיה מופחתת (ADM) שהוכשר ליצור תמונה בגודל 64 × 64, מודל טקסט (שנאי) המשפיע על יצירת תמונה באמצעות הנחית טקסט, ומודל דגימה מעלה הממיר את ה-64 × 64 הקטן שלנו. תמונות ל-256 x 256 פיקסלים ניתנים לפירוש יותר.
שני הרכיבים הראשונים פועלים יחד כדי לשלוט בתהליך יצירת התמונה כך שישקף כראוי את הנחיית הטקסט, בעוד שהאחרון נדרש כדי להפוך את התמונות שאנו יוצרים לקלים יותר להבנה. פרויקט GLIDE נוצר בהשראת א דו"ח שפורסם בשנת 2021 זה הראה שטכניקות ADM עמדו בביצועים טובים יותר מהדגמים הגנרטיביים הפופולריים והמתקדמים כיום מבחינת איכות דגימת התמונה.
עבור ה-ADM, מחברי GLIDE השתמשו באותו דגם ImageNet 64 x 64 כמו Dhariwal וניקול, אך עם 512 ערוצים במקום 64. למודל ImageNet יש בערך 2.3 מיליארד פרמטרים כתוצאה מכך.
צוות GLIDE, שלא כמו Dhariwal וניקול, רצה לקבל שליטה ישירה יותר על תהליך יצירת התמונה, ולכן הם שילבו את המודל החזותי עם שנאי המאפשר תשומת לב. GLIDE נותן לך שליטה מסוימת על פלט תהליך יצירת התמונה על ידי עיבוד הנחיות קלט הטקסט.
זה מושג על ידי אימון מודל השנאי על מערך נתונים גדול מספיק של תמונות וכיתובים (בדומה לזה שהופעל בפרויקט DALL-E).
הטקסט מקודד תחילה לסדרה של אסימוני K על מנת להתנות אותו. לאחר מכן, האסימונים נטענים לדגם שנאי. לאחר מכן ניתן להשתמש בפלט של השנאי בשתי דרכים. עבור מודל ADM, הטמעת האסימון הסופית מנוצלת במקום הטבעת הכיתה.
שנית, השכבה הסופית של הטמעות האסימונים - סדרה של וקטורי תכונה - מוקרנת באופן עצמאי למימדים של כל שכבת קשב במודל ADM ומשורשרת לכל הקשר קשב.
במציאות, זה מאפשר למודל ADM להפיק תמונה משילובים חדשים של אסימוני טקסט דומים בצורה ייחודית ופוטוריאליסטית, בהתבסס על ההבנה המלומדת שלו של מילות הקלט והתמונות הקשורות אליהן. שנאי קידוד טקסט זה מכיל 1.2 מיליארד פרמטרים ומעסיק 24 בלוקים שנשארו ברוחב של 2048.
לבסוף, מודל הדיפוזיה של Upsampler כולל כ-1.5 מיליארד פרמטרים ומשתנה מהמודל הבסיסי בכך שמקודד הטקסט שלו קטן יותר, עם רוחב של 1024 ו-384 ערוצי בסיס, בהשוואה למודל הבסיס. מודל זה, כפי שהשם מעיד, מסייע בשדרוג הדגימה על מנת לשפר את יכולת הפירוש הן למכונות והן לבני אדם.
מודל דיפוזיה
GLIDE יוצר תמונות באמצעות גרסה משלה של ADM (ADM-G עבור "מודרך"). מודל ADM-G הוא שינוי של מודל U-net של דיפוזיה. מודל U-net דיפוזיה שונה באופן דרמטי מטכניקות סינתזת התמונה הנפוצות יותר כגון VAE, GAN ושנאים.
הם בונים שרשרת מרקוב של שלבי דיפוזיה כדי להחדיר בהדרגה רעש אקראי לתוך הנתונים, ואז לומדים להפוך את תהליך הדיפוזיה ולבנות מחדש את דגימות הנתונים הנדרשות מהרעש בלבד. הוא פועל בשני שלבים: דיפוזיה קדימה ואחורה.
שיטת הדיפוזיה קדימה, בהינתן נקודת נתונים מההתפלגות האמיתית של הדגימה, מוסיפה כמות זעירה של רעש לדגימה על פני סדרה מוגדרת מראש של שלבים. ככל שהשלבים גדלים בגודלם ומתקרבים לאינסוף, המדגם מאבד את כל המאפיינים הניתנים לזיהוי והרצף מתחיל להידמות לעקומה גאוסית איזוטרית.
במהלך הדיפוזיה לאחור שלב, מודל הדיפוזיה לומד להפוך את השפעת הרעש הנוסף על התמונות ולהוביל את התמונה המופקת בחזרה לצורתה המקורית על ידי ניסיון להידמות לפיזור דגימת הקלט המקורי.
דגם שהושלם יכול לעשות זאת עם קלט רעש גאוסי אמיתי והנחיה. שיטת ADM-G משתנה מהקודמת בכך שמודל, או CLIP או שנאי מותאם אישית, משפיע על שלב הדיפוזיה לאחור על ידי שימוש באסימוני הנחיית הטקסט המוזנים.
יכולות גלישה
1. יצירת תמונה
השימוש הפופולרי והנפוץ ביותר ב-GLIDE יהיה כנראה סינתזת תמונות. למרות שהתמונות צנועות ו-GLIDE מתקשה בצורות של בעלי חיים/בני אדם, הפוטנציאל להפקת תמונה בצילום אחד הוא כמעט אינסופי.
הוא יכול ליצור תמונות של בעלי חיים, סלבריטאים, נופים, מבנים ועוד ועוד, והוא יכול לעשות זאת במגוון סגנונות אמנות וגם בצורה מציאותית בצילום. מחברי החוקרים טוענים כי GLIDE מסוגלת לפרש ולהתאים מגוון רחב של קלט טקסטואלי לפורמט חזותי, כפי שניתן לראות בדוגמאות שלהלן.
2. צביעת גלישה
ציור הצילום האוטומטי של GLIDE הוא ללא ספק השימוש המרתק ביותר. GLIDE יכול לצלם תמונה קיימת כקלט, לעבד אותה תוך התחשבות בהנחיית הטקסט עבור מיקומים שיש לשנות, ולאחר מכן לבצע שינויים פעילים בחלקים אלה בקלות.
יש להשתמש בו בשילוב עם מודל עריכה, כגון SDEdit, כדי להפיק תוצאות טובות עוד יותר. בעתיד, אפליקציות שינצלו את היכולות הללו עשויות להיות חיוניות בפיתוח גישות לשינוי תמונות ללא קוד.
סיכום
כעת, לאחר שעברנו את התהליך, עליך להבין את היסודות של אופן הפעולה של GLIDE, כמו גם את רוחב היכולות שלה ביצירת תמונה ושינוי בתמונה.
השאירו תגובה