תוכן העניינים[להתחבא][הופעה]
בשנים האחרונות, מודלים של למידה עמוקה הפכו יעילים יותר בהבנת השפה האנושית.
תחשוב על פרויקטים כמו GPT-3, שמסוגל כעת ליצור מאמרים ואתרי אינטרנט שלמים. GitHub הציג לאחרונה Copilot GitHub, שירות המספק קטעי קוד שלמים על ידי תיאור פשוט של סוג הקוד שאתה צריך.
חוקרים ב-OpenAI, פייסבוק וגוגל עבדו על דרכים להשתמש בלמידה עמוקה כדי להתמודד עם משימה אחרת: כיתוב תמונות. באמצעות מערך נתונים גדול עם מיליוני ערכים, הם הגיעו לכמה מפתיע תוצאות.
לאחרונה ניסו החוקרים הללו לבצע את המשימה ההפוכה: יצירת תמונות מכיתוב. האם עכשיו אפשר ליצור תמונה חדשה לגמרי מתוך תיאור?
מדריך זה יחקור שניים מהדגמים המתקדמים ביותר של טקסט לתמונה: DALL-E 2 של OpenAI ו-Image AI של גוגל. כל אחד מהפרויקטים הללו הציג שיטות פורצות דרך שעשויות לשנות את החברה כפי שאנו מכירים אותה.
אבל ראשית, בואו נבין למה אנחנו מתכוונים ביצירת טקסט לתמונה.
מהו יצירת טקסט לתמונה?
מודלים של טקסט לתמונה לאפשר למחשבים ליצור תמונות חדשות וייחודיות על סמך הנחיות. אנשים יכולים כעת לספק תיאור טקסט של תמונה שהם רוצים לייצר, והמודל ינסה ליצור ויז'ואל שתואם את התיאור הזה הכי קרוב שאפשר.
מודלים של למידת מכונה מינפו את השימוש במערכי נתונים גדולים המכילים צמדי כיתוב תמונה כדי לשפר עוד יותר את הביצועים.
הכי הרבה טקסט לתמונה מודלים משתמשים במודל שפת שנאי לפרש הנחיות. סוג זה של דגם הוא א רשת עצבית שמנסה ללמוד את ההקשר והמשמעות הסמנטית של השפה הטבעית.
לאחר מכן, מודלים גנרטיביים כגון מודלים של דיפוזיה ורשתות יריבות גנרטיביות משמשות לסינתזת תמונות.
מה זה DALLE 2?
DALL-E2 הוא דגם ממוחשב של OpenAI ששוחרר באפריל 2022. המודל הוכשר על בסיס נתונים של מיליוני תמונות מתויגות כדי לשייך מילים וביטויים לתמונות.
משתמשים יכולים להקליד ביטוי פשוט, כגון "חתול אוכל לזניה", ו-DALL-E 2 ייצור פרשנות משלו למה שהביטוי מנסה לתאר.
מלבד יצירת תמונות מאפס, DALL-E 2 יכול גם לערוך תמונות קיימות. בדוגמה למטה, DALL-E הצליח ליצור תמונה שונה של חדר עם ספה נוספת.
DALL-E 2 הוא רק אחד מפרויקטים דומים רבים ש-OpenAI פרסמה בשנים האחרונות. ה-GPT-3 של OpenAI הפך לחדשות כשנדמה היה שהוא מייצר טקסט בסגנונות שונים.
נכון לעכשיו, DALL-E 2 עדיין בבדיקות בטא. משתמשים המעוניינים יכולים להירשם אליהם רשימת המתנה ולחכות לגישה.
כיצד זה עובד?
למרות שהתוצאות של DALL-E 2 מרשימות, אתה אולי תוהה איך הכל עובד.
DALL-E 2 הוא דוגמה ליישום רב-מודאלי של פרויקט GPT-3 של OpenAI.
ראשית, הנחית הטקסט של המשתמש ממוקמת לתוך מקודד טקסט הממפה את ההנחיה למרחב ייצוג. DALL-E 2 משתמש במודל OpenAI אחר הנקרא CLIP (Contrastive Language-Image Pre-Training) כדי להשיג מידע סמנטי משפה טבעית.
לאחר מכן, דגם המכונה קוֹדֵם ממפה את קידוד הטקסט לקידוד תמונה. קידוד תמונה זה אמור ללכוד את המידע הסמנטי שנמצא בשלב קידוד הטקסט.
כדי ליצור את התמונה בפועל, DALL-E 2 משתמש במפענח תמונה כדי ליצור חזותית באמצעות מידע סמנטי ופרטי קידוד תמונה. OpenAI משתמש בגרסה שונה של לִדאוֹת מודל לביצוע יצירת תמונה. GLIDE מסתמך על א מודל דיפוזיה ליצירת תמונות.
התוספת של GLIDE לדגם DALL-E 2 אפשרה פלט פוטוריאליסטי יותר. מכיוון שמודל ה-GLIDE הוא סטוכסטי או נקבע באופן אקראי, מודל DALL-E 2 יכול ליצור בקלות וריאציות על ידי הפעלת המודל שוב ושוב.
מגבלות
למרות התוצאות המרשימות של דגם ה-DALL-E 2, הוא עדיין עומד בפני כמה מגבלות.
טקסט איות
הנחיות המנסות לגרום ל-DALL-E 2 ליצור טקסט מגלות שהוא מתקשה לאיית מילים. מומחים מניחים כי ייתכן שהסיבה לכך היא שמידע איות אינו חלק מה- מערך הדרכה.
נימוק קומפוזיציוני
חוקרים מבחינים כי ל-DALL-E 2 עדיין יש קושי מסוים בהיגיון קומפוזיציוני. במילים פשוטות, המודל יכול להבין היבטים בודדים של תמונה ועדיין מתקשה להבין את היחסים בין ההיבטים הללו.
לדוגמה, אם ניתנת ההנחיה "קוביה אדומה על גבי קובייה כחולה", DALL-E יפיק קובייה כחולה וקוביה אדומה במדויק אך לא יצליח למקם אותם כראוי. כמו כן, המודל נצפה כבעל קושי בהנחיות הדורשות משיכת מספר מסוים של חפצים.
הטיה במערך הנתונים
אם ההנחיה אינה מכילה פרטים אחרים, DALL-E נצפה כמתאר אנשים וסביבות לבנים או מערביים. הטיית ייצוג זו מתרחשת בגלל שפע התמונות המתמקדות במערב במערך הנתונים.
המודל נצפה גם עוקב אחר סטריאוטיפים מגדריים. לדוגמה, הקלדת ההנחיה "דיילת" מייצרת בעיקר תמונות של נשים דיילות.
מהו Google Imagen AI?
גוגל AI תמונה הוא מודל שמטרתו ליצור תמונות פוטוריאליסטיות מטקסט קלט. בדומה ל-DALL-E, המודל משתמש גם במודלים של שפת שנאים כדי להבין את הטקסט ומסתמך על שימוש במודלים של דיפוזיה ליצירת תמונות באיכות גבוהה.
לצד Imagen, גוגל פרסמה גם אמת מידה עבור דגמי טקסט לתמונה בשם DrawBench. באמצעות DrawBench, הם הצליחו לראות שמדרגים אנושיים העדיפו פלט Imagen על פני דגמים אחרים כולל DALL-E 2.
כיצד זה עובד?
בדומה ל-DALL-E, Imagen ממירה תחילה את הנחיית המשתמש להטמעת טקסט באמצעות מקודד טקסט קפוא.
Imagen משתמש במודל דיפוזיה שלומד כיצד להמיר דפוס רעש לתמונות. הפלט הראשוני של תמונות אלו הוא ברזולוציה נמוכה ומועבר מאוחר יותר דרך דגם אחר המכונה מודל דיפוזיה ברזולוציית על כדי להגדיל את הרזולוציה של התמונה הסופית. דגם הדיפוזיה הראשון מוציא תמונה של 64×64 פיקסלים ומפוצץ מאוחר יותר לתמונה ברזולוציה גבוהה של 1024×1024.
בהתבסס על המחקר של צוות Imagen, מודלים גדולים של שפה קפואה שהוכשרו רק על נתוני טקסט הם עדיין מקודד טקסט יעיל ביותר ליצירת טקסט לתמונה.
המחקר מציג גם את הרעיון של סף דינמי. שיטה זו מאפשרת לתמונות להיראות פוטוריאליסטיות יותר על ידי הגדלת משקלי ההדרכה בעת יצירת התמונה.
ביצועים של DALLE 2 לעומת Imagen
תוצאות ראשוניות ממבחן ההשוואה של גוגל מראות כי משיבים אנושיים מעדיפים תמונות שנוצרו על ידי Imagen על פני DALL-E 2 ומודלים אחרים של טקסט לתמונה כגון Diffusion Latent ו-VQGAN+CLIP.
פלט שהגיע מצוות Imagen הראה גם שהמודל שלהם מתפקד טוב יותר באיות טקסט, חולשה ידועה של דגם DALL-E 2.
עם זאת, מכיוון שגוגל עדיין לא פרסמה את המודל לציבור, עדיין נותר לראות עד כמה מדדי המדדים של גוגל מדויקים.
סיכום
עלייתם של מודלים פוטוריאליסטיים של טקסט לתמונה שנויה במחלוקת מכיוון שמודלים אלה בשלים לשימוש לא אתי.
הטכנולוגיה עשויה להוביל ליצירת תוכן מפורש או ככלי לדיסאינפורמציה. חוקרים מגוגל וגם מ-OpenAI מודעים לכך, וזו גם הסיבה שהטכנולוגיות הללו עדיין אינן נגישות לכולם.
למודלים של טקסט לתמונה יש גם השלכות כלכליות משמעותיות. האם מקצועות כמו דוגמניות, צלמים ואמנים יושפעו אם דוגמניות כמו DALL-E יהפכו למיינסטרים?
כרגע, לדגמים האלה עדיין יש מגבלות. החזקת כל תמונה שנוצרת בינה מלאכותית לבדיקה תחשוף את חוסר השלמות שלה. כאשר גם OpenAI וגם גוגל מתחרות על הדגמים היעילים ביותר, זה עשוי להיות עניין של זמן עד שתיווצר פלט מושלם באמת: תמונה שאי אפשר להבחין בה מהדבר האמיתי.
מה לדעתך יקרה כשהטכנולוגיה תגיע כל כך רחוק?
השאירו תגובה