תוכן העניינים[להתחבא][הופעה]
באופן כללי, מודלים יצירתיים עמוקים כמו GANs, VAEs ומודלים אוטורגרסיביים מטפלים בבעיות סינתזת תמונות.
לאור האיכות הגבוהה של הנתונים שהם יוצרים, רשתות יריביות (GANs) זכו לתשומת לב רבה בשנים האחרונות.
מודלים של דיפוזיה הם עוד תחום מחקר מרתק שהתבסס. תחומי התמונה, הווידאו ויצירת הקול מצאו שניהם שימוש נרחב עבור שניהם.
מודלים של דיפוזיה לעומת GANs: מה מניב תוצאות טובות יותר? מטבע הדברים, זה הוביל לדיון מתמשך.
בארכיטקטורה החישובית המכונה GAN, שניים רשתות עצביות נלחמים זה בזה כדי לייצר מופעים חדשים של נתונים מסונתזים שיכולים לעבור לנתונים אמיתיים.
דגמי דיפוזיה הופכים פופולריים יותר ויותר מכיוון שהם מספקים יציבות אימון ותוצאות גבוהות להפקת מוזיקה וגרפיקה.
מאמר זה יעבור בפירוט על מודל הדיפוזיה ו-GAN, כמו גם כיצד הם שונים זה מזה ועוד כמה דברים אחרים.
אז מהן רשתות יריבות יצירתיות?
על מנת ליצור מופעים חדשים ומלאכותיים של נתונים שעלולים להיחשב בטעות לנתונים אמיתיים, רשתות יריביות (GANs) מעסיקות שתי רשתות עצביות ומציבות אותן זו מול זו (ולכן ה"יריבות" בשם).
הם נמצאים בשימוש נרחב ליצירת דיבור, וידאו ותמונות.
המטרה של GAN היא ליצור נתונים שטרם התגלו ממערך נתונים ספציפי. ניסיון להסיק מודל של התפלגות הנתונים הבסיסיים הממשיים, הלא מזוהים מהדגימות, עושה זאת.
לחילופין, רשתות אלו הן מודלים מרומזים המנסים ללמוד התפלגות סטטיסטית ספציפית.
השיטה שבה השתמשה GAN כדי לגלות כיצד להשיג מטרה זו הייתה חדשה. למעשה, הם מייצרים נתונים על ידי משחק של שני שחקנים כדי לפתח מודל מרומז.
להלן מתאר את המבנה:
- מאבחן שמקבל את היכולת להבדיל בין נתונים אותנטיים למזויפים
- מחולל שקולט דרכים חדשות ליצור נתונים יכול להערים על המפלה.
המפלה מתחזה לרשת עצבית. לכן, המחולל צריך ליצור תמונה באיכות גבוהה כדי להערים עליו.
העובדה שהגנרטורים הללו אינם מאומנים באמצעות חלוקת פלט כלשהי היא הבחנה משמעותית בין דגמי מקודדים אוטומטיים לדגמים אחרים.
ישנן שתי דרכים לפרק את פונקציית האובדן של המודל:
- היכולת לכמת אם המפלה צופה במדויק נתונים אמיתיים
- הנתונים שנוצרו נחזו במדויק על ידי חלק.
על המפלה האפשרית הטובה ביותר, פונקציית ההפסד הזו ממוזערת לאחר מכן:
לכן ניתן לחשוב על מודלים גנריים כמודלים של מזעור מרחק, ואם המאבחן הוא אידיאלי, כעל מזעור הבדלים בין ההפצה האמיתית והמיוצרת.
במציאות, הבדלים שונים עשויים להיות מועסקים ולגרום לשיטות אימון GAN שונות.
דינמיקת הלמידה, הכוללת פשרה בין המחולל למבדיל, מאתגרת לעקוב, למרות שפשוט להתאים את פונקציית ההפסד של GANs.
אין גם הבטחות שהלמידה תתכנס. כתוצאה מכך, אימון מודל GAN הוא קשה, מכיוון שאופייני להיתקל בבעיות כמו היעלמות שיפועים וקריסת מצב (כאשר אין גיוון בדגימות שנוצרו).
עכשיו, הגיע הזמן ל-Diffusion Models
הבעיה עם התכנסות האימון של GANs טופלה באמצעות פיתוח מודלים של דיפוזיה.
מודלים אלה מניחים שתהליך דיפוזיה שווה ערך לאובדן מידע הנגרם כתוצאה מההפרעה המתקדמת של הרעש (רעש גאוסי נוסף בכל שלב של תהליך הדיפוזיה).
מטרת מודל כזה היא לקבוע כיצד משפיע הרעש על המידע הקיים במדגם, או, במילים אחרות, כמה מידע הולך לאיבוד עקב דיפוזיה.
אם מודל יכול להבין זאת, הוא אמור להיות מסוגל לאחזר את המדגם המקורי ולבטל את אובדן המידע שהתרחש.
זה מושג באמצעות מודל דיפוזיה דהנוזה. תהליך דיפוזיה קדימה ותהליך דיפוזיה הפוכה מרכיבים את שני השלבים.
תהליך הדיפוזיה קדימה כולל הוספה הדרגתית של רעש גאוסי (כלומר, תהליך הדיפוזיה) עד שהנתונים מזוהמים לחלוטין על ידי רעש.
הרשת העצבית מאומנת לאחר מכן באמצעות שיטת הדיפוזיה הפוכה כדי ללמוד את הסתברויות ההפצה המותנית כדי להפוך את הרעש.
כאן אתה יכול להבין יותר על מודל דיפוזיה.
מודל דיפוזיה לעומת GANs
כמו מודל דיפוזיה, GANs מייצרים תמונות מרעש.
המודל מורכב מרשת עצבית מחוללת, שמתחילה ברעש של משתנה התניה אינפורמטיבי כלשהו, כגון תווית מחלקה או קידוד טקסט.
התוצאה צריכה להיות משהו שדומה לתמונה מציאותית.
כדי ליצור תמונות פוטוריאליסטיות ובנאמנות גבוהה, אנו מעסיקים GANs. תמונות ויזואליות אפילו יותר מציאותיות מ-GAN מיוצרות באמצעות מודלים של דיפוזיה.
במובן מסוים, מודלים של דיפוזיה מדויקים יותר בתיאור העובדות.
בעוד ש-GAN לוקח כקלט רעש אקראי או משתנה התניה בכיתה ומוציא מדגם ריאליסטי, מודלים של דיפוזיה הם לרוב איטיים יותר, איטרטיביים וזקוקים להרבה יותר הדרכה.
אין הרבה מקום לטעות כאשר ה-denoising מוחל שוב ושוב במטרה לחזור לתמונה המקורית מהרעש.
כל מחסום עובר לאורך שלב היצירה, ובכל שלב התמונה עשויה לצבור עוד ועוד מידע.
סיכום
לסיכום, בשל מעט מחקרים משמעותיים שפורסמו רק בשנות ה-2020 וה-2021, מודלים של דיפוזיה יכולים כעת לעלות על GANs במונחים של סינתזת תמונות.
השנה, OpenAI הושק DALL-E2, מודל ייצור תמונה המאפשר למתרגלים להשתמש במודלים של דיפוזיה.
למרות ש-GAN הם מתקדמים, האילוצים שלהם הופכים את זה למאתגר להרחיב ולהשתמש בהם בהקשרים חדשים.
על מנת להשיג איכות דגימה דמוית GAN באמצעות מודלים מבוססי סבירות, הושקעה בזה עבודה רבה.
השאירו תגובה