דגמי דיפוזיה סחפו את העולם בסערה עם שחרורו של Dall-E 2, התמונות של גוגל, דיפוזיה יציבה, ו אמצע מסע, מעורר חדשנות ומתיחה של גבולות למידת מכונה.
דגמים אלה יכולים להפיק מספר בלתי מוגבל של תמונות מהודעות מילים, כולל תמונות פוטוריאליסטיות, קסומות, עתידניות וכמובן תמונות חמודות.
היכולות הללו מדמיינות מחדש את המשמעות של בני אדם להתממשק עם סיליקון, ומעניקות לנו את היכולת ליצור כמעט כל תמונה שאנו יכולים לדמיין.
ככל שהמודלים הללו יתפתחו או שהפרדיגמה היוצרת הבאה תשתלט, בני האדם יוכלו לייצר תמונות, סרטים וחוויות סוחפות אחרות עם מחשבה בלבד.
בפוסט זה, נדון ב מודל דיפוזיה, דיפוזיה יציבה, איך זה עובד, והדרכה לצביעה של מודל דיפוזיה, בין היתר.
מהו מודל הדיפוזיה?
מודלים של למידת מכונה שיכולים ליצור נתונים חדשים מנתוני אימון מכונים מודלים גנרטיביים. מודלים גנרטיביים אחרים כוללים מודלים מבוססי זרימה, מקודדים אוטומטיים וריאציות ורשתות יריבות גנרטיביות (GAN).
כל אחד מהם יכול ליצור תמונות באיכות מעולה. מודלים של דיפוזיה לומדים לשחזר את הנתונים על ידי היפוך תהליך הוספת רעש זה לאחר פגיעה בנתוני האימון על ידי הוספת רעש. במילים אחרות, מודלים של דיפוזיה מסוגלים ליצור תמונות קוהרנטיות מתוך הרעש.
דגמי דיפוזיה לומדים על ידי החדרת רעש לתמונות, שהדגם שולט מאוחר יותר בהסרה. על מנת לייצר חזותיים ריאליסטיים, המודל מיישם את טכניקת ההשפלה הזו על זרעים אקראיים.
על ידי התניה של תהליך ייצור התמונה, ניתן להשתמש במודלים אלה בשילוב עם הנחיית טקסט לתמונה כדי ליצור מספר כמעט בלתי מוגבל של תמונות מטקסט בלבד. ניתן לכוון את הזרעים על ידי קלט מהטבעות כמו CLIP כדי לתת יכולות חזקות של טקסט לתמונה.
מודלים של דיפוזיה יכולים לבצע מגוון של משימות, כולל יצירת תמונה, צביעת תמונה, ציור, ציור חוץ ודיפוזיה של סיביות.
עכשיו, מהי דיפוזיה יציבה?
Stable Diffusion הוא מודל למידת מכונה ליצירת תמונות מבוססות טקסט המסופק על ידי יציבות.AI. הוא מסוגל ליצור תמונות מטקסט.
רכיבים של דיפוזיה יציבה
דיפוזיה יציבה היא מערכת המורכבת ממספר רכיבים ומושגים. זה לא דגם בודד. כאשר אנו בודקים מאחורי מכסה המנוע, הדבר הראשון שאנו רואים הוא שישנו רכיב להבנת טקסט הממיר מידע טקסט לייצוג מספרי אשר לוכד את מושגי הטקסט.
אנחנו יכולים לקרוא לקודד הטקסט הזה שנאי מודל שפה (טכנית: מקודד הטקסט של דגם CLIP). הוא לוקח את טקסט הקלט ומייצר רשימה של מספרים שלמים (וקטור) עבור כל מילה/אסימון בטקסט. הנתונים האלה מסופקים לאחר מכן ל-Image Generator, המורכב מכמה רכיבים.
ישנם שני שלבים במחולל התמונות:
1. יוצר מידע תמונה
המרכיב העיקרי בדיפוזיה יציבה הוא אלמנט זה. זה המקום שבו נעשה רוב השיפור בביצועים לעומת גרסאות קודמות.
רכיב זה עובר מספר שלבים כדי לספק נתוני תמונה. היוצר של מידע תמונה פועל רק בתוך מרחב מידע התמונה (או המרחב הסמוי).
זה מהיר יותר מדגמי דיפוזיה קודמים שפעלו בחלל פיקסלים בגלל מאפיין זה. מבחינה טכנית, רכיב זה מורכב מאלגוריתם תזמון ו-UNet רשת עצבית.
התהליך המתרחש ברכיב זה מכונה "דיפוזיה". תמונה באיכות גבוהה מופקת בסופו של דבר כתוצאה מעיבוד המידע בשלבים (על ידי הרכיב הבא, מפענח התמונה).
2. מפענח תמונה
באמצעות הנתונים שקיבל ממפיק המידע, מפענח התמונה יוצר תמונה. זה רק מופעל פעם אחת כדי ליצור את תמונת הפיקסלים המוגמרת בסיום הפעולה.
הדרכה להשפעת דיפוזיה יציבה
צביעת תמונת דיפוזיה יציבה היא הטכניקה של מילוי אזורים חסרים או פגומים בתמונה. המטרה של ציור תמונה היא להסתיר את העובדה שהתמונה שוחזרה.
טכניקה זו משמשת לעתים קרובות כדי להסיר דברים לא רצויים מתמונה או לשחזר אזורים פגומים של תצלומים היסטוריים. צביעת דיפוזיה יציבה היא דרך עדכנית יחסית של ציור שמניבה אפקטים מבטיחים.
ביצוע ההוראות שלהלן יגרום לך להתחיל לחקור את הצביעה ולשנות תמונות קיימות אם תרצה לנסות לצבוע עם דיפוזיה יציבה:
- עבור אל Huggingface השפעת דיפוזיה יציבה
- העלה תמונה משלך
- מחק את החלק בתמונה שלך שצריך להחליף.
- הזן את ההנחיה שלך כאן (מה אתה רוצה להוסיף במקום מה שאתה מסיר)
- בחר "הפעלה"
בסרטון למעלה, אנחנו מעלים תמונה עם שלושה לימונים ומחליפים אותם בתפוחים. אני אישית ממליץ לנסות את זה עם התמונות וההנחיות שלך.
סיכום
באופן כללי, צביעת דיפוזיה יציבה היא שיטה מצוינת להפקת תמונות או סרטונים מזויפים שנראים אמיתיים ביותר. ככל שאנו מתקדמים לקראת התקדמות טכנולוגית חדשה, יהיה קשה יותר ויותר להבחין בין אותנטי להונאה ככל שהטכנולוגיה תתקדם.
סוואהיר
המחצית הראשונה לגמרי לא קשורה למחצית השנייה. זה היה ממש מגניב אם המחבר היה מסביר איך inpaint עובד במסגרת המודל שהוא הסביר קודם, יכול היה לתת תובנות. אבל לא! זה היה דורש הבנה אמיתית, במקום איסוף ועיבוד של טקסט אקראי.