אנחנו כנראה רק בתחילתה של מהפכת בינה מלאכותית חדשה.
בינה מלאכותית גנרטיבית מתייחסת לאלגוריתמים ומודלים המסוגלים ליצור תוכן. הפלט של דגמים כאלה כולל טקסט, אודיו ותמונות שלעיתים קרובות ניתן לטעות בהם כפלט אנושי אמיתי.
יישומים כגון ChatGPT הראו שבינה מלאכותית גנרטיבית אינה חידוש בלבד. בינה מלאכותית מסוגלת כעת לעקוב אחר הוראות מפורטות ונראה שיש לה הבנה עמוקה של איך העולם עובד.
אבל איך הגענו למצב הזה? במדריך זה, נעבור על כמה מפריצות הדרך המרכזיות במחקר בינה מלאכותית שסללו את הדרך למהפכת הבינה המלאכותית החדשה והמרגשת הזו.
עלייתן של רשתות עצביות
אתה יכול לעקוב אחר מקורות הבינה המלאכותית המודרנית למחקר על למידה עמוקה ורשתות עצביות ב 2012.
באותה שנה, אלכס קריז'בסקי וצוותו מאוניברסיטת טורונטו הצליחו להשיג אלגוריתם מדויק ביותר שיכול לסווג אובייקטים.
השמיים רשת נוירונים חדישה, הידוע כיום בשם AlexNet, הצליח לסווג אובייקטים במסד הנתונים החזותי של ImageNet עם שיעור שגיאה נמוך בהרבה מזה של השני.
רשתות עצביות הם אלגוריתמים המשתמשים ברשת של פונקציות מתמטיות כדי ללמוד התנהגות מסוימת בהתבסס על כמה נתוני אימון. לדוגמה, אתה יכול להזין נתונים רפואיים ברשת עצבית כדי לאמן את המודל לאבחן מחלה כמו סרטן.
התקווה היא שהרשת העצבית מוצאת לאט לאט דפוסים בנתונים ותהיה מדויקת יותר כאשר ניתנים נתונים חדשים.
AlexNet היה יישום פורץ דרך של א רשת עצבית convolutional או CNNs. מילת המפתח "convolutional" מתייחסת להוספת שכבות קונבולוציוניות אשר שמה דגש רב יותר על נתונים קרובים יותר זה לזה.
בעוד ש-CNN כבר היו רעיון בשנות ה-1980, הם החלו לצבור פופולריות רק בתחילת שנות ה-2010 כאשר טכנולוגיית ה-GPU העדכנית ביותר דחפה את הטכנולוגיה לגבהים חדשים.
ההצלחה של CNN בתחום של ראיית מחשב הוביל לעניין רב יותר במחקר של רשתות עצביות.
ענקיות טכנולוגיה כמו גוגל ופייסבוק החליטו לשחרר מסגרות AI משלהן לציבור. ממשקי API ברמה גבוהה כגון קרס נתן למשתמשים ממשק ידידותי למשתמש להתנסות ברשתות עצביות עמוקות.
רשתות CNN היו מעולות בזיהוי תמונות וניתוח וידאו, אך נתקלו בבעיות בכל הנוגע לפתרון בעיות מבוססות שפה. מגבלה זו בעיבוד שפה טבעית עשויה להתקיים מכיוון שתמונות וטקסט הם למעשה בעיות שונות מהותית.
לדוגמה, אם יש לך דגם שמסווג אם תמונה מכילה רמזור, הרמזור המדובר יכול להופיע בכל מקום בתמונה. עם זאת, סוג זה של סלחנות לא עובד טוב בשפה. למשפט "בוב אכל דגים" ו"דג אכל את בוב" יש משמעויות שונות בתכלית למרות השימוש באותן מילים.
התברר שחוקרים צריכים למצוא גישה חדשה לפתרון בעיות הקשורות לשפה אנושית.
רובוטריקים משנים הכל
ב2017, כדי עבודת מחקר שכותרתו "Attention Is All You Need" הציע סוג חדש של רשת: הרובוטריק.
בעוד ש-CNN פועלים על ידי סינון חוזר של חלקים קטנים של תמונה, שנאים מחברים כל אלמנט בנתונים עם כל אלמנט אחר. חוקרים קוראים לתהליך זה "תשומת לב עצמית".
כאשר מנסים לנתח משפטים, CNNs ושנאים עובדים בצורה שונה מאוד. בעוד ש-CNN יתמקד ביצירת קשרים עם מילים שנמצאות ליד זו, שנאי יצור קשרים בין כל מילה ומילה במשפט.
תהליך הקשב העצמי הוא חלק בלתי נפרד מהבנת השפה האנושית. על ידי התקרבות והתבוננות כיצד המשפט כולו משתלב יחדיו, למכונות יכולות להיות הבנה ברורה יותר של מבנה המשפט.
לאחר שחרורו של דגמי השנאים הראשונים, החוקרים השתמשו במהרה בארכיטקטורה החדשה כדי לנצל את הכמות המדהימה של נתוני טקסט שנמצאו באינטרנט.
GPT-3 והאינטרנט
בשנת 2020, של OpenAI GPT-3 המודל הראה עד כמה יכולים להיות שנאים יעילים. GPT-3 הצליח להוציא טקסט שנראה כמעט בלתי ניתן להבחין מאדם. חלק ממה שהפך את GPT-3 לעוצמתי כל כך היה כמות נתוני האימון שבהם נעשה שימוש. רוב מערך ההכשרה של המודל מגיע ממערך נתונים המכונה Common Crawl שמגיע עם למעלה מ-400 מיליארד אסימונים.
בעוד שהיכולת של GPT-3 ליצור טקסט אנושי ריאליסטי הייתה פורצת דרך בפני עצמה, החוקרים גילו כיצד אותו מודל יכול לפתור משימות אחרות.
לדוגמה, אותו דגם GPT-3 שבו אתה יכול להשתמש כדי ליצור ציוץ יכול גם לעזור לך לסכם טקסט, לשכתב פסקה ולסיים סיפור. מודלים בשפה הפכו לעוצמתיים כל כך שהם כעת בעצם כלים למטרות כלליות שעוקבים אחר כל סוג של פקודה.
אופי השימוש הכללי של GPT-3 אפשר יישומים כגון GitHub Copilot, מה שמאפשר למתכנתים ליצור קוד עבודה מאנגלית פשוטה.
דגמי דיפוזיה: מטקסט לתמונות
ההתקדמות שנעשתה עם שנאים ו-NLP סללה את הדרך לבינה מלאכותית גנרטיבית בתחומים אחרים.
בתחום הראייה הממוחשבת, כבר כיסינו כיצד למידה עמוקה אפשרה למכונות להבין תמונות. עם זאת, עדיין היינו צריכים למצוא דרך ל-AI ליצור תמונות בעצמם במקום רק לסווג אותן.
דגמי תמונה גנרטיביים כמו DALL-E 2, Stable Diffusion ו-Midjourney הפכו פופולריים בגלל האופן שבו הם מסוגלים להמיר קלט טקסט לתמונות.
מודלים של תמונה אלו מסתמכים על שני היבטים מרכזיים: מודל שמבין את הקשר בין תמונות וטקסט ומודל שיכול למעשה ליצור תמונה בחדות גבוהה התואמת את הקלט.
של OpenAI CLIP (הדרכה מקדימה של שפה קונטרסטית-תמונה) הוא מודל קוד פתוח שמטרתו לפתור את ההיבט הראשון. בהינתן תמונה, מודל CLIP יכול לחזות את תיאור הטקסט הרלוונטי ביותר עבור אותה תמונה מסוימת.
מודל CLIP פועל על ידי למידה כיצד לחלץ תכונות תמונה חשובות וליצור ייצוג פשוט יותר של תמונה.
כאשר משתמשים מספקים קלט טקסט לדוגמה ל-DALL-E 2, הקלט מומר ל"הטבעת תמונה" באמצעות מודל CLIP. המטרה כעת היא למצוא דרך ליצור תמונה שתואמת להטמעת התמונה שנוצרה.
הבינה המלאכותית של התמונה הגנרטיבית האחרונה משתמשת ב-a מודל דיפוזיה להתמודד עם המשימה של יצירת תמונה בפועל. מודלים של דיפוזיה מסתמכים על רשתות עצביות שהוכשרו מראש לדעת כיצד להסיר רעש נוסף מתמונות.
במהלך תהליך זה של אימון, הרשת העצבית יכולה בסופו של דבר ללמוד כיצד ליצור תמונה ברזולוציה גבוהה מתמונת רעש אקראית. מכיוון שכבר יש לנו מיפוי של טקסט ותמונות שסופק על ידי CLIP, אנחנו יכולים להכשיר מודל דיפוזיה על הטבעת תמונות CLIP כדי ליצור תהליך ליצירת כל תמונה.
מהפכת הבינה המלאכותית הגנרטיבית: מה מגיע אחר כך?
אנו נמצאים כעת בנקודה שבה פריצות דרך בתחום הבינה המלאכותית הגנרטיבית מתרחשות כל יומיים. עם זה הופך קל יותר ויותר ליצור סוגים שונים של מדיה באמצעות AI, האם עלינו להיות מודאגים לגבי איך זה יכול להשפיע על החברה שלנו?
בעוד שהדאגות של מכונות המחליפות עובדים היו תמיד בשיחה מאז המצאת מנוע הקיטור, נראה שהפעם זה קצת שונה.
AI גנרטיבי הופך לכלי רב תכליתי שעשוי לשבש תעשיות שנחשבו בטוחות מהשתלטות בינה מלאכותית.
האם נצטרך מתכנתים אם בינה מלאכותית יכולה להתחיל לכתוב קוד ללא רבב מכמה הוראות בסיסיות? האם אנשים ישכרו קריאייטיבים אם הם יכולים פשוט להשתמש במודל מחולל כדי לייצר את התפוקה שהם רוצים בזול יותר?
קשה לחזות את עתידה של מהפכת הבינה המלאכותית הגנרטיבית. אבל עכשיו, כשתיבת פנדורה הפיגורטיבית נפתחה, אני מקווה שהטכנולוגיה תאפשר חידושים מרגשים נוספים שיכולים להשאיר השפעה חיובית על העולם.
השאירו תגובה