כל תהליך ההדרכה של ChatGPT Explained

תוכן העניינים[להתחבא][הופעה]

אימון מקדים גנרטיבי+-
- בעיית היישור
כוונון עדין מפוקח+-
- מגבלות פיקוח: משמרת הפצה
מבוסס על העדפות, לימוד תגמול
מה צופן העתיד?

ChatGPT הוא מודל שפה של בינה מלאכותית יוצאת דופן. כולנו משתמשים בו כדי לסייע לנו במשימות שונות.

האם אי פעם שאלתם איך זה אומן להפיק תשובות שנראות כל כך כמו אנושיות? במאמר זה נבחן את ההכשרה של ChatGPT.

נסביר כיצד זה התפתח לאחד המצטיינים ביותר מודלים של שפה. בעודנו חוקרים את העולם המסקרן של ChatGPT, בואו למסע של גילוי.

סקירה כללית של הדרכה

ChatGPT הוא מודל לעיבוד שפה טבעית.

עם ChatGPT, אנו יכולים לעסוק בדיאלוגים אינטראקטיביים ובדיונים דמויי אדם. הוא נוקט בגישה דומה לזו של הנחה את GPT, שהוא מודל שפה חדשני. זה פותח זמן קצר לפני ChatGPT.

הוא משתמש בשיטה מרתקת יותר. זה מאפשר אינטראקציות טבעיות של משתמשים. אז זהו כלי מושלם עבור מגוון יישומים כגון צ'אטבוטים ועוזרים וירטואליים.

הליך ההדרכה של ChatGPT הוא תהליך רב שלבי. אימון מקדים גנרטיבי הוא השלב הראשון באימון של ChatGPT.

בשלב זה, המודל מאומן באמצעות קורפוס גדול של נתוני טקסט. לאחר מכן, המודל מגלה את המתאמים והדפוסים הסטטיסטיים שנמצאים בשפה הטבעית. אז, אנחנו יכולים לקבל תגובה מדויקת וקוהרנטית מבחינה דקדוקית.

לאחר מכן אנו עוקבים אחר שלב של כוונון עדין בפיקוח. בחלק זה, המודל מאומן במשימה מסוימת. לדוגמה, הוא יכול לבצע תרגום שפה או מענה לשאלות.

לבסוף, ChatGPT משתמש בלימוד תגמול ממשוב אנושי.

כעת, הבה נבחן את השלבים הללו.

אימון מקדים גנרטיבי

רמת האימון הראשונית היא אימון קדם גנרטיבי. זוהי שיטה נפוצה לאימון מודלים לשוניים. כדי ליצור רצפי אסימונים, השיטה מיישמת את "פרדיגמת החיזוי של השלב הבא".

מה זה אומר?

כל אסימון הוא משתנה ייחודי. הם מייצגים מילה או חלק ממילה. המודל מנסה לקבוע איזו מילה צפויה להגיע לאחר מכן בהינתן המילים שלפניה. הוא משתמש בהתפלגות ההסתברות על פני כל המונחים ברצף שלו.

מטרת מודלים של שפה היא לבנות רצפי אסימונים. רצפים אלה צריכים לייצג את הדפוסים והמבנים של השפה האנושית. זה אפשרי על ידי אימון מודלים על כמויות עצומות של נתוני טקסט.

לאחר מכן, משתמשים בנתונים אלה כדי להבין כיצד מילים מופצות בשפה.

במהלך האימון, המודל משנה את פרמטרי התפלגות ההסתברות.

בנוסף, הוא מנסה לצמצם את ההבדל בין ההפצה הצפויה והממשית של מילים בטקסט. זה אפשרי עם שימוש בפונקציית הפסד. פונקציית ההפסד מחשבת את ההפרש בין ההתפלגות הצפויה וההתפלגות בפועל.

עיבוד שפה טבעית ו ראיית מחשב הם אחד התחומים שבהם אנו משתמשים באימון קדם גנרטיבי.

אופנאי 2

בעיית היישור

בעיית היישור היא אחד הקשיים באימון מקדים גנרטיבי. הכוונה היא לקושי להתאים את התפלגות ההסתברות של המודל להתפלגות הנתונים בפועל.
במילים אחרות, התשובות שנוצרו על ידי המודל צריכות להיות דמויות אנושיות יותר.

המודל עשוי לספק מדי פעם תגובות בלתי צפויות או לא נאותות. וזה עשוי להיגרם ממגוון סיבות, כגון הטיית נתוני אימון או חוסר מודעות להקשר של המודל. יש לטפל בבעיית היישור כדי לשפר את איכות המודלים של השפה.

כדי להתגבר על בעיה זו, מודלים של שפה כמו ChatGPT משתמשים בטכניקות כוונון עדין.

כוונון עדין מפוקח

החלק השני של אימון ChatGPT הוא כוונון עדין בפיקוח. מפתחים אנושיים עוסקים בדיאלוגים בשלב זה, ופועלים הן כמשתמש האנושי והן כצ'אט בוט.

השיחות הללו מוקלטות ומצטברות למערך נתונים. כל מדגם אימון כולל היסטוריית שיחות מובהקת המותאמת לתשובה הבאה של המפתח האנושי המשמש כ"צ'אטבוט".

מטרת כוונון עדין מפוקח היא למקסם את ההסתברות המיועדת לרצף האסימונים בתשובה המשויכת על ידי המודל. שיטה זו ידועה בשם "למידת חיקוי" או "שיבוט התנהגות".

בדרך זו המודל יכול ללמוד לספק תגובות טבעיות וקוהרנטיות יותר. זה משכפל את התשובות שניתנו על ידי קבלנים אנושיים.

כוונון עדין מפוקח הוא המקום בו ניתן להתאים את מודל השפה למשימה מסוימת.

בואו ניתן דוגמה. נניח שאנו רוצים ללמד צ'אט בוט לספק המלצות לסרטים. נאמן את מודל השפה לחזות דירוגי סרטים על סמך תיאורי סרטים. בנוסף, היינו משתמשים במערך נתונים של תיאורי סרטים ודירוגים.

האלגוריתם יבין בסופו של דבר אילו היבטים של סרט תואמים דירוג גבוה או גרוע.

לאחר הכשרה, נוכל להשתמש במודל שלנו כדי להציע סרטים למשתמשים אנושיים. משתמשים עשויים לתאר סרט שהם נהנים, והצ'אטבוט ישתמש במודל השפה המעודן כדי להמליץ על סרטים נוספים הדומים לו.

מגבלות פיקוח: משמרת הפצה

כוונון עדין מפוקח הוא לימוד מודל שפה לביצוע מטרה מוגדרת. זה אפשרי על ידי הזנת הדגם א מערך נתונים ואז לאמן אותו לביצוע תחזיות. עם זאת, למערכת זו יש מגבלות המכונות "הגבלות פיקוח".

אחת ההגבלות הללו היא "שינוי חלוקה". זה מתייחס לאפשרות שנתוני האימון עשויים שלא לשקף במדויק את התפלגות התשומות בעולם האמיתי שהמודל יתקל בהן.

בואו נסקור את הדוגמה מקודם. בדוגמה של ההצעה לסרט, ייתכן שמערך הנתונים המשמש לאימון המודל לא ישקף במדויק את מגוון הסרטים והעדפות המשתמש שהצ'אטבוט יתקל בהם. ייתכן שהצ'אטבוט לא יפעל כמו שהיינו רוצים.

כתוצאה מכך, הוא פוגש תשומות שאינן דומות לאלו שצפתה במהלך האימון.

עבור למידה מפוקחת, כאשר המודל מאומן רק על סט נתון של מקרים, בעיה זו מתעוררת.

בנוסף, המודל עשוי לתפקד טוב יותר מול שינוי התפלגותי אם נעשה שימוש בלמידה חיזוקית כדי לעזור לו להסתגל להקשרים חדשים וללמוד מהטעויות שלו.

מבוסס על העדפות, לימוד תגמול

לימוד תגמול הוא שלב ההכשרה השלישי בפיתוח צ'טבוט. בלימוד תגמול, המודל נלמד למקסם אות תגמול.

זהו ציון המציין באיזו יעילות המודל מבצע את העבודה. אות התגמול מבוסס על קלט של אנשים שמדרגים או מעריכים את תשובות המודל.

למידת תגמול מטרתה לפתח צ'אט בוט שמייצר תשובות באיכות גבוהה שמשתמשים אנושיים מעדיפים. לשם כך, טכניקת למידת מכונה נקראת למידת חיזוק - הכוללת למידה ממשוב בצורה של תגמולים - משמש להכשרת המודל.

הצ'טבוט עונה על פניות משתמשים, למשל, בהתאם לתפיסתו הנוכחית של המשימה, שמסופקת לו במהלך למידת תגמול. לאחר מכן ניתן אות תגמול על סמך מידת היעילות של הצ'אטבוט לאחר הערכת התשובות על ידי שופטים אנושיים.

אות תגמול זה משמש את הצ'אט בוט כדי לשנות את ההגדרות שלו. וזה משפר את ביצועי המשימות.

כמה מגבלות על למידת תגמול

החיסרון של למידת תגמול הוא שייתכן שהמשוב על התשובות של הצ'אטבוט לא יגיע במשך זמן מה, מכיוון שאות התגמול עשוי להיות דליל ומעוכב. כתוצאה מכך, זה עשוי להיות מאתגר לאמן בהצלחה את הצ'אט בוט מכיוון שהוא עשוי לא לקבל משוב על תשובות ספציפיות עד הרבה יותר מאוחר.

סוגיה נוספת היא שלשופטים אנושיים יש דעות או פרשנויות מגוונות למה שגורם לתגובה מוצלחת, מה שעלול להוביל להטיה באות התגמול. כדי להפחית זאת, הוא משמש לעתים קרובות על ידי מספר שופטים כדי לספק אות תגמול אמין יותר.

מה צופן העתיד?

ישנם מספר צעדים עתידיים פוטנציאליים לשיפור הביצועים של ChatGPT.

כדי להגביר את הבנת המודל, מסלול עתידי פוטנציאלי אחד הוא לכלול מערכי מערכי אימון ומקורות נתונים נוספים. שיפור היכולת של המודל להבין ולקחת בחשבון קלט לא טקסטואלי אפשרי גם כן.

לדוגמה, מודלים של שפה יכולים להבין חזותיים או צלילים.

על ידי שילוב טכניקות אימון ספציפיות ניתן לשפר את ChatGPT גם עבור משימות מסוימות. לדוגמה, זה יכול לבצע ניתוח הסנטימנט או הפקת שפה טבעית. לסיכום, ChatGPT ומודלים של שפה קשורים מראים הבטחה גדולה להתקדמות.