רשתות עצביות גדולות שהוכשרו לזיהוי ויצירת שפה הוכיחו תוצאות יוצאות דופן במגוון משימות בשנים האחרונות. GPT-3 הוכיח שניתן להשתמש במודלים של שפות גדולות (LLMs) ללמידה של מעט יריות ולהשיג תוצאות מצוינות מבלי להידרש לנתונים ספציפיים למשימה או לשנות פרמטרים של מודל.
גוגל, הלהקה הטכנולוגית של עמק הסיליקון, הציגה את PaLM, או Pathways Language Model, לתעשיית הטכנולוגיה העולמית כמודל הדור הבא של שפת הבינה המלאכותית. גוגל שילבה חדש בינה מלאכותית ארכיטקטורה לתוך PaLM עם מטרות אסטרטגיות לשפר את איכות מודל שפת הבינה המלאכותית.
בפוסט זה נבחן את אלגוריתם הפאלם בפירוט, כולל הפרמטרים המשמשים לאימון אותו, הבעיה שהוא פותר ועוד ועוד.
מה אלגוריתם PaLM של גוגל?
מודל השפה של Pathways הוא מה כַּף הַיָד מייצג. זהו אלגוריתם חדש שפותח על ידי גוגל במטרה לחזק את ארכיטקטורת ה- Pathways AI. המטרה העיקרית של המבנה היא לבצע מיליון פעילויות שונות בבת אחת.
אלה כוללים כל דבר, החל מפענוח נתונים מורכבים ועד חשיבה דדוקטיבית. ל-PaLM יש את היכולת להתעלות על ה-AI העדכנית כיום, כמו גם על בני אדם במשימות שפה והיגיון.
זה כולל Few-Shot Learning, המחקה איך בני אדם לומדים דברים חדשים ומשלבים פיסות ידע מגוונות כדי להתמודד עם אתגרים חדשים שטרם נראו קודם לכן, עם היתרון של מכונה שיכולה להשתמש בכל הידע שלה כדי לפתור אתגרים חדשים; דוגמה אחת למיומנות זו ב-PALM היא היכולת שלה להסביר בדיחה שלא שמע מעולם.
PaLM הפגין מיומנויות פורצות דרך רבות במגוון משימות מאתגרות, כולל הבנת שפה ויצירה, פעילויות הקשורות לקוד חשבוני רב-שלבי, חשיבה בשכל הישר, תרגום ועוד רבים אחרים.
הוא הוכיח את יכולתו לפתור בעיות מסובכות באמצעות ערכות NLP רב לשוניות. ניתן להשתמש ב-PaLM על ידי שוק הטכנולוגיה העולמי כדי להבדיל בין סיבה ותוצאה, שילובים מושגיים, משחקים נפרדים ודברים רבים אחרים.
זה גם יכול ליצור הסברים מעמיקים להקשרים רבים תוך שימוש בהסקה לוגית רב-שלבית, שפה עמוקה, ידע גלובלי וטכניקות אחרות.
כיצד פיתחה גוגל את אלגוריתם ה-PaLM?
לביצועי פריצת הדרך של גוגל ב-PaLM, המסלולים מתוכננים להגיע ל-540 מיליארד פרמטרים. הוא מוכר כמודל אחד שיכול להכליל ביעילות וביעילות על פני תחומים רבים. Pathways ב-Google מוקדש לפיתוח מחשוב מבוזר עבור מאיצים.
PaLM הוא דגם שנאי מפענח בלבד שעבר הכשרה באמצעות מערכת Pathways. PaLM השיגה בהצלחה ביצועים חדישים ביותר עם מספר עומסי עבודה, לפי גוגל. PaLM השתמשה במערכת Pathways כדי להרחיב את ההדרכה לתצורת המערכת הגדולה ביותר מבוססת TPU, המכונה לראשונה שבבי 6144.
מערך הדרכה למודל שפת הבינה המלאכותית מורכב משילוב של מערכי נתונים באנגלית ורב-לשוניים אחרים. עם אוצר מילים "ללא הפסד", הוא מכיל תוכן אינטרנט איכותי, דיונים, ספרים, קוד GitHub, ויקיפדיה ועוד רבים. אוצר מילים ללא אובדן מזוהה עבור שמירת רווח לבן ושבירת תווי Unicode שאינם נמצאים באוצר המילים לבתים.
PaLM פותחה על ידי Google ו-Pathways תוך שימוש בארכיטקטורת מודל שנאי סטנדרטית ותצורת מפענח שכללה SwiGLU Activation, שכבות מקבילות, הטבעות RoPE, הטמעות קלט-פלט משותפות, תשומת לב מרובת שאילתות וללא הטיות או אוצר מילים. PaLM, לעומת זאת, עומדת לספק בסיס איתן למודל שפת הבינה המלאכותית של גוגל ושל Pathways.
פרמטרים המשמשים לאימון PaLM
בשנה שעברה השיקה גוגל את Pathways, מודל יחיד שניתן לאמן לעשות אלפי, אם לא מיליוני דברים - שזכה לכינוי "ארכיטקטורת ה-AI של הדור הבא", מכיוון שהוא יכול להתגבר על מגבלות המודלים הקיימים של הכשרה לעשות רק דבר אחד . במקום להרחיב את היכולות של הדגמים הנוכחיים, דגמים חדשים נבנים לרוב מלמטה למעלה כדי לבצע עבודה אחת.
כתוצאה מכך, הם יצרו עשרות אלפי דגמים לעשרות אלפי פעילויות שונות. זוהי משימה שגוזלת זמן ועתירת משאבים.
גוגל הוכיחה באמצעות Pathways שמודל יחיד יכול להתמודד עם מגוון פעילויות ולהיעזר בכישרונות הנוכחיים ולשלב אותם כדי ללמוד משימות חדשות במהירות וביעילות רבה יותר.
ניתן לאפשר מודלים מולטי-מודאליים הכוללים ראייה, הבנה לשונית ועיבוד שמיעתי בו-זמנית דרך מסלולים. Pathways Language Model (PaLM) מאפשר אימון של דגם יחיד על פני מספר רב של TPU v4 Pods הודות למודל של 540 מיליארד פרמטרים שלו.
PaLM, דגם טרנספורמר צפוף המבוסס על מפענח בלבד, מתעלה על ביצועים חדישים בכמה יריות במגוון רחב של עומסי עבודה. PaLM עובר הכשרה על שני TPU v4 Pods המקושרים באמצעות רשת מרכז נתונים (DCN).
היא מנצלת גם מקביליות מודל וגם נתונים. החוקרים הפעילו 3072 מעבדי TPU v4 בכל Pod for PaLM, שהיו מחוברים ל-768 מארחים. לטענת החוקרים, זוהי תצורת ה-TPU הגדולה ביותר שנחשפה עד כה, המאפשרת להם להגדיל את ההכשרה מבלי להשתמש במקביל בצנרת.
ריפוד צינור הוא תהליך איסוף הוראות מהמעבד דרך צינור באופן כללי. שכבות המודל מחולקות לשלבים הניתנים לעיבוד במקביל באמצעות מקביליות מודל צינור (או מקביליות צינור).
זיכרון ההפעלה נשלח לשלב הבא כאשר שלב אחד משלים את המעבר קדימה עבור מיקרו-אצט. ההדרגות נשלחות אחורה כאשר השלב הבא משלים את התפשטותו לאחור.
יכולות פורצות דרך של PaLM
PaLM מציג יכולות פורצות דרך במגוון משימות קשות. להלן מספר דוגמאות:
1. יצירה והבנת שפה
PaLM הועמד למבחן על 29 משימות NLP שונות באנגלית.
על בסיס של מספר יריות, PaLM 540B גבר על דגמים גדולים קודמים כמו GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla ו-LaMDA ב-28 מתוך 29 משימות, כולל משימות תשובות לשאלות בדומיין פתוח עם וריאציות של ספר סגור. , משימות סתום והשלמת משפטים, משימות בסגנון וינוגרד, משימות הבנת הנקרא בקונטקסט, משימות חשיבה תקינה, משימות SuperGLUE והסקת מסקנות טבעיות.
בכמה משימות BIG-bench, PaLM מפגין מיומנויות פרשנות ויצירת שפה טבעית מצוינת. לדוגמה, המודל יכול להבחין בין סיבה ותוצאה, להבין שילובים מושגיים במצבים מסוימים, ואפילו לנחש את הסרט מתוך אימוג'י. למרות שרק 22% מקורפוס ההכשרה אינו אנגלית, PaLM מתפקד היטב על מדדי NLP רב לשוניים, כולל תרגום, בנוסף למשימות NLP באנגלית.
2. הנמקה
PaLM משלבת גודל מודל עם הנחיה של שרשרת מחשבה כדי להפגין מיומנויות פורצות דרך באתגרי חשיבה הדורשים אריתמטיקה מרובה-שלבית או היגיון בריא.
LLMs קודמים, כגון Gopher, הרוויחו פחות מגודל הדגם במונחים של שיפור הביצועים. ה-PaLM 540B עם הנחיית שרשרת מחשבה הצליחה היטב בשלושה מערכי נתונים אריתמטיים ושניים של חשיבה רגילה.
PaLM עולה על הציון הטוב ביותר הקודם של 55%, שהושג על ידי כוונון עדין של מודל ה-GPT-3 175B עם מערך הדרכה של 7500 בעיות ושילובו עם מחשבון ומאמת חיצוניים כדי לפתור 58 אחוז מהבעיות ב-GSM8K, א. אמת מידה של אלפי שאלות מתמטיות קשות ברמת בית הספר היסודי באמצעות הנחיה של 8 יריות.
ציון חדש זה ראוי לציון במיוחד מכיוון שהוא מתקרב לממוצע של 60% של מכשולים שחווים ילדים בני 9-12. זה יכול גם להגיב לבדיחות מקוריות שאינן זמינות באינטרנט.
3. יצירת קוד
LLMs הוכחו גם כביצועים טובים במשימות קידוד, כולל הפקת קוד מתיאור שפה טבעית (טקסט לקוד), תרגום קוד בין שפות ופתרון שגיאות קומפילציה. למרות שיש רק 5% קוד במערך הנתונים שלפני ההדרכה, PaLM 540B מתפקד היטב הן במשימות קידוד והן בשפה טבעית במודל יחיד.
ביצועי הצילומים המועטים שלו מדהימים, מכיוון שהוא תואם לקודקס 12B המכוונן עדין בזמן אימון עם פי 50 פחות קוד Python. ממצא זה תומך בממצאים קודמים לפיהם מודלים גדולים יותר יכולים להיות יעילים יותר מדגמים ממודלים קטנים יותר מכיוון שהם יכולים להעביר בצורה יעילה יותר למידה מכמה שפות תכנות ונתוני שפה פשוטה.
סיכום
PaLM מראה את היכולת של מערכת Pathways להתאים לאלפי מעבדי מאיץ על פני שני TPU v4 Pods על ידי הכשרה יעילה של מודל של 540 מיליארד פרמטרים עם מתכון שנלמד היטב ומבוסס היטב של דגם טרנספורמר צפוף בלבד עם מפענח.
הוא משיג ביצועים פורצי דרך של מספר יריות על פני מגוון של אתגרי עיבוד, חשיבה וקידוד בשפה טבעית על ידי דחיקת גבולות סולם המודלים.
השאירו תגובה