גרויס נעוראַל נעטוואָרקס וואָס האָבן שוין טריינד פֿאַר שפּראַך דערקענונג און דור האָבן דעמאַנסטרייטיד בוילעט רעזולטאַטן אין אַ פאַרשיידנקייַט פון טאַסקס אין די לעצטע יאָרן. GPT-3 פּרוווד אַז גרויס שפּראַך מאָדעלס (LLMs) קענען זיין געוויינט פֿאַר ווייניק-שאָס לערנען און באַקומען ויסגעצייכנט רעזולטאַטן אָן ריקוויירינג ברייט אַרבעט-ספּעציפיש דאַטן אָדער טשאַנגינג מאָדעל פּאַראַמעטערס.
Google, די סיליקאָן וואַלי טעק באַהאַמאַט, האט באַקענענ פּאַלם, אָדער פּאַטהווייַס שפּראַך מאָדעל, צו די ווערלדווייד טעק אינדוסטריע ווי דער ווייַטער דור אַי-שפּראַך מאָדעל. גוגל האט ינקאָרפּערייטיד אַ נייַע קינסטלעך סייכל אַרקאַטעקטשער אין פּאַלם מיט סטראַטידזשיק יימז צו פֿאַרבעסערן די קוואַליטעט פון די אַי-שפּראַך מאָדעל.
אין דעם פּאָסטן, מיר וועלן ונטערזוכן די פּאַלם אַלגערידאַם אין דעטאַל, אַרייַנגערעכנט די פּאַראַמעטערס געניצט צו באַן עס, די פּראָבלעם עס סאַלווז, און פיל מער.
וואָס איז גוגל 'ס פּאַלם אַלגערידאַם?
פּאַטהווייַס שפּראַך מאָדעל איז וואָס PALM שטייט פֿאַר. דאָס איז אַ נייַע אַלגערידאַם דעוועלאָפּעד דורך Google אין סדר צו פארשטארקן די פּאַטהווייַס אַי אַרקאַטעקטשער. דער הויפּט ציל פון די סטרוקטור איז צו טאָן אַ מיליאָן פאַרשידענע אַקטיוויטעטן אין אַמאָל.
די אַרייַננעמען אַלץ פון דיסייפערינג קאָמפּלעקס דאַטן צו דעדוקטיווע ריזאַנינג. פּאַLM האט די פיייקייט צו יקסיד די קראַנט אַי שטאַט-פון-דעם-קונסט ווי יומאַנז אין שפּראַך און ריזאַנינג טאַסקס.
דאָס כולל פעו-שאָט לערנען, וואָס מימיקס ווי יומאַנז לערנען נייַע טינגז און פאַרבינדן פאַרשידן ביטן פון וויסן צו מאַכנ נייַע טשאַלאַנדזשיז וואָס האָבן קיינמאָל געווען געזען פריער, מיט די נוץ פון אַ מאַשין וואָס קענען נוצן אַלע זיין וויסן צו סאָלווע נייַע טשאַלאַנדזשיז; איין ביישפּיל פון דעם בקיעס אין פּאַלם איז די פיייקייט צו דערקלערן אַ וויץ וואָס עס האט קיינמאָל געהערט פריער.
פּאַלם דעמאַנסטרייטיד פילע ברייקטרו סקילז אויף אַ פאַרשיידנקייַט פון טשאַלאַנדזשינג טאַסקס, אַרייַנגערעכנט שפּראַך קאַמפּרעשאַן און שאַפונג, מולטי-סטעפּ אַריטמעטיק קאָד-פֿאַרבונדענע אַקטיוויטעטן, פּראָסט זינען ריזאַנינג, איבערזעצונג, און פילע מער.
עס האט דעמאַנסטרייטיד זיין פיייקייט צו סאָלווע קאָמפּליצירט ישוז מיט מאַלטיילינגוואַל NLP שטעלט. פּאַלם קענען ווערן גענוצט דורך די ווערלדווייד טעק מאַרק צו דיפערענשיייט גרונט און ווירקונג, קאַנסעפּטשואַל קאַמבאַניישאַנז, בוילעט שפּילערייַ און פילע אנדערע טינגז.
עס קענען אויך דזשענערייט אין-טיפקייַט דערקלערונגען פֿאַר פילע קאַנטעקסץ ניצן מולטיסטעפּ לאַדזשיקאַל ינפעראַנס, טיף שפּראַך, גלאבאלע וויסן און אנדערע טעקניקס.
ווי האָט Google דעוועלאָפּעד די פּאַלם אַלגערידאַם?
פֿאַר Google ס ברייקטרו פאָרשטעלונג אין פּאַלם, פּאַטווייז זענען סקעדזשולד צו וואָג אַרויף צו 540 ביליאָן פּאַראַמעטערס. עס איז אנערקענט ווי דער איין מאָדעל וואָס קענען יפישאַנטלי און יפעקטיוולי גענעראַליזירן אין פילע דאָומיינז. פּאַטהווייַס ביי Google איז דעדאַקייטאַד צו אַנטוויקלען פונאנדערגעטיילט קאַמפּיוטינג פֿאַר אַקסעלערייטערז.
פּאַלם איז אַ דעקאָדער-בלויז טראַנספאָרמער מאָדעל וואָס איז טריינד מיט די פּאַטהווייַס סיסטעם. פּאַלם האט הצלחה אַטשיווד די לעצטע ביסל-שאָס פאָרשטעלונג אין עטלעכע ווערקלאָודז, לויט Google. פּאַלם האט געניצט די פּאַטהווייַס סיסטעם צו יקספּאַנד טריינינג צו די ביגאַסט טפּו-באזירט סיסטעם קאַנפיגיעריישאַן, באקאנט ווי 6144 טשיפּס פֿאַר די ערשטער מאָל.
א טריינינג דאַטאַסעט פֿאַר די אַי-שפּראַך מאָדעל איז קאַמפּרייזד פון אַ מישן פון ענגליש און אנדערע מאַלטיילינגוואַל דאַטאַסעץ. מיט אַ "לאָססלעסס" וואָקאַבולאַרי, עס כּולל הויך-קוואַליטעט וועב אינהאַלט, דיסקוסיעס, ביכער, גיטהוב קאָד, וויקיפּעדיע, און פילע מער. לאָססלעסס וואָקאַבולאַרי איז אנערקענט פֿאַר ריטיינינג ווייַס ספּייס און ברייקינג אוניקאָד אותיות וואָס זענען נישט אין די וואָקאַבולאַרי אין ביטעס.
פּאַלם איז דעוועלאָפּעד דורך Google און פּאַטהווייַס מיט אַ נאָרמאַל טראַנספאָרמער מאָדעל אַרקאַטעקטשער און אַ דיקאָודער קאַנפיגיעריישאַן וואָס ינקלודז SwiGLU אַקטיוואַטיאָן, פּאַראַלעל לייַערס, ראָפּע עמבעדינגז, שערד אַרייַנשרייַב-רעזולטאַט עמבעדינגז, מאַלטי-אָנפֿרעג ופמערקזאַמקייט, און קיין בייאַסאַז אָדער וואָקאַבולאַרי. פּאַLM, אויף די אנדערע האַנט, איז גרייט צו צושטעלן אַ האַרט יקער פֿאַר Google און Pathways 'AI-שפּראַך מאָדעל.
פּאַראַמעטערס געניצט צו באַן פּאַלם
לעצטע יאָר, Google לאָנטשט פּאַטהווייַס, אַ איין מאָדעל וואָס קענען זיין טריינד צו טאָן טויזנטער, אויב נישט מיליאַנז, פון טינגז - דאַבד די "ווייַטער-דור אַי אַרקאַטעקטשער" זינט עס קענען באַקומען די לימיטיישאַנז פון די יגזיסטינג מאָדעלס צו טאָן בלויז איין זאַך. . אלא ווי יקספּאַנדינג די קייפּאַבילאַטיז פון קראַנט מאָדעלס, נייַ מאָדעלס זענען אָפט געבויט פֿון די דנאָ אַרויף צו ויספירן אַ איין אַרבעט.
ווי אַ רעזולטאַט, זיי האָבן באשאפן טענס פון טויזנטער פון מאָדעלס פֿאַר טענס פון טויזנטער פון פאַרשידענע אַקטיוויטעטן. דאָס איז אַ צייט-קאַנסומינג און מיטל-אינטענסיווע אַרבעט.
Google פּרוווד דורך פּאַטהווייַס אַז אַ איין מאָדעל קען שעפּן אַ פאַרשיידנקייַט פון אַקטיוויטעטן און צוציען און פאַרבינדן קראַנט טאלאנטן צו לערנען נייַ טאַסקס מער געשווינד און יפישאַנטלי.
מולטימאָדאַל מאָדעלס וואָס אַרייַננעמען זעאונג, לינגגוויסטיק קאַמפּריכענשאַן און אָדיטאָרי פּראַסעסינג אַלע אין דער זעלביקער צייט קען זיין ענייבאַלד דורך פּאַטווייז. Pathways Language Model (PaLM) אַלאַוז די טריינינג פון אַ איין מאָדעל אין פילע TPU v4 פּאָדס דאַנק צו זיין 540 ביליאָן פּאַראַמעטער מאָדעל.
פּאַלם, אַ געדיכט דעקאָדער-בלויז טראַנספאָרמער מאָדעל, אַוטפּערפאָרמז די מאָדערן ביסל-שאָס פאָרשטעלונג אין אַ ברייט קייט פון ווערקלאָודז. פּאַלם איז טריינד אויף צוויי TPU v4 פּאָדס וואָס זענען לינגקט דורך אַ דאַטן צענטער נעץ (DCN).
עס ניצט ביידע מאָדעל און דאַטן פּאַראַלעליזאַם. די ריסערטשערז געוויינט 3072 TPU v4 פּראַסעסערז אין יעדער פּאָד פֿאַר פּאַלם, וואָס זענען פארבונדן צו 768 מחנות. לויט די ריסערטשערז, דאָס איז די ביגאַסט TPU קאַנפיגיעריישאַן נאָך דיסקלאָוזד, אַלאַוינג זיי צו וואָג טריינינג אָן ניצן רערנ - ליניע פּאַראַלעליזם.
רער ונטערשלאַק איז דער פּראָצעס פון צונויפקום אינסטרוקציעס פון די קפּו דורך אַ רערנ - ליניע אין אַלגעמיין. די לייַערס פון די מאָדעל זענען צעטיילט אין פאַסעס וואָס קענען זיין פּראַסעסט אין פּאַראַלעל דורך רערנ - ליניע מאָדעל פּאַראַלעליסם (אָדער רערנ - ליניע פּאַראַלעליזם).
די אַקטאַוויישאַן זיקאָרן איז געשיקט צו דער ווייַטער שריט ווען איין בינע קאַמפּליץ די פאָרויס פאָרן פֿאַר אַ מיקראָ פּעקל. די גראַדיענץ זענען דעמאָלט געשיקט צוריק ווען די פאלגענדע בינע קאַמפּליץ זייַן צוריק פּראַפּאַגיישאַן.
פּאַלם ברייקטרו קייפּאַבילאַטיז
פּאַלם דיספּלייז ערד-ברייקינג אַבילאַטיז אין אַ קייט פון שווער טאַסקס. דאָ זענען עטלעכע ביישפילן:
1. שפּראַך שאַפונג און פארשטאנד
פּאַלם איז געווען טעסטעד אויף 29 פאַרשידענע NLP טאַסקס אין ענגליש.
אויף אַ ביסל-שאָס יקער, פּאַלם 540 ב אַוטפּערפאָרמד פריערדיקע גרויס מאָדעלס אַזאַ ווי GLAM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla און LaMDA אויף 28 פון 29 טאַסקס, אַרייַנגערעכנט אָפֿן פעלד פֿאַרמאַכט-בוך וואַריאַנט קשיא-ענטפֿער טאַסקס , קלאָוז און זאַץ-קאַמפּלישאַן טאַסקס, ווינאָגראַד-נוסח טאַסקס, אין-קאָנטעקסט לייענען קאַמפּרעשאַן טאַסקס, פּראָסט ריזאַנינג טאַסקס, סופּערגלוע טאַסקס, און נאַטירלעך ינפעראַנס.
אין עטלעכע גרויס-באַנק טאַסקס, פּאַלם דעמאַנסטרייץ ויסגעצייכנט נאַטירלעך שפּראַך ינטערפּריטיישאַן און דור סקילז. פֿאַר בייַשפּיל, דער מאָדעל קענען ויסטיילן צווישן סיבה און ווירקונג, פֿאַרשטיין קאַנסעפּטשואַל קאַמבאַניישאַנז אין זיכער סיטואַטיאָנס און אפילו טרעפן דעם פֿילם פֿון אַן עמאָדזשי. כאָטש בלויז 22% פון די טריינינג קאָרפּוס איז ניט-ענגליש, פּאַלם פּערפאָרמז גוט אויף מאַלטיילינגוואַל NLP בענטשמאַרקס, אַרייַנגערעכנט איבערזעצונג, אין אַדישאַן צו ענגליש NLP טאַסקס.
2. ריזאַנינג
פּאַלם בלענדז מאָדעל גרייס מיט קייט-פון-געדאַנק פּראַמפּטינג צו באַווייַזן ברייקטרו סקילז אויף ריזאַנינג טשאַלאַנדזשיז וואָס דאַרפן מולטי-סטעפּ אַריטמעטיק אָדער פּראָסט ריזאַנינג.
פריערדיקע LLMs, אַזאַ ווי Gopher, געניסן ווייניקער פון די מאָדעל גרייס אין טערמינען פון ימפּרוווינג פאָרשטעלונג. די פּאַלם 540ב מיט אַ קייט-פון-געדאַנק פּראַמפּטינג איז געווען געזונט אויף דריי אַריטמעטיק און צוויי קאַמאַנסענס טראכטן דאַטאַסעץ.
פּאַלם אַוטפּערפאָרמז די פריערדיקע בעסטער כעזשבן פון 55%, וואָס איז געווען באקומען דורך פיין-טונינג די GPT-3 175B מאָדעל מיט אַ טריינינג גאַנג פון 7500 פּראָבלעמס און קאַמביינינג עס מיט אַ פונדרויסנדיק קאַלקולאַטאָר און וועראַפייער צו סאָלווע 58 פּראָצענט פון די ישוז אין GSM8K, אַ בענטשמאַרק פון טויזנטער פון שווער מאַטאַמאַטיקאַל שאלות אין שולע מיט 8-שאָס פּראַמפּטינג.
דער נייַע כעזשבן איז ספּעציעל נאָוטווערדי זינט עס אַפּראָוטשיז די 60% דורכשניטלעך פון מניעות יקספּיריאַנסט דורך 9-12-יאָר-אַלט. עס קען אויך ריספּאַנד צו אָריגינעל דזשאָוקס וואָס זענען נישט בנימצא אויף דער אינטערנעץ.
3. קאָד דור
LLMs האָבן אויך געוויזן צו דורכפירן גוט אין קאָדירונג טאַסקס, אַרייַנגערעכנט דזשענערייטינג קאָד פֿון אַ נאַטירלעך שפּראַך באַשרייַבונג (טעקסט-צו-קאָד), איבערזעצן קאָד צווישן שפּראַכן און ריזאַלווינג זאַמלונג ערראָרס. טראָץ בלויז 5% קאָד אין די פאַר-טריינינג דאַטאַסעט, PaLM 540B פּערפאָרמז געזונט אויף ביידע קאָודינג און נאַטירלעך שפּראַך טאַסקס אין אַ איין מאָדעל.
זיין ביסל-שאָס פאָרשטעלונג איז גלייבן, ווייַל עס גלייַכן די פיין-טונד קאָדעקס 12 ב בשעת טריינינג מיט 50 מאל ווייניקער פּיטהאָן קאָד. דעם דערגייונג באַקס מיט פריערדיק פיינדינגז אַז גרעסערע מאָדעלס קענען זיין מער מוסטער עפעקטיוו ווי קלענערער מאָדעלס ווייַל זיי קענען מער יפעקטיוולי אַריבערפירן לערנען פון קייפל פּראָגראַממינג שפּראַכן און קלאָר שפּראַך דאַטן.
סאָף
פּאַלם ווייזט די פּאַטהווייַס סיסטעם ס קאַפּאַציטעט צו וואָג צו טויזנטער פון אַקסעלעראַטאָר פּראַסעסערז איבער צוויי TPU v4 פּאָדס דורך יפעקטיוולי טריינינג אַ 540-ביליאָן פּאַראַמעטער מאָדעל מיט אַ געזונט געלערנט, געזונט-געגרינדעט רעצעפּט פון אַ געדיכט דעקאָדער-בלויז טראַנספאָרמער מאָדעל.
עס אַטשיווז ברייקטרו ביסל-שאָס פאָרשטעלונג איבער אַ קייט פון נאַטירלעך שפּראַך פּראַסעסינג, ריזאַנינג און קאָדירונג טשאַלאַנדזשיז דורך פּושינג די גווול פון מאָדעל וואָג.
לאָזן אַ ענטפֿערן