גרויס שפּראַך מאָדעלס: אַלץ איר דאַרפֿן צו וויסן

טיש פון קאָנטענץ[באַהאַלטן][ווייַזן]

וואָס איז אַ גרויס שפּראַך מאָדעל?
ווי זענען LLMs טריינד?+-
- פאַר-טריינינג מיט אַ טראַנספאָרמער אַרטשיטעקטורע
- פייַן-טונינג
לימיטיישאַנז פון גרויס שפּראַך מאָדעלס+-
סאָף

א קלאַסישער פּראָבלעם אין קינסטלעך סייכל איז די יאָג פון אַ מאַשין וואָס קענען פֿאַרשטיין מענטש שפּראַך.

פֿאַר בייַשפּיל, ווען איר זוכט פֿאַר "ניין איטאַליעניש רעסטראַנץ" אויף דיין באַליבסטע זוכן מאָטאָר, אַן אַלגערידאַם מוזן אַנאַלייז יעדער וואָרט אין דיין אָנפֿרעג און אַרויספירן די באַטייַטיק רעזולטאַטן. א לייַטיש איבערזעצונג אַפּ וועט האָבן צו פֿאַרשטיין דעם קאָנטעקסט פון אַ באַזונדער וואָרט אין ענגליש און עפעס אַקאַונץ פֿאַר די דיפעראַנסיז אין גראַמאַטיק צווישן שפּראַכן.

אַלע די טאַסקס און פיל מער פאַלן אונטער די סובפיעלד פון קאָמפּיוטער וויסנשאַפֿט באקאנט ווי נאַטירלעך שפּראַך פּראַסעסינג אָדער NLP. אַדוואַנסאַז אין NLP האָבן געפֿירט צו אַ ברייט קייט פון פּראַקטיש אַפּלאַקיישאַנז פון ווירטואַל אַסיסטאַנץ ווי אַמאַזאָן ס Alexa צו ספּאַם פילטערס וואָס דעטעקט בייזע E- בריוו.

די לעצטע ברייקטרו אין NLP איז דער געדאַנק פון אַ גרויס שפּראַך מאָדעל אָדער LLM. LLMs אַזאַ ווי GPT-3 האָבן ווערן אַזוי שטאַרק אַז זיי ויסקומען צו זיין געראָטן אין כּמעט קיין NLP אַרבעט אָדער נוצן פאַל.

אין דעם אַרטיקל, מיר וועלן קוקן אין וואָס פּונקט LLMs זענען, ווי די מאָדעלס זענען טריינד און די קראַנט לימיטיישאַנז זיי האָבן.

וואָס איז אַ גרויס שפּראַך מאָדעל?

אין זיין האַרץ, אַ שפּראַך מאָדעל איז פשוט אַ אַלגערידאַם וואָס ווייסט ווי מסתּמא אַ סיקוואַנס פון ווערטער איז אַ גילטיק זאַץ.

א זייער פשוטער שפראך-מאדעל וואס איז אויסגעלערנט געווארן אויף עטליכע הונדערט ביכער זאל קענען זאגן אז "ער איז אהיים געגאנגען" איז מער גילטיק ווי "היים הלך ער".

אויב מיר פאַרבייַטן די לעפיערעך קליין דאַטאַסעט מיט אַ מאַסיוו דאַטאַסעט סקריפּט פון די אינטערנעט, מיר אָנהייבן צו צוגאַנג דעם געדאַנק פון אַ גרויס שפּראַך מאָדעל.

ניצן נוראַל נעטוואָרקס, ריסערטשערז קענען באַן LLMs אויף אַ גרויס סומע פון טעקסט דאַטן. ווייַל פון די סומע פון טעקסט דאַטן די מאָדעל האט געזען, די LLM ווערט זייער גוט אין פּרידיקטינג די ווייַטער וואָרט אין אַ סיקוואַנס.

דער מאָדעל ווערט אַזוי סאַפיסטאַקייטיד, עס קענען דורכפירן אַ פּלאַץ פון NLP טאַסקס. די טאַסקס אַרייַננעמען סאַמערייזינג טעקסט, קריייטינג ראָמאַן אינהאַלט און אפילו סימיאַלייטינג מענטש-ווי שמועס.

גרויס שפּראַך מאָדעלס קענען שאַפֿן ראָמאַן אינהאַלט באזירט אויף פּראַמפּס

צום ביישפּיל, דער העכסט פאָלקס GPT-3 שפּראַך מאָדעל איז טריינד מיט איבער 175 ביליאָן פּאַראַמעטערס און איז גערעכנט ווי די מערסט אַוואַנסירטע שפּראַך מאָדעל ביז איצט.

עס איז ביכולת צו דזשענערייט ארבעטן קאָד, שרייַבן גאַנץ אַרטיקלען, און קענען נעמען אַ שאָס צו ענטפֿערן פֿראגן וועגן קיין טעמע.

ווי זענען LLMs טריינד?

מיר האָבן בעקיצער גערירט דעם פאַקט אַז LLMs שולדיק זייַן אַ פּלאַץ פון זייער מאַכט צו די גרייס פון זייער טריינינג דאַטן. עס איז אַ סיבה וואָס מיר רופן זיי נאָך "גרויס" שפּראַך מאָדעלס.

פאַר-טריינינג מיט אַ טראַנספאָרמער אַרטשיטעקטורע

בעשאַס די פאַר-טריינינג בינע, LLMs זענען באַקענענ צו יגזיסטינג טעקסט דאַטן צו לערנען די אַלגעמיינע סטרוקטור און כּללים פון אַ שפּראַך.

אין די לעצטע יאָרן, LLMs האָבן שוין פאַר-טריינד אויף דאַטאַסעץ וואָס דעקן אַ באַטייטיק טייל פון די עפנטלעך אינטערנעט. פֿאַר בייַשפּיל, די שפּראַך מאָדעל פון GPT-3 איז טריינד אויף דאַטן פון די פּראָסט קריכן דאַטאַבייס, אַ קאָרפּוס פון וועב אַרטיקלען, וועב זייַטלעך און דידזשאַטייזד ביכער סקרייפּט פֿון איבער 50 מיליאָן דאָומיינז.

די מאַסיוו דאַטאַסעט איז דעמאָלט פאסטעכער אין אַ מאָדעל באקאנט ווי אַ דעסטרויער. טראַנספאָרמערס זענען אַ טיפּ פון טיף נעוראַל נעץ וואָס אַרבעט בעסטער פֿאַר סאַקווענטשאַל דאַטן.

גרויס שפּראַך מאָדעלס נוצן טראַנספאָרמערס

טראַנספאָרמערס נוצן אַן ענקאָדער-דעקאָדער אַרקאַטעקטשער פֿאַר האַנדלינג אַרייַנשרייַב און רעזולטאַט. יסענשאַלי, די טראַנספאָרמער כּולל צוויי נעוראַל נעטוואָרקס: אַ ענקאָדער און אַ דעקאָדער. די ענקאָדער קענען עקסטראַקט די טייַטש פון די אַרייַנשרייַב טעקסט און קראָם עס ווי אַ וועקטאָר. דער דעקאָדער דעמאָלט נעמט די וועקטאָר און טראגט זייַן ינטערפּריטיישאַן פון די טעקסט.

אָבער, דער שליסל באַגריף וואָס ערלויבט די טראַנספאָרמער אַרקאַטעקטשער צו אַרבעטן אַזוי גוט איז די דערצו פון אַ זיך-ופמערקזאַמקייט מעקאַניזאַם. דער באַגריף פון זיך-ופמערקזאַמקייט ערלויבט די מאָדעל צו באַצאָלן ופמערקזאַמקייַט צו די מערסט וויכטיק ווערטער אין אַ געגעבן זאַץ. דער מעקאַניזאַם אפילו באַטראַכט די ווייץ צווישן ווערטער וואָס זענען ווייַט באַזונדער סאַקווענטשאַלי.

אן אנדער נוץ פון זיך-ופמערקזאַמקייט איז אַז דער פּראָצעס קענען זיין פּאַראַלעליזעד. אַנשטאָט פּראַסעסינג סאַקווענטשאַל דאַטן אין סדר, טראַנספאָרמער מאָדעלס קענען פּראָצעס אַלע ינפּוץ אין אַמאָל. דאָס ינייבאַלז טראַנספאָרמערס צו באַן אויף ריזיק אַמאַונץ פון דאַטן לעפיערעך געשווינד קאַמפּערד מיט אנדערע מעטהאָדס.

פייַן-טונינג

נאָך די פאַר-טריינינג בינע, איר קענען קלייַבן צו באַקענען נייַע טעקסט פֿאַר די באַזע LLM צו באַן אויף. מיר רופן דעם פּראָצעס פייַן-טונינג און איז אָפט געניצט צו פֿאַרבעסערן די רעזולטאַט פון די LLM אויף אַ ספּעציפיש אַרבעט.

פֿאַר בייַשפּיל, איר קען וועלן צו נוצן אַ LLM צו דזשענערייט אינהאַלט פֿאַר דיין טוויטטער חשבון. מיר קענען צושטעלן די מאָדעל עטלעכע ביישפילן פון דיין פריערדיקן טוועעץ צו געבן עס אַ געדאַנק פון די געוואלט רעזולטאַט.

עס זענען עטלעכע פאַרשידענע טייפּס פון פיין-טונינג.

גרויס שפּראַך מאָדעלס זענען טויגעוודיק פון ווייניק שאָס לערנען

ווייניק-שאָס לערנען רעפערס צו דעם פּראָצעס פון געבן אַ מאָדעל אַ קליין נומער פון ביישפילן מיט די דערוואַרטונג אַז די שפּראַך מאָדעל וועט רעכענען אויס ווי צו מאַכן ענלעך רעזולטאַט. איין-שאָס לערנען איז אַ ענלעך פּראָצעס אַחוץ בלויז אַ איין בייַשפּיל איז צוגעשטעלט.

לימיטיישאַנז פון גרויס שפּראַך מאָדעלס

LLMs אַזאַ ווי GPT-3 זענען ביכולת צו דורכפירן אַ גרויס נומער פון נוצן קאַסעס אפילו אָן פיין-טונינג. אָבער, די מאָדעלס נאָך קומען מיט זייער אייגענע לימיטיישאַנז.

פעלן פון אַ סעמאַנטיק פארשטאנד פון דער וועלט

אויף די ייבערפלאַך, LLMs דערשייַנען צו ווייַזן סייכל. אָבער, די מאָדעלס טאָן ניט אַרבעטן די זעלבע ווי די מענטשלעך מאַרך טוט. LLMs בלויז פאַרלאָזנ אויף סטאַטיסטיש קאַמפּיוטיישאַנז צו דזשענערייט רעזולטאַט. זיי טאָן ניט האָבן די פיייקייט צו פאַרשאַפן געדאנקען און קאַנסעפּס אויף זייער אייגן.

צוליב דעם, אַ LLM קענען אַרויספירן נאַנסענסיקאַל ענטפֿערס פשוט ווייַל די ווערטער ויסקומען "רעכט" אָדער "סטאַטיסטיש מסתּמא" ווען געשטעלט אין דעם באַזונדער סדר.

האַלוסוסינאַטיאָנס

מאָדעלס ווי GPT-3 אויך ליידן פון ומפּינקטלעך רעספּאָנסעס. LLMs קענען ליידן פון אַ דערשיינונג באקאנט ווי כאַלוסאַניישאַן ווו מאָדעלס אַרויסגעבן אַ פאַקטשואַלי פאַלש ענטפער אָן קיין וויסיקייַט אַז דער ענטפער האט קיין יקער אין פאַקט.

פֿאַר בייַשפּיל, אַ באַניצער קען פרעגן דעם מאָדעל צו דערקלערן סטיוו דזשאָבס 'געדאַנק אויף די לעצטע iPhone. דער מאָדעל קען דזשענערייט אַ ציטירן פון דין לופט באזירט אויף זיין טריינינג דאַטן.

בייאַסיז און לימיטעד וויסן

ווי פילע אנדערע אַלגערידאַמז, גרויס שפּראַך מאָדעלס זענען פּראָנע צו ירשענען די בייאַסיז פאָרשטעלן אין די טריינינג דאַטן. ווען מיר אָנהייבן צו פאַרלאָזנ זיך מער אויף LLMs צו צוריקקריגן אינפֿאָרמאַציע, די דעוועלאָפּערס פון די מאָדעלס זאָל געפֿינען וועגן צו פאַרמינערן די פּאַטענטשאַלי שעדלעך יפעקץ פון בייאַסט רעספּאָנסעס.

אין אַ ענלעך קאַפּאַציטעט, די בלינדספּאַץ פון די טריינינג דאַטן פון די מאָדעל וועט אויך שטערן די מאָדעל זיך. דערווייַל, גרויס שפּראַך מאָדעלס נעמען חדשים צו באַן. די מאָדעלס אויך פאַרלאָזנ אויף דאַטאַסעץ וואָס זענען לימיטעד אין פאַרנעם. דאָס איז וואָס ChatGPT בלויז לימיטעד וויסן פון געשעענישן וואָס זענען פארגעקומען אין 2021.

סאָף

גרויס שפּראַך מאָדעלס האָבן די פּאָטענציעל צו טאַקע טוישן ווי מיר ינטעראַקט מיט טעכנאָלאָגיע און אונדזער וועלט אין אַלגעמיין.

די וואַסט סומע פון דאַטן בנימצא אויף דער אינטערנעץ האט געגעבן ריסערטשערז אַ וועג צו מאָדעל די קאַמפּלעקסיטיז פון שפּראַך. אָבער, אויף דעם וועג, די שפּראַך מאָדעלס ויסקומען צו האָבן פּיקט זיך אויף אַ מענטש-ווי פארשטאנד פון דער וועלט ווי עס איז.

ווי דער ציבור הייבט צו צוטרוי די שפּראַך מאָדעלס צו צושטעלן פּינטלעך רעזולטאַט, ריסערטשערז און דעוועלאָפּערס זענען שוין געפונען וועגן צו לייגן גאַרדריילז אַזוי אַז די טעכנאָלאָגיע בלייבט עטישע.

וואָס טאָן איר טראַכטן איז די צוקונפֿט פון LLMs?

גרויס שפּראַך מאָדעלס: אַלץ איר דאַרפֿן צו וויסן

וואָס איז אַ גרויס שפּראַך מאָדעל?

ווי זענען LLMs טריינד?