ביישפילן פון גראַדיענט אַראָפּגאַנג אַלגערידאַם

מיר האָבן אַפּטאַמאַזיישאַן פּראָבלעמס אין פילע פאַקטיש-וועלט צושטאנדן ווו מיר דאַרפֿן צו ידענטיפיצירן די מינימום אָדער מאַקסימום פון אַ פֿונקציע.

באַטראַכטן אַ פֿונקציע צו זיין אַ מאַטאַמאַטיקאַל פאַרטרעטונג פון אַ סיסטעם, און די באַשטימען זייַן מינימום אָדער מאַקסימום קענען זיין קריטיש פֿאַר אַ פאַרשיידנקייַט פון אַפּלאַקיישאַנז אַזאַ ווי מאַשין לערנען, ינזשעניעריע, פינאַנצן און אנדערע.

באַטראַכטן אַ לאַנדשאַפט מיט היללס און וואַליז, און אונדזער ציל איז צו געפֿינען די לאָואַסט פונט (מינימום) צו באַקומען צו אונדזער דעסטיניישאַן ווי געשווינד ווי מעגלעך.

מיר אָפט נוצן גראַדיענט אַראָפּגאַנג אַלגערידאַמז צו סאָלווע אַזאַ אַפּטאַמאַזיישאַן טשאַלאַנדזשיז. די אַלגערידאַמז זענען יטעראַטיוו אַפּטאַמאַזיישאַן מעטהאָדס פֿאַר מינאַמייזינג אַ פֿונקציע דורך גענומען סטעפּס אין דער ריכטונג פון די סטיפּאַסט אַראָפּגאַנג (נעגאַטיוו גראַדיענט).

דער גראַדיענט ריפלעקס די ריכטונג מיט די סטיפּאַסט פאַרגרעסערן אין די פֿונקציע, און טראַוואַלינג אין די פאַרקערט ריכטונג פירט אונדז צו די מינימום.

וואָס פּונקט איז די גראַדיענט אַראָפּגאַנג אַלגערידאַם?

גראַדיענט אַראָפּגאַנג איז אַ פאָלקס יטעראַטיווע אַפּטאַמאַזיישאַן צוגאַנג פֿאַר דיטערמאַנינג די מינימום (אָדער מאַקסימום) פון אַ פֿונקציע.

עס איז אַ קריטיש געצייַג אין עטלעכע פעלדער, אַרייַנגערעכנט מאַשין וויסן, טיף לערנען, קינסטלעך סייכל, ינזשעניעריע און פינאַנצן.

דער גרונט פּרינציפּ פון די אַלגערידאַם איז באזירט אויף זייַן נוצן פון די גראַדיענט, וואָס דיספּלייז די ריכטונג פון די שארפסט פאַרגרעסערן אין די ווערט פון די פֿונקציע.

דער אַלגערידאַם יפישאַנטלי נאַוואַגייץ די לאַנדשאַפט פון די פֿונקציע צו די מינימום דורך ריפּיטידלי נעמען סטעפּס אין די פאַרקערט ריכטונג ווי די גראַדיענט, יטעראַטיוולי ראַפינירן די לייזונג ביז קאַנווערדזשאַנס.

פארוואס טאָן מיר נוצן גראַדיענט אַראָפּגאַנג אַלגערידאַמז?

פֿאַר סטאַרטערס, זיי קענען זיין געוויינט צו סאָלווע אַ ברייט פאַרשיידנקייַט פון אַפּטאַמאַזיישאַן פּראָבלעמס, אַרייַנגערעכנט די מיט הויך-דימענשאַנאַל ספּייסאַז און קאָמפּלעקס פאַנגקשאַנז.

רגע, זיי קענען געפֿינען אָפּטימאַל סאַלושאַנז געשווינד, ספּעציעל ווען די אַנאַליסיס לייזונג איז אַנאַוויילאַבאַל אָדער קאַמפּיוטישאַנאַלי טייַער.

גראַדיענט אַראָפּגאַנג טעקניקס זענען העכסט סקאַלאַבלע און קענען הצלחה שעפּן ריזיק דאַטאַסעץ.

ווי אַ רעזולטאַט, זיי זענען וויידלי געניצט אין מאַשין לערנען אַלגערידאַמז ווי טריינינג נעוראַל נעטוואָרקס צו לערנען פון דאַטן און מאָדיפיצירן זייער פּאַראַמעטערס צו מינאַמייז פּראָגנאָז מיסטייקס.

א דעטאַילעד בייַשפּיל פון גראַדיענט אַראָפּגאַנג סטעפּס

זאל ס קוק אין אַ מער דיטיילד בייַשפּיל צו האָבן אַ בעסער פארשטאנד פון די גראַדיענט אַראָפּגאַנג טעכניק.

באַטראַכטן די 2D פֿונקציע f (x) = x2, וואָס דזשענערייץ אַ יקערדיק פּעראַבאַליק ויסבייג מיט אַ מינימום ביי (0,0). די גראַדיענט אַראָפּגאַנג אַלגערידאַם וועט זיין געניצט צו באַשטימען דעם מינימאַל פונט.

שריט 1: יניטיאַליזאַטיאָן

די גראַדיענט אַראָפּגאַנג אַלגערידאַם הייבט מיט יניטיאַליזינג די ווערט פון די בייַטעוודיק X, רעפּריזענטיד ווי X0.

דער ערשט ווערט קענען האָבן אַ היפּש פּראַל אויף די פאָרשטעלונג פון די אַלגערידאַם.

ראַנדאָם יניטיאַליזאַטיאָן אָדער ניצן פריערדיק וויסן פון דעם פּראָבלעם זענען צוויי פּראָסט טעקניקס. יבערנעמען אַז x₀ = 3 אין די אָנהייב פון אונדזער פאַל.

שריט 2: רעכענען די גראַדיענט

די גראַדיענט פון די פֿונקציע f(x) אין די פאָרשטעלן שטעלע x₀. מוז מען דעמאלט אויסרעכענען.

דער גראַדיענט ינדיקייץ די שיפּוע אָדער קורס פון טוישן פון די פֿונקציע אין דעם באַזונדער שטעלע.

מיר רעכענען די דעריוואַט וועגן X פֿאַר די פֿונקציע f(x) = x2, וואָס גיט f'(x) = 2x. מיר באַקומען די גראַדיענט ביי X0 ווי 2 * 3 = 6 דורך סאַבסטיטוטינג X₀ = 3 אין די גראַדיענט כעזשבן.

שריט 3: דערהייַנטיקן פּאַראַמעטערס

ניצן די גראַדיענט אינפֿאָרמאַציע, מיר דערהייַנטיקן די ווערט פון x ווי גייט: x = x₀ – α * f'(x₀), ווו α (אַלף) דינאָוץ די לערנען קורס.

די לערנען קורס איז אַ כייפּערפּאַראַמעטער וואָס דיטערמאַנז די גרייס פון יעדער שריט אין די אַפּדייטינג פּראָצעס. באַשטעטיקן אַ צונעמען לערנען קורס איז קריטיש ווייַל אַ פּאַמעלעך לערנען קורס קענען פאַרשאַפן די אַלגערידאַם צו נעמען צו פילע רעפּאַטישאַנז צו דערגרייכן די מינימום.

א הויך לערנען קורס, אויף די אנדערע האַנט, קענען רעזולטאַט אין די אַלגערידאַם באַונסינג אָדער פיילינג צו קאַנווערדזש. זאל אונדז יבערנעמען אַ לערנען קורס פון α = 0.1 פֿאַר די צוליב פון דעם בייַשפּיל.

שריט 4: איבערחזרן

נאָך מיר האָבן די דערהייַנטיקט ווערט פון X, מיר איבערחזרן סטעפּס 2 און 3 פֿאַר אַ פּרידיטערמינד נומער פון יטעריישאַנז אָדער ביז די ענדערונג אין X ווערט מינימאַל, וואָס ינדיקייץ קאַנווערדזשאַנס.

דער אופֿן קאַלקיאַלייץ די גראַדיענט, דערהייַנטיקונגען די ווערט פון X, און פאָרזעצן די פּראָצעדור ביי יעדער יטעראַטיאָן, אַלאַוינג עס צו באַקומען נעענטער צו די מינימום.

שריט 5: קאַנווערדזשאַנס

די טעכניק קאַנווערדזשיז נאָך אַ ביסל יטעריישאַנז צו אַ פונט ווו ווייַטער דערהייַנטיקונגען טאָן ניט מאַטיריאַלי פּראַל די ווערט פון די פונקציע.

אין אונדזער פאַל, ווי די יטעריישאַנז פאָרזעצן, x וועט צוגאַנג 0, וואָס איז די מינימום ווערט פון f (x) = x ^ 2. די נומער פון יטעריישאַנז נייטיק פֿאַר קאַנווערדזשאַנס איז באשלאסן דורך סיבות אַזאַ ווי די אויסגעקליבן לערנען קורס און די קאַמפּלעקסיטי פון די אָפּטימיזעד פאַנגקשאַנז.
גראַדיענט אַראָפּגאַנג בייַשפּיל

טשאָאָסינג אַ לערנען קורס ()

טשאָאָסינג אַ פּאַסיק לערנען קורס () איז קריטיש פֿאַר די יפעקטיוונאַס פון די גראַדיענט אַראָפּגאַנג אַלגערידאַם. ווי פריער סטייטיד, אַ נידעריק לערנען קורס קענען אָנמאַכן פּאַמעלעך קאַנווערדזשאַנס, כאָטש אַ הויך לערנען קורס קענען אָנמאַכן אָוווערשאָאָטינג און דורכפאַל צו קאַנווערדזש.

געפֿינען די געהעריק וואָג איז קריטיש צו ענשור אַז די אַלגערידאַם קאַנווערדזשז צו די בדעה מינימום ווי יפישאַנטלי ווי מעגלעך.

טונינג די לערנען קורס איז אָפט אַ פּראָצעס-און-טעות פּראָצעדור אין פיר. רעסעאַרטשערס און פּראַקטישנערז רוטינלי עקספּערימענט מיט פאַרשידענע לערנען רייץ צו זען ווי זיי ווירקן די קאַנווערדזשאַנס פון די אַלגערידאַם אויף זייער באַזונדער אַרויסרופן.

האַנדלינג ניט-קאָנוועקס פאַנגקשאַנז

בשעת די פריערדיקע בייַשפּיל האט אַ פּשוט קאַנוועקס פונקציע, פילע פאַקטיש-וועלט אַפּטאַמאַזיישאַן ישוז אַרייַנציען ניט-קאַנוועקס פאַנגקשאַנז מיט פילע היגע מינימאַ.

ווען ניצן גראַדיענט אַראָפּגאַנג אין אַזאַ קאַסעס, דער אופֿן קענען קאַנווערדזש צו אַ היגע מינימום אלא ווי די גלאבאלע מינימום.

עטלעכע אַוואַנסירטע פארמען פון גראַדיענט אַראָפּגאַנג זענען דעוועלאָפּעד צו באַקומען דעם אַרויסגעבן. סטאָטשאַסטיק גראַדיענט אַראָפּגאַנג (SGD) איז איין אַזאַ אופֿן וואָס ינטראַדוסיז ראַנדאַמנאַס דורך פּיקינג אַ טראַפ - סאַבסעט פון דאַטן פונקטן (באקאנט ווי אַ מיני-פּעקל) צו רעכענען די גראַדיענט ביי יעדער יטעראַטיאָן.

די ראַנדאָם מוסטערונג אַלאַוז די אַלגערידאַם צו ויסמיידן היגע מינימאַ און ויספאָרשן נייַע פּאַרץ פון די פֿונקציע ס טעריין, און פאַרגרעסערן די גיכער פון דיסקאַווערד אַ בעסער מינימום.

אַדאַם (אַדאַפּטיווע מאָמענט אָפּשאַצונג) איז אן אנדער באַוווסט ווערייישאַן, וואָס איז אַ אַדאַפּטיוו לערנען קורס אַפּטאַמאַזיישאַן צוגאַנג וואָס ינקאָרפּערייץ די בענעפיץ פון ביידע RMSprop און מאָמענטום.

Adam מאָדיפיצירט די לערנען קורס פֿאַר יעדער פּאַראַמעטער דינאַמיקאַללי באזירט אויף פרייַערדיק גראַדיענט אינפֿאָרמאַציע, וואָס קען רעזולטאַט אין בעסער קאַנווערדזשאַנס אויף ניט-קאַנוועקס פאַנגקשאַנז.

די סאַפיסטאַקייטיד גראַדיענט אַראָפּגאַנג ווערייישאַנז האָבן פּראָווען צו זיין עפעקטיוו אין האַנדלינג ינקריסינגלי קאָמפּליצירט פאַנגקשאַנז און האָבן ווערן נאָרמאַל מכשירים אין מאַשין לערנען און טיף לערנען, ווו ניט-קאַנוועקס אַפּטאַמאַזיישאַן ישוז זענען פּראָסט.

שריט 6: וויזשוואַלייז דיין פּראָגרעס

לאָמיר זען די פּראָגרעס פון די גראַדיענט אַראָפּגאַנג אַלגערידאַם צו באַקומען אַ בעסער פארשטאנד פון זיין יטעראַטיוו פּראָצעס. באַטראַכטן אַ גראַפיק מיט אַן X-אַקס וואָס רעפּראַזענץ יטעריישאַנז און אַ י-אַקס רעפּריזענטינג די ווערט פון די פֿונקציע f(x).

ווען דער אַלגערידאַם יטערייץ, די ווערט פון x אַפּראָוטשיז נול און, ווי אַ רעזולטאַט, די פֿונקציע ווערט פאַלן מיט יעדער שריט. ווען פּלאַטעד אויף אַ גראַפיק, דאָס וואָלט ווייַזן אַ בוילעט דיקריסינג גאַנג, וואָס ריפלעקס די פּראָגרעס פון די אַלגערידאַם צו דערגרייכן די מינימום.

שריט 7: פיין-טונינג די לערנען קורס

די לערנען קורס () איז אַ וויכטיק פאַקטאָר אין די פאָרשטעלונג פון די אַלגערידאַם. אין פיר, די באַשטימען די ידעאַל לערנען קורס אָפט דאַרף פּראָצעס און טעות.

עטלעכע אַפּטאַמאַזיישאַן טעקניקס, אַזאַ ווי לערנען קורס סקעדזשולז, קענען טוישן די לערנען קורס דינאַמיקאַללי בעשאַס טריינינג, סטאַרטינג מיט אַ העכער ווערט און ביסלעכווייַז דיקריסינג עס ווען די אַלגערידאַם אַפּראָוטשיז קאַנווערדזשאַנס.

דער אופֿן העלפּס צו דערגרייכן אַ וואָג צווישן גיך אַנטוויקלונג אין די אָנהייב און פעסטקייַט לעבן די סוף פון די אַפּטאַמאַזיישאַן פּראָצעס.

אן אנדער בייַשפּיל: מינאַמייזינג אַ קוואַדראַטיק פונקציע

זאל ס קוק אין אן אנדער בייַשפּיל צו באַקומען אַ בעסער פארשטאנד פון גראַדיענט אַראָפּגאַנג.

באַטראַכטן די צוויי-דימענשאַנאַל קוואַדראַטיק פֿונקציע ג (רענטגענ) = (רענטגענ - 5) ^ 2. ביי x = 5, די פֿונקציע אויך האט אַ מינימום. צו געפֿינען דעם מינימום, מיר וועלן צולייגן גראַדיענט אַראָפּגאַנג.

1. יניטיאַליזאַטיאָן: לאָמיר אָנהייבן מיט x0 = 8 ווי אונדזער סטאַרטינג פונט.

2. רעכענען די גראַדיענט פון ג (רענטגענ): ג' (רענטגענ) = 2 (רענטגענ - 5). ווען מיר פאַרבייַטן X0 = 8, די גראַדיענט ביי X0 איז 2 * (8 - 5) = 6.

3. מיט = 0.2 ווי אונדזער לערנען קורס, מיר דערהייַנטיקן X ווי גייט: X = X₀ – α * ג'(X₀) = 8 – 0.2 * 6 = 6.8.

4. יטעראַטע: מיר איבערחזרן סטעפּס 2 און 3 ווי פילע מאָל ווי נייטיק ביז קאַנווערדזשאַנס איז ריטשט. יעדער ציקל ברענגט X נעענטער צו 5, די מינימאַל ווערט פון ג (רענטגענ) = (רענטגענ - 5) 2.

5. קאַנווערדזשאַנס: דער אופֿן וועט יווענטשאַוואַלי קאַנווערדזש צו X = 5, וואָס איז די מינימאַל ווערט פון ג (רענטגענ) = (רענטגענ - 5) 2.

לערנען ראַטעס פאַרגלייַך

זאל ס פאַרגלייַכן די קאַנווערדזשאַנס גיכקייַט פון גראַדיענט אַראָפּגאַנג פֿאַר פאַרשידענע לערנען רייץ, זאָגן α = 0.1, α = 0.2, און α = 0.5 אין אונדזער נייַע בייַשפּיל. מיר קענען זען אַז אַ נידעריקער לערנען קורס (למשל, = 0.1) וועט רעזולטאַט אין אַ מער קאַנווערדזשאַנס אָבער אַ מער פּינטלעך מינימום.

א העכער לערנען קורס (למשל, = 0.5) וועט קאַנווערדזש פאַסטער אָבער קענען אָוווערשאָאָט אָדער אַסאַלייט וועגן די מינימום, ריזאַלטינג אין פּורער אַקיעראַסי.

א מולטימאָדאַל בייַשפּיל פון ניט-קאָנוועקס פאַנגקשאַנז האַנדלינג

באַטראַכטן ה (קסנומקס) = זינד (קסנומקס) + 0.5קס, אַ ניט-קאַנוועקס פֿונקציע.

עס זענען עטלעכע היגע מינימאַ און מאַקסימאַ פֿאַר דעם פֿונקציע. דעפּענדינג אויף די סטאַרטינג שטעלע און לערנען קורס, מיר קענען קאַנווערדזש צו קיין פון די היגע מינימאַ ניצן נאָרמאַל גראַדיענט אַראָפּגאַנג.

מיר קענען סאָלווע דעם דורך ניצן מער אַוואַנסירטע אַפּטאַמאַזיישאַן טעקניקס ווי Adam אָדער סטאָטשאַסטיק גראַדיענט אַראָפּגאַנג (SGD). די מעטהאָדס נוצן אַדאַפּטיוו לערנען רייץ אָדער טראַפ - מוסטערונג צו ויספאָרשן פאַרשידענע מקומות פון די לאַנדשאַפט פון די פֿונקציע, ינקריסינג די ליקעליהאָאָד צו דערגרייכן אַ בעסער מינימום.

סאָף

גראַדיענט אַראָפּגאַנג אַלגערידאַמז זענען שטאַרק אַפּטאַמאַזיישאַן מכשירים וואָס זענען וויידלי געניצט אין אַ ברייט קייט פון ינדאַסטריז. זיי אַנטדעקן די לאָואַסט (אָדער מאַקסימום) פון אַ פֿונקציע דורך יטעראַטיוולי אַפּדייטינג פּאַראַמעטערס באזירט אויף דער ריכטונג פון די גראַדיענט.

ווייַל פון די יטעראַטיוו נאַטור פון די אַלגערידאַם, עס קענען שעפּן הויך-דימענשאַנאַל ספּייסאַז און קאָמפּלעקס פאַנגקשאַנז, וואָס מאכט עס ינדיספּענסאַבאַל אין מאַשין לערנען און דאַטן פּראַסעסינג.

גראַדיענט אַראָפּגאַנג קענען לייכט מאַכנ פאַקטיש-וועלט שוועריקייטן און זייער ביישטייערן צו דער וווּקס פון טעכנאָלאָגיע און דאַטן-געטריבן באַשלוס-מאכן דורך קערפאַלי סעלעקטינג די לערנען קורס און אַפּלייינג אַוואַנסירטע ווערייישאַנז אַזאַ ווי סטאָטשאַסטיק גראַדיענט אַראָפּגאַנג און Adam.

ביישפילן פון גראַדיענט אַראָפּגאַנג אַלגערידאַם

ביישפילן פון גראַדיענט אַראָפּגאַנג אַלגערידאַם

וואָס פּונקט איז די גראַדיענט אַראָפּגאַנג אַלגערידאַם?

פארוואס טאָן מיר נוצן גראַדיענט אַראָפּגאַנג אַלגערידאַמז?