טיש פון קאָנטענץ[באַהאַלטן][ווייַזן]
זאל ס ימאַדזשאַן איר פּרובירן צו לערנען אַ ראָבאָט ווי צו גיין. ניט ענלעך צו לערנען אַ קאָמפּיוטער ווי צו פאָרויסזאָגן לאַגער פּרייסיז אָדער קאַטאַגערייז בילדער, מיר טאָן ניט טאַקע האָבן אַ גרויס דאַטאַסעט וואָס מיר קענען נוצן צו באַן אונדזער ראָבאָט.
כאָטש עס קען קומען געוויינטלעך צו איר, גיין איז פאקטיש אַ זייער קאָמפּליצירט קאַמף. גיין אַ שריט טיפּיקלי ינוואַלווז דאַזאַנז פון פאַרשידענע מאַסאַלז ארבעטן צוזאַמען. די מי און טעקניקס געניצט צו גיין פון איין אָרט צו אנדערן אויך אָפענגען אויף אַ פאַרשיידנקייַט פון סיבות, אַרייַנגערעכנט צי איר זענען קעריינג עפּעס אָדער צי עס איז אַ שיפּוע אָדער אנדערע פארמען פון מניעות.
אין סינעריאָוז ווי די, מיר קענען נוצן אַ מעטאָד באקאנט ווי ריינפאָרסמאַנט לערנען אָדער RL. מיט RL, איר קענען דעפינירן אַ ספּעציפיש ציל איר ווילן דיין מאָדעל צו סאָלווע און ביסלעכווייַז לאָזן די מאָדעל לערנען זיך ווי צו ויספירן עס.
אין דעם אַרטיקל, מיר וועלן ויספאָרשן די באַסיקס פון ריינפאָרסמאַנט לערנען און ווי מיר קענען צולייגן די RL פריימווערק צו אַ פאַרשיידנקייַט פון פאַרשידענע פּראָבלעמס אין דער עמעס וועלט.
וואָס איז ריינפאָרסמאַנט לערנען?
ריינפאָרסמאַנט לערנען רעפערס צו אַ באַזונדער סאַבסעט פון מאַשין וויסן וואָס פאָוקיסיז אויף דערגייונג סאַלושאַנז דורך ריוואָרדינג געוואלט ביכייוויערז און באַשטראָפן ונדעסירעד ביכייוויערז.
ניט ענלעך סופּערווייזד לערנען, די ריינפאָרסמאַנט לערנען אופֿן טיפּיקלי טוט נישט האָבן אַ טריינינג דאַטאַסעט וואָס גיט די רעכט רעזולטאַט פֿאַר אַ געגעבן אַרייַנשרייַב. אין דער אַוועק פון טריינינג דאַטן, דער אַלגערידאַם מוזן געפֿינען די לייזונג דורך פּראָצעס און טעות. דער אַלגערידאַם, וואָס מיר טיפּיקלי אָפּשיקן צו ווי אַן אַגענט, מוזן געפֿינען די לייזונג דורך זיך דורך ינטעראַקטינג מיט די סוויווע.
רעסעאַרטשערס באַשליסן אויף וואָס באַזונדער אַוטקאַמז צו באַלוינונג און וואָס די אַלגערידאַם איז טויגעוודיק צו טאָן. יעדער אַקציע דער אַלגערידאַם נעמט וועט באַקומען עטלעכע פאָרעם פון באַמערקונגען וואָס סקאָרז ווי גוט דער אַלגערידאַם איז טאן. בעשאַס די טריינינג פּראָצעס, די אַלגערידאַם יווענטשאַוואַלי געפֿינען די אָפּטימאַל לייזונג צו סאָלווע אַ זיכער פּראָבלעם.
א פּשוט בייַשפּיל: 4 × 4 גריד
לאָמיר נעמען אַ קוק אין אַ פּשוט בייַשפּיל פון אַ פּראָבלעם וואָס מיר קענען סאָלווע מיט ריינפאָרסמאַנט לערנען.
רעכן מיר האָבן אַ 4 × 4 גריד ווי אונדזער סוויווע. אונדזער אַגענט איז ראַנדאַמלי געשטעלט אין איינער פון די סקווערז צוזאמען מיט אַ ביסל מניעות. די גריד וועט אַנטהאַלטן דריי "גרוב" מניעות וואָס מוזן זיין אַוווידאַד און אַ איין "דימענט" באַלוינונג וואָס דער אַגענט מוזן געפֿינען. די פולשטענדיק באַשרייַבונג פון אונדזער סוויווע איז באקאנט ווי די סוויווע זענען.
אין אונדזער RL מאָדעל, אונדזער אַגענט קענען מאַך צו קיין שכייניש קוואַדראַט אַזוי לאַנג ווי עס זענען קיין מניעות וואָס בלאַקינג זיי. דער סכום פון אַלע גילטיק אַקשאַנז אין אַ געגעבן סוויווע איז באקאנט ווי די קאַמף פּלאַץ. דער ציל פון אונדזער אַגענט איז צו געפֿינען די שאָרטיסט וועג צו די באַלוינונג.
אונדזער אַגענט וועט נוצן די ריינפאָרסמאַנט לערנען אופֿן צו געפֿינען די וועג צו די דימענט וואָס ריקווייערז די מינדסטער סומע פון סטעפּס. יעדער רעכט שריט וועט געבן די ראָבאָט אַ באַלוינונג און יעדער פאַלש שריט וועט אַראָפּרעכענען די באַלוינונג פון די ראָבאָט. דער מאָדעל קאַלקיאַלייץ די גאַנץ באַלוינונג אַמאָל דער אַגענט ריטשאַז די דימענט.
איצט אַז מיר האָבן דיפיינד דעם אַגענט און סוויווע, מיר מוזן אויך דעפינירן די כּללים צו נוצן פֿאַר דיטערמאַנינג די ווייַטער קאַמף וואָס דער אַגענט וועט נעמען געגעבן זיין קראַנט שטאַט און די סוויווע.
פּאַלאַסיז און ריוואָרדז
אין אַ ריינפאָרסמאַנט לערנען מאָדעל, אַ פּאָליטיק רעפערס צו די סטראַטעגיע געניצט דורך אַן אַגענט צו דערגרייכן זייער גאָולז. די פּאָליטיק פון די אַגענט איז וואָס דיסיידז וואָס דער אַגענט זאָל טאָן ווייַטער געגעבן די קראַנט שטאַט פון די אַגענט און זייַן סוויווע.
דער אַגענט מוזן אָפּשאַצן אַלע מעגלעך פּאַלאַסיז צו זען וואָס פּאָליטיק איז אָפּטימאַל.
אין אונדזער פּשוט בייַשפּיל, לאַנדינג אויף אַ ליידיק פּלאַץ וועט צוריקקומען אַ ווערט פון -1. ווען דער אַגענט לאַנדיד אויף אַ פּלאַץ מיט די דימענט באַלוינונג, זיי וועלן באַקומען אַ ווערט פון 10. ניצן די וואַלועס, מיר קענען פאַרגלייַכן די פאַרשידענע פּאַלאַסיז ניצן אַ נוצן פֿונקציע U.
לאָמיר איצט פאַרגלייַכן די נוצן פון די צוויי פּאַלאַסיז געזען אויבן:
ו(א) = -1 – 1 -1 + 10 = 7
ו(ב) = -1 - 1 - 1 - 1 - 1 + 10 = 5
די רעזולטאַטן ווייַזן אַז פּאָליטיק א איז דער בעסטער וועג צו געפֿינען די באַלוינונג. אזוי, דער אַגענט וועט נוצן פּאַט א איבער פּאָליטיק ב.
עקספּלאָריישאַן ווס עקספּלאָיטאַטיאָן
די ויספאָרשונג קעגן עקספּלויטיישאַן האַנדל-אַוועק פּראָבלעם אין ריינפאָרסמאַנט לערנען איז אַ דילעמאַ וואָס אַן אַגענט מוזן פּנים בעשאַס די באַשלוס פּראָצעס.
זאָל אגענטן פאָקוס אויף ויספאָרשן נייַע פּאַטס אָדער אָפּציעס אָדער זאָל זיי פאָרזעצן צו נוצן די אָפּציעס וואָס זיי שוין וויסן?
אויב דער אַגענט טשוזיז צו ויספאָרשן, עס איז אַ מעגלעכקייט פֿאַר דער אַגענט צו געפֿינען אַ בעסער אָפּציע, אָבער עס קען אויך ריזיקירן וויסט צייט און רעסורסן. אויף די אנדערע האַנט, אויב דער אַגענט טשוזיז צו גווורע די לייזונג עס שוין ווייסט, עס קען פאַרפירן אַ בעסער אָפּציע.
פּראַקטיש אַפּפּליקאַטיאָנס
דאָ זענען עטלעכע וועגן אַי ריסערטשערז האָבן געווענדט ריינפאָרסמאַנט לערנען מאָדעלס צו סאָלווע פאַקטיש-וועלט פּראָבלעמס:
ריינפאָרסמאַנט לערנען אין זיך-דרייווינג קאַרס
ריינפאָרסמאַנט לערנען איז געווענדט צו זיך-דרייווינג קאַרס אין סדר צו פֿאַרבעסערן זייער פיייקייט צו פאָר זיכער און יפישאַנטלי. די טעכנאָלאָגיע ינייבאַלז אָטאַנאַמאַס קאַרס צו לערנען פון זייער מיסטייקס און קעסיידער סטרויערן זייער נאַטור אין סדר צו אַפּטאַמייז זייער פאָרשטעלונג.
פֿאַר בייַשפּיל, די לאָנדאָן-באזירט אַי פירמע Wayve האט הצלחה געווענדט אַ טיף ריינפאָרסמאַנט לערנען מאָדעל פֿאַר אָטאַנאַמאַס דרייווינג. אין זייער עקספּערימענט, זיי געוויינט אַ באַלוינונג פֿונקציע וואָס מאַקסאַמייזאַז די סומע פון צייט וואָס די פאָרמיטל לויפט אָן די שאָפער אַנבאָרד צושטעלן אַרייַנשרייַב.
RL מאָדעלס אויך העלפֿן קאַרס צו מאַכן דיסיזשאַנז באזירט אויף די סוויווע, אַזאַ ווי ויסמיידן מניעות אָדער צונויפגיסן אין פאַרקער. די מאָדעלס מוזן געפֿינען אַ וועג צו גער די קאָמפּלעקס סוויווע אַרום אַ מאַשין אין אַ רעפּריזענאַטיוו שטאַט פּלאַץ וואָס דער מאָדעל קענען פֿאַרשטיין.
ריינפאָרסמאַנט לערנען אין ראָובאַטיקס
רעסעאַרטשערס האָבן אויך געוויינט ריינפאָרסמאַנט לערנען צו אַנטוויקלען ראָובאַץ וואָס קענען לערנען קאָמפּליצירט טאַסקס. דורך די RL מאָדעלס, ראָובאַץ זענען ביכולת צו אָבסערווירן זייער סוויווע און מאַכן דיסיזשאַנז באזירט אויף זייער אַבזערוויישאַנז.
פֿאַר בייַשפּיל, פאָרשונג איז געמאכט אויף ניצן ריינפאָרסמאַנט לערנען מאָדעלס צו לאָזן ביפּעדאַל ראָובאַץ צו לערנען ווי צו גיין אויף זייער אייגן.
רעסעאַרטשערס באַטראַכטן RL צו זיין אַ שליסל מעטאָד אין די פעלד פון ראָובאַטיקס. ריינפאָרסמאַנט לערנען גיט ראָובאַטיק אגענטן אַ פריימווערק צו לערנען סאַפיסטאַקייטיד אַקשאַנז וואָס קען זיין אַנדערש שווער צו ינזשעניר.
ריינפאָרסמאַנט לערנען אין גיימינג
RL מאָדעלס זענען אויך געניצט צו לערנען ווי צו שפּילן ווידעא שפּילערייַ. אַגענץ קענען זיין שטעלן זיך צו לערנען פון זייער מיסטייקס און קעסיידער פֿאַרבעסערן זייער פאָרשטעלונג אין דער שפּיל.
רעסעאַרטשערס האָבן שוין דעוועלאָפּעד אגענטן וואָס קענען שפּילן שפּילערייַ אַזאַ ווי שאָך, גיין און פּאָקער. אין 2013, דעעפּמינד געוויינט Deep Reinforcement Learning צו לאָזן אַ מאָדעל צו לערנען ווי צו שפּילן Atari שפּילערייַ פֿון קראַצן.
פילע ברעט שפּילערייַ און ווידעא שפּילערייַ האָבן אַ לימיטעד קאַמף פּלאַץ און אַ געזונט-דיפיינד באַטאָנען ציל. די טרייץ אַרבעט צו די אַדוואַנטידזשיז פון די RL מאָדעל. RL מעטהאָדס קענען געשווינד יטערייט איבער מיליאַנז פון סימיאַלייטיד שפּילערייַ צו לערנען די אָפּטימאַל סטראַטעגיעס צו דערגרייכן נצחון.
סאָף
צי עס איז לערנען ווי צו גיין אָדער לערנען ווי צו שפּילן ווידעא שפּילערייַ, RL מאָדעלס האָבן שוין פּראָווען צו זיין נוציק אַי פראַמעוואָרקס פֿאַר סאַלווינג פּראָבלעמס וואָס דאַרפן קאָמפּלעקס באַשלוס-מאכן.
ווי די טעכנאָלאָגיע האלט צו יוואַלוו, ביידע ריסערטשערז און דעוועלאָפּערס וועלן פאָרזעצן צו געפֿינען נייַע אַפּלאַקיישאַנז וואָס נוצן די מאָדעל ס זיך-לערנען פיייקייט.
וואָס פּראַקטיש אַפּלאַקיישאַנז טאָן איר טראַכטן ריינפאָרסמאַנט לערנען קענען העלפן מיט?
לאָזן אַ ענטפֿערן