A koju awọn iṣoro iṣapeye ni ọpọlọpọ awọn ipo gidi-aye nibiti a nilo lati ṣe idanimọ o kere tabi o pọju iṣẹ kan.
Wo iṣẹ kan lati jẹ aṣoju mathematiki ti eto kan, ati ṣiṣe ipinnu o kere tabi o pọju le jẹ pataki fun ọpọlọpọ awọn ohun elo bii ikẹkọ ẹrọ, imọ-ẹrọ, iṣuna, ati awọn miiran.
Ṣe akiyesi ilẹ-ilẹ kan pẹlu awọn oke-nla ati awọn afonifoji, ati pe ibi-afẹde wa ni lati wa aaye ti o kere julọ (kere julọ) lati de opin irin ajo wa ni yarayara bi o ti ṣee.
Nigbagbogbo a lo awọn algoridimu isọdi gradient lati yanju iru awọn italaya iṣapeye. Awọn algoridimu wọnyi jẹ awọn ọna iṣapeye arosọ fun idinku iṣẹ kan nipa gbigbe awọn igbesẹ si itọsọna ti iran ti o ga julọ (gradient odi).
Awọn gradient ṣe afihan itọsọna naa pẹlu ilosoke ti o ga julọ ninu iṣẹ naa, ati irin-ajo ni ọna idakeji nyorisi wa si o kere julọ.
Kini gangan ni Algorithm Isọkale Gradient?
Isọkalẹ gradient jẹ ọna iṣapeye arosọ olokiki fun ṣiṣe ipinnu o kere julọ (tabi o pọju) ti iṣẹ kan.
O jẹ irinṣẹ pataki ni awọn aaye pupọ, pẹlu imudani ẹrọ, ẹkọ ti o jinlẹ, oye atọwọda, imọ-ẹrọ, ati iṣuna.
Ilana ipilẹ algoridimu da lori lilo rẹ ti gradient, eyiti o ṣafihan itọsọna ti ilosoke didasilẹ ni iye iṣẹ naa.
Algoridimu daradara ṣe lilọ kiri ni ala-ilẹ iṣẹ naa si ọna ti o kere julọ nipa gbigbe awọn igbesẹ leralera ni ọna idakeji bi itọlẹ, ni atunṣe ojutu ni igbagbogbo titi di isọdọkan.
Kini idi ti A Lo Awọn alugoridimu Isọkale Didilẹ?
Fun awọn ibẹrẹ, wọn le ṣee lo lati yanju ọpọlọpọ awọn iṣoro iṣapeye lọpọlọpọ, pẹlu awọn ti o ni awọn aaye iwọn-giga ati awọn iṣẹ eka.
Ẹlẹẹkeji, wọn le wa awọn solusan ti o dara julọ ni iyara, ni pataki nigbati ojutu itupalẹ ko ba si tabi gbowolori iṣiro.
Awọn imọ-ẹrọ isọkalẹ Gradient jẹ iwọn pupọ ati pe o le ni aṣeyọri mu awọn ipilẹ data nla.
Bi abajade, wọn lo pupọ ninu ẹrọ aligoridimu bii ikẹkọ awọn nẹtiwọọki aifọkanbalẹ lati kọ ẹkọ lati data ati yipada awọn aye wọn lati dinku awọn aṣiṣe asọtẹlẹ.
Apeere Ẹkunrẹrẹ ti Awọn Igbesẹ Isọsọlọlẹ Gradient
Jẹ ki a wo apẹẹrẹ alaye diẹ sii lati ni oye ti o dara julọ ti ilana isọkalẹ gradient.
Wo iṣẹ 2D f(x) = x2, eyiti o ṣe agbejade ipa-ọna parabolic ipilẹ kan pẹlu o kere ju ni (0,0). Algorithm isosile gradient yoo ṣee lo lati pinnu aaye to kere julọ yii.
Igbesẹ 1: Ibẹrẹ
Algorithm isosile gradient bẹrẹ nipa pilẹṣẹ iye ti oniyipada x, ti o jẹ aṣoju bi x0.
Iye ibẹrẹ le ni ipa pupọ lori iṣẹ ṣiṣe algorithm.
Ipilẹṣẹ laileto tabi igbanisise ṣaaju imọ ti iṣoro naa jẹ awọn imuposi meji ti o wọpọ. Ro pe x₀ = 3 ni ibẹrẹ ọran wa.
Igbesẹ 2: Ṣe iṣiro Gradient naa
Imudara iṣẹ f(x) ni ipo lọwọlọwọ x₀. gbọdọ lẹhinna ṣe iṣiro.
Atẹle naa tọkasi ite tabi oṣuwọn iyipada iṣẹ ni ipo kan pato.
A ṣe iṣiro itọsẹ nipa x fun iṣẹ f(x) = x2, eyiti o pese f'(x) = 2x. A gba gradient ni x0 bi 2 * 3 = 6 nipa fidipo x₀ = 3 sinu iṣiro gradient.
Igbesẹ 3: Ṣe imudojuiwọn Awọn paramita
Lilo alaye gradient, a ṣe imudojuiwọn iye x bi atẹle: x = x₀ – α * f'(x₀), nibiti α (alpha) ti n tọka si oṣuwọn ẹkọ.
Oṣuwọn ẹkọ jẹ hyperparameter ti o pinnu iwọn ti igbesẹ kọọkan ninu ilana imudojuiwọn. Ṣiṣeto oṣuwọn ẹkọ ti o yẹ jẹ pataki nitori oṣuwọn ẹkọ ti o lọra le fa awọn alugoridimu lati mu ọpọlọpọ awọn atunwi lati de ọdọ ti o kere julọ.
Oṣuwọn ẹkọ giga, ni apa keji, le ja si bouncing algorithm tabi kuna lati pejọ. Jẹ ki a ro oṣuwọn ikẹkọ ti α = 0.1 fun apẹẹrẹ yii.
Igbesẹ 4: Tunṣe
Lẹhin ti a ba ni iye imudojuiwọn ti x, a tun ṣe Igbesẹ 2 ati 3 fun nọmba ti a ti pinnu tẹlẹ ti awọn iterations tabi titi ti iyipada ninu x yoo di iwonba, ti o nfihan isọdọkan.
Ọna naa ṣe iṣiro gradient, ṣe imudojuiwọn iye x, ati tẹsiwaju ilana naa ni aṣetunṣe kọọkan, gbigba laaye lati sunmọ o kere julọ.
Igbesẹ 5: Ijọpọ
Ilana naa ṣajọpọ lẹhin awọn iterations diẹ si aaye kan nibiti awọn imudojuiwọn siwaju ko ṣe ni ipa nipa ohun elo iye iṣẹ naa.
Ninu ọran tiwa, bi awọn iterations tẹsiwaju, x yoo sunmọ 0, eyiti o jẹ iye to kere julọ ti f(x) = x^2. Nọmba awọn iterations pataki fun isọdọkan jẹ ipinnu nipasẹ awọn ifosiwewe bii oṣuwọn ikẹkọ ti a yan ati idiju ti iṣẹ ti a mu dara si.
Yiyan Oṣuwọn Ẹkọ ()
Yiyan oṣuwọn ikẹkọ itẹwọgba () ṣe pataki fun imunadoko algoridimu isale gradient. Gẹgẹbi a ti sọ tẹlẹ, oṣuwọn ikẹkọ kekere le fa isọdọkan lọra, lakoko ti oṣuwọn ikẹkọ giga le fa ikọlu ati ikuna lati pejọ.
Wiwa iwọntunwọnsi ti o yẹ jẹ pataki lati rii daju pe algorithm kojọpọ si o kere ju ti a pinnu bi daradara bi o ti ṣee.
Yiyi oṣuwọn ẹkọ jẹ nigbagbogbo ilana idanwo-ati-aṣiṣe ni iṣe. Awọn oniwadi ati awọn oṣiṣẹ adaṣe ṣe idanwo nigbagbogbo pẹlu awọn oṣuwọn ikẹkọ oriṣiriṣi lati rii bii wọn ṣe ni ipa lori isọdọkan algorithm lori ipenija pataki wọn.
Mimu Awọn iṣẹ Non-Convex
Lakoko ti apẹẹrẹ ti o ṣaju ni iṣẹ convex kan ti o rọrun, ọpọlọpọ awọn ọran imudara aye gidi kan pẹlu awọn iṣẹ ti kii ṣe convex pẹlu ọpọlọpọ minima agbegbe.
Nigbati o ba nlo isọdi gradient ni iru awọn ọran, ọna naa le ṣajọpọ si o kere ju agbegbe ju o kere ju agbaye lọ.
Ọpọlọpọ awọn ọna ilọsiwaju ti isọdi gradient ti ni idagbasoke lati bori ọran yii. Sitokasitik Gradient Descent (SGD) jẹ ọkan iru ọna ti o ṣafihan laileto nipa yiyan ipin laileto ti awọn aaye data (ti a mọ si iwọn-kekere) lati ṣe iṣiro iwọn didun ni aṣetunṣe kọọkan.
Iṣapẹẹrẹ laileto yii ngbanilaaye algorithm lati yago fun minima agbegbe ati ṣawari awọn ipin tuntun ti ilẹ iṣẹ naa, ti n ṣe alekun awọn aye ti iṣawari o kere ju.
Adam (Iṣiro akoko Adaptive) jẹ iyatọ olokiki miiran, eyiti o jẹ ọna imudara oṣuwọn ikẹkọ adaṣe ti o ṣafikun awọn anfani ti RMSprop mejeeji ati ipa.
Adam ṣe atunṣe oṣuwọn ikẹkọ fun paramita kọọkan ni agbara ti o da lori alaye gradient tẹlẹ, eyiti o le ja si isọdọkan to dara julọ lori awọn iṣẹ ti kii ṣe rubutu.
Awọn iyatọ isọdi isọdọmọ ti o fafa wọnyi ti fihan pe o munadoko ni mimu awọn iṣẹ ṣiṣe idiju mu ati pe wọn ti di awọn irinṣẹ boṣewa ni kikọ ẹrọ ati ẹkọ ti o jinlẹ, nibiti awọn ọran imudara ti kii ṣe convex jẹ wọpọ.
Igbesẹ 6: Fojuinu Ilọsiwaju Rẹ
Jẹ ki a wo ilọsiwaju ti algoridimu isale gradient lati ni oye ti o dara julọ ti ilana aṣetunṣe rẹ. Wo aworan kan pẹlu ipo-x kan ti o nsoju iterations ati y-axis ti o nsoju iye iṣẹ f(x).
Bi algoridimu ṣe n sọ, iye x n sunmọ odo ati, bi abajade, iye iṣẹ n lọ silẹ pẹlu igbesẹ kọọkan. Nigba ti a ba gbero lori aworan kan, eyi yoo ṣe afihan aṣa idinku ti o yatọ, ti n ṣe afihan ilọsiwaju algoridimu si ọna ti o kere julọ.
Igbesẹ 7: Titun-Titun Oṣuwọn Ikẹkọ
Oṣuwọn ẹkọ () jẹ ifosiwewe pataki ninu iṣẹ ṣiṣe algorithm. Ni iṣe, ṣiṣe ipinnu oṣuwọn ikẹkọ pipe nigbagbogbo nilo idanwo ati aṣiṣe.
Diẹ ninu awọn imọ-ẹrọ iṣapeye, gẹgẹbi awọn iṣeto oṣuwọn ikẹkọ, le paarọ oṣuwọn ikẹkọ ni agbara lakoko ikẹkọ, bẹrẹ pẹlu iye ti o ga julọ ati dinku ni diėdiė bi algorithm ti n sunmọ isunmọ.
Ọna yii ṣe iranlọwọ lati da iwọntunwọnsi laarin idagbasoke iyara ni ibẹrẹ ati iduroṣinṣin nitosi opin ilana iṣapeye.
Apeere miiran: Didinku Iṣẹ Quadrate kan
Jẹ ki a wo apẹẹrẹ miiran lati ni oye ti o dara julọ nipa irandiwọn gradient.
Gbé iṣẹ́ onísẹ̀ mẹ́rin onígun mẹ́rin g(x) = (x – 5)^2 yẹ̀wò. Ni x = 5, iṣẹ yii bakanna ni o kere julọ. Lati wa eyi ti o kere julọ, a yoo lo isọdi gradient.
1. Ibẹrẹ: Jẹ ki a bẹrẹ pẹlu x0 = 8 gẹgẹbi ibẹrẹ wa.
2. Ṣe iṣiro iwọn didun g (x): g'(x) = 2(x – 5). Nigba ti a ba paarọ x0 = 8, gradient ni x0 jẹ 2 * (8 - 5) = 6.
3. Pẹlu = 0.2 gẹgẹbi oṣuwọn ẹkọ wa, a ṣe imudojuiwọn x gẹgẹbi atẹle: x = x₀ - α * g'(x₀) = 8 - 0.2 * 6 = 6.8.
4. Iterate: A tun ṣe awọn igbesẹ 2 ati 3 ni ọpọlọpọ igba bi o ṣe pataki titi ti o fi de isokan. Yiyipo kọọkan n mu x sunmọ 5, iye iwonba g(x) = (x – 5)2.
5. Iyipada: Ọna naa yoo bajẹ si x = 5, eyiti o jẹ iye ti o kere julọ ti g (x) = (x – 5)2.
Ifiwera Awọn Oṣuwọn Ẹkọ
Jẹ ki a ṣe afiwe iyara isọdọkan ti isunmọ gradient fun oriṣiriṣi awọn oṣuwọn ikẹkọ, sọ α = 0.1, α = 0.2, ati α = 0.5 ninu apẹẹrẹ tuntun wa. A le rii pe oṣuwọn ikẹkọ kekere kan (fun apẹẹrẹ, = 0.1) yoo ja si isọdọkan gigun ṣugbọn o kere ju deede.
Oṣuwọn ẹkọ ti o ga julọ (fun apẹẹrẹ, = 0.5) yoo pejọ ni iyara ṣugbọn o le bori tabi oscillate nipa o kere julọ, ti o mu abajade deede ko dara.
A Multimodal Apeere ti Non-Convex Imudani
Ro h (x) = ẹṣẹ (x) + 0.5x, a ti kii-convex iṣẹ.
Awọn minima agbegbe pupọ wa ati maxima fun iṣẹ yii. Ti o da lori ipo ibẹrẹ ati oṣuwọn ikẹkọ, a le ṣajọpọ si eyikeyi ti minima agbegbe ni lilo isọdi-diẹdiwọn boṣewa.
A le yanju eyi nipa lilo awọn ilana imudara ilọsiwaju diẹ sii bii Adam tabi isọdi gradient stochastic (SGD). Awọn ọna wọnyi lo awọn oṣuwọn ikẹkọ adaṣe tabi iṣapẹẹrẹ laileto lati ṣawari awọn agbegbe oriṣiriṣi ti ala-ilẹ iṣẹ naa, jijẹ iṣeeṣe lati ṣaṣeyọri o kere ju.
ipari
Awọn algoridimu isọkalẹ gradient jẹ awọn irinṣẹ iṣapeye ti o lagbara ti o jẹ lilo pupọ ni ọpọlọpọ awọn ile-iṣẹ. Wọn ṣe awari ohun ti o kere julọ (tabi o pọju) ti iṣẹ kan nipasẹ ṣiṣe imudojuiwọn awọn ayeraye nigbagbogbo ti o da lori itọsọna ti gradient.
Nitori ẹda aṣetunṣe algorithm, o le mu awọn alafo onisẹpo giga ati awọn iṣẹ idiju mu, jẹ ki o ṣe pataki ni kikọ ẹrọ ati sisẹ data.
Ilọsiwaju iyasilẹ le ni irọrun koju awọn iṣoro gidi-aye ati ṣe alabapin pupọ si idagbasoke ti imọ-ẹrọ ati ṣiṣe ipinnu-ipinnu data nipa yiyan ni pẹkipẹki ni oṣuwọn ikẹkọ ati lilo awọn iyatọ ti ilọsiwaju bii irandi-sitokasitik gradient ati Adam.
Fi a Reply