Em di gelek rewşên cîhana rastîn de ku em hewce ne ku fonksiyonek herî kêm an herî zêde nas bikin de bi pirsgirêkên xweşbîniyê re rû bi rû dimînin.
Fonksiyonek wekî temsîla matematîkî ya pergalê bihesibînin, û destnîşankirina hindiktirîn an herî zêde ya wê dikare ji bo cûrbecûr serîlêdanên wekî fêrbûna makîneyê, endezyariyê, darayî, û yên din krîtîk be.
Dîmenek bi gir û geliyan bihesibînin, û mebesta me ew e ku em xala herî nizm (kêmtirîn) bibînin da ku bi zûtirîn dem bigihîjin cihê xwe.
Em bi gelemperî algorîtmayên dakêşana gradient bikar tînin da ku pirsgirêkên xweşbîniyê çareser bikin. Van algorîtmayan rêbazên optimîzasyonê yên dubare ne ji bo kêmkirina fonksiyonek bi avêtina gavan di riya daketina herî asê de (gradienta neyînî).
Pîvana bi zêdebûna herî asê ya fonksiyonê re rê nîşan dide, û rêwîtiya berevajî me berbi herî kêm dibe.
Bi rastî Algorîtmaya Daketina Gradient çi ye?
Daketina gradient ji bo destnîşankirina herî kêm (an herî zêde) fonksiyonek nêzîkatiyek xweşbîniya dubare ya populer e.
Ew di gelek waran de, di nav de, amûrek krîtîk e fêrbûna makîneyê, fêrbûna kûr, îstîxbarata sûnî, endezyar, û darayî.
Prensîba bingehîn a algorîtmê li ser bingeha karanîna wê ya gradientê ye, ku rêgeziya zêdebûna tund a nirxa fonksiyonê nîşan dide.
Algorîtmak bi karîgerî perestgeha fonksiyonê ber bi herî kêm ve dimeşe û bi dubarekirina gavên berevajî wekî gradient gavavêtinan dike, bi dubarekirina çareseriyê heya ku lihevhatî bibe.
Çima Em Algorîtmayên Daketina Gradient bikar tînin?
Ji bo destpêkê, ew dikarin werin bikar anîn da ku cûrbecûr pirsgirêkên xweşbîniyê çareser bikin, di nav de yên ku bi cîhên pir-dimensî û fonksiyonên tevlihev hene.
Ya duyemîn, ew dikarin zû çareseriyên çêtirîn bibînin, nemaze dema ku çareseriya analîtîk ne berdest be an ji hêla hesabkirinê ve biha be.
Teknolojiyên daketina gradient pir berbelav in û dikarin bi serfirazî daneyên pir mezin bi rê ve bibin.
Wekî encamek, ew bi berfirehî têne bikar anîn algorîtmayên fêrbûna makîneyê mîna perwerdekirina torên neuralî ku ji daneyan fêr bibin û pîvanên xwe biguhezînin da ku xeletiyên pêşbîniyê kêm bikin.
Nimûneyek Berfireh ya Pêngavên Daketina Gradient
Ka em li mînakek berfirehtir binihêrin da ku ji teknîka daketina gradientê çêtir têgihiştinek hebe.
Fonksiyona 2D f(x) = x2 bihesibîne, ku bi kêmanî (0,0) kelekek parabolîk a bingehîn çêdike. Ji bo destnîşankirina vê xala herî kêm dê algorîtmaya daketina gradient were bikar anîn.
Gav 1: Destpêkirin
Algorîtmaya daketina gradient bi destpêkirina nirxa guhêrbar x, ku wekî x0 tê temsîl kirin, dest pê dike.
Nirxa destpêkê dikare bandorek girîng li ser performansa algorîtmê bike.
Destpêkkirina rasthatî an karanîna zanîna pêşîn a pirsgirêkê du teknîkên hevpar in. Bifikirin ku x₀ = 3 di destpêka doza me de.
Gav 2: Gradient hesab bikin
Pîvana fonksiyona f(x) di pozîsyona niha ya x₀ de. hingê divê were hesibandin.
Pîvana xirecir an rêjeya guherîna fonksiyonê li wê pozîsyona taybetî destnîşan dike.
Em rengdêra li ser x ji bo fonksiyona f(x) = x2 hesab dikin, ku f'(x) = 2x peyda dike. Em gradientê li x0-ê wekî 2 * 3 = 6 bi cîh kirina x₀ = 3 di nav hesabê gradientê de digirin.
Gav 3: Parametreyan nûve bikin
Bi karanîna agahdariya gradientê, em nirxa x-ê wekî jêrîn nûve dikin: x = x₀ - α * f'(x₀), ku α (alpha) rêjeya fêrbûnê destnîşan dike.
Rêjeya fêrbûnê hîperparameterek e ku mezinahiya her gavê di pêvajoya nûvekirinê de diyar dike. Sazkirina rêjeyek fêrbûnê ya guncan girîng e ji ber ku rêjeyek hînbûna hêdî dikare bibe sedema vê yekê Cureyê ji bo ku bigihîje herî kêm gelek dubareyan bigire.
Rêjeyek fêrbûnê ya bilind, ji hêla din ve, dibe ku bibe sedema ku algorîtma bihejîne an negihîje hev. Werin em ji bo xatirê vê nimûneyê rêjeya fêrbûnê ya α = 0.1 bihesibînin.
Gav 4: Dubare bikin
Piştî ku me nirxa nûvekirî ya x-ê heye, em Gavên 2 û 3 dubare dikin ji bo hejmarek dubarekirî ya pêşwext an jî heya ku guheztina x kêm bibe, ku hevgirtinê nîşan dide.
Rêbaz gradientê dihejmêre, nirxa x-ê nûve dike, û prosedurê di her dubarekirinê de didomîne, û dihêle ku ew nêzîkê herî kêm bibe.
Gav 5: Hevbûn
Teknîkî piştî çend dubareyan digihîje deverek ku nûvekirinên din bi maddî bandorê li nirxa fonksiyonê nakin.
Di rewşa me de, her ku dubarekirin berdewam dikin, x dê nêzîkî 0 bibe, ku nirxa herî kêm a f(x) = x^2 ye. Hejmara dubareyên ku ji bo hevgirtinê hewce ne ji hêla faktorên wekî rêjeya fêrbûnê ya hilbijartî û tevliheviya fonksiyona ku xweşbînkirî ve tê destnîşankirin.
Hilbijartina Rêjeya Fêrbûnê ()
Hilbijartina rêjeyek fêrbûnê ya pejirandî () ji bo bandorkeriya algorîtmaya daketina gradient krîtîk e. Wekî ku berê hate gotin, rêjeyek fêrbûnê ya kêm dikare hevbûnek hêdî çêbike, lê rêjeyek fêrbûna zêde dikare bibe sedema zêdebûn û têkçûna hev.
Dîtina hevsengiya guncan ji bo pêbaweriya ku algorîtma bi qasî ku gengaz dibe berbi hindiktirîna armanckirî ve digihîje krîtîk e.
Rêzkirina rêjeya fêrbûnê bi gelemperî di pratîkê de pêvajoyek ceribandin û xeletiyê ye. Lekolînwan û bijîjk bi rêkûpêk bi rêjeyên fêrbûnê yên cihêreng diceribînin da ku bibînin ka ew çawa bandorê li serhevhatina algorîtmê li ser dijwariya xwe ya taybetî dikin.
Birêvebirina Fonksiyonên Ne-Convex
Dema ku mînaka pêşîn fonksiyonek konveks a hêsan hebû, gelek pirsgirêkên xweşbîniyê yên cîhana rast fonksiyonên ne-vekêş bi gelek kêmtirînên herêmî ve girêdayî ne.
Dema ku di rewşên weha de daketina gradient bikar bînin, rêbaz dikare ji kêmtirînek gerdûnî bêtir bi kêmtirînek herêmî re hevûdu bike.
Gelek awayên pêşkeftî yên daketina gradient hatine pêşve xistin da ku vê pirsgirêkê derbas bikin. Descent Gradient Stochastic (SGD) yek rêbazek wusa ye ku rasthatiniyê destnîşan dike bi hilbijartina binekomek danûstendinê ya rasthatî (wekî piçûkek berhevokek tê zanîn) da ku di her dubarekirinê de gradient hesab bike.
Vê nimûneya bêserûber dihêle ku algorîtma ji hindiktirînên herêmî dûr bikeve û beşên nû yên qada fonksiyonê keşif bike, şansê vedîtina kêmtirînek çêtir zêde dike.
Adam (Texmînkirina Momentê ya Adaptive) guhertoyek din a berbiçav e, ku nêzîkatiyek xweşbînkirina rêjeya fêrbûna adapteyî ye ku hem feydeyên RMSprop û hem jî momentumê vedihewîne.
Adam rêjeya fêrbûnê ji bo her parametreyê bi rengek dînamîkî li ser bingeha agahdariya gradientê ya berê diguhezîne, ku dibe ku li ser fonksiyonên ne-vekêşandî lihevhatinek çêtir encam bide.
Van guheztinên dakêşanê yên sofîstîke îsbat kirine ku di birêvebirina fonksiyonên tevlihevtir de bi bandor in û bûne amûrên standard di fêrbûna makîneyê û fêrbûna kûr de, ku li wir pirsgirêkên xweşbîniya ne-vekêşî hevpar in.
Gav 6: Pêşkeftina Xwe Dîmen bikin
Werin em pêşkeftina algorîtmaya daketina gradientê bibînin da ku hûn pêvajoya wê ya dubarekirî baştir fam bikin. Grafikek bi x-xebata dubareyan û y-texnek ku nirxa fonksiyona f(x) temsîl dike binihêrin.
Gava ku algorîtm dubare dibe, nirxa x-ê nêzîkê sifirê dibe û, wekî encam, nirxa fonksiyonê bi her gavê re dadikeve. Dema ku li ser grafikek tê xêzkirin, ev ê meylek kêmbûnê ya berbiçav nîşan bide, ku pêşkeftina algorîtmê berbi gihîştina herî kêm nîşan dide.
Gav 7: Rêjeya Fêrbûnê Bişkojk Bikin
Rêjeya fêrbûnê () di performansa algorîtmê de faktorek girîng e. Di pratîkê de, destnîşankirina rêjeya fêrbûna îdeal bi gelemperî ceribandin û xeletiyê hewce dike.
Hin teknîkên xweşbîniyê, wekî nexşeyên rêjeya fêrbûnê, dikarin di dema perwerdehiyê de rêjeya fêrbûnê bi dînamîk biguhezînin, bi nirxek bilindtir dest pê bikin û hêdî hêdî wê kêm bikin her ku algorîtm nêzikî hevbûnê dibe.
Ev rêbaz dibe alîkar ku meriv hevsengiyek di navbera pêşkeftina bilez a di destpêkê de û aramiya nêzî dawiya pêvajoya xweşbîniyê de çêbike.
Mînakek din: Kêmkirina Fonksîyonek Çaralî
Werin em li mînakek din binihêrin da ku ji daketina gradientê çêtir têgihiştinek bistînin.
Fonksiyona çargoşe ya du-alî g(x) = (x – 5)^2 bihesibînin. Di x = 5 de, ev fonksiyon bi heman rengî kêmtirînek heye. Ji bo dîtina vê kêmtirîn, em ê daketina gradientê bicîh bikin.
1. Destpêkirin: Werin em bi x0 = 8 wekî xala xweya destpêkê dest pê bikin.
2. Dezgeha g(x) bihejmêre: g'(x) = 2(x – 5). Dema ku em x0 = 8 biguherînin, gradient li x0 2 * (8 – 5) = 6 e.
3. Bi = 0.2 wekî rêjeya fêrbûna me, em x bi vî rengî nûve dikin: x = x₀ – α * g'(x₀) = 8 – 0.2 * 6 = 6.8.
4. Dubarekirin: Em gavên 2 û 3-ê bi qasî ku hewce dike dubare dikin heya ku bigihîje hev. Her çerxek x-yê nêzî 5 dike, nirxa herî kêm g(x) = (x – 5)2.
5. Lihevhatin: Rêbaz dê di dawiyê de bi x = 5-ê re, ku nirxa herî kêm a g(x) = (x - 5)2 ye.
Berhevdana Rêjeyên Fêrbûnê
Ka em leza lihevhatina daketina gradientê ji bo rêjeyên fêrbûnê yên cihêreng bidin ber hev, di mînaka meya nû de bibêjin α = 0.1, α = 0.2, û α = 0.5. Em dikarin bibînin ku rêjeyek fêrbûnê ya kêmtir (mînak, = 0.1) dê bibe sedema lihevhatinek dirêjtir lê kêmtirînek rasttir.
Rêjeyek fêrbûnê ya bilind (mînak, = 0.5) dê zûtir li hev bicive lê dikare li ser hindiktirînê zêde bike an bihejîne, di encamê de rastbûna xizantir dibe.
Nimûneyek Multimodal ya Karkeriya Ne-Convex
h (x) = guneh (x) + 0.5x, fonksiyonek ne-vekêş bihesibînin.
Ji bo vê fonksiyonê çend hindik û herî zêde yên herêmî hene. Bi pozîsyona destpêk û rêjeya fêrbûnê ve girêdayî, em dikarin bi karanîna daketina gradient standard bi her hindiktirînên herêmî re hevûdu bikin.
Em dikarin vê yekê bi karanîna teknîkên xweşbîniya pêşkeftî yên mîna Adam an daketina gradientê ya stokastîk (SGD) çareser bikin. Van rêbazan rêjeyên fêrbûna adapteyî an nimûneyên rasthatî bikar tînin da ku li deverên cihêreng ên perestgeha fonksiyonê keşif bikin, îhtîmala bidestxistina kêmtirînek çêtir zêde bikin.
Xelasî
Algorîtmayên daketina gradient amûrên xweşbîniyê yên hêzdar in ku bi berfirehî di cûrbecûr pîşesaziyan de têne bikar anîn. Ew bi nûvekirina dûbare parametreyan li ser bingeha rêgeza gradientê ya herî kêm (an herî zêde) ya fonksiyonê kifş dikin.
Ji ber cewhera dubare ya algorîtmê, ew dikare cîhên-dimensîyona bilind û fonksiyonên tevlihev bi rê ve bibe, ku ew di fêrbûna makîneyê û hilberandina daneyê de pêdivî ye.
Daketina gradient dikare bi hêsanî zehmetiyên cîhana rastîn çareser bike û bi hilbijartina bi baldarî rêjeya fêrbûnê û bi sepandina guheztinên pêşkeftî yên wekî daketina gradientê ya stochastîk û Adem, pir beşdarî mezinbûna teknolojiyê û biryargirtinê ya daneyê dibe.
Leave a Reply