Rydym yn wynebu problemau optimeiddio mewn llawer o amgylchiadau byd go iawn lle mae angen i ni nodi isafswm neu uchafswm swyddogaeth.
Ystyriwch fod swyddogaeth yn gynrychiolaeth fathemategol o system, a gall pennu ei lleiafswm neu ei huchafswm fod yn hollbwysig ar gyfer amrywiaeth o gymwysiadau megis dysgu peirianyddol, peirianneg, cyllid, ac eraill.
Ystyriwch dirwedd gyda bryniau a dyffrynnoedd, a'n nod yw dod o hyd i'r pwynt isaf (lleiafswm) i gyrraedd ein cyrchfan cyn gynted â phosibl.
Rydym yn aml yn defnyddio algorithmau disgyniad graddiant i ddatrys heriau optimeiddio o'r fath. Mae'r algorithmau hyn yn ddulliau optimeiddio ailadroddol ar gyfer lleihau swyddogaeth trwy gymryd camau i gyfeiriad y disgyniad mwyaf serth (graddiant negyddol).
Mae'r graddiant yn adlewyrchu'r cyfeiriad gyda'r cynnydd mwyaf serth yn y swyddogaeth, ac mae teithio i'r cyfeiriad arall yn ein harwain i'r lleiafswm.
Beth yn union yw'r Algorithm Disgyniad Graddiant?
Mae disgyniad graddiant yn ddull optimeiddio ailadroddol poblogaidd ar gyfer pennu isafswm (neu uchafswm) swyddogaeth.
Mae'n offeryn hanfodol mewn sawl maes, gan gynnwys dysgu peiriant, dysgu dwfn, deallusrwydd artiffisial, peirianneg, a chyllid.
Mae egwyddor sylfaenol yr algorithm yn seiliedig ar ei ddefnydd o'r graddiant, sy'n dangos cyfeiriad y cynnydd mwyaf sydyn yng ngwerth y swyddogaeth.
Mae'r algorithm yn llywio tirwedd y swyddogaeth yn effeithlon tuag at y lleiafswm trwy gymryd camau i'r cyfeiriad arall dro ar ôl tro â'r graddiant, gan fireinio'r datrysiad yn ailadroddol hyd at gydgyfeiriant.
Pam Rydym yn Defnyddio Algorithmau Disgyniad Graddiant?
I ddechrau, gellir eu defnyddio i ddatrys amrywiaeth eang o broblemau optimeiddio, gan gynnwys y rhai sydd â gofodau dimensiwn uchel a swyddogaethau cymhleth.
Yn ail, gallant ddod o hyd i'r atebion gorau posibl yn gyflym, yn enwedig pan nad yw'r datrysiad dadansoddol ar gael neu'n ddrud yn gyfrifiadol.
Mae technegau disgyniad graddiant yn raddadwy iawn a gallant drin setiau data enfawr yn llwyddiannus.
O ganlyniad, maent yn cael eu defnyddio'n helaeth yn algorithmau dysgu peiriannau fel hyfforddi rhwydweithiau niwral i ddysgu o ddata ac addasu eu paramedrau i leihau camgymeriadau rhagfynegi.
Enghraifft Fanwl o Gamau Disgyniad Gradd
Gadewch i ni edrych ar enghraifft fanylach i gael gwell dealltwriaeth o'r dechneg disgyniad graddiant.
Ystyriwch y ffwythiant 2D f(x) = x2, sy'n cynhyrchu cromlin barabolig sylfaenol gydag o leiaf (0,0). Bydd yr algorithm disgyniad graddiant yn cael ei ddefnyddio i bennu'r pwynt lleiaf hwn.
Cam 1: Cychwyn
Mae'r algorithm disgyniad graddiant yn dechrau trwy gychwyn gwerth y newidyn x, a gynrychiolir fel x0.
Gall y gwerth cychwynnol gael effaith sylweddol ar berfformiad yr algorithm.
Mae cychwyn ar hap neu ddefnyddio gwybodaeth flaenorol am y broblem yn ddwy dechneg gyffredin. Tybiwch fod x₀ = 3 ar ddechrau ein hachos.
Cam 2: Cyfrifwch y Graddiant
Graddiant y ffwythiant f(x) yn y safle presennol x₀. rhaid cyfrifo wedyn.
Mae'r graddiant yn dynodi goledd neu gyfradd newid y ffwythiant yn y safle penodol hwnnw.
Rydym yn cyfrifo'r deilliad ynghylch x ar gyfer y ffwythiant f(x) = x2, sy'n darparu f'(x) = 2x. Rydyn ni'n cael y graddiant ar x0 fel 2 * 3 = 6 trwy roi x₀ = 3 yn y cyfrifiad graddiant.
Cam 3: Diweddaru Paramedrau
Gan ddefnyddio'r wybodaeth graddiant, rydym yn diweddaru gwerth x fel a ganlyn: x = x₀ – α * f'(x₀), lle mae α (alpha) yn dynodi'r gyfradd ddysgu.
Mae'r gyfradd ddysgu yn hyperparamedr sy'n pennu maint pob cam yn y broses ddiweddaru. Mae gosod cyfradd ddysgu briodol yn hanfodol oherwydd gall cyfradd ddysgu araf achosi'r algorithm i gymryd gormod o ailadroddiadau i gyrraedd y lleiafswm.
Ar y llaw arall, gall cyfradd ddysgu uchel arwain at yr algorithm yn bownsio neu'n methu â chydgyfeirio. Gadewch i ni dybio cyfradd ddysgu o α = 0.1 er mwyn yr enghraifft hon.
Cam 4: Ailadroddwch
Ar ôl i ni gael gwerth x wedi'i ddiweddaru, rydyn ni'n ailadrodd Camau 2 a 3 ar gyfer nifer rhagderfynedig o iteriadau neu nes bod y newid yn x yn dod yn fach iawn, gan nodi cydgyfeiriant.
Mae'r dull yn cyfrifo'r graddiant, yn diweddaru gwerth x, ac yn parhau â'r weithdrefn ar bob iteriad, gan ganiatáu iddo ddod yn agosach at y lleiafswm.
Cam 5: Cydgyfeirio
Mae'r dechneg yn cydgyfeirio ar ôl ychydig o iteriadau i bwynt lle nad yw diweddariadau pellach yn effeithio'n sylweddol ar werth y swyddogaeth.
Yn ein hachos ni, wrth i'r iteriadau barhau, bydd x yn nesáu at 0, sef isafswm gwerth f(x) = x^2. Mae nifer yr iteriadau sy'n angenrheidiol ar gyfer cydgyfeirio yn cael ei bennu gan ffactorau megis y gyfradd ddysgu a ddewiswyd a chymhlethdod y swyddogaeth sy'n cael ei hoptimeiddio.
Dewis Cyfradd Dysgu ()
Mae dewis cyfradd ddysgu dderbyniol () yn hanfodol ar gyfer effeithiolrwydd yr algorithm disgyniad graddiant. Fel y dywedwyd yn flaenorol, gall cyfradd ddysgu isel arwain at gydgyfeirio araf, tra gall cyfradd ddysgu uchel achosi gor-gydio a methiant i gydgyfeirio.
Mae dod o hyd i'r cydbwysedd cywir yn hanfodol i sicrhau bod yr algorithm yn cydgyfeirio i'r isafswm a fwriadwyd mor effeithlon â phosibl.
Mae tiwnio'r gyfradd ddysgu yn aml yn weithdrefn profi a methu yn ymarferol. Mae ymchwilwyr ac ymarferwyr yn arbrofi fel mater o drefn gyda gwahanol gyfraddau dysgu i weld sut maent yn effeithio ar gydgyfeiriant yr algorithm ar eu her benodol.
Ymdrin â Swyddogaethau nad ydynt yn Amgrwm
Er bod gan yr enghraifft flaenorol swyddogaeth amgrwm syml, mae llawer o faterion optimeiddio yn y byd go iawn yn cynnwys swyddogaethau nad ydynt yn amgrwm gyda llawer o finimâu lleol.
Wrth ddefnyddio disgyniad graddiant mewn achosion o'r fath, gall y dull gydgyfeirio i isafswm lleol yn hytrach na'r lleiafswm byd-eang.
Mae sawl ffurf ddatblygedig o ddisgyniad graddiant wedi'u datblygu i oresgyn y mater hwn. Mae Disgyniad Graddiant Stochastig (SGD) yn un dull o'r fath sy'n cyflwyno haprwydd trwy ddewis is-set o bwyntiau data ar hap (a elwir yn swp bach) i gyfrifo'r graddiant ym mhob iteriad.
Mae'r samplu ar hap hwn yn caniatáu i'r algorithm osgoi minima lleol ac archwilio rhannau newydd o dir y swyddogaeth, gan roi hwb i'r siawns o ddarganfod isafswm gwell.
Mae Adam (Amcangyfrif Moment Addasol) yn amrywiad amlwg arall, sef dull optimeiddio cyfraddau dysgu addasol sy'n ymgorffori buddion RMSprop a momentwm.
Mae Adam yn addasu'r gyfradd ddysgu ar gyfer pob paramedr yn ddeinamig ar sail gwybodaeth flaenorol am raddiant, a allai arwain at well cydgyfeiriant ar swyddogaethau nad ydynt yn amgrwm.
Mae'r amrywiadau disgyniad graddiant soffistigedig hyn wedi profi i fod yn effeithiol wrth drin swyddogaethau cynyddol gymhleth ac maent wedi dod yn offer safonol mewn dysgu peirianyddol a dysgu dwfn, lle mae materion optimeiddio nad ydynt yn amgrwm yn gyffredin.
Cam 6: Delweddu Eich Cynnydd
Gadewch i ni weld cynnydd yr algorithm disgyniad graddiant i gael gwell dealltwriaeth o'i broses ailadroddol. Ystyriwch graff gydag echelin-x yn cynrychioli iteriadau ac echel-y yn cynrychioli gwerth y ffwythiant f(x).
Wrth i'r algorithm ailadrodd, mae gwerth x yn nesáu at sero ac, o ganlyniad, mae gwerth y ffwythiant yn gostwng gyda phob cam. O'i blotio ar graff, byddai hyn yn dangos tuedd gostyngol amlwg, gan adlewyrchu cynnydd yr algorithm tuag at gyrraedd y lleiafswm.
Cam 7: Cywiro'r Gyfradd Dysgu
Mae'r gyfradd ddysgu () yn ffactor pwysig ym mherfformiad yr algorithm. Yn ymarferol, mae pennu'r gyfradd ddysgu ddelfrydol yn aml yn gofyn am brofi a methu.
Gall rhai technegau optimeiddio, megis amserlenni cyfraddau dysgu, newid y gyfradd ddysgu yn ddeinamig yn ystod hyfforddiant, gan ddechrau gyda gwerth uwch a'i ostwng yn raddol wrth i'r algorithm agosáu at gydgyfeirio.
Mae'r dull hwn yn helpu i gael cydbwysedd rhwng datblygiad cyflym ar y dechrau a sefydlogrwydd yn agos at ddiwedd y broses optimeiddio.
Enghraifft Arall: Lleihau Swyddogaeth Quadratig
Edrychwn ar enghraifft arall i gael gwell dealltwriaeth o ddisgyniad graddiant.
Ystyriwch y ffwythiant cwadratig dau-ddimensiwn g(x) = (x – 5)^2. Ar x = 5, mae gan y swyddogaeth hon hefyd isafswm. I ddod o hyd i'r lleiafswm hwn, byddwn yn defnyddio disgyniad graddiant.
1. Cychwyn: Gadewch i ni ddechrau gyda x0 = 8 fel ein man cychwyn.
2. Cyfrifwch raddiant g(x): g'(x) = 2(x – 5). Pan fyddwn yn amnewid x0 = 8, y graddiant ar x0 yw 2 * (8 – 5) = 6.
3. Gyda = 0.2 fel ein cyfradd ddysgu, rydym yn diweddaru x fel a ganlyn: x = x₀ – α * g'(x₀) = 8 – 0.2 * 6 = 6.8.
4. Ailadrodd: Rydym yn ailadrodd camau 2 a 3 gymaint o weithiau ag sydd angen nes cyrraedd cydgyfeiriant. Mae pob cylchred yn dod ag x yn agosach at 5, gwerth lleiaf g(x) = (x – 5)2.
5. Cydgyfeiriant: Bydd y dull yn cydgyfeirio yn y pen draw i x = 5, sef gwerth lleiaf g(x) = (x – 5)2.
Cymhariaeth Cyfraddau Dysgu
Gadewch i ni gymharu cyflymder cydgyfeirio disgyniad graddiant ar gyfer gwahanol gyfraddau dysgu, dyweder α = 0.1, α = 0.2, a α = 0.5 yn ein hesiampl newydd. Gallwn weld y bydd cyfradd ddysgu is (ee, = 0.1) yn arwain at gydgyfeirio hirach ond lleiafswm mwy cywir.
Bydd cyfradd ddysgu uwch (ee, = 0.5) yn cydgyfeirio'n gyflymach ond gall or-saethu neu osgiliad tua'r isafswm, gan arwain at gywirdeb gwaeth.
Enghraifft Amlfoddol o Ymdrin â Swyddogaethau An Amgrwm
Ystyriwch h(x) = sin(x) + 0.5x, ffwythiant nad yw'n amgrwm.
Mae sawl minima ac uchafsymiau lleol ar gyfer y swyddogaeth hon. Yn dibynnu ar y man cychwyn a'r gyfradd ddysgu, gallem gydgyfeirio i unrhyw un o'r minima lleol gan ddefnyddio disgyniad graddiant safonol.
Gallwn ddatrys hyn trwy ddefnyddio technegau optimeiddio mwy datblygedig fel Adam neu ddisgyniad graddiant stocastig (SGD). Mae'r dulliau hyn yn defnyddio cyfraddau dysgu addasol neu samplu ar hap i archwilio gwahanol ranbarthau o dirwedd y swyddogaeth, gan gynyddu'r tebygolrwydd o gyflawni isafswm gwell.
Casgliad
Mae algorithmau disgyniad graddiant yn offer optimeiddio pwerus a ddefnyddir yn eang mewn ystod eang o ddiwydiannau. Maent yn darganfod yr isaf (neu'r uchafswm) o ffwythiant trwy ddiweddaru'n ailadroddol paramedrau yn seiliedig ar gyfeiriad y graddiant.
Oherwydd natur ailadroddus yr algorithm, gall drin gofodau dimensiwn uchel a swyddogaethau cymhleth, gan ei gwneud yn anhepgor mewn dysgu peiriannau a phrosesu data.
Gall disgyniad graddiant fynd i'r afael ag anawsterau'r byd go iawn yn hawdd a chyfrannu'n fawr at dwf technoleg a gwneud penderfyniadau sy'n cael eu gyrru gan ddata trwy ddewis y gyfradd ddysgu yn ofalus a chymhwyso amrywiadau uwch fel disgyniad graddiant stocastig ac Adam.
Gadael ymateb