Oppimisen vahvistaminen: tekoäly, joka oppii virheistään

Sisällysluettelo[Piilottaa][Näytä]

Mitä vahvistusoppiminen on?
Yksinkertainen esimerkki: 4×4 ruudukko+-
- Käytännöt ja palkinnot
- Tutkimus vs. hyväksikäyttö
Käytännön sovellukset+-
Yhteenveto

Kuvittele, että yrität opettaa robottia kävelemään. Toisin kuin opetettaisiin tietokonetta ennustamaan osakekursseja tai luokittelemaan kuvia, meillä ei todellakaan ole suurta tietojoukkoa, jota voisimme käyttää robottimme kouluttamiseen.

Vaikka se voi olla luonnollista sinulle, kävely on itse asiassa hyvin monimutkainen toiminta. Askeleen kävelemiseen liittyy tyypillisesti kymmenien eri lihasten yhteistoimintaa. Vaiva ja tekniikat, joita käytetään kävelemään paikasta toiseen, riippuvat myös useista tekijöistä, mukaan lukien siitä, onko sinulla jotain mukana tai onko siellä kaltevia tai muita esteitä.

Tällaisissa skenaarioissa voimme käyttää menetelmää, joka tunnetaan nimellä vahvistusoppiminen tai RL. RL:n avulla voit määrittää tietyn tavoitteen, jonka haluat mallisi ratkaisevan, ja antaa mallin vähitellen oppia itse, kuinka se saavutetaan.

Tässä artikkelissa tutkimme vahvistusoppimisen perusteita ja sitä, kuinka voimme soveltaa RL-kehystä useisiin erilaisiin ongelmiin todellisessa maailmassa.

Mitä vahvistusoppiminen on?

Vahvistusoppiminen viittaa tiettyyn osajoukkoon koneoppiminen joka keskittyy ratkaisujen löytämiseen palkitsemalla haluttu käyttäytyminen ja rankaisemalla ei-toivotusta käyttäytymisestä.

kaavio vahvistusoppimisen viitekehyksestä

Toisin kuin ohjattu oppiminen, vahvistusoppimismenetelmällä ei tyypillisesti ole koulutustietojoukkoa, joka tarjoaa oikean tulosteen tietylle syötteelle. Harjoitustietojen puuttuessa algoritmin on löydettävä ratkaisu yrityksen ja erehdyksen kautta. Algoritmi, jota yleensä kutsumme an agentti, täytyy löytää ratkaisu itse vuorovaikutuksessa ympäristö.

Tutkijat päättävät, mitä tuloksia he haluavat saavuttaa palkita ja mitä algoritmi pystyy tekemään. Joka toiminta algoritmi saa jonkinlaista palautetta, joka arvioi, kuinka hyvin algoritmi toimii. Harjoitteluprosessin aikana algoritmi löytää lopulta optimaalisen ratkaisun tietyn ongelman ratkaisemiseksi.

Yksinkertainen esimerkki: 4×4 ruudukko

Katsotaanpa yksinkertaista esimerkkiä ongelmasta, jonka voimme ratkaista vahvistusoppimisen avulla.

Oletetaan, että ympäristömme on 4 × 4 -verkko. Agenttimme sijoitetaan satunnaisesti yhteen ruuduista muutamien esteiden kanssa. Ruudukko sisältää kolme "kuoppaestettä", jotka on vältettävä, ja yksi "timantti" palkinto, joka agentin on löydettävä. Täydellinen kuvaus ympäristöstämme tunnetaan ympäristön nimellä olivat.

Vahvistusoppiminen perustuu agenttiin, joka on vuorovaikutuksessa simuloidun ympäristön kanssa

RL-mallissamme agenttimme voi siirtyä mille tahansa viereiselle ruudulle niin kauan kuin esteitä ei ole esteenä. Kaikkien kelvollisten toimintojen joukko tietyssä ympäristössä tunnetaan nimellä toimintatilaa. Agenttimme tavoitteena on löytää lyhin tie palkkioon.

agentilla on toimintatila tai joukko kelvollisia toimintoja tietyssä tilassa

Agenttimme käyttää vahvistusoppimismenetelmää löytääkseen polun timanttiin, joka vaatii vähiten askeleita. Jokainen oikea askel antaa robotille palkinnon ja jokainen väärä askel vähentää robotin palkkion. Malli laskee kokonaispalkkion, kun agentti saavuttaa timantin.

Nyt kun olemme määrittäneet agentin ja ympäristön, meidän on myös määriteltävä säännöt, joita käytetään määritettäessä seuraava toimenpide, jonka agentti tekee sen nykyisen tilan ja ympäristön perusteella.

Käytännöt ja palkinnot

Vahvistusoppimismallissa a politiikka viittaa strategiaan, jota agentti käyttää saavuttaakseen tavoitteensa. Agentin käytäntö päättää, mitä agentin tulee tehdä seuraavaksi, kun otetaan huomioon agentin ja sen ympäristön nykyinen tila.

Edustajan on arvioitava kaikki mahdolliset käytännöt nähdäkseen, mikä käytäntö on optimaalinen.

politiikan arviointiin

Yksinkertaisessa esimerkissämme laskeutuminen tyhjään tilaan palauttaa arvon -1. Kun agentti laskeutuu tilaan, jossa on timanttipalkinto, hän saa arvon 10. Näitä arvoja käyttämällä voimme verrata eri käytäntöjä käyttämällä hyödyllisyystoiminto U.

Verrataan nyt kahden yllä olevan käytännön hyödyllisyyttä:

U(A) = -1 - 1 -1 + 10 = 7

U(B) = -1 - 1 - 1 - 1 - 1 + 10 = 5

Tulokset osoittavat, että politiikka A on parempi tapa löytää palkkio. Siten agentti käyttää polkua A politiikan B sijaan.

Tutkimus vs. hyväksikäyttö

Tutkimuksen vs. hyväksikäytön kompromissi-ongelma vahvistusoppimisessa on dilemma, jonka edustajan on kohdattava päätösprosessin aikana.

Pitäisikö agenttien keskittyä uusien polkujen tai vaihtoehtojen tutkimiseen vai pitäisikö heidän jatkaa jo tuntemiensa vaihtoehtojen hyödyntämistä?

Jos agentti päättää tutkia, agentilla on mahdollisuus löytää parempi vaihtoehto, mutta se voi myös vaarantaa ajan ja resurssien tuhlaamisen. Toisaalta, jos agentti päättää hyödyntää jo tuntemaansa ratkaisua, se voi menettää paremman vaihtoehdon.

Käytännön sovellukset

Tässä on joitain tapoja Tekoälyn tutkijat ovat soveltaneet vahvistusoppimismalleja todellisten ongelmien ratkaisemiseen:

Itseohjautuvien autojen oppimisen vahvistaminen

Vahvistusoppimista on sovellettu itseohjautuviin autoihin parantaakseen niiden kykyä ajaa turvallisesti ja tehokkaasti. Teknologian avulla autonomiset autot voivat oppia virheistään ja jatkuvasti mukauttaa käyttäytymistään suorituskyvyn optimoimiseksi.

itse ajamiseen käytettävä vahvistusoppiminen

Esimerkiksi Lontoossa toimiva tekoälyyritys Wayve on menestyksekkäästi soveltanut syvää vahvistavaa oppimismallia autonomiseen ajamiseen. Kokeessaan he käyttivät palkitsemistoimintoa, joka maksimoi ajan, jonka ajoneuvo käy ilman, että kuljettaja antaa tietoja.

RL-mallit auttavat myös autoja tekemään ympäristöön perustuvia päätöksiä, kuten esteitä välttämään tai sulautumaan liikenteeseen. Näiden mallien on löydettävä tapa muuttaa autoa ympäröivä monimutkainen ympäristö mallin ymmärtämäksi edustavaksi tilatilaksi.

Vahvistusoppiminen robotiikassa

Tutkijat ovat myös käyttäneet vahvistusoppimista kehittääkseen robotteja, jotka voivat oppia monimutkaisia tehtäviä. Näiden RL-mallien avulla robotit pystyvät tarkkailemaan ympäristöään ja tekemään päätöksiä havaintojensa perusteella.

Esimerkiksi on tutkittu vahvistusoppimismallien käyttöä, jotta kaksijalkaiset robotit voivat oppia kävellä omillaan.

vahvistusoppiminen robotin kävelemisen opettamisessa

Tutkijat pitävät RL:ää avainmenetelmänä robotiikan alalla. Vahvistusoppiminen antaa robottiagenteille puitteet oppia kehittyneitä toimintoja, joita voi muuten olla vaikea suunnitella.

Pelioppimisen vahvistaminen

RL-malleja on käytetty myös videopelien pelaamiseen. Agentit voidaan asettaa oppimaan virheistään ja jatkuvasti parantamaan suorituskykyään pelissä.

Tutkijat ovat jo kehittäneet agentteja, jotka voivat pelata pelejä, kuten shakkia, goa ja pokeria. Vuonna 2013, Deepmind käytti Deep Reinforcement Learning -ohjelmaa, jotta malli oppii pelaamaan Atari-pelejä tyhjästä.

Monilla lautapeleillä ja videopeleillä on rajallinen toimintatila ja selkeästi määritelty konkreettinen tavoite. Nämä ominaisuudet toimivat RL-mallin eduksi. RL-menetelmät voivat nopeasti iteroida miljoonia simuloituja pelejä oppiakseen optimaaliset strategiat voiton saavuttamiseksi.

Yhteenveto

Olipa kyseessä sitten kävelemisen tai videopelien pelaamisen oppiminen, RL-mallit ovat osoittautuneet hyödyllisiksi tekoälykehyksiksi monimutkaista päätöksentekoa vaativien ongelmien ratkaisemisessa.

Teknologian kehittyessä sekä tutkijat että kehittäjät löytävät jatkuvasti uusia sovelluksia, jotka hyödyntävät mallin itseoppimiskykyä.

Missä käytännön sovelluksissa vahvistusoppiminen voi mielestäsi auttaa?

Oppimisen vahvistaminen: tekoäly, joka oppii virheistään

Mitä vahvistusoppiminen on?