Imaginem que estàs intentant ensenyar a caminar a un robot. A diferència d'ensenyar a un ordinador com predir els preus de les accions o categoritzar les imatges, realment no tenim un conjunt de dades gran que puguem utilitzar per entrenar el nostre robot.
Tot i que et pot resultar natural, caminar és en realitat una acció molt complexa. Caminar un pas normalment implica que desenes de músculs diferents treballen junts. L'esforç i les tècniques que s'utilitzen per caminar d'un lloc a un altre també depenen de diversos factors, com ara si porteu alguna cosa o si hi ha una inclinació o altres tipus d'obstacles.
En escenaris com aquests, podem utilitzar un mètode conegut com a aprenentatge per reforç o RL. Amb RL, podeu definir un objectiu específic que voleu que solucioni el vostre model i deixar que el model aprengui per si sol com aconseguir-ho.
En aquest article, explorarem els conceptes bàsics de l'aprenentatge per reforç i com podem aplicar el marc RL a una varietat de problemes diferents del món real.
Què és l'aprenentatge per reforç?
L'aprenentatge per reforç es refereix a un subconjunt particular de màquina d'aprenentatge que se centra a trobar solucions premiant els comportaments desitjats i castigant els comportaments no desitjats.
A diferència de l'aprenentatge supervisat, el mètode d'aprenentatge de reforç normalment no té un conjunt de dades d'entrenament que proporcioni la sortida adequada per a una entrada determinada. En absència de dades d'entrenament, l'algoritme ha de trobar la solució mitjançant assaig i error. L'algorisme, que normalment ens referim com a agent, ha de trobar la solució per si mateix interactuant amb el medi ambient.
Els investigadors decideixen quins resultats en particular recompensar i què és capaç de fer l'algoritme. Cada acció l'algorisme que pren rebrà algun tipus de feedback que puntuarà el rendiment de l'algorisme. Durant el procés d'entrenament, l'algoritme finalment trobarà la solució òptima per resoldre un determinat problema.
Un exemple senzill: quadrícula 4×4
Fem una ullada a un exemple senzill d'un problema que podem resoldre amb l'aprenentatge de reforç.
Suposem que tenim una graella de 4×4 com a entorn. El nostre agent es col·loca aleatòriament en una de les caselles juntament amb alguns obstacles. La quadrícula ha de contenir tres obstacles que s'han d'evitar i una única recompensa de "diamant" que l'agent ha de trobar. La descripció completa del nostre entorn es coneix com a de l'entorn van ser.
En el nostre model RL, el nostre agent es pot moure a qualsevol casella adjacent sempre que no hi hagi obstacles que els bloquegin. El conjunt de totes les accions vàlides en un entorn determinat es coneix com a espai d'acció. L'objectiu del nostre agent és trobar el camí més curt cap a la recompensa.
El nostre agent utilitzarà el mètode d'aprenentatge de reforç per trobar el camí cap al diamant que requereixi la menor quantitat de passos. Cada pas correcte donarà al robot una recompensa i cada pas incorrecte restarà la recompensa del robot. El model calcula la recompensa total un cop l'agent arriba al diamant.
Ara que hem definit l'agent i l'entorn, també hem de definir les regles a utilitzar per determinar la següent acció que farà l'agent donat el seu estat actual i l'entorn.
Polítiques i recompenses
En un model d'aprenentatge per reforç, a política fa referència a l'estratègia utilitzada per un agent per assolir els seus objectius. La política de l'agent és la que decideix què ha de fer l'agent a continuació tenint en compte l'estat actual de l'agent i el seu entorn.
L'agent ha d'avaluar totes les polítiques possibles per veure quina és l'òptima.
En el nostre exemple senzill, aterrar en un espai buit retornarà un valor de -1. Quan l'agent aterra en un espai amb la recompensa de diamant, rebrà un valor de 10. Amb aquests valors, podem comparar les diferents polítiques mitjançant un funció d'utilitat U.
Ara comparem la utilitat de les dues polítiques vistes anteriorment:
U(A) = -1 – 1 -1 + 10 = 7
U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5
Els resultats mostren que la política A és el millor camí per trobar la recompensa. Per tant, l'agent utilitzarà la ruta A sobre la política B.
Exploració vs. Explotació
El problema de l'exploració i l'explotació en l'aprenentatge per reforç és un dilema que ha d'enfrontar un agent durant el procés de decisió.
Els agents haurien de centrar-se a explorar nous camins o opcions o haurien de continuar explotant les opcions que ja coneixen?
Si l'agent decideix explorar, hi ha la possibilitat que l'agent trobi una millor opció, però també pot arriscar-se a perdre temps i recursos. D'altra banda, si l'agent opta per explotar la solució que ja coneix, pot perdre una opció millor.
Aplicacions Pràctiques
Aquí hi ha algunes maneres Investigadors d'IA han aplicat models d'aprenentatge de reforç per resoldre problemes del món real:
Aprenentatge de reforç en cotxes autònoms
L'aprenentatge de reforç s'ha aplicat als cotxes autònoms per tal de millorar la seva capacitat de conduir de manera segura i eficient. La tecnologia permet als cotxes autònoms aprendre dels seus errors i ajustar contínuament el seu comportament per optimitzar el seu rendiment.
Per exemple, l'empresa d'IA amb seu a Londres Wayve ha aplicat amb èxit un model d'aprenentatge de reforç profund per a la conducció autònoma. En el seu experiment, van utilitzar una funció de recompensa que maximitza la quantitat de temps que el vehicle funciona sense que el conductor a bord proporcionés informació.
Els models RL també ajuden els cotxes a prendre decisions basades en el medi ambient, com ara evitar obstacles o incorporar-se al trànsit. Aquests models han de trobar una manera de convertir l'entorn complex que envolta un cotxe en un espai representatiu d'estat que el model pugui entendre.
Aprenentatge de reforç en robòtica
Els investigadors també han estat utilitzant l'aprenentatge de reforç per desenvolupar robots que poden aprendre tasques complexes. Mitjançant aquests models RL, els robots són capaços d'observar el seu entorn i prendre decisions basant-se en les seves observacions.
Per exemple, s'ha investigat l'ús de models d'aprenentatge de reforç per permetre que els robots bípedes aprenguin a fer-ho caminar en la seva pròpia.
Els investigadors consideren que la RL és un mètode clau en el camp de la robòtica. L'aprenentatge de reforç ofereix als agents robòtics un marc per aprendre accions sofisticades que d'altra manera podrien ser difícils d'enginyar.
Aprenentatge de reforç en el joc
Els models RL també s'han utilitzat per aprendre a jugar a videojocs. Els agents es poden configurar per aprendre dels seus errors i millorar contínuament el seu rendiment en el joc.
Els investigadors ja han desenvolupat agents que poden jugar a jocs com ara escacs, Go i pòquer. L'any 2013, DeepMind va utilitzar Deep Reinforcement Learning per permetre que un model aprengui a jugar a jocs Atari des de zero.
Molts jocs de taula i videojocs tenen un espai d'acció limitat i un objectiu concret ben definit. Aquests trets funcionen en benefici del model RL. Els mètodes RL poden repetir ràpidament milions de jocs simulats per aprendre les estratègies òptimes per aconseguir la victòria.
Conclusió
Tant si es tracta d'aprendre a caminar com d'aprendre a jugar a videojocs, s'ha demostrat que els models RL són marcs d'IA útils per resoldre problemes que requereixen una presa de decisions complexa.
A mesura que la tecnologia segueixi evolucionant, tant els investigadors com els desenvolupadors continuaran trobant noves aplicacions que aprofitin la capacitat d'autoensenyament del model.
Amb quines aplicacions pràctiques creus que pot ajudar l'aprenentatge de reforç?
Deixa un comentari