Ús de l'aprenentatge automàtic per jugar a videojocs: una visió general

Taula de continguts[Amaga][Espectacle]

Breu història de la IA en el joc+-
- Aprenentatge automàtic en videojocs
Com funciona: alguns conceptes clau+-
Recerca d'exemple sobre aprenentatge automàtic en videojocs+-
- OpenAI Five
- Super Mario Bros
Importància
Conclusió

Els videojocs continuen suposant un repte per a milers de milions de jugadors de tot el món. Potser encara no ho sabeu, però els algorismes d'aprenentatge automàtic també han començat a fer front al repte.

Actualment hi ha una quantitat important d'investigacions en el camp de la IA per veure si els mètodes d'aprenentatge automàtic es poden aplicar als videojocs. El progrés substancial en aquest camp ho demostra màquina d'aprenentatge els agents es poden utilitzar per emular o fins i tot substituir el jugador humà.

Què significa això per al futur de jocs de vídeo?

Són projectes simplement per diversió o hi ha raons més profundes per les quals tants investigadors es centren en els jocs?

Aquest article explorarà breument la història de la IA als videojocs. Després, us donarem una visió general ràpida d'algunes tècniques d'aprenentatge automàtic que podem utilitzar per aprendre a superar els jocs. A continuació, veurem algunes aplicacions reeixides de xarxes neuronals per aprendre i dominar videojocs específics.

Breu història de la IA en el joc

Abans d'entrar en per què les xarxes neuronals s'han convertit en l'algoritme ideal per resoldre videojocs, analitzem breument com els informàtics han utilitzat els videojocs per avançar en la seva investigació en IA.

Es pot argumentar que, des dels seus inicis, els videojocs han estat una àrea de recerca candent per als investigadors interessats en la IA.

Tot i que en l'origen no és estrictament un videojoc, els escacs han estat un gran focus en els primers dies de la IA. El 1951, el doctor Dietrich Prinz va escriure un programa de joc d'escacs utilitzant l'ordinador digital Ferranti Mark 1. Això va passar a l'època en què aquests ordinadors voluminosos havien de llegir programes amb cinta de paper.

algorisme d'escacs

El programa en si no era una IA d'escacs completa. A causa de les limitacions de l'ordinador, Prinz només va poder crear un programa que resolgués els problemes d'escacs de mate-in-two. De mitjana, el programa va trigar entre 15 i 20 minuts a calcular tots els moviments possibles per als jugadors blancs i negres.

El treball per millorar la IA dels escacs i les dames ha millorat constantment al llarg de les dècades. El progrés va arribar al seu punt culminant el 1997 quan Deep Blue d'IBM va derrotar al gran mestre d'escacs rus Garry Kasparov en un parell de partits de sis jocs. Avui dia, els motors d'escacs que podeu trobar al vostre telèfon mòbil poden derrotar a Deep Blue.

Els oponents de l'IA van començar a guanyar popularitat durant l'edat daurada dels videojocs d'arcade. Space Invaders de 1978 i Pac-Man dels anys 1980 són alguns dels pioners de la indústria en la creació d'IA que pot desafiar prou fins i tot als jugadors d'arcade més veterans.

Pac-Man, en particular, va ser un joc popular perquè els investigadors d'IA experimentessin. Diversos concursos per a la Sra. Pac-Man s'han organitzat per determinar quin equip podria presentar la millor IA per guanyar el joc.

La IA del joc i els algorismes heurístics van continuar evolucionant a mesura que va sorgir la necessitat d'oponents més intel·ligents. Per exemple, la IA de combat va augmentar en popularitat a mesura que gèneres com ara els shooters en primera persona es van fer més populars.

Aprenentatge automàtic en videojocs

A mesura que les tècniques d'aprenentatge automàtic van augmentar ràpidament en popularitat, diversos projectes d'investigació van intentar utilitzar aquestes noves tècniques per jugar a videojocs.

Jocs com Dota 2, StarCraft i Doom poden actuar com a problemes per a aquests algorismes d'aprenentatge automàtic resoldre. Algoritmes d'aprenentatge profund, en particular, van poder assolir i fins i tot superar el rendiment a nivell humà.

El Entorn d'aprenentatge arcade o ALE va oferir als investigadors una interfície per a més d'un centenar de jocs Atari 2600. La plataforma de codi obert va permetre als investigadors comparar el rendiment de les tècniques d'aprenentatge automàtic en els videojocs clàssics d'Atari. Google fins i tot va publicar els seus paper utilitzant set jocs de l'ALE

aLE s'utilitza per provar l'aprenentatge automàtic en videojocs

Mentrestant, projectes com VizDoom va donar als investigadors d'IA l'oportunitat d'entrenar algorismes d'aprenentatge automàtic per jugar amb trets en primera persona en 3D.

VizDoom és un excel·lent recurs per entrenar ML per jugar a FPS

Com funciona: alguns conceptes clau

Xarxes neuronals

La majoria dels enfocaments per resoldre videojocs amb aprenentatge automàtic impliquen un tipus d'algorisme conegut com a xarxa neuronal.

Podeu pensar en una xarxa neuronal com un programa que intenta imitar com podria funcionar un cervell. De la mateixa manera que el nostre cervell es compon de neurones que transmeten un senyal, una xarxa neuronal també conté neurones artificials.

Aquestes neurones artificials també es transfereixen senyals entre si, sent cada senyal un nombre real. Una xarxa neuronal conté múltiples capes entre les capes d'entrada i de sortida, anomenades xarxa neuronal profunda.

Aprenentatge de reforç

Una altra tècnica habitual d'aprenentatge automàtic rellevant per a l'aprenentatge de videojocs és la idea de l'aprenentatge de reforç.

Aquesta tècnica és el procés de formació d'un agent mitjançant recompenses o càstigs. Amb aquest enfocament, l'agent hauria de ser capaç de trobar una solució a un problema mitjançant assaig i error.

Suposem que volem una IA per descobrir com jugar al joc Snake. L'objectiu del joc és senzill: aconseguir tants punts com sigui possible consumint articles i evitant que la cua creixi.

aprenentatge de reforç a Snake

Amb l'aprenentatge de reforç, podem definir una funció de recompensa R. La funció suma punts quan una serp consumeix un article i li resta punts quan la serp toca un obstacle. Donat l'entorn actual i un conjunt de possibles accions, el nostre model d'aprenentatge de reforç intentarà calcular la "política" òptima que maximitzi la nostra funció de recompensa.

Neuroevolució

Seguint el tema d'inspirar-se en la natura, els investigadors també han tingut èxit en l'aplicació del ML als videojocs mitjançant una tècnica coneguda com a neuroevolució.

En lloc d'utilitzar descens en gradient per actualitzar les neurones en una xarxa, podem utilitzar algorismes evolutius per aconseguir millors resultats.

Els algorismes evolutius solen començar generant una població inicial d'individus aleatoris. A continuació, avaluem aquests individus mitjançant determinats criteris. Els millors individus són escollits com a "pares" i es crien junts per formar una nova generació d'individus. Després, aquests individus substituiran els individus menys aptes de la població.

Aquests algorismes també solen introduir alguna forma d'operació de mutació durant el pas d'encreuament o "creació" per mantenir la diversitat genètica.

Recerca d'exemple sobre aprenentatge automàtic en videojocs

OpenAI Five

OpenAI Five juga a Dota 2

OpenAI Five és un programa informàtic d'OpenAI que té com a objectiu jugar a DOTA 2, un popular joc de batalla mòbil multijugador (MOBA).

El programa va aprofitar les tècniques d'aprenentatge de reforç existents, escalades per aprendre a partir de milions de fotogrames per segon. Gràcies a un sistema d'entrenament distribuït, OpenAI va poder jugar 180 anys de jocs cada dia.

Després del període d'entrenament, OpenAI Five va poder assolir un rendiment de nivell expert i demostrar la cooperació amb jugadors humans. El 2019, OpenAI five va ser capaç derrota 99.4% dels jugadors en partits públics.

aprenentatge automàtic de dota 2 en videojocs

Per què es va decidir OpenAI per aquest joc? Segons els investigadors, DOTA 2 tenia una mecànica complexa que estava fora de l'abast de les profunditats existents aprenentatge de reforç algoritmes.

Super Mario Bros

Una altra aplicació interessant de les xarxes neuronals als videojocs és l'ús de la neuroevolució per jugar a plataformes com Super Mario Bros.

Per exemple, això entrada hackathon comença sense tenir coneixements del joc i lentament construeix les bases del que es necessita per progressar a través d'un nivell.

L'aprenentatge automàtic en videojocs com Super Mario pot dependre de la neuroevolució

La xarxa neuronal d'autoevolució pren l'estat actual del joc com una quadrícula de fitxes. Al principi, la xarxa neuronal no entén el que significa cada fitxa, només que les fitxes d'"aire" són diferents de les "rajoles de terra" i les "rajoles enemigues".

La implementació d'una neuroevolució del projecte hackathon va utilitzar l'algoritme genètic NEAT per criar diferents xarxes neuronals de manera selectiva.

Importància

Ara que heu vist alguns exemples de xarxes neuronals jugant a videojocs, potser us preguntareu quin és el sentit de tot això.

Com que els videojocs impliquen interaccions complexes entre els agents i els seus entorns, és el camp de proves perfecte per fer IA. Els entorns virtuals són segurs i controlables i proporcionen un subministrament infinit de dades.

La investigació realitzada en aquest camp ha donat als investigadors una visió de com es poden optimitzar les xarxes neuronals per aprendre a resoldre problemes en el món real.

Xarxes neuronals s'inspiren en com funcionen els cervells al món natural. Si estudiem com es comporten les neurones artificials quan aprenen a jugar a un videojoc, també podem conèixer com es cervell humà obres.

Conclusió

Les similituds entre les xarxes neuronals i el cervell han donat lloc a coneixements en ambdós camps. La investigació contínua sobre com les xarxes neuronals poden resoldre problemes algun dia pot conduir a formes més avançades de intel·ligència artificial.

Imagineu-vos que utilitzeu una IA adaptada a les vostres especificacions que pugui jugar a un videojoc sencer abans de comprar-lo per fer-vos saber si val la pena el vostre temps. Les empreses de videojocs utilitzarien xarxes neuronals per millorar el disseny del joc, ajustar el nivell i la dificultat de l'oponent?

Què creus que passarà quan les xarxes neuronals es converteixin en els millors jugadors?

Com ensenyar a una xarxa neuronal a jugar videojocs

Ús de l'aprenentatge automàtic per jugar a videojocs: una visió general