pau sanchez

Aprendizaje por refuerzo

Ver todos los algoritmos
reinforcement learning

IA - Q-Learning

Desarrollador - Algoritmos - Inteligencia Artificial

Ver código fuente

Descripción

Se muestran 4 ejemplos de aprendizaje por refuerzo. Dos de ellos usando el método de la iteración de valores de bellman, y otros dos usando la técnica del aprendizaje por refuerzo activo o Q-Learning.

Se utiliza un juego de cartas con que tiene las siguientes reglas:

Se utiliza un mazo con 3 tipos de cartas diferentes (el uno, el dos y el tres). El juego consiste el llegar a 5 tirando sobre el mantel la cantidad de cartas que considere oportunas. Se puee asumir que el mazo de cartas es infinito y que la proporción de cartas es tal que hay el doble de doses que de unos y que de treses, tal y como muestra la siguiente imagen.

El jugador empieza el juego tirando una carta y deberá decidir en cada momento si continúa tirando una carta más o si se planta (conlo que el juego termina), teniendo en cuenta que:

Si se planta si haber llegado a sumar 5, los puntos que ganará será el valor de las cartas que haya sobre el mantel. Si el jugador llega a tirar un total de cartas cuya suma supere los 5 puntos perdrá y el juego se dará por terminado. Y por último, si la tirada de cartas sobre el mantel suma exactamente 5, entonces el jugador ganará 10 puntos.

Se asume que la mazo tiene la siguiente secuencia de cartas: 2, 3, 1, 2, 1, 3, 2, 2, 3, 2, 1, 2

Lenguajes y detalles técnicos

Inteligencia Artificial. Algoritmos desarrollados en Python utilizando los notebooks de Jupyter.