pau sanchez

Aprenentatge per reforç

Veure tots els algorismes
reinforcement learning

IA - Q-Learning

Desenvolupador - Algorismes - ligència Artificial

Veure codi font

Descripció

Se muestran 4 ejemplos de aprendizaje por refuerzo. Dos de ellos usando el método de la iteración de valores de bellman, y otros dos usando la técnica del aprendizaje por refuerzo activo o Q-Learning.

Se utiliza un juego de cartas con que tiene las siguientes reglas:

Se utiliza un mazo con 3 tipos de cartas diferentes (el uno, el dos y el tres). El juego consiste el llegar a 5 tirando sobre el mantel la cantidad de cartas que considere oportunas. Se puee asumir que el mazo de cartas es infinito y que la proporción de cartas es tal que hay el doble de doses que de unos y que de treses, tal y como muestra la siguiente imagen.

El jugador empieza el juego tirando una carta y deberá decidir en cada momento si continúa tirando una carta más o si se planta (conlo que el juego termina), teniendo en cuenta que:

Si se planta si haber llegado a sumar 5, los puntos que ganará será el valor de las cartas que haya sobre el mantel. Si el jugador llega a tirar un total de cartas cuya suma supere los 5 puntos perdrá y el juego se dará por terminado. Y por último, si la tirada de cartas sobre el mantel suma exactamente 5, entonces el jugador ganará 10 puntos.

Se asume que la mazo tiene la siguiente secuencia de cartas: 2, 3, 1, 2, 1, 3, 2, 2, 3, 2, 1, 2

Llenguatges i detalls tècnics

Intel·ligència Artificial. Algorismes desenvolupats en Python utilitzant els notebooks de Jupyter.