pau sanchez

Iteración de valores

See all algorithms
markov decision

IA - Bellman Iterations

Developer - Algorithms - Artificial Intelligence

View source code

Description

Ejemplo práctico de aprendizaje por refuerzo mediante un PDM (Proceso de decisión de Markov) utilizando las Iteraciones de Bellman (Iteración de valores).

El ejemplo, que está programado en Python, es el mismo que aparece en el libro 'Inteligencia Artificial: Un enfoque moderno'. Este algoritmo fué desarrollado para entender paso a paso cómo funciona el algoritmo de iteración de valores ya que el libro solo deja ver la solución final, pero no los pasos intermedios.

Es fácil apreciar que se necesitan 20 iteraciones de bellman que el algoritmo converja a valores óptimos únicos.

Los valores iniciales tales como la recompensa, el ruido, el factor de descuento, etc, pueden cambiarse fácilmente des del código fuente, concretamente en la cuarta celda, a gusto del usuario.

Languages and techniques

Inteligencia Artificial. Algoritmos desarrollados en Python utilizando los notebooks de Jupyter.