pau sanchez

Iteración de valores

Ver todos los algoritmos
markov decision

IA - Bellman Iterations

Desarrollador - Algoritmos - Inteligencia Artificial

Ver código fuente

Descripción

Ejemplo práctico de aprendizaje por refuerzo mediante un PDM (Proceso de decisión de Markov) utilizando las Iteraciones de Bellman (Iteración de valores).

El ejemplo, que está programado en Python, es el mismo que aparece en el libro 'Inteligencia Artificial: Un enfoque moderno'. Este algoritmo fué desarrollado para entender paso a paso cómo funciona el algoritmo de iteración de valores ya que el libro solo deja ver la solución final, pero no los pasos intermedios.

Es fácil apreciar que se necesitan 20 iteraciones de bellman que el algoritmo converja a valores óptimos únicos.

Los valores iniciales tales como la recompensa, el ruido, el factor de descuento, etc, pueden cambiarse fácilmente des del código fuente, concretamente en la cuarta celda, a gusto del usuario.

Lenguajes y detalles técnicos

Inteligencia Artificial. Algoritmos desarrollados en Python utilizando los notebooks de Jupyter.