pau sanchez

Iteració de valors

Veure tots els algorismes
markov decision

IA - Bellman Iterations

Desenvolupador - Algorismes - ligència Artificial

Veure codi font

Descripció

Exemple pràctic d'aprenentatge per reforç mitjançant un PDM (Procés de decisió de Markov) utilitzant els Iteracions de Bellman (Iteració de valors).

L'exemple, que està programat en Python, és el mateix que apareix en el llibre 'Intel·ligència Artificial: Un enfocament modern'. Aquest algoritme va ser desenvolupat per entendre pas a pas com funciona l'algoritme d'iteració de valors ja que el llibre només deixa veure la solució final, però no els passos intermitjos.

És fàcil apreciar que es necessiten 20 iteracions de Bellman que l'algorisme convergeixi a valors òptims únics.

Els valors inicials com ara la recompensa, el soroll, el factor de descompte, etc, poden canviar-se fàcilment des del codi font, concretament a la quarta cel·la, a gust de l'usuari.

Llenguatges i detalls tècnics

Intel·ligència Artificial. Algorismes desenvolupats en Python utilitzant els notebooks de Jupyter.