Convergence au 421

Observer l'évolution des Q-Valeurs et déterminer la fin de la phase d'apprentissage.

Monitorer l'apprentissage :

Observer l'évolution des Q-Valeurs au cours du temps:

Le nombre d'états visités sizeQvalues= len(player.qvalues).
Le score obtenu sur les dernières parties sample= player.score
la somme des meilleures valeurs enregistrée sumBestQvalue+= player.qvalues[s][aStar] pour chaque état (aStar la meilleure action dans s).

En supposant que notre objet qvalues est un dictionnaire de dictionnaires (respectivement définie sur les états et les actions).

[Cf. les dictionnaires en python]

Dessiner avec pyplot :

En 3 lignes sur la base d'une séquence de valeurs valueLst:

import matplotlib.pyplot as plt

plt.plot( valueLst )
plt.ylabel('plot label')
plt.show()

Last updated 2 years ago

Was this helpful?