Convergence au 421

Observer l'évolution des Q-Valeurs et déterminer la fin de la phase d'apprentissage.

Monitorer l'apprentissage :

Observer l'évolution des Q-Valeurs au cours du temps:

  • Le nombre d'états visités sizeQvalues= len(player.qvalues).

  • Le score obtenu sur les dernières parties sample= player.score

  • la somme des meilleures valeurs enregistrée sumBestQvalue+= player.qvalues[s][aStar] pour chaque état (aStar la meilleure action dans s).

En supposant que notre objet qvalues est un dictionnaire de dictionnaires (respectivement définie sur les états et les actions).

[Cf. les dictionnaires en python]

Les graphiques en python :

Dessiner avec pyplot :

En 3 lignes sur la base d'une séquence de valeurs valueLst:

import matplotlib.pyplot as plt

plt.plot( valueLst )
plt.ylabel('plot label')
plt.show()

Last updated

Was this helpful?