Convergence au 421
Observer l'évolution des Q-Valeurs et déterminer la fin de la phase d'apprentissage.
Monitorer l'apprentissage :
Observer l'évolution des Q-Valeurs au cours du temps:
Le nombre d'états visités
sizeQvalues= len(player.qvalues).Le score obtenu sur les dernières parties
sample= player.scorela somme des meilleures valeurs enregistrée
sumBestQvalue+= player.qvalues[s][aStar]pour chaque état (aStarla meilleure action danss).
En supposant que notre objet qvalues est un dictionnaire de dictionnaires (respectivement définie sur les états et les actions).
[Cf. les dictionnaires en python]
Les graphiques en python :
Dessiner avec pyplot :
En 3 lignes sur la base d'une séquence de valeurs valueLst:
import matplotlib.pyplot as plt
plt.plot( valueLst )
plt.ylabel('plot label')
plt.show()Last updated
Was this helpful?