Convergence au 421
Last updated
Was this helpful?
Last updated
Was this helpful?
Observer l'évolution des Q-Valeurs et déterminer la fin de la phase d'apprentissage.
Observer l'évolution des Q-Valeurs au cours du temps:
Le nombre d'états visités sizeQvalues= len(player.qvalues)
.
Le score obtenu sur les dernières parties sample= player.score
la somme des meilleures valeurs enregistrée sumBestQvalue+= player.qvalues[s][aStar]
pour chaque état (aStar
la meilleure action dans s
).
En supposant que notre objet qvalues
est un dictionnaire de dictionnaires (respectivement définie sur les états et les actions).
[Cf. les dictionnaires en python]
Dessiner avec :
En 3 lignes sur la base d'une séquence de valeurs valueLst
: