Convergence au 421
Observer l'évolution des Q-Valeurs et déterminer la fin de la phase d'apprentissage.
Monitorer l'apprentissage :
Observer l'évolution des Q-Valeurs au cours du temps:
Le nombre d'états visités
sizeQvalues= len(player.qvalues)
.Le score obtenu sur les dernières parties
sample= player.score
la somme des meilleures valeurs enregistrée
sumBestQvalue+= player.qvalues[s][aStar]
pour chaque état (aStar
la meilleure action danss
).
En supposant que notre objet qvalues
est un dictionnaire de dictionnaires (respectivement définie sur les états et les actions).
[Cf. les dictionnaires en python]
Les graphiques en python :
Dessiner avec pyplot :
En 3 lignes sur la base d'une séquence de valeurs valueLst
:
Last updated
Was this helpful?