FA-PAIO
  • Project on AI & Opti.
  • Plan du module
  • Jeux et Évaluation
    • Le jeu 421
    • Le jeu Risky
    • Rendus Attendus
  • Agir et apprendre à agir
    • Introduction
    • Apprendre le 421
    • (Q-learning en Python)
    • Convergence au 421
    • Model-Based Learning
    • Passer à l'échelle
  • Heuristiques
    • Introduction
    • Rappel (1/2)
    • Rappel (2/2)
    • Stratégie
    • Étude des heuristiques (1/4)
    • Étude des heuristiques (2/4)
    • Étude des heuristiques (3/4)
    • Étude des heuristiques (4/4)
    • Propriétés des heuristiques
    • Qualité des heuristiques (1/2)
    • Qualité des heuristiques (2/2)
    • Production d'heuristiques
  • Théorie des jeux
    • Introduction
Powered by GitBook
On this page
  • Monitorer l'apprentissage :
  • Les graphiques en python :

Was this helpful?

  1. Agir et apprendre à agir

Convergence au 421

Previous(Q-learning en Python)NextModel-Based Learning

Last updated 2 years ago

Was this helpful?

Observer l'évolution des Q-Valeurs et déterminer la fin de la phase d'apprentissage.

Monitorer l'apprentissage :

Observer l'évolution des Q-Valeurs au cours du temps:

  • Le nombre d'états visités sizeQvalues= len(player.qvalues).

  • Le score obtenu sur les dernières parties sample= player.score

  • la somme des meilleures valeurs enregistrée sumBestQvalue+= player.qvalues[s][aStar] pour chaque état (aStar la meilleure action dans s).

En supposant que notre objet qvalues est un dictionnaire de dictionnaires (respectivement définie sur les états et les actions).

[Cf. les dictionnaires en python]

Les graphiques en python :

Dessiner avec :

En 3 lignes sur la base d'une séquence de valeurs valueLst:

import matplotlib.pyplot as plt

plt.plot( valueLst )
plt.ylabel('plot label')
plt.show()
pyplot