Apprentissage par renforcement : analyse des critères moyens et gamma pondérés en horizon fini - INRAE - Institut national de recherche pour l’agriculture, l’alimentation et l’environnement Accéder directement au contenu
Communication Dans Un Congrès Année : 1997

Apprentissage par renforcement : analyse des critères moyens et gamma pondérés en horizon fini

Résumé

Les problèmes de décision posés par l'optimisation stochastique en horizon fini en l'absence de modèle peuvent être traités par des méthodes adaptives. Différents algorithmes d'apprentissage par renforcement ont été proposés, tels le Q-Learning ou le R-Learning, mais ils sont définis pour des problèmes à horizon infini. On propose ici une modélisation en horizon fini avec une comparaison de deux algorithmes de type Q-Learning et R-Learning. On montre tout d'abord dans le cas fini l'équivalence des différents critères d'optimalité associés, puis, comme en horizon infini, une étude expérimentale permet de conclure à la supériorité des méthodes de type R-Learning.
Fichier non déposé

Dates et versions

hal-02771555 , version 1 (04-06-2020)

Identifiants

  • HAL Id : hal-02771555 , version 1
  • PRODINRA : 135923

Citer

F. Garcia, Sidy Ndiaye. Apprentissage par renforcement : analyse des critères moyens et gamma pondérés en horizon fini. Journées Françaises d'Apprentissage, May 1997, Roscoff, France. ⟨hal-02771555⟩
10 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More