Accéder directement au contenu Accéder directement à la navigation
Communication dans un congrès

Apprentissage par renforcement : analyse des critères moyens et gamma pondérés en horizon fini

Résumé : Les problèmes de décision posés par l'optimisation stochastique en horizon fini en l'absence de modèle peuvent être traités par des méthodes adaptives. Différents algorithmes d'apprentissage par renforcement ont été proposés, tels le Q-Learning ou le R-Learning, mais ils sont définis pour des problèmes à horizon infini. On propose ici une modélisation en horizon fini avec une comparaison de deux algorithmes de type Q-Learning et R-Learning. On montre tout d'abord dans le cas fini l'équivalence des différents critères d'optimalité associés, puis, comme en horizon infini, une étude expérimentale permet de conclure à la supériorité des méthodes de type R-Learning.
Type de document :
Communication dans un congrès
Liste complète des métadonnées

https://hal.inrae.fr/hal-02771555
Déposant : Migration Prodinra <>
Soumis le : jeudi 4 juin 2020 - 12:23:42
Dernière modification le : mercredi 26 août 2020 - 14:08:02

Identifiants

  • HAL Id : hal-02771555, version 1
  • PRODINRA : 135923

Collections

Citation

F. Garcia, Sidy Ndiaye. Apprentissage par renforcement : analyse des critères moyens et gamma pondérés en horizon fini. Journées Françaises d'Apprentissage, May 1997, Roscoff, France. ⟨hal-02771555⟩

Partager

Métriques

Consultations de la notice

3