Apprentissage par renforcement : analyse des critères moyens et gamma pondérés en horizon fini

F. Garcia; Sidy Ndiaye

Communication Dans Un Congrès Année : 1997

Apprentissage par renforcement : analyse des critères moyens et gamma pondérés en horizon fini

(1) , (1)

F. Garcia

Fonction : Auteur

Unité de Biométrie et Intelligence Artificielle (ancêtre de MIAT)

Sidy Ndiaye

Fonction : Auteur

Unité de Biométrie et Intelligence Artificielle (ancêtre de MIAT)

Résumé

Les problèmes de décision posés par l'optimisation stochastique en horizon fini en l'absence de modèle peuvent être traités par des méthodes adaptives. Différents algorithmes d'apprentissage par renforcement ont été proposés, tels le Q-Learning ou le R-Learning, mais ils sont définis pour des problèmes à horizon infini. On propose ici une modélisation en horizon fini avec une comparaison de deux algorithmes de type Q-Learning et R-Learning. On montre tout d'abord dans le cas fini l'équivalence des différents critères d'optimalité associés, puis, comme en horizon infini, une étude expérimentale permet de conclure à la supériorité des méthodes de type R-Learning.

Domaines

Sciences du Vivant [q-bio]

Migration ProdInra : Connectez-vous pour contacter le contributeur

https://hal.inrae.fr/hal-02771555

Soumis le : jeudi 4 juin 2020-12:23:42

Dernière modification le : mardi 12 mars 2024-10:44:40

Dates et versions

hal-02771555 , version 1 (04-06-2020)

Identifiants

HAL Id : hal-02771555 , version 1
PRODINRA : 135923

Citer

F. Garcia, Sidy Ndiaye. Apprentissage par renforcement : analyse des critères moyens et gamma pondérés en horizon fini. Journées Françaises d'Apprentissage, May 1997, Roscoff, France. ⟨hal-02771555⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INRA INRAE MATHNUM MIAT

10 Consultations

0 Téléchargements

Apprentissage par renforcement : analyse des critères moyens et gamma pondérés en horizon fini

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager