作者: Rémi Coulom
DOI:
关键词:
摘要: Cette these est une etude de methodes permettant d'estimer des fonctions valeur avec reseaux neurones feedforward dans l'apprentissage par renforcement. Elle traite plus particulierement problemes en temps et espace continus, tels que les tâches controle moteur. Dans ce travail, l'algorithme TD(lambda) continu perfectionne pour traiter situations etats commandes discontinus, vario-eta propose effectuer la descente gradient maniere efficace. Les contributions essentielles cette sont succes experimentaux qui indiquent clairement le potentiel estimer dimension elevee. approximateurs lineaires souvent preferes renforcement, mais l'estimation travaux precedents se limite a systemes mecaniques tres peu degres liberte. La methode presentee ete appliquee sur tâche originale d'apprentissage natation un robot articule simule, 4 variables commande 12 d'etat independantes, sensiblement complexe ont resolus fonction lineaires.