Apprentissage par renforcement utilisant des réseaux de neurones avec des applications au contrôle moteur

作者: Rémi Coulom

DOI:

关键词:

摘要: Cette these est une etude de methodes permettant d'estimer des fonctions valeur avec reseaux neurones feedforward dans l'apprentissage par renforcement. Elle traite plus particulierement problemes en temps et espace continus, tels que les tâches controle moteur. Dans ce travail, l'algorithme TD(lambda) continu perfectionne pour traiter situations etats commandes discontinus, vario-eta propose effectuer la descente gradient maniere efficace. Les contributions essentielles cette sont succes experimentaux qui indiquent clairement le potentiel estimer dimension elevee. approximateurs lineaires souvent preferes renforcement, mais l'estimation travaux precedents se limite a systemes mecaniques tres peu degres liberte. La methode presentee ete appliquee sur tâche originale d'apprentissage natation un robot articule simule, 4 variables commande 12 d'etat independantes, sensiblement complexe ont resolus fonction lineaires.

参考文章(68)
Remi Munos, A convergent reinforcement learning algorithm in the continuous case based on a finite difference method international joint conference on artificial intelligence. pp. 826- 831 ,(1997)
J. Baxter, A. Tridgell, L Weaver, Experiments in Parameter Learning Using Temporal Differences ICGA Journal. ,vol. 21, pp. 84- 99 ,(1998) , 10.3233/ICG-1998-21203
Kenji Doya, Jun Morimoto, Acquisition of Stand-up Behavior by a Real Robot using Hierarchical Reinforcement Learning international conference on machine learning. pp. 623- 630 ,(2000)
Kenji Doya, Jun Morimoto, Hierarchical Reinforcement Learning of Low-Dimensional Subgoals and High-Dimensional Trajectories international conference on neural information processing. pp. 850- 853 ,(1998)
Jean-Arcady Meyer, Stéphane Doncieux, David Filliat, Agnès Guillot, Evolutionary approaches to neural control of rolling, walking, swimming and flying animats or robots Biologically inspired robot behavior engineering. pp. 1- 43 ,(2003) , 10.1007/978-3-7908-1775-1_1
Yann Le Cun, Learning Process in an Asymmetric Threshold Network NATO ASI series. Series F : computer and system sciences. ,vol. 20, pp. 233- 240 ,(1986) , 10.1007/978-3-642-82657-3_24
Jette Randløv, Preben Alstrøm, Learning to Drive a Bicycle Using Reinforcement Learning and Shaping international conference on machine learning. pp. 463- 471 ,(1998)
III. Baird, Klopf Leemon C., A. H., Reinforcement Learning With High-Dimensional, Continuous Actions Defense Technical Information Center. ,(1993) , 10.21236/ADA280844