Odalric-Ambrym Maillard

机构: Inria Lille - Nord Europe

主页: neowordpress.fr

每年引用次数

引用次数

引用: 2,867

H-指数: 27

I10-指数 : 56

出版物: 150

标题

引用次数

年份

Learning Multiple Markov Chains via Adaptive Allocation

Odalric-Ambrym Maillard , Mohammad Sadegh Talebi
neural information processing systems 32 13343 -13353

2019

Budgeted Reinforcement Learning in Continuous State Space

Olivier Pietquin , Odalric-Ambrym Maillard , Tanguy Urvoy , Romain Laroche
neural information processing systems 32 9295 -9305

2019

Regret Bounds for Learning State Representations in Reinforcement Learning

Alessandro Lazaric , Odalric-Ambrym Maillard , Matteo Pirotta , Ronald Ortner
neural information processing systems 32 12738 -12748

2019

Model-Based Reinforcement Learning Exploiting State-Action Equivalence

Odalric-Ambrym Maillard , Mahsa Asadi , Hippolyte Bourel , Mohammad Sadegh Talebi
arXiv: Learning

2019

Variance-Aware Regret Bounds for Undiscounted Reinforcement Learning in MDPs

Odalric-Ambrym Maillard , Mohammad Sadegh Talebi
algorithmic learning theory 770 -805

2018

Active Roll-outs in MDP with Irreversible Dynamics

Odalric-Ambrym Maillard , Ronald Ortner , Timothy Mann , Shie Mannor

2019

Tightening Exploration in Upper Confidence Reinforcement Learning

Odalric-Ambrym Maillard , Hippolyte Bourel , Mohammad Sadegh Talebi
international conference on machine learning 1 1056 -1066

2020

Restarted Bayesian Online Change-point Detector achieves Optimal Detection Delay

Odalric-Ambrym Maillard , Raphaël Féraud , Reda Alami
international conference on machine learning 1 211 -221

2020

Improved Exploration in Factored Average-Reward MDPs

Odalric-Ambrym Maillard , Anders Jonsson , Mohammad Sadegh Talebi
arXiv: Learning

2020

Robust-Adaptive Interval Predictive Control for Linear Uncertain Systems

Odalric-Ambrym Maillard , Denis Efimov , Edouard Leurent
conference on decision and control 1429 -1434

2020

Sub-sampling for Efficient Non-Parametric Bandit Exploration

Odalric-Ambrym Maillard , Emilie Kaufmann , Dorian Baudry
neural information processing systems 33 5468 -5478

2020

Robust-Adaptive Control of Linear Systems: beyond Quadratic Costs

Edouard Leurent , Odalric-Ambrym Maillard , Denis V. Efimov
neural information processing systems 33 3220 -3231

2020

Concentration inequalities for sampling without replacement

Rémi Bardenet , Odalric-Ambrym Maillard
Bernoulli 21 ( 3) 1361 -1385

157

2015

Memory Bandits: Towards the Switching Bandit Problem Best Resolution

Odalric-Ambrym Maillard , Raphaël Féraud , Réda Alami
MLSS 2018 - Machine Learning Summer School

2018

Monte-Carlo Graph Search: the Value of Merging Similar States

Odalric-Ambrym Maillard , Edouard Leurent
asian conference on machine learning 129 577 -592

2020

Reinforcement Learning in Parametric MDPs with Exponential Families.

Odalric-Ambrym Maillard , Aditya Gopalan , Sayak Ray Chowdhury
international conference on artificial intelligence and statistics 1855 -1863

2021

Kullback-Leibler upper confidence bounds for optimal sequential allocation

Olivier Cappé , Aurélien Garivier , Odalric-Ambrym Maillard , Rémi Munos
arXiv: Probability

375

2012

Online learning in adversarial Lipschitz environments

Odalric-Ambrym Maillard , Rémi Munos
european conference on machine learning 305 -320

2010

The non-stationary stochastic multi-armed bandit problem

Robin Allesiardo , Raphaël Féraud , Odalric-Ambrym Maillard
Journal of data science 3 ( 4) 267 -283

2017

Robust Risk-Averse Stochastic Multi-armed Bandits

Odalric-Ambrym Maillard
algorithmic learning theory 218 -233

2013

Multi-armed Bandits

Stochastic Dynamical Systems

Statistical Learning

Reinforcement Learning

Random matrices

Rémi Munos Philippe Preux Shie Mannor Olivier Cappé Alessandro Lazaric Daniil Ryabko Rémi Bardenet Timothy A Mann Nicolas Vayatis Rémi Coulom

查看全部合作者

Odalric-Ambrym Maillard

引用次数

出版物: 150

我的账户