Policy gradient bayesian robust optimization for imitation learning

作者： Zaynah Javed , Daniel S Brown , Satvik Sharma , Jerry Zhu , Ashwin Balakrishna

DOI:

关键词:

摘要: The difficulty in specifying rewards for many real-world problems has led to an increased focus on learning rewards from human feedback, such as demonstrations. However, there …

mlr.press 本地加速

mlr.press PDF 下载加速

参考文章(0)

Policy gradient bayesian robust optimization for imitation learning

来源期刊

我的账户

Policy gradient bayesian robust optimization for imitation learning

来源期刊

相似文章 0

我的账户