Adversarial Policy Gradient for Alternating Markov Games

作者： Ryan Hayward , Chao Gao , Martin Mueller

DOI:

关键词:

摘要: Policy gradient reinforcement learning has been applied to two-player alternate-turn zero-sum games, eg, in AlphaGo, self-play REINFORCE was used to improve the neural net …

uni-trier.de 本地加速

openreview.net 本地加速

openreview.net PDF 下载加速

参考文章(0)

Adversarial Policy Gradient for Alternating Markov Games

来源期刊

我的账户

Adversarial Policy Gradient for Alternating Markov Games

来源期刊

相似文章 6

A transferable neural network for Hex

Robust Multi-Agent Reinforcement Learning via Minimax Deep Deterministic Policy Gradient

Policy Gradient Search: Online Planning and Expert Iteration without Search Trees

Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms.

On Building Generalizable Learning Agents

Friend-or-Foe Deep Deterministic Policy Gradient

我的账户