Skip to main content
QUICK REVIEW

[论文解读] Episodic Exploration for Deep Deterministic Policies: An Application to StarCraft Micromanagement Tasks

Nicolas Usunier, Gabriel Synnaeve|arXiv (Cornell University)|Sep 10, 2016
Artificial Intelligence in Games参考文献 8被引用 102
一句话总结

该论文为 RL 引入 StarCraft 微操作基准测试,并提出一种在剧集开始时对策略参数进行随机化的启发式 episodic 探索方法,使在 Q-learning 和 REINFORCE 难以学习的情况下也能使用确定性策略进行学习。

ABSTRACT

We consider scenarios from the real-time strategy game StarCraft as new benchmarks for reinforcement learning algorithms. We propose micromanagement tasks, which present the problem of the short-term, low-level control of army members during a battle. From a reinforcement learning point of view, these scenarios are challenging because the state-action space is very large, and because there is no obvious feature representation for the state-action evaluation function. We describe our approach to tackle the micromanagement scenarios with deep neural network controllers from raw state features given by the game engine. In addition, we present a heuristic reinforcement learning algorithm which combines direct exploration in the policy space and backpropagation. This algorithm allows for the collection of traces for learning using deterministic policies, which appears much more efficient than, for example, ε-greedy exploration. Experiments show that with this algorithm, we successfully learn non-trivial strategies for scenarios with armies of up to 15 agents, where both Q-learning and REINFORCE struggle.

研究动机与目标

  • 促使在具有巨大状态与动作空间且缺少显式特征表示的实时策略微操作任务中应用强化学习。
  • 提出微操作任务(如 m5v5、m15v16、dragoons_zealots、w15v17)以及从原始游戏引擎特征训练的深度神经网络控制器。
  • 开发一种通过在剧集开始时对网络参数进行随机化来在策略空间中进行探索的启发式强化学习算法,并将无梯度更新与反向传播结合。
  • 在多单位 StarCraft 任务中对标准 RL 基线(Q-learning、REINFORCE)与提出方法进行比较,突出探索与学习效率。

提出的方法

  • 在 StarCraft 中定义具有多单位和持续性动作(移动与攻击)的微操作任务,并引入贪心推断方案以简化联合动作选择。
  • 将问题形式化为一个以动作为单位-命令对序列的 MDP,并引入一个贪心 MDP,在在充分的策略容量条件下保持最优性以降低联合动作的复杂度。
  • 使用带深度神经网络的联合状态-动作特征表示来对单位的候选命令进行评分,并应用带池化的状态-动作嵌入以处理可变单位数量。
  • 引入归一化的累计奖励以在不同单位数量变化的剧集之间稳定学习,使梯度更新保持一致。
  • 提出一种扰动确定性策略的零阶反向传播(ZO)算法,与基于梯度的更新共同混合参数空间探索与反向传播。
  • 在参数更新中采用 Adagrad,并依赖一个两阶段嵌入网络来处理状态-动作特征与动作类型(attack/move)。

实验结果

研究问题

  • RQ1强化学习算法在仅使用原始状态特征且没有手工设计动作的情况下,能否在 StarCraft 的微操作任务中学习有意义的策略?
  • RQ2通过对参数进行随机化在策略空间中探索,是否能提高离散动作空间中确定性策略的学习效率?
  • RQ3贪心推断(逐单位逐步动作选择)在 StarCraft 微操作任务中的多单位控制是否有效?
  • RQ4与提出的策略空间探索方法相比,标准基线(Q-learning、REINFORCE)在多单位任务上的表现如何?
  • RQ5跨越不同单位数量时的奖励归一化对学习稳定性与性能有何影响?

主要发现

  • 该方法能够在双方部队各自最多 15 个单位的情形下学习出非平凡策略。
  • Q-learning 与 REINFORCE 在这些微操作任务上表现吃力,而提出的策略空间探索方法取得成功。
  • 带深度状态-动作评分器的贪心推断在确定性策略下可以高效完成多单位协调。
  • 零阶反向传播算法将参数空间探索与反向传播结合,有助于在该领域的大型神经网络中学习。
  • 实验结果显示相较于强基线有提升,并证明了直接从原始特征学习微操作策略的可行性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。