QUICK REVIEW

[论文解读] Deep Reinforcement Learning in Large Discrete Action Spaces

Gabriel Dulac-Arnold, Evans, Richard|arXiv (Cornell University)|Dec 24, 2015

Anomaly Detection Techniques and Applications被引用 265

一句话总结

该论文提出了一种针对大规模离散动作空间的深度强化学习方法，通过将动作嵌入连续空间并使用近似最近邻搜索，实现次线性推理复杂度。该方法在包含多达一百万个动作的任务中实现了高效的训练与推理，表明仅使用最近邻动作的极小子集即可实现优异性能，同时保持泛化能力与可扩展性。

ABSTRACT

Being able to reason in an environment with a large number of discrete actions is essential to bringing reinforcement learning to a larger class of problems. Recommender systems, industrial plants and language models are only some of the many real-world tasks involving large numbers of discrete actions for which current methods are difficult or even often impossible to apply. An ability to generalize over the set of actions as well as sub-linear complexity relative to the size of the set are both necessary to handle such tasks. Current approaches are not able to provide both of these, which motivates the work in this paper. Our proposed approach leverages prior information about the actions to embed them in a continuous space upon which it can generalize. Additionally, approximate nearest-neighbor methods allow for logarithmic-time lookup complexity relative to the number of actions, which is necessary for time-wise tractable training. This combined approach allows reinforcement learning methods to be applied to large-scale learning problems previously intractable with current methods. We demonstrate our algorithm's abilities on a series of tasks having up to one million actions.

研究动机与目标

为解决在推荐系统或工业控制等环境中存在极大规模离散动作集时深度强化学习的不可行性问题。
在不随动作集规模线性增长的情况下实现对动作的泛化。
通过在嵌入动作空间中高效地进行最近邻查找，降低大规模动作空间中的推理时间。
证明仅从嵌入空间中最近的k个动作中学习，即可实现优异性能。
实现在现实系统中动作集超过百万规模的可扩展强化学习。

提出的方法

利用先验知识将动作嵌入连续向量空间，实现对相似动作的泛化。
策略网络在嵌入空间中输出连续动作向量，随后通过近似最近邻（ANN）搜索映射为最近的离散动作。
使用ANN库（如FLANN）实现相对于动作数量的对数时间复杂度的查找。
智能体从嵌入空间中最近的k个邻居中选择最优动作，可通过直接选择或基于值函数的优化实现。
该方法在大规模离散动作空间环境中使用演员-critic框架与策略梯度方法（如DDPG）进行训练。
动作表示可预先训练，或在训练过程中联合优化，以提升嵌入质量。

实验结果

研究问题

RQ1深度强化学习是否可在包含多达一百万个离散动作的环境中实现可行？
RQ2仅在学习到的嵌入空间中使用最近的k个动作，是否能在降低计算成本的同时保持性能？
RQ3近似最近邻搜索在大规模动作空间中对学习性能与训练速度有何影响？
RQ4动作嵌入是否能在不枚举完整动作集的情况下实现动作间的泛化？
RQ5在大规模动作空间环境中，引导式探索在多大程度上可提升学习效率？

主要发现

该方法在包含多达一百万个离散动作的任务中实现了稳定训练与优异性能，展示了对先前方法的可扩展性超越。
在13,138个动作的任务中，仅使用1%的动作（k=131）即达到全动作基线37%的性能，同时训练时间提速15倍。
当使用低召回率的FLANN设置时，性能显著下降，但中等与快速设置对性能影响极小。
在13,138个动作的任务中，k=5%（656个动作）时，近似最近邻搜索实现每秒12步，而全动作训练仅能实现每秒1.5步。
在较小任务中，更小的动作表示（20D vs. 200D）提升了收敛稳定性，表明嵌入维度存在权衡。
在大规模任务中，使用引导式探索（将探索范围限制在可能的动作）相比均匀随机探索，性能提升了50%。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。