QUICK REVIEW

[论文解读] Modular Multi-Objective Deep Reinforcement Learning with Decision Values

Tomasz Tajmajer|arXiv (Cornell University)|Apr 21, 2017

Reinforcement Learning in Robotics参考文献 19被引用 1

一句话总结

本文提出模块化多目标深度Q网络决策值（MODQN-DV），该方法为每个目标分别使用独立的DQN，并引入决策值以动态标量化其输出，实现训练后优先级调整与行为重构。当目标优先级发生变化时，该方法性能更优，在9个优先级调整场景中有7个优于基线DQN方法，且无需重新训练即可在运行时调整行为。

ABSTRACT

In this work we present a method for using Deep Q-Networks (DQNs) in multi-objective environments. Deep Q-Networks provide remarkable performance in single objective problems learning from high-level visual state representations. However, in many scenarios (e.g in robotics, games), the agent needs to pursue multiple objectives simultaneously. We propose an architecture in which separate DQNs are used to control the agent's behaviour with respect to particular objectives. In this architecture we introduce decision values to improve the scalarization of multiple DQNs into a single action. Our architecture enables the decomposition of the agent's behaviour into controllable and replaceable sub-behaviours learned by distinct modules. Moreover, it allows to change the priorities of particular objectives post-learning, while preserving the overall performance of the agent. To evaluate our solution we used a game-like simulator in which an agent - provided with high-level visual input - pursues multiple objectives in a 2D world.

研究动机与目标

解决单目标DQN在多目标环境中面临的局限性，即智能体需在碰撞避免、清洁和充电等冲突目标间取得平衡。
实现在训练后无需重新训练即可调整目标优先级和选择性禁用行为，支持机器人和游戏AI中的实际部署。
将复杂智能体行为分解为模块化、可独立训练的DQN组件，以提升控制性与可维护性。
引入决策值作为机制，基于实时相关性稳健地标量化多个DQN的输出，增强对优先级变化的适应能力。
建立一个新的基准环境“cleaner”，用于视觉状态输入的多目标强化学习，与Atari类似但专为多目标评估而设计。

提出的方法

该架构为每个目标（如碰撞避免、地面清洁、充电）分别使用独立的深度Q网络（DQN），实现模块化训练。
引入决策值作为学习得到的、与状态相关的权重，在标量化前缩放每个DQN的Q值输出，反映当前各项目标的相对重要性。
最终动作基于加权Q值和选择，其中权重即为决策值，实现基于环境上下文的动态优先级分配。
决策值通过共享损失函数端到端训练，以优化各项目标的综合性能，使模型在训练后能适应新的优先级设置。
该方法支持运行时调整目标优先级，并可通过初始化新的DQN并利用决策值机制集成，实现无需重新训练即可添加新目标。
该框架在具有视觉状态输入的2D网格世界模拟器中进行了评估，模拟清洁机器人在不同优先级配置下追求多个目标的情境。

实验结果

研究问题

RQ1具有决策值的模块化DQN架构是否能有效支持多目标强化学习，同时实现训练后优先级重构？
RQ2当目标优先级与训练时不同，决策值的使用如何提升性能？
RQ3决策值在不造成性能下降的前提下，能在多大程度上实现对特定行为的动态启用或禁用？
RQ4能否在不重新训练的情况下，通过决策值机制为已训练智能体添加新目标并调节其影响？
RQ5MODQN-DV在面对多个目标的优先级变化时，与标准DQN和MODQN相比，其鲁棒性如何？

主要发现

在9个测试案例中，有7个在训练后改变优先级设置的情况下，MODQN-DV在整体性能上保持或优于不使用决策值的MODQN。
当最高优先级目标改变时，使用决策值的模型在该目标上的性能始终得到提升，表明实现了有效的动态优先级分配。
基线MODQN在0,1,0优先级设置下相比1,1,1设置性能下降了286.74%，凸显了标准标量化的不稳定性。
决策值在智能体接近与某项目标相关状态时动态上升——例如靠近墙壁时碰撞避免值上升——证明了其具备上下文感知的相关性估计能力。
即使在优先级被调整的情况下，该方法仍能保持或提升性能，例如在0.5, 0.3, 0.2设置下，MODQN-DV相比基线实现了44.55%的整体性能提升。
所提出的“cleaner”基准提供了一个视觉化、多目标的环境，适用于评估多目标强化学习算法，填补了现有基准中的空白。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。