QUICK REVIEW

[论文解读] A Distributional View on Multi-Objective Policy Optimization

Abbas Abdolmaleki, Sandy H. Huang|arXiv (Cornell University)|May 15, 2020

Advanced Multi-Objective Optimization Algorithms被引用 23

一句话总结

该论文提出了一种尺度不变的、分布式的多目标强化学习（MORL）方法，通过为每个目标单独学习动作分布，并利用监督策略学习进行组合。通过约束每个目标特定分布与当前策略之间的KL散度，该方法实现了灵活的、基于偏好的权衡，而无需标量化处理，从而在高维连续控制任务中实现了帕累托最优策略。

ABSTRACT

Many real-world problems require trading off multiple competing objectives. However, these objectives are often in different units and/or scales, which can make it challenging for practitioners to express numerical preferences over objectives in their native units. In this paper we propose a novel algorithm for multi-objective reinforcement learning that enables setting desired preferences for objectives in a scale-invariant way. We propose to learn an action distribution for each objective, and we use supervised learning to fit a parametric policy to a combination of these distributions. We demonstrate the effectiveness of our approach on challenging high-dimensional real and simulated robotics tasks, and show that setting different preferences in our framework allows us to trace out the space of nondominated solutions.

研究动机与目标

解决多目标强化学习（MORL）中目标单位或尺度不同时表达偏好的挑战。
开发一种方法，使从业者能够以尺度不变的方式设定偏好，避免对具有不同单位的目标进行手动标量化。
通过监督学习组合目标特定的动作分布，学习一个能够平衡多个目标的单一策略。
通过改变偏好约束，追踪整个非支配解的帕累托前沿。

提出的方法

该方法基于强化学习即推理的视角，采用变分推断框架，为每个目标分别学习一个动作分布。
每个目标特定的分布通过在最大化期望回报的同时，约束其相对于当前策略的KL散度来推导，约束水平编码了偏好。
通过将参数化策略拟合到这些目标特定分布的加权组合，获得更新后的策略，该过程采用监督学习方式。
KL散度约束以硬边界形式施加，约束超参数εk控制每个目标的影响程度。
该方法与基于MPO和V-MPO的异策略（MO-MPO）和同策略（MO-V-MPO）强化学习算法兼容。
该方法通过在分布空间而非奖励空间中操作，避免了标量化，从而对奖励尺度具有不变性。

实验结果

研究问题

RQ1分布式的MORL方法是否能够在不对标量不同单位或尺度的目标进行标量化的情况下，实现尺度不变的偏好指定？
RQ2所提出的方法在高维连续控制任务中，追踪非支配策略帕累托前沿的能力如何？
RQ3该方法在策略性能和偏好设定鲁棒性方面是否优于标准的标量化方法？
RQ4该方法是否能有效结合异策略和同策略深度强化学习算法（如MPO和V-MPO）？

主要发现

所提出的方法在基准MORL任务中成功追踪了非支配解的整个空间，展示了其生成多样化、帕累托最优策略的能力。
MO-MPO和MO-V-MPO在多个高维连续控制环境（包括仿真和真实机器人任务）中均优于标量化基线方法。
当目标处于截然不同的尺度或单位时，该方法在策略性能上显著优于基于标量化的方法。
KL散度约束的使用实现了有效且稳定的偏好控制，相对约束值（εk）可直接编码目标之间的期望权衡。
该方法在强化学习即推理框架下具有理论基础，为MORL中的标量化提供了一种有原则的替代方案。
实证结果表明，该方法在复杂机器人控制任务中具有良好的泛化能力，包括动作维度超过20个的任务。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。