[论文解读] Multi-Task Reinforcement Learning with Soft Modularization
论文提出了用于多任务强化学习的软模块化方法,采用带模块的基础策略和路由网络,根据任务对模块进行软性组合,从而在50个机器人操控任务上提升样本效率和最终性能。
Multi-task learning is a very challenging problem in reinforcement learning. While training multiple tasks jointly allow the policies to share parameters across different tasks, the optimization problem becomes non-trivial: It remains unclear what parameters in the network should be reused across tasks, and how the gradients from different tasks may interfere with each other. Thus, instead of naively sharing parameters across tasks, we introduce an explicit modularization technique on policy representation to alleviate this optimization issue. Given a base policy network, we design a routing network which estimates different routing strategies to reconfigure the base network for each task. Instead of directly selecting routes for each task, our task-specific policy uses a method called soft modularization to softly combine all the possible routes, which makes it suitable for sequential tasks. We experiment with various robotics manipulation tasks in simulation and show our method improves both sample efficiency and performance over strong baselines by a large margin.
研究动机与目标
- 解决在深度强化学习中跨异构任务共享参数时的优化挑战。
- 提出一种软模块化框架,能够自动为每个任务重新配置基础策略。
- 端到端训练基础策略和路由网络,以学习任务特定的模块使用。
- 在 Meta-World 任务上证明样本效率和最终性能优于强基线。
提出的方法
- 两网络架构:一个多模块基础策略和一个输出模块权重概率的路由网络。
- 软模块化,每个任务学习模块的加权组合而非硬路由,从而实现可微的端到端训练。
- 路由权重使用状态表示和任务嵌入来计算,实现任务条件下的模块重新组合(给出逐层路由概率的公式)。
- 以Soft Actor-Critic (SAC)为基础的策略优化,具有任务条件策略和跨任务联合训练,包括通过任务特定温度实现跨任务的自动损失平衡。
- 通过基于 SAC 熵-温度信号(alpha)的指数加权对任务损失进行自动平衡。
- 在 Meta-World 的 MT10/MT50 基准上进行实验,比较固定目标与条件化目标,以评估样本效率和最终性能。
实验结果
研究问题
- RQ1软模块化是否能够在大量机器人操控任务中有效共享网络模块?
- RQ2端到端训练的基础策略与路由网络相较基线是否提升样本效率和最终性能?
- RQ3模块数量和网络深度如何影响性能及对众多任务的可扩展性?
- RQ4路由输入和按任务平衡损失在学习中的作用是什么?
主要发现
- 在 Meta-World 上显著提升了样本效率和最终性能,相对于强基线的多任务方法。
- 在50个任务(MT50)下,该方法显著优于基线,操控成功率几乎翻了一番。
- 带路由的软模块化实现了任务之间技能的重复使用,并揭示了任务特定的模块使用模式。
- 随着任务数增加,路由网络深度与否的优劣取决于任务数量(MT50 时深度更优,MT10 有时浅层即可)。
- 一个小型、参数高效的软模块化模型可以超越更大规模的基线,突出高效技能共享。
- 消融研究表明,路由输入(状态和任务嵌入)以及损失平衡对性能至关重要。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。