QUICK REVIEW

[論文レビュー] Multi-Task Reinforcement Learning with Soft Modularization

Ruihan Yang, Huazhe Xu|arXiv (Cornell University)|Mar 30, 2020

Reinforcement Learning in Robotics参考文献 48被引用数 58

ひとこと要約

本論文は、マルチタスク強化学習のためのソフトモジュラー化を導入し、モジュールを持つベースポリシーとルーティングネットワークを用いてタスクごとにモジュールをソフトに組み合わせ、50のロボット操作タスクでサンプル効率と最終性能を向上させる。

ABSTRACT

Multi-task learning is a very challenging problem in reinforcement learning. While training multiple tasks jointly allow the policies to share parameters across different tasks, the optimization problem becomes non-trivial: It remains unclear what parameters in the network should be reused across tasks, and how the gradients from different tasks may interfere with each other. Thus, instead of naively sharing parameters across tasks, we introduce an explicit modularization technique on policy representation to alleviate this optimization issue. Given a base policy network, we design a routing network which estimates different routing strategies to reconfigure the base network for each task. Instead of directly selecting routes for each task, our task-specific policy uses a method called soft modularization to softly combine all the possible routes, which makes it suitable for sequential tasks. We experiment with various robotics manipulation tasks in simulation and show our method improves both sample efficiency and performance over strong baselines by a large margin.

研究の動機と目的

深層強化学習における異種タスク間でのパラメータ共有に伴う最適化課題に対処する。
各タスクのために自動的に再構成されるソフトなモジュラー化フレームワークを提案する。
ベースポリシーとルーティングネットワークをエンドツーエンドで訓練し、タスク固有のモジュール利用を学習する。
Meta-Worldタスクに対して、強力なベースラインよりサンプル効率と最終性能の改善を実証する。

提案手法

二重ネットワークアーキテクチャ：複数モジュールを含むベースポリシーと、モジュールの重み付け確率を出力するルーティングネットワーク。
ソフトモジュラー化：各タスクはハードなルーティングではなくモジュールの重み付き結合を学習し、微分可能なエンドツーエンド訓練を可能にする。
ルーティング重みは状態表現とタスク埋め込みを用いて算出され、タスク条件付きモジュール再結合を可能にする（レイヤーごとのルーティング確率の式を提供）。
SACをベースとしたポリシー最適化と、タスク条件付きポリシーおよびタスク間の自動ロス平衡を含む共同訓練。
SACエントロピー-温度信号（α）に基づく指数ウェイト付けによるタスク損失の自動平衡。
MT10/MT50のMeta-Worldベンチマークと固定/条件付きゴールで、サンプル効率と最終性能を評価。

実験結果

リサーチクエスチョン

RQ1ソフトモジュラー化は多数のロボット操作タスク間でのネットワークモジュールの効果的な共有を可能にするか？
RQ2ルーティングネットワークを備えたベースポリシーのエンドツーエンド訓練は、ベースラインと比較してサンプル効率と最終性能を改善するか？
RQ3モジュール数とネットワーク深さは、性能と多タスクへのスケーラビリティにどのように影響するか？
RQ4ルーティング入力とタスク別ロス平衡は学習においてどのような役割を果たすか？

主な発見

Method	MT10-Fixed	MT10-Conditioned	MT50-Fixed	MT50-Conditioned
MT-SAC ∗	39.5%	-	28.8%	-
MT-SAC	44.0%	42.6%	31.4%	28.3%
MT-MH-SAC ∗	88.0%	-	35.9%	-
MT-MH-SAC	85.0%	67.4%	35.5%	34.2%
Mix-Expert	42.8%	40.0%	36.1%	37.5%
Hard Routing	20.8%	27.0%	22.9%	29.1%
Ours (Shallow)	87.0%	71.8%	59.5%	60.4%
Ours (Deep)	86.7%	68.4%	60.0%	61.0%

強力なマルチタスクベースラインに対して、サンプル効率と最終性能の双方で著しい改善を実現。
50タスク（MT50）で、アプローチはベースラインを大幅に上回り、操作成功率をほぼ2倍に達した。
ルーティングを伴うソフトモジュラー化は、タスク間でスキルを再利用可能にし、タスク固有のモジュール利用パターンを明らかにする。
深いルーティングネットワークはタスク数に応じて利点が異なり、MT50では深い方が、MT10では浅い方が時に十分である。
小さく、パラメータ効率の良いモデルでソフトモジュラー化を用いれば、より大きなベースラインよりも優れており、スキル共有の効率性を示す。
アブレーション研究は、ルーティング入力（状態とタスク埋め込み）とロス平衡の両方が性能に重要であることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。