Skip to main content
QUICK REVIEW

[論文レビュー] Adversarial Task Transfer from Preference.

Xiaojian Ma, Mingxuan Jing|arXiv (Cornell University)|May 12, 2018
Adversarial Robustness in Machine Learning被引用数 1
ひとこと要約

本論文は強化学習におけるタスク転送フレームワークを提案し、エキスパートの好み(preferences)を用いて、エキスパートのデモや明示的なコスト関数に依存せずに、ソースタスクからターゲットタスクへのポリシー転送を実現する。敵対的マクシマムエントロピー逆強化学習を用いて、繰り返しターゲットコスト関数と軌道分布を精緻化することで、最小限の人的監視で効果的なポリシー転送を達成し、ベンチマーク環境における広範なシミュレーションで検証された。

ABSTRACT

The goal of task transfer in reinforcement learning is migrating the action policy of an agent to the target task from the source task. Given their successes on robotic action planning, current methods mostly rely on two requirements: exactly-relevant expert demonstrations or the explicitly-coded cost function on target task, both of which, however, are inconvenient to obtain in practice. In this paper, we relax these two strong conditions by developing a novel task transfer framework where the expert preference is applied as a guidance. In particular, we alternate the following two steps: Firstly, letting experts apply pre-defined preference rules to select related expert demonstrates for the target task. Secondly, based on the selection result, we learn the target cost function and trajectory distribution simultaneously via enhanced Adversarial MaxEnt IRL and generate more trajectories by the learned target distribution for the next preference selection. The theoretical analysis on the distribution learning and convergence of the proposed algorithm are provided. Extensive simulations on several benchmarks have been conducted for further verifying the effectiveness of the proposed method.

研究の動機と目的

  • タスク転送において、ターゲットタスクの正確なエキスパートデモや明示的なコスト関数を取得することが現実的でない問題に対処すること。
  • 人為的監視の強度を減らすために、ポリシー転送の指針としてエキスパートの好みのみを用いること。
  • 好みに基づく繰り返し精緻化を通じて、ターゲットコスト関数と軌道分布を同時に学習する手法を開発すること。
  • 提案手法の収束性と分布学習特性を理論的に分析すること。
  • 複数のベンチマーク環境において、フレームワークの有効性を実験的に検証すること。

提案手法

  • エキスパートが事前に定義された好みルールに従い、ソースタスクの関連するエキスパートデモをターゲットタスク用に選択する。
  • 選択されたデモを用いて、強化された敵対的マクシマムエントロピー逆強化学習により、ターゲットコスト関数と軌道分布を学習する。
  • 学習された軌道分布が次のラウンドの好み評価用に新たな軌道を生成する。
  • 好みに基づくデモ選択と分布学習を繰り返し行う反復ループで交互に実行する。
  • 逆強化学習と好みモデリングを統合し、相対的比較から報酬関数を推定する。
  • 理論的分析により、反復処理中の分布学習の収束性と安定性を保証する。

実験結果

リサーチクエスチョン

  • RQ1明示的なコスト関数や完全なデモが存在しない状況でも、エキスパートの好みのみで効果的にポリシー転送を可能にすることができるか?
  • RQ2好みベースの選択を逆強化学習とどのように統合することで、ターゲットポリシー学習を改善できるか?
  • RQ3軌道分布とコスト関数の繰り返し精緻化は、安定的かつ収束的な学習をもたらすか?
  • RQ4サンプル効率とベンチマークタスクにおけるパフォーマンスの観点から、既存手法と比較してどのように差がつくか?
  • RQ5異なる好みルールの設計が、転送されたポリシーの品質にどのような影響を与えるか?

主な発見

  • 提案手法は、正確なエキスパートデモや手作業でコーディングされた報酬関数を一切不要とし、エキスパートの好みのみで効果的なポリシー転送を達成した。
  • ベンチマーク環境における広範なシミュレーションにより、より強い監視に依存するベースライン手法よりも一貫した性能向上が確認された。
  • 繰り返し精緻化プロセスにより、分布学習とコスト関数推定の両方で安定した収束が達成された。
  • 異なる好みルールの設計に対してもロバストであることが示され、実世界の応用において実用的である可能性が裏付けられた。
  • 理論的分析により、仮定された条件下で提案アルゴリズムの収束性が確認された。
  • 人的アノテーション作業を著しく削減しつつ、高品質なポリシー転送を実現できることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。