Skip to main content
QUICK REVIEW

[論文レビュー] Bayesian Optimization with Automatic Prior Selection for Data-Efficient Direct Policy Search

Rémi Pautrat, Konstantinos Chatzilygeroudis|arXiv (Cornell University)|Sep 20, 2017
Machine Learning and Algorithms参考文献 43被引用数 33
ひとこと要約

本論文は、尤度と期待改善値に基づいて複数の候補からの最も関連性の高い事前分布を自動で選択するベイジアン最適化の獲得関数であるMost Likely Expected Improvement (MLEI) を提案する。MLEI は、現在のタスクの文脈(例:損傷や地形)がどの事前分布とも正確に一致しない場合でも、シミュレーションや過去のタスクからの事前知識を動的に活用することで、ロボット工学におけるデータ効率の良い直接的ポリシー探索を可能にする。シミュレーションおよび物理的ロボット実験において、単一の事前分布を用いた標準的なEIを上回る性能を示した。

ABSTRACT

One of the most interesting features of Bayesian optimization for direct policy search is that it can leverage priors (e.g., from simulation or from previous tasks) to accelerate learning on a robot. In this paper, we are interested in situations for which several priors exist but we do not know in advance which one fits best the current situation. We tackle this problem by introducing a novel acquisition function, called Most Likely Expected Improvement (MLEI), that combines the likelihood of the priors and the expected improvement. We evaluate this new acquisition function on a transfer learning task for a 5-DOF planar arm and on a possibly damaged, 6-legged robot that has to learn to walk on flat ground and on stairs, with priors corresponding to different stairs and different kinds of damages. Our results show that MLEI effectively identifies and exploits the priors, even when there is no obvious match between the current situations and the priors.

研究の動機と目的

  • 現在のタスクの文脈が不明または事前分布と一致しない場合に、複数の候補の中から最も適切な事前分布を選択する課題に対処すること。
  • 事前正しさを事前に仮定せずに、事前知識を統合することで、ロボット工学における直接的ポリシー探索のデータ効率を向上させること。
  • 学習中に、現在の状況と完全に一致しない場合でも、最も関連性の高い事前分布を動的に特定・活用できるように、ベイジアン最適化を拡張すること。
  • 自動的な事前分布選択が、未知の損傷や新規環境への適応を向上させることを、シミュレーションおよび実世界のロボットシステムで実証すること。

提案手法

  • 期待改善値と各事前モデルの尤度を組み合わせた新しい獲得関数、Most Likely Expected Improvement (MLEI) を提案する。
  • シミュレーションや過去のタスクからの事前知識を符号化する非定数の平均関数を備えたガウス過程を用いて報酬関数をモデル化する。
  • 観測データに基づいて各事前モデルの尤度を計算し、それが現在の文脈において妥当であるかを評価する。
  • 期待改善値と事前モデルの尤度のバランスを取ることで、最適化中に動的に事前分布を選択する次の評価点を決定する。
  • 異なる状況(例:正常なロボット、損傷した脚、異なる地形)を表す複数の事前モデルの混合を用い、観測された報酬に基づいてそれらの重みを更新する。
  • 複数の事前分布を統合するジョイントモデルを用いたベイジアン最適化により、転移学習を可能にし、予期しない状態への頑健な適応を実現する。

実験結果

リサーチクエスチョン

  • RQ1真の文脈が不明な場合に、ベイジアン最適化が複数の候補の中から最も関連性の高い事前分布を効果的に選択できるか。
  • RQ2MLEI による自動的かつ事前分布選択は、単一の固定された事前分布を用いた標準的な期待改善値と比較して、サンプル効率および性能で優れているか。
  • RQ3実際の損傷や地形状態が利用可能な事前分布に含まれていない場合でも、MLEI が有効なポリシー学習を可能にするか。
  • RQ4MLEI が複数の事前分布を活用して、損傷した状態や新規環境で補償行動を発見する能力をどの程度発揮できるか。

主な発見

  • MLEI は、シミュレーションおよび物理的ロボット実験の両方で、単一の事前分布を用いた標準的な期待改善値を上回った。特に、実際の文脈が事前分布に含まれない場合に顕著な優位性を示した。
  • 未知の損傷を負った6脚ロボットにおいて、MLEI は10回未満のエピソードで高い性能を持つ歩行パターンを発見した。これは、実際の損傷状態と一致する事前分布が存在しなかったにもかかわらずである。
  • 実際の階段が事前分布に含まれていなかった場合でも、MLEI はベースライン手法を上回った。これは、未知の地形への一般化能力を示している。
  • ロボットが損傷している状況でも、損傷が事前分布に含まれていなかったにもかかわらず、MLEI は正常ロボットの事前分布を用いたEIよりも優れた性能を達成した。これは、効果的な転移学習が実現されたことを示している。
  • 物理実験では、MLEI は10回の反復後に平坦な地面で効果的な補償歩行パターンを発見した。5回の再現実験で一貫した改善が観察された。
  • 本手法は、損傷適応と地形一般化の両方において、事前分布を有効に活用でき、実世界のロボット工学アプリケーションにおける頑健性を確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。