QUICK REVIEW

[論文レビュー] End-to-End Training of Deep Visuomotor Policies

Sergey Levine, Chelsea Finn|arXiv (Cornell University)|Apr 2, 2015

Reinforcement Learning in Robotics参考文献 80被引用数 1,390

ひとこと要約

この論文は、強化学習を教師あり学習に変換するためのガイド付き方策探索を用いて、rawなRGB画像をロボットのモータトルクへ直接マッピングする、深層畳み込みニューラルネットワーク（CNN）のエンドツーエンド学習を提案する。視覚と制御を同時に最適化することで、ねじり閉め、ブロックの差し込み、ハンガーのかけ直しなどの現実世界の操作タスクにおいて、分離して訓練されたパーパスと制御部の組み合わせを上回る優れた性能と一般化性能を達成する。

ABSTRACT

Policy search methods can allow robots to learn control policies for a wide range of tasks, but practical applications of policy search often require hand-engineered components for perception, state estimation, and low-level control. In this paper, we aim to answer the following question: does training the perception and control systems jointly end-to-end provide better performance than training each component separately? To this end, we develop a method that can be used to learn policies that map raw image observations directly to torques at the robot's motors. The policies are represented by deep convolutional neural networks (CNNs) with 92,000 parameters, and are trained using a partially observed guided policy search method, which transforms policy search into supervised learning, with supervision provided by a simple trajectory-centric reinforcement learning method. We evaluate our method on a range of real-world manipulation tasks that require close coordination between vision and control, such as screwing a cap onto a bottle, and present simulated comparisons to a range of prior policy search methods.

研究の動機と目的

視覚と制御のエンドツーエンド同時学習がロボット操作タスクにおける性能向上に寄与するかどうかを調査すること。
方策探索における手動で設計されたパーツ（視覚、状態推定、低レベル制御）への依存度を低減すること。
現実世界のロボット設定において、深層ニューラルネットワークを用いてrawな画像観測からモータトルクへ直接マッピングすることを可能にすること。
正確な視覚的連携と接触ダイナミクスを要するタスクにおいて、方策の一般化性能とロバスト性を向上させること。
限られた現実世界データでの学習に有効であることを示すために、ガイド付き方策探索による教師あり微調整が効果的な学習を可能にすること。

提案手法

92,000パラメータを有する7層のCNNで表される方策で、空間的特徴点変換を新たに導入し、空間的推論性能を向上させる。
ガイド付き方策探索は、モデルフリーな軌道最適化手法を繰り返し用いてエキスパートのデモンストレーションを生成することで、方策探索を教師あり学習に変換する。
アルゴリズムはBregman ADMM（BADMM）として形式化され、局所最適解への収束を保証する。
学習中は全状態（例：物体の位置）が観測可能であるが、テスト時にはrawなRGB画像のみが使用され、新規構成への一般化が可能になる。
学習には確率的勾配降下法が用いられ、L2距離、精度のための対数ペナルティ、制御効率の正則化を組み合わせたコスト関数が使用される。
PR2ロボットを用いて、20 Hzの制御周波数、5秒のエピソードで、現実世界の相互作用データを用いて学習が行われる。カメラは固定である。

実験結果

リサーチクエスチョン

RQ1視覚と制御部のエンドツーエンド同時学習が、別々に訓練した場合よりも優れた性能をもたらすのか？
RQ2深層CNNを用いてrawな画像観測を用いることで、現実世界のロボット操作においてロバストで一般化可能な視覚運動方策が実現可能か？
RQ3限られた現実世界データで、ガイド付き方策探索が高次元方策探索を効果的に教師あり学習に変換できるか？
RQ4同時に学習させることで、新規の物体位置や構成への一般化性能がどの程度向上するか？
RQ5成功確率と一貫性の観点から、本手法は先行する方策探索手法と比べてどのように差をつけるか？

主な発見

エンドツーエンドで学習された視覚運動方策は、別々に訓練された視覚と制御部よりも高い成功確率と、新規の物体位置への優れた一般化性能を達成した。
本手法は、ボトルのキャップをねじる、形状ソーターへのブロック差し込み、ハンガーのかけ直しなどの複雑なタスクを、わずか数分間の現実世界の相互作用データで学習に成功した。
シミュレーション比較において、ガイド付き方策探索は、高次元ニューラルネットワーク方策の学習において、複数の先行する方策探索手法を上回った。
空間的特徴点変換の導入により、CNN方策における過学習が軽減され、空間的推論性能が向上した。
対数ペナルティ項を含むコスト関数により、特にボトルキャップのねじ込みなど、正確な配置が求められるタスクで高精度な配置が可能になった。
テスト時に全状態情報が不要な状態でも、未観測の構成に一般化でき、新規の初期条件に対してもロバストであることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。