[論文レビュー] Third-Person Imitation Learning
本論文は、ドメイン混乱とGAN風の仕組みを用いて、異なる視点からのデモンストレーションから学習し、新しいドメインでの方策学習を可能にする、教師なしの第三者模倣学習手法を提案する。初-personデモンストレーションなしで、簡単なMuJoCoタスク(pointmass、reacher、inverted pendulum)で成功を示す。
Reinforcement learning (RL) makes it possible to train agents capable of achieving sophisticated goals in complex and uncertain environments. A key difficulty in reinforcement learning is specifying a reward function for the agent to optimize. Traditionally, imitation learning in RL has been used to overcome this problem. Unfortunately, hitherto imitation learning methods tend to require that demonstrations are supplied in the first-person: the agent is provided with a sequence of states and a specification of the actions that it should have taken. While powerful, this kind of imitation learning is limited by the relatively hard problem of collecting first-person demonstrations. Humans address this problem by learning from third-person demonstrations: they observe other humans perform tasks, infer the task, and accomplish the same task themselves. In this paper, we present a method for unsupervised third-person imitation learning. Here third-person refers to training an agent to correctly achieve a simple goal in a simple environment when it is provided a demonstration of a teacher achieving the same goal but from a different viewpoint; and unsupervised refers to the fact that the agent receives only these third-person demonstrations, and is not provided a correspondence between teacher states and student states. Our methods primary insight is that recent advances from domain confusion can be utilized to yield domain agnostic features which are crucial during the training process. To validate our approach, we report successful experiments on learning from third-person demonstrations in a pointmass domain, a reacher domain, and inverted pendulum.
研究の動機と目的
- 教師と学生の状態間に対応がない第三者デモンストレーションからの学習方法を解決する。
- 生の観測から模倣を導くためのドメイン不変の表現と報酬信号を開発する。
- 異なるドメインと視点からの専門家デモンストレーションを用いて、未開拓ドメインでの方策学習を可能にする。
提案手法
- ドメイン不変特徴に基づいて専門家と非専門家の軌道を識別するサードパーソンRL-GANを定式化する。
- 識別器を特徴抽出器(D_F)と分類器(D_R)に分割する。勾配反転を介してドメイン不変性を強制するためにドメイン分類器(D_D)を導入する。
- D_Fがドメイン特有情報を除去しつつ識別を可能にするよう、相互情報に基づく目的を用いる。
- ドメイン損失を符号を反転させて逆伝播する勾配反転(G)を組み込み、ドメイン不変特徴を促進する。
- 識別器ベースの報酬 −log D_Rを用いてTRPOで模倣者ポリシーπ_θを訓練する。
- 識別信号を改善するために入力を複数タイムステップの観測(o_t, o_{t+n})へ拡張する。
実験結果
リサーチクエスチョン
- RQ1異なるドメインと視点からの観測を用いて、サードパーソン模倣学習を単純なタスクで解決できるか?
- RQ2ドメイン混乱と多時刻入力を組み込むことで、サードパーソン模倣タスクの性能が向上するか?
- RQ3λ のようなドメイン混乱の重みや前方参照フレーム数といったハイパーパラメータに対してどれくらい感度があるか?
- RQ4専門家ドメインと初心者ドメインのカメラアングルの差は学習にどのように影響するか?
- RQ5提案手法と真の報酬RLや一人称模倣学習などのベースラインをどう比較できるか?
主な発見
- 本手法は第三者デモンストレーションからpointmass、reacher、inverted pendulumの妥当なポリシーを学習する。
- ドメイン混乱は3タスクすべてで高い性能に不可欠であり、複数時刻入力が追加の利得をもたらす。
- 特徴表現がドメイン不変になり、生の観測からのサードパーソン学習が成功していることを示す。
- 本手法は一人称模倣と競合し、場合によっては真の報酬RLに近い性能を示す。一方で一人称ポリシーを直接第三者ドメインに適用すると失敗することがある。
- ハイパーパラメータの分析ではλの適切なバランスが必要で、4フレーム程度の先読みウィンドウがタスクを跨いで良好に機能する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。