[論文レビュー] Actor-Critic Pretraining for Proximal Policy Optimization
本論文は expert Demonstrations を用いて PPO の actor と critic の事前学習を行い、その後 PPO で微調整してロボティクスのタスク全体でサンプル効率を改善する。
Reinforcement learning (RL) actor-critic algorithms enable autonomous learning but often require a large number of environment interactions, which limits their applicability in robotics. Leveraging expert data can reduce the number of required environment interactions. A common approach is actor pretraining, where the actor network is initialized via behavioral cloning on expert demonstrations and subsequently fine-tuned with RL. In contrast, the initialization of the critic network has received little attention, despite its central role in policy optimization. This paper proposes a pretraining approach for actor-critic algorithms like Proximal Policy Optimization (PPO) that uses expert demonstrations to initialize both networks. The actor is pretrained via behavioral cloning, while the critic is pretrained using returns obtained from rollouts of the pretrained policy. The approach is evaluated on 15 simulated robotic manipulation and locomotion tasks. Experimental results show that actor-critic pretraining improves sample efficiency by 86.1% on average compared to no pretraining and by 30.9% to actor-only pretraining.
研究の動機と目的
- 強化学習、特にロボティクスのサンプル効率を expert データを活用して向上させることを動機づける。
- actor–critic アルゴリズムのために actor と critic ネットワークの初期化を行う事前学習スキームを提案する。
- 事前学習済みポリシーからのリターンを用いた critic の事前学習が actor の事前学習を補完することを示す。
提案手法
- expert Demonstrations に基づく行動クローンで actor を事前学習する。
- 事前学習済みポリシーの rollout から得られたリターンを用いて critic を事前学習する。
- Proximal Policy Optimization (PPO) で jointly 事前学習された actor–critic を微調整する。
- 理論的に整合した事前学習フレームワークで PPO にこのアプローチを適用する。
- 複数のベンチマークタスクにおけるサンプル効率と収束を評価する。

実験結果
リサーチクエスチョン
- RQ1expert データを用いた actor と critic の joint 事前学習は、事前学習なしと比べて PPO のサンプル効率を改善できるか。
- RQ2critic の事前学習は actor の事前学習だけの場合より追加の利点を提供するか。
- RQ3actor–critic 事前学習が、様々なロボット操作・移動タスクにおける収束にどのように影響するか。
主な発見
- actor–critic の事前学習は、事前学習なしと比較して平均でサンプル効率を 86.1% 向上。
- actor–critic の事前学習は、actor のみの事前学習と比較してサンプル効率を 30.9% 向上。
- このアプローチは 15 の simulated ロボット操作・移動タスクで評価され、収束の改善を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。