QUICK REVIEW

[論文レビュー] Fine-tuning is Not Enough: A Parallel Framework for Collaborative Imitation and Reinforcement Learning in End-to-end Autonomous Driving

Zhexi Lian, Haoran Wang|arXiv (Cornell University)|Mar 14, 2026

Autonomous Vehicle Technology and Safety被引用数 0

ひとこと要約

PaIR-Drive は end-to-end 自動運転のための平行 IL+RL フレームワークを導入し、模倣学習と強化学習を分離した別々のトレーニングブランチと、探索と性能を IL のみを超えて向上させる木構造トラジェクトリサンプラーを採用します。

ABSTRACT

End-to-end autonomous driving is typically built upon imitation learning (IL), yet its performance is constrained by the quality of human demonstrations. To overcome this limitation, recent methods incorporate reinforcement learning (RL) through sequential fine-tuning. However, such a paradigm remains suboptimal: sequential RL fine-tuning can introduce policy drift and often leads to a performance ceiling due to its dependence on the pretrained IL policy. To address these issues, we propose PaIR-Drive, a general Parallel framework for collaborative Imitation and Reinforcement learning in end-to-end autonomous driving. During training, PaIR-Drive separates IL and RL into two parallel branches with conflict-free training objectives, enabling fully collaborative optimization. This design eliminates the need to retrain RL when applying a new IL policy. During inference, RL leverages the IL policy to further optimize the final plan, allowing performance beyond prior knowledge of IL. Furthermore, we introduce a tree-structured trajectory neural sampler to group relative policy optimization (GRPO) in the RL branch, which enhances exploration capability. Extensive analysis on NAVSIMv1 and v2 benchmark demonstrates that PaIR-Drive achieves Competitive performance of 91.2 PDMS and 87.9 EPDMS, building upon Transfuser and DiffusionDrive IL baselines. PaIR-Drive consistently outperforms existing RL fine-tuning methods, and could even correct human experts' suboptimal behaviors. Qualitative results further confirm that PaIR-Drive can effectively explore and generate high-quality trajectories.

研究の動機と目的

エンドツーエンド自動運転における模倣学習（IL）の限界を、人間のデモが不十分で価値の低いシナリオが多いことから解決する。
逐次的にトレーニングするのではなく、ILとRLを平行して訓練することでポリシー崩壊と性能天井を排除する。
新しい IL ポリシーを適用する際に再学習せずに RL が IL を改善できるようにする。
完全な再訓練なしで既存の IL ベースの運転ポリシーを補強できる柔軟なツールキットを提供する。

提案手法

IL と RL を衝突のない目的で並列のブランチに分離し、協調的最適化を実現する。
IL ブランチは人間のデモに基づく教師あり訓練を通じて人間のようなトラジェクトリを学習する。
RL ブランチは木構造トラジェクトリニューラルサンプラーを用いて、異なる運転意図の下で複数のトラジェクトリを生成する。
GRPO（グループ相対ポリシー最適化）は NAVSIM からのシミュレート報酬を使って RL ブランチを更新し、トラジェクトリ群間で正規化されたアドバンテージを活用する。
推論時には RL の参照を IL のトラジェクトリに置き換え、報酬世界モデル（RWM）を用いて最終計画を選択する。
TreeSampler は参照トラジェクトリに対するトラジェクトリオフセットを予測し、意図をまたぐトラジェクトリツリーを再帰的で二段階の拡張で展開し、探索を改善する。
新しい IL ポリシーを適用する際の再訓練は不要で、推論時には RWM によって最良の RL によって洗練された計画を選択できる。

実験結果

リサーチクエスチョン

RQ1PaIR-Drive は現実の運転データに見られるサブ最適な人間行動を修正できるか？
RQ2平行 IL+RL 学習は逐次 IL+RL 微調整を上回り、別の IL ポリシーに適用した場合にも有効であり続けるか？
RQ3木構造トラジェクトリサンプラーは探索と最終トラジェクトリの質を改善するか？
RQ4RL ブランチはデプロイ時に IL ポリシーを再訓練せずに性能を向上させられるか？
RQ5推論時の報酬世界モデル（RWM）は最終計画選択にどのような影響を与えるか？

主な発見

PaIR-Drive はサブ最適な人間デモを改善し、NAVSIMv1 の人間の悪い v1 で PDMS のゲインを +1.6、Navtest で +0.8 を達成。
PaIR-Drive は NAVSIMv2 で人間の悪い v2 の EPMS を +10.8、Navtest で +1.6 の大きな改善を示す。
DiffusionDrive や Transfuser のような IL ポリシーに適用した場合、PaIR-Drive は PDMS を +3.1 から +5.7 まで改善し、PDMS（例: 91.2）とより高い EPMS の利得（+3.6 から +6.9）を達成する。
並列 IL+RL フレームワークは、最良の逐次 IL+RL 変種（例: Transfuser w/ GRPO）を上回ることが、より高い PDMS と EPMS のスコアで示されている。
アブレーション研究は、木構造サンプリングとより大きな GRPO グループサイズが PDMS と EPMS の改善に重要であることを示している。
RWM は PaIR-Drive と組み合わせた場合に結果をさらに強化し、素の IL および IL+RWM のみの場合を上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。