[논문 리뷰] Fine-tuning is Not Enough: A Parallel Framework for Collaborative Imitation and Reinforcement Learning in End-to-end Autonomous Driving
PaIR-Drive는 엔드 투 엔드 자율주행을 위한 병렬 IL+RL 프레임워크를 도입하여 모방 학습(IM)과 강화 학습(RL)을 분리하고 트리 구조의 궤적 샘플러를 사용해 탐색 및 성능을 IL 단독을 넘어서 개선합니다.
End-to-end autonomous driving is typically built upon imitation learning (IL), yet its performance is constrained by the quality of human demonstrations. To overcome this limitation, recent methods incorporate reinforcement learning (RL) through sequential fine-tuning. However, such a paradigm remains suboptimal: sequential RL fine-tuning can introduce policy drift and often leads to a performance ceiling due to its dependence on the pretrained IL policy. To address these issues, we propose PaIR-Drive, a general Parallel framework for collaborative Imitation and Reinforcement learning in end-to-end autonomous driving. During training, PaIR-Drive separates IL and RL into two parallel branches with conflict-free training objectives, enabling fully collaborative optimization. This design eliminates the need to retrain RL when applying a new IL policy. During inference, RL leverages the IL policy to further optimize the final plan, allowing performance beyond prior knowledge of IL. Furthermore, we introduce a tree-structured trajectory neural sampler to group relative policy optimization (GRPO) in the RL branch, which enhances exploration capability. Extensive analysis on NAVSIMv1 and v2 benchmark demonstrates that PaIR-Drive achieves Competitive performance of 91.2 PDMS and 87.9 EPDMS, building upon Transfuser and DiffusionDrive IL baselines. PaIR-Drive consistently outperforms existing RL fine-tuning methods, and could even correct human experts' suboptimal behaviors. Qualitative results further confirm that PaIR-Drive can effectively explore and generate high-quality trajectories.
연구 동기 및 목표
- 인간 시연이 불충분하고 가치가 낮은 시나리오로 인해 엔드투엔드 자율주행에서의 모방 학습(IM)의 한계를 해결한다.
- IL과 RL을 순차적으로가 아니라 병렬로 학습시켜 정책 편향(policy drift)과 성능 한계를 제거한다.
- 새로운 IL 정책을 적용할 때 재학습 없이 RL이 IL보다 향상되도록 한다.
- 전체 재학습 없이 기존의 IL 기반 주행 정책을 보강할 수 있는 유연한 도구 키트를 제공한다.
제안 방법
- IL과 RL을 충돌 없는 목표를 가진 두 개의 병렬 분기로 분리하여 협업 최적화를 수행한다.
- IL 분기는 인간 시연에 대한 감독 학습을 통해 인간과 유사한 궤적을 학습한다.
- RL 분기는 다양한 주행 의도 하에 여러 궤적을 생성하기 위해 트리 구조의 궤적 신경 샘플러를 사용한다.
- GRPO (group-relative policy optimization)는 NAVSIM에서 얻은 시뮬레이션 보상을 사용하여 RL 분기를 업데이트하고 궤적 그룹 전반에 걸쳐 정규화된 어드밴티지를 활용한다.
- 추론은 RL 참조를 IL 궤적으로 대체하고 최종 계획을 선택하기 위해 보상 월드 모델(RWM)을 사용한다.
- TreeSampler는 참조 궤적에 대한 궤적 오프셋을 예측하고 주된 의도에 따라 궤적 트리를 확장하며, 탐색 개선을 위해 순환적이고 두 단계 확장을 수행한다.
- 새로운 IL 정책을 적용할 때 재학습이 필요 없고, 추론은 RWM을 통해 최적의 RL 정제 계획을 선택할 수 있다.
실험 결과
연구 질문
- RQ1PaIR-Drive가 실제 주행 데이터에서 관찰되는 비최적 인간 행동을 보정할 수 있는가?
- RQ2병렬 IL+RL 학습이 순차적 IL+RL 미세조정보다 더 우수하며 서로 다른 IL 정책에 적용될 때도 효과를 유지하는가?
- RQ3트리 구조의 궤적 샘플러가 탐색과 최종 궤적 품질을 향상시키는가?
- RQ4배치 시 IL 정책 재학습 없이 RL 분기가 성능을 향상시킬 수 있는가?
- RQ5추론 시 보상 월드 모델(RWM)이 최종 계획 선택에 어떤 영향을 미치는가?
주요 결과
- PaIR-Drive는 비최적 인간 시연을 개선하여 NAVSIMv1의 인간 악화 v1에서 PDMS 증가 +1.6, Navtest에서 +0.8를 달성한다.
- PaIR-Drive는 EPDMS에서 상당한 비최적 행동 개선을 달성하며 NAVSIMv2의 인간 악화 v2에서 +10.8, Navtest에서 +1.6.
- DiffusionDrive 및 Transfuser와 같은 IL 정책에 적용 시 PaIR-Drive는 PDMS를 +3.1~+5.7 만큼 개선하고 경쟁력 있는 PDMS(예: 91.2)를 달성하며 EPDMS의 이득도 +3.6~+6.9로 높인다.
- 병렬 IL+RL 프레임워크는 최상의 순차적 IL+RL 변형들(예: Transfuser w/ GRPO)을 능가하여 더 높은 PDMS 및 EPDMS 점수로 나타난다.
- 소거 연구는 트리 구조 샘플링과 더 큰 GRPO 그룹 크기가 PDMS 및 EPDMS 향상에 중요하다는 것을 보여준다.
- RWM은 PaIR-Drive와 결합될 때 결과를 더욱 높여 일반적인 IL 및 IL+RWM 단독을 능가한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.