[논문 리뷰] MotionCNN: A Strong Baseline for Motion Prediction in Autonomous Driving
MotionCNN은 불필요한 복잡한 아키텍처 없이 다중 미래 궤적 가설과 신뢰도를 출력하는 간단한 CNN 기반 기준선을 제시하며, Waymo Open Motion Dataset에서 경쟁력 있는 결과를 보이고 2021년 챌린지에서 3위를 차지합니다.
To plan a safe and efficient route, an autonomous vehicle should anticipate future motions of other agents around it. Motion prediction is an extremely challenging task that recently gained significant attention within the research community. In this work, we present a simple and yet very strong baseline for multimodal motion prediction based purely on Convolutional Neural Networks. While being easy-to-implement, the proposed approach achieves competitive performance compared to the state-of-the-art methods and ranks 3rd on the 2021 Waymo Open Dataset Motion Prediction Challenge. Our source code is publicly available at GitHub
연구 동기 및 목표
- 복잡한 아키텍처 없이 다중모달 모션 예측을 위한 간단하면서도 강력한 기준선을 제시한다.
- 래스터화된 새 그림(bird’s-eye-view) 표현과 CNN을 활용하여 다중 미래 궤적과 신뢰도를 예측한다.
- Waymo Open Motion Dataset에서 최첨단 방법과 경쟁력 있는 성능을 보여준다.
제안 방법
- 대상 에이전트를 중심으로 다채널 224x224 이미지로 과거 궤적과 맵을 래스터화한다.
- ImageNet에서 사전 학습된 CNN 백본을 사용하여 혼합 모델을 통해 K개의 궤적 가설과 그 신뢰도를 예측한다.
- 미래를 K개의 가우시안 혼합으로 고정된 공분산으로 모델링하고, 실제 궤적에 대해 음의 대수가능도 손실로 학습한다.
- 추론 시 K=6개의 궤적 가설을 출력하고 그 평균 값을 신뢰도와 함께 최종 예측으로 사용한다.
- AdamW, 재가동이 있는 코사인 어닐링, 조기 중단으로 학습하며 백본 버전(Xception71, ResNet18)을 평가한다.
- 래스터화를 디스크에 캐시하여 on-the-fly 래스터화를 피함으로써 학습을 가속화한다.
실험 결과
연구 질문
- RQ1그래프나 복잡한 아키텍처를 사용하는 최첨단 모션 예측 방법과 순수 CNN 기반 래스터 이미지 접근이 경쟁할 수 있는가?
- RQ2간단한 가우시안 혼합 손실과 CNN 회귀가 의미 있는 다중모달 궤적 예측을 제공하는가?
- RQ3경량 백본(예: ResNet18)이 이 기준선에서 더 깊은 백본(예: Xception71)과 비교해 어떤 차이가 있는가?
주요 결과
| 방법 | mAP | Min ADE | Min FDE | Miss Rate | Overlap Rate |
|---|---|---|---|---|---|
| Waymo LSTM baseline | 0.1756 | 1.0065 | 2.3553 | 0.3750 | 0.1898 |
| ReCoAt | 0.2711 | 0.7703 | 1.6668 | 0.2437 | 0.1642 |
| DenseTNT | 0.3281 | 1.0387 | 1.5514 | 0.1573 | 0.1779 |
| MotionCNN-Xception71 (Ours) | 0.2136 | 0.7400 | 1.4936 | 0.2091 | 0.1560 |
| MotionCNN-ResNet18 (Ours) | 0.1920 | 0.8154 | 1.6396 | 0.2552 | 0.1605 |
| MotionCNN-Xception71 (Ours) | 0.2123 | 0.7383 | 1.4957 | 0.2072 | 0.1576 |
- MotionCNN 기준선은 mAP 지표를 사용하여 Waymo Open Motion Dataset 모션 예측 챌린지에서 3위를 차지한다.
- 이 모델은 Min ADE 및 Min FDE 점수에서 경쟁력을 보이며 이 지표들에서 더 복잡한 모델들보다 우수한 성능을 보인다.
- Xception71 백본을 사용할 때, MotionCNN은 테스트 세트에서 mAP 0.2136, Min ADE 0.7400, Min FDE 1.4936, Miss Rate 0.2091, Overlap Rate 0.1560을 달성한다.
- ResNet18 변형은 대략 세 배 빠르게 학습하지만 더 깊은 백본보다 성능이 낮다.
- 검증 세트에서 MotionCNN-Xception71은 mAP 0.2123, Min ADE 0.7383, Min FDE 1.4957, Miss Rate 0.2072, Overlap Rate 0.1576에 도달한다.
- 모델은 챌린지에서 평가된 예측 세트 크기와 대응하는 6개의 궤적 가설(K=6)을 출력한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.