[논문 리뷰] Safety-Enhanced Autonomous Driving Using Interpretable Sensor Fusion Transformer
InterFuser는 다중 뷰 다중 모달 센서 데이터를 트랜스포머로 융합하여 해석 가능한 중간 안전 특성과 안전 제약 컨트롤러를 생성하고, CARLA 벤치마크에서 최상의 성능을 달성합니다.
Large-scale deployment of autonomous vehicles has been continually delayed due to safety concerns. On the one hand, comprehensive scene understanding is indispensable, a lack of which would result in vulnerability to rare but complex traffic situations, such as the sudden emergence of unknown objects. However, reasoning from a global context requires access to sensors of multiple types and adequate fusion of multi-modal sensor signals, which is difficult to achieve. On the other hand, the lack of interpretability in learning models also hampers the safety with unverifiable failure causes. In this paper, we propose a safety-enhanced autonomous driving framework, named Interpretable Sensor Fusion Transformer(InterFuser), to fully process and fuse information from multi-modal multi-view sensors for achieving comprehensive scene understanding and adversarial event detection. Besides, intermediate interpretable features are generated from our framework, which provide more semantics and are exploited to better constrain actions to be within the safe sets. We conducted extensive experiments on CARLA benchmarks, where our model outperforms prior methods, ranking the first on the public CARLA Leaderboard. Our code will be made available at https://github.com/opendilab/InterFuser
연구 동기 및 목표
- 강력한 다중 모달 인식을 바탕으로 더 안전한 엔드 투 엔드 자율주행을 촉진한다.
- 다중 뷰 카메라와 LiDAR를 통합하여 포괄적인 장면 이해를 제공하는 단일 단계 융합 아키텍처를 개발한다.
- 해석 가능한 중간 특징(안전 마인드 맵)을 생성하여 행동을 안전 영역 내로 제약한다.
- 중간 출력물을 활용하는 안전 컨트롤러를 활용하여 적대적 도시 환경에서 운전 안전성을 향상시킨다.
제안 방법
- 네 가지 센서(세 대의 RGB 카메라 및 LiDAR BEV)에서 특징을 추출하기 위해 CNN 백본을 사용하고 이를 트랜스포머 토큰으로 투영한다.
- 다중 모달 다중 뷰 특징을 트랜스포머 인코더로 융합하고, 세 분기의 트랜스포머 디코더로 디코딩하여 웨이포인트, 물체 밀도 맵, 그리고 교통 규칙 신호를 생성한다.
- GPS 목표 위치 임베딩으로 초기화된 GRU 자기회귀 헤드를 통해 L=10의 미래 웨이포인트를 예측한다.
- 2D BEV 격자에서 존재 확률, 오프셋, 크기, 진행 방향, 속도를 포착하는 물체 밀도 맵 M(R x R x 7)을 예측하고, 교통 규칙 신호(신호등, 정지 표지판, 교차로)도 예측한다.
- 안전 컨트롤러는 밀도 맵과 추적 물체 예측치를 사용하여 안전한 목표 속도를 구하기 위한 선형 계획 문제를 해결하고, 안전 고려사항에 의해 제약된 PID 기반의 측면 및 종방향 제어를 적용한다.
실험 결과
연구 질문
- RQ1다중 뷰, 다중 모달 센서의 단일 단계 트랜스포머 기반 융합이 자율주행에서 글로벌 컨텍스트 추론을 향상시킬 수 있는가?
- RQ2중간 해석 가능 특징(안전 마인드 맵)을 사용하여 안전 제약을 강제하고 엔드-투-엔드 주행의 신뢰성을 향상시킬 수 있는가?
- RQ3멀티 뷰 입력(멀리 있는 신호등에 초점을 맞춘 뷰 포함)을 포함시키는 것이 적대적 시나리오에서 안전성과 성능에 어떤 영향을 주는가?
- RQ4해석 가능한 출력물을 활용하는 안전 제약 컨트롤러가 이전 방법들에 비해 위반을 감소시키면서 경로 진행을 유지하는가?
주요 결과
| 방법 | 주행 점수 | 경로 완료 | 위반 점수 |
|---|---|---|---|
| InterFuser (ours) | 76.18 | 88.23 | 0.84 |
| TCP | 75.14 | 85.63 | 0.87 |
| LAV | 61.85 | 94.46 | 0.64 |
| TransFuser | 61.18 | 86.69 | 0.71 |
| Latent TransFuser | 45.20 | 66.31 | 0.72 |
| GRIAD | 36.79 | 61.85 | 0.60 |
| TransFuser+ | 34.58 | 69.84 | 0.56 |
| Rails | 31.37 | 57.65 | 0.56 |
| IARL | 24.98 | 46.97 | 0.52 |
| NEAT | 21.83 | 41.71 | 0.65 |
- InterFuser가 공개 CARLA 리더보드에서 운전 점수 76.18, 경로 완료 88.23, 위반 점수 0.84로 1위를 차지했다.
- 모든 센서(frontLRFcLi)를 추가하면 벤치마크 전반에서 최고의 주행 성능과 안전성을 얻는다.
- 제거 연구는 전체 센서 사용, 센서 임베딩/위치 인코딩, 및 안전 컨트롤러가 비교 실험에 비해 지표를 크게 향상시킨다는 것을 보여준다.
- 모델은 CARLA Leaderboard에서 TCP, LAV, TransFuser 변형 및 기타 여러 베이스라인보다 우수한 성능을 보인다.
- 안전 마인드 맵과 안전 컨트롤러가 성능에 크게 기여한다; 안전 컨트롤러를 제거하면 운전 점수와 위반 점수가 감소한다.
- 이 접근법은 CARLA의 적대적 도시 시나리오(Town05 및 CARLA 42 Routes 벤치마크)에서 강력한 성능을 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.