QUICK REVIEW

[논문 리뷰] CoBEVT: Cooperative Bird's Eye View Semantic Segmentation with Sparse Transformers

Runsheng Xu, Zhengzhong Tu|arXiv (Cornell University)|2022. 07. 05.

Advanced Neural Network Applications인용 수 78

한 줄 요약

CoBEVT는 융합된 축(axial, FAX) 희소 트랜스포머를 사용한 협력형 BEV 의미론적 분할을 위한 일반적 다중 에이전트, 다중 카메라 프레임워크를 제시하며, OPV2V에서 최첨단 성능을 달성하고 단일 에이전트 BEV 및 다중 에이전트 LiDAR 작업으로의 일반화를 보여준다.

ABSTRACT

Bird's eye view (BEV) semantic segmentation plays a crucial role in spatial sensing for autonomous driving. Although recent literature has made significant progress on BEV map understanding, they are all based on single-agent camera-based systems. These solutions sometimes have difficulty handling occlusions or detecting distant objects in complex traffic scenes. Vehicle-to-Vehicle (V2V) communication technologies have enabled autonomous vehicles to share sensing information, dramatically improving the perception performance and range compared to single-agent systems. In this paper, we propose CoBEVT, the first generic multi-agent multi-camera perception framework that can cooperatively generate BEV map predictions. To efficiently fuse camera features from multi-view and multi-agent data in an underlying Transformer architecture, we design a fused axial attention module (FAX), which captures sparsely local and global spatial interactions across views and agents. The extensive experiments on the V2V perception dataset, OPV2V, demonstrate that CoBEVT achieves state-of-the-art performance for cooperative BEV semantic segmentation. Moreover, CoBEVT is shown to be generalizable to other tasks, including 1) BEV segmentation with single-agent multi-camera and 2) 3D object detection with multi-agent LiDAR systems, achieving state-of-the-art performance with real-time inference speed. The code is available at https://github.com/DerrickXuNu/CoBEVT.

연구 동기 및 목표

협력 인지를 통해 단일 에이전트 BEV 시스템의 가려짐과 깊이 한계를 극복한다.
BEV 분할을 위한 다-view, 다-에이전트 카메라 특징을 융합하는 제너릭 Transformer 기반 프레임워크를 개발한다.
V2V 통신 제약에 적합한 메모리- 및 계산 효율적 융합 모듈을 설계한다.
단일 에이전트 BEV 분할 및 다중 에이전트 LiDAR 기반 3D 검출로의 일반화를 입증한다.

제안 방법

다중 뷰 카메라 영상에서 에이전트당 고해상도 BEV 특징을 계산하기 위해 SinBEVT를 제안한다.
로컬(3D 윈도우)과 희소 글로벌 주의력을 갖춘 다중 에이전트 BEV 특징 융합용 3D 융합 축 주의(attention) Transformer인 FuseBEVT를 도입한다.
다양한 센싱 설정을 위해 FAX-SA(자체 주의) 및 FAX-CA(교차 주의) 변형으로 FAX를 강화한다.
V2V 방송 전 BEV 특징 압축을 위한 가벼운 1x1 자동 인코더를 구현하고 수신측에서 미분 가능 기하 왜곡을 수행한다.
카메라 특징에 대해 고해상도 질의에 BEV 임베딩을 질의로 사용하고 기하학적 대응을 학습하기 위한 카메라 인지 위치 인코딩을 도입한다.
Adam, 코사인 감소: 학습율 일정, 가중된 교차 엔트로피 손실로 전체 CoBEVT 파이프라인의 엔드-투-엔드 학습을 제공한다.

실험 결과

연구 질문

RQ1다중 에이전트, 다중 카메라 BEV 분할이 가려지거나 먼 시나리오에서 단일 에이전트 다중 카메라 방법을 능가할 수 있는가?
RQ2희소 융합 축 주의(FAX)가 에이전트 및 시점 간 BEV 특징을 관리 가능한 계산으로 집계하는 데 효과적인가?
RQ3협력 BEV 융합이 단일 에이전트 BEV 작업 및 LiDAR 기반 3D 검출로 일반화가 잘 되는가?
RQ4특징 압축 및 협력 에이전트 수가 성능 및 지연에 미치는 영향은 무엇인가?

주요 결과

Method	Veh.	Dr.Area	Lane
No Fusion	37.7	57.8	43.7
Map Fusion	45.1	60.0	44.1
F-Cooper	52.5	60.4	46.5
AttFuse	51.9	60.5	46.2
V2VNet	53.5	60.2	47.5
DiscoNet	52.9	60.7	45.8
FuseBEVT	59.0	62.1	49.2
CoBEVT	60.4	63.0	53.0

CoBEVT는 OPV2V 카메라-트랙에서 차량 IoU 60.4, 주행 가능 영역 IoU 63.0, 차선 IoU 53.0으로 모든 베이스라인을 능가한다.
FuseBEVT는 다른 융합 모델보다 현저한 이득을 보이며 다음 최적 방법에 비해 차량 IoU 5.5%, 주행 가능 영역 1.6%, 차선 3.4%의 IoU 이득을 제공한다.
피처 추출에 CVT 대신 SinBEVT를 사용하는 것이 클래스별로 최대 3.8%의 추가 이득을 낳는다.
OPV2V LiDAR-트랙에서 CoBEVT 기반 융합은 IoU 0.7에서 AP 85.2를 달성하며 이전 방법을 능가하고 64x 피처 압축에서도 강인함(AP 84.9)을 보인다.
NuScenes 차량 맵 뷰 결과는 SinBEVT가 RTX2080에서 37.1 IoU, 35 FPS를 달성하여 경쟁력 있는 정확도와 실시간 성능을 입증한다.
아브레이션 연구에서 로컬 및 글로벌 FAX 구성 요소가 성능에 크게 기여하는 것으로 나타났으며, 몇 개의 카메라/에이전트를 제거해도 CoBEVT가 여전히 유익하다가 확인된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.