QUICK REVIEW

[논문 리뷰] VectorNet: Encoding HD Maps and Agent Dynamics from Vectorized Representation

Jiyang Gao, Chen Sun|arXiv (Cornell University)|2020. 05. 08.

Autonomous Vehicle Technology and Safety참고 문헌 29인용 수 44

한 줄 요약

VectorNet은 계층 그래프 신경망을 사용하여 벡터화된 HD 맵과 에이전트 궤적을 인코딩하여 행동 예측을 수행하며, 래스터화된 ConvNet 베이스라인에 비해 파라미터 수와 FLOPs가 훨씬 적은 상태에서도 경쟁력 있거나 우수한 성능을 달성하고, Argoverse에서 최첨단 성능을 보입니다.

ABSTRACT

Behavior prediction in dynamic, multi-agent systems is an important problem in the context of self-driving cars, due to the complex representations and interactions of road components, including moving agents (e.g. pedestrians and vehicles) and road context information (e.g. lanes, traffic lights). This paper introduces VectorNet, a hierarchical graph neural network that first exploits the spatial locality of individual road components represented by vectors and then models the high-order interactions among all components. In contrast to most recent approaches, which render trajectories of moving agents and road context information as bird-eye images and encode them with convolutional neural networks (ConvNets), our approach operates on a vector representation. By operating on the vectorized high definition (HD) maps and agent trajectories, we avoid lossy rendering and computationally intensive ConvNet encoding steps. To further boost VectorNet's capability in learning context features, we propose a novel auxiliary task to recover the randomly masked out map entities and agent trajectories based on their context. We evaluate VectorNet on our in-house behavior prediction benchmark and the recently released Argoverse forecasting dataset. Our method achieves on par or better performance than the competitive rendering approach on both benchmarks while saving over 70% of the model parameters with an order of magnitude reduction in FLOPs. It also outperforms the state of the art on the Argoverse dataset.

연구 동기 및 목표

에이전트 다이내믹스를 구조화된 HD 맵 컨텍스트와 벡터화 표현으로 통합한다.
로컬 다각선 상호작용과 전역 다각선-노드 관계를 포착하는 계층 그래프 아키텍처를 개발한다.
맥락 학습을 개선하기 위한 자기지도 그래프 완성 목표를 도입한다.
래스터화 렌더링 베이스라인 및 최첨단 성능과의 비교를 위해 사내 및 Argoverse 데이터셋에서 평가한다.

제안 방법

맵과 에이전트 궤적을 벡터의 시퀀스(다각선)로 표현하고 각 벡터를 시작점/종점 좌표 및 속성 등을 특징으로 가지는 그래프 노드로 취급한다.
같은 다각선 내 벡터를 연결하고 로컬 GNN(MLP 기반)과 최대풀링을 통해 다각선 특성으로 집계하여 다각선 서브그래프를 구성한다.
다각선 특성을 대상으로 자기주의 기반 GNN이 포함된 전역 그래프를 사용하여 고차 상호작용을 모델링하고, 대응하는 다각선 노드 특성으로부터 대상 에이전트의 미래를 디코딩한다.
노드 특징을 마스킹하고 네트워크가 이를 재구성하도록 학습하는 그래프 완성 보조 과제를 도입하여 맥락 인식 표현을 유도한다.
다중 작업 손실 최적화: L = L_traj(미래 궤적의 음의 가우시안 대로그가능도) + α L_node(마스킹된 노드 특징 재구성을 위한 허브러 손실).
안정적인 예측을 위해 다각선 노드 특성의 규모를 단위로 정규화하고 목표 차량의 진행 방향에 맞추어 좌표를 회전시킨다.

실험 결과

연구 질문

RQ1HD 맵의 벡터화 표현과 에이전트 궤적을 계층 그래프로 효과적으로 학습하여 미래 행동을 예측할 수 있는가?
RQ2로컬 연결 다각선 서브그래프와 전역 주의 기반 그래프가 래스터화 ConvNet 베이스라인과 비교해 궤적 예측을 개선하는가?
RQ3그래프 완성 보조 과제가 에이전트 간 상호작용 및 맵 컨텍스트의 모델링을 향상시키는가?

주요 결과

VectorNet은 래스터화 ConvNet 베이스라인과 동등하거나 더 나은 성능을 달성하면서도 파라미터 수가 상당히 적고(FLOPs도 한 차례에 비해 커다란 차이가 남) 거의 72K 수준으로 감소한다.
VectorNet은 Argoverse 테스트 세트에서 DE@3s의 최첨단 성능을 보이며 Argoverse에서 최상의 ConvNet 베이스라인보다 상당한 차이로 우수한 성능을 보인다.
사내 데이터셋에서 벡터화 입력을 사용한 VectorNet은 계산량(FLOPs)과 파라미터의 큰 축소에도 래스터화 베이스라인의 성능을 매칭하거나 상회한다.
추출/맥락의 다각선과 다른 에이전트의 궤적을 모두 포함하는 경우 정확도가 향상되며, 그래프 완성 보조 과제는 특히 더 긴 시계열에서 일관되게 도움을 준다.
다각선 서브그래프의 깊이가 3층이고 전역 그래프가 단일 레이어인 구성이 정확도와 효율성 사이에 최적의 Trade-off를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.