[논문 리뷰] Diverse Trajectory Forecasting with Determinantal Point Processes
The paper introduces a diversity sampling function (DSF) that, guided by a DPP-based diversity loss, produces a diverse yet likely set of future trajectories decoded from a cVAE, improving multi-modal trajectory forecasting.
The ability to forecast a set of likely yet diverse possible future behaviors of an agent (e.g., future trajectories of a pedestrian) is essential for safety-critical perception systems (e.g., autonomous vehicles). In particular, a set of possible future behaviors generated by the system must be diverse to account for all possible outcomes in order to take necessary safety precautions. It is not sufficient to maintain a set of the most likely future outcomes because the set may only contain perturbations of a single outcome. While generative models such as variational autoencoders (VAEs) have been shown to be a powerful tool for learning a distribution over future trajectories, randomly drawn samples from the learned implicit likelihood model may not be diverse -- the likelihood model is derived from the training data distribution and the samples will concentrate around the major mode that has most data. In this work, we propose to learn a diversity sampling function (DSF) that generates a diverse and likely set of future trajectories. The DSF maps forecasting context features to a set of latent codes which can be decoded by a generative model (e.g., VAE) into a set of diverse trajectory samples. Concretely, the process of identifying the diverse set of samples is posed as a parameter estimation of the DSF. To learn the parameters of the DSF, the diversity of the trajectory samples is evaluated by a diversity loss based on a determinantal point process (DPP). Gradient descent is performed over the DSF parameters, which in turn move the latent codes of the sample set to find an optimal diverse and likely set of trajectories. Our method is a novel application of DPPs to optimize a set of items (trajectories) in continuous space. We demonstrate the diversity of the trajectories produced by our approach on both low-dimensional 2D trajectory data and high-dimensional human motion data.
연구 동기 및 목표
- 안전-critical 인식 시스템에서 다양한 미래 궤적 세트의 필요성을 제시한다.
- DSF를 제안하여 예측 맥락을 cVAE로 디코딩되는 잠재 코드로 매핑하여 다양한 샘플을 생성한다.
- 다양성 손실을 최적화하기 위해 결정적 포인트 프로세스(DPP) 다양성 손실을 활용한다.
- DSF가 저차원 및 고차원 데이터에서 baselines보다 더 다양하고 대표적인 궤적 세트를 산출함을 보인다.
제안 방법
- 미래 궤적의 p(x|ψ) 모델링을 위해 conditional VAE(cVAE)를 학습한다.
- DSF γ-매개 신경망을 도입하여 궤적으로 디코딩될 잠재 코드 z의 세트를 출력한다.
- L = Diag(r) S Diag(r)로 정의된 DPP 기반 다양성 손실을 사용하며, S는 궤적 간 Gaussian 스타일 유사도, r은 잠재 공간 품질 벡터이다.
- 다양성 목표를 L_diverse(γ) = -tr(I - (L(γ) + I)^{-1})로 계산하고 γ를 그래디언트 하강으로 최적화한다.
- 추론 시 DSF 그라운드 세트를 생성하고 (선택적으로) DPP에서 MAP 추론을 수행하여 다양한 하위 집합을 선택한다.
- DSF 유도 잠재 코드에서 N 샘플(예산)을 사용하고 cVAE 디코더로 디코딩하여 Y를 얻는다.
실험 결과
연구 질문
- RQ1학습된 DSF가 표준 cVAE 샘플링보다 더 다양하고 대표적인 미래 궤적 세트를 생성할 수 있는가?
- RQ2DSF는 균형 데이터와 불균형 데이터에서, 그리고 저차원/고차원 궤적 예측 작업에서 어떻게 수행되는가?
- RQ3DPP 기반 다양성 목표가 훈련을 안정시키고 궤적 품질을 해치지 않으면서 다양성을 향상시키는가?
주요 결과
- DSF는 균형 및 불균형 설정 모두에서 다양성 인식 메트릭에서 baselines(cVAE, MCL, R2P2, cGAN)보다 일관되게 우수하다.
- 2D 합성 데이터에서 N=10일 때, DSF는 ADE 0.182 및 0.198, FDE 0.344 및 0.371로 균형/불균형 respectively이며, ASD 및 FSD가 더 커서 반복성이 적음을 보여준다.
- 인간 동작 데이터에서 DSF는 baselines보다 ADE/FDE가 더 작고(ADE/FDE 예: N=10에서 0.259/0.421) 다양성은 더 높다(ASD 0.115, FSD 0.282).
- 대규모 Human3.6M 실험(N=10 및 N=50)에서 DSF 변형은 다양성과 품질 사이의 우수한 트레이드오프를 보이며, DSF가 경쟁력 있는 ADE/FDE를 달성하고 몇 가지 구성에서 현저히 더 높은 다양성 지표를 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.