QUICK REVIEW

[논문 리뷰] Inverting the Pose Forecasting Pipeline with SPF2: Sequential Pointcloud Forecasting for Sequential Pose Forecasting

Xinshuo Weng, Jianren Wang|arXiv (Cornell University)|2020. 03. 18.

Image Processing and 3D Reconstruction인용 수 26

한 줄 요약

이 논문은 기존의 검출-예측 방식을 뒤집어, 먼저 SPFNet이라는 범위 맵 표현을 사용하는 LSTM 기반 오토인코더를 통해 3D 포인트 클라우드를 예측한 후, 예측된 포인트 클라우드 상에서 객체를 검출/추적하는 새로운 예측-검출 파이프라인인 SPF2를 제안한다. 이 방법은 레이블이 없는 데이터만으로도 최신 기술 수준의 궤적 예측 성능를 달성하며, 20개의 확률적 샘플을 사용하는 전통적인 검출-예측 기반 모델조차도 능가한다. 이는 센서 수준의 예측이 레이블 효율적이며 확장 가능한 자세 예측을 가능하게 한다고 시사한다.

ABSTRACT

Many autonomous systems forecast aspects of the future in order to aid decision-making. For example, self-driving vehicles and robotic manipulation systems often forecast future object poses by first detecting and tracking objects. However, this detect-then-forecast pipeline is expensive to scale, as pose forecasting algorithms typically require labeled sequences of object poses, which are costly to obtain in 3D space. Can we scale performance without requiring additional labels? We hypothesize yes, and propose inverting the detect-then-forecast pipeline. Instead of detecting, tracking and then forecasting the objects, we propose to first forecast 3D sensor data (e.g., point clouds with $100$k points) and then detect/track objects on the predicted point cloud sequences to obtain future poses, i.e., a forecast-then-detect pipeline. This inversion makes it less expensive to scale pose forecasting, as the sensor data forecasting task requires no labels. Part of this work's focus is on the challenging first step -- Sequential Pointcloud Forecasting (SPF), for which we also propose an effective approach, SPFNet. To compare our forecast-then-detect pipeline relative to the detect-then-forecast pipeline, we propose an evaluation procedure and two metrics. Through experiments on a robotic manipulation dataset and two driving datasets, we show that SPFNet is effective for the SPF task, our forecast-then-detect pipeline outperforms the detect-then-forecast approaches to which we compared, and that pose forecasting performance improves with the addition of unlabeled data.

연구 동기 및 목표

자율주행 시스템에서 3D 객체 자세 시퀀스의 레이블링 비용이 높다는 문제를 해결하기 위해 기존의 검출-예측 파이프라인을 뒤집는다.
대규모 레이블이 없는 포인트 클라우드 시퀀스를 활용하는 새로운 비지도 사전학습 과제인 순차적 포인트 클라우드 예측(SPF)을 제안한다.
범위 맵과 LSTM 오토인코더를 사용해 정확한 순차적 3D 포인트 클라우드 예측을 위한 딥러닝 모델인 SPFNet을 개발한다.
실제 구현 조건에서 예측-검출 및 검출-예측 파이프라인을 공정하게 종단 간 비교할 수 있도록 하는 새로운 평가 프로토콜을 설계한다.
센서 수준에서의 예측이 추가적인 레이블 데이터 없이도 후속 자세 예측 성능을 향상시킬 수 있음을 입증한다.

제안 방법

SPFNet은 기하학적 구조를 활용해 과거 포인트 클라우드 시퀀스로부터 미래 포인트 클라우드 시퀀스를 예측하는 LSTM 기반 오토인코더를 사용한다.
모델은 포인트 클라우드를 범위 맵 표현으로 변환하여 2D CNN을 효과적으로 활용하면서도 3D 공간 관계를 유지한다.
SPF2 파이프라인은 SPFNet을 사용해 전체 시점 포인트 클라우드를 먼저 예측한 후, 표준 3D 검출기와 트래커를 적용해 미래 객체 자세를 추출한다.
예측 궤적과 진짜 궤적을 ADE 임계값을 통해 매칭하는 새로운 평가 절차를 도입하여, 다양한 재현율 수준에서 평균 ADE/FDE 지표를 산출한다.
모델은 실세계 데이터셋인 KITTI, nuScenes(주행용), Baxter(로봇 조작용)를 사용해 훈련 및 평가되며, 레이저 및 깊이 포인트 클라우드만을 사용한다.

실험 결과

연구 질문

RQ1검출 및 추적 이전에 3D 센서 데이터(포인트 클라우드)를 예측하는 것이 기존의 검출-예측 파이프라인에 비해 후속 자세 예측 성능을 향상시키는가?
RQ2대규모 레이블이 없는 포인트 클라우드 시퀀스에서 예측 모델을 훈련시키면 자세 예측 과제에서 더 나은 일반화 및 성능을 달성하는가?
RQ3단일 결정적 예측으로도 20개 샘플의 확률적 검출-예측 모델을 능가하는 예측-검출 파이프라인이 성능을 높일 수 있는가?
RQ4배포 시점에 과거 궤적의 진짜 값이 제공되지 않을 경우, 종단 간 인식 및 예측 파이프라인을 공정하게 평가하는 방법은 무엇인가?
RQ5순차적 포인트 클라우드 예측(SPF)은 후속 3D 운동 예측 과제에 대해 실현 가능하고 효과적인 사전학습 과제인가?

주요 결과

SPFNet은 KITTI, nuScenes, Baxter 로봇 데이터셋을 포함한 다양한 데이터셋에서 순차적 포인트 클라우드 예측 과제에서 뛰어난 성능를 보이며, 다양한 도메인 간 일반화 능력을 입증한다.
KITTI 데이터셋에서 SPF2는 1개의 샘플로 AADE 0.317을 달성하여, 20개의 확률적 샘플을 사용하는 모든 검출-예측 기반 모델을 능가한다.
nuScenes에서 SPF2는 1개의 샘플로 AADE 0.821을 기록하며, 다음으로 우수한 성능를 보인 Social-GAN(-AADE 1.117)을 크게 앞서간다.
제안된 평가 프로토콜은 다양한 재현율 수준에서 ADE/FDE를 평균화함으로써, 추론 시점에서 궤적 간 대응이 없을 경우의 문제를 해결하며 공정한 비교를 가능하게 하였다.
결과적으로, 레이블이 없는 데이터를 통해 자세 예측 성능이 향상됨을 보여주며, 예측-검출 파라다임의 확장성과 효과성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.