QUICK REVIEW

[論文レビュー] Inverting the Pose Forecasting Pipeline with SPF2: Sequential Pointcloud Forecasting for Sequential Pose Forecasting

Xinshuo Weng, Jianren Wang|arXiv (Cornell University)|Mar 18, 2020

Image Processing and 3D Reconstruction被引用数 26

ひとこと要約

本稿では、従来の検出→予測アプローチとは逆に、最初に3Dポイントクラウドを予測する新しい予測→検出パイプラインであるSPF2を提案する。SPF2は、範囲マップ表現を用いたLSTMベースのオートエンコーダーであるSPFNetを用いて、過去のポイントクラウドから将来の3Dポイントクラウドを予測し、その後、予測されたポイントクラウド上で物体の検出・追跡を実行する。本手法は、ラベルなしデータのみを用いても最先端の軌道予測性能を達成し、20個の確率的サンプルを用いた従来の検出→予測ベースラインでさえも上回る。これは、センサレベルでの予測が、ラベル効率的でスケーラブルなポーズ予測を可能にすることを示している。

ABSTRACT

Many autonomous systems forecast aspects of the future in order to aid decision-making. For example, self-driving vehicles and robotic manipulation systems often forecast future object poses by first detecting and tracking objects. However, this detect-then-forecast pipeline is expensive to scale, as pose forecasting algorithms typically require labeled sequences of object poses, which are costly to obtain in 3D space. Can we scale performance without requiring additional labels? We hypothesize yes, and propose inverting the detect-then-forecast pipeline. Instead of detecting, tracking and then forecasting the objects, we propose to first forecast 3D sensor data (e.g., point clouds with $100$k points) and then detect/track objects on the predicted point cloud sequences to obtain future poses, i.e., a forecast-then-detect pipeline. This inversion makes it less expensive to scale pose forecasting, as the sensor data forecasting task requires no labels. Part of this work's focus is on the challenging first step -- Sequential Pointcloud Forecasting (SPF), for which we also propose an effective approach, SPFNet. To compare our forecast-then-detect pipeline relative to the detect-then-forecast pipeline, we propose an evaluation procedure and two metrics. Through experiments on a robotic manipulation dataset and two driving datasets, we show that SPFNet is effective for the SPF task, our forecast-then-detect pipeline outperforms the detect-then-forecast approaches to which we compared, and that pose forecasting performance improves with the addition of unlabeled data.

研究の動機と目的

自律走行システムにおける3Dオブジェクトポーズシーケンスのラベル付けコストの削減を目的とし、標準的な検出→予測パイプラインを逆転する。
大規模なラベルなしポイントクラウドシーケンスを活用する新しい自己教師付き事前学習タスクとしての「順次ポイントクラウド予測（SPF）」を提案する。
範囲マップとLSTMオートエンコーダーを用いた3Dポイントクラウドの高精度な順次予測を実現する深層学習モデル「SPFNet」を開発する。
実際の展開状況を想定した条件下で、予測→検出と検出→予測パイプラインを公平にエンドツーエンド比較可能な新しい評価プロトコルを設計する。
センサレベルでの予測が、追加のラベルデータを必要とせずに、下流のポーズ予測性能を向上させることを実証する。

提案手法

SPFNetは、シーンの幾何的構造を活用して、過去のポイントクラウドシーケンスから将来の3Dポイントクラウドシーケンスを予測するLSTMベースのオートエンコーダーを用いる。
ポイントクラウドは範囲マップ表現に変換され、2次元畳み込みニューラルネットワーク（2D CNN）の効果的利用を可能にするとともに、3次元空間的関係を保持する。
SPF2パイプラインは、まずSPFNetを用いて全シーンのポイントクラウドを予測し、その後で市販の3D検出器およびトラッキング手法を適用して将来のオブジェクトポーズを抽出する。
予測軌道と真値軌道をADE閾値を用いてマッチングする新しい評価手順が導入され、再現率平均化されたADE/FDE指標の算出を可能にする。
本手法は、KITTI、nuScenes（自動車走行）、Baxter（ロボット操作）の実世界データセットを用いて訓練および評価され、ラベルなしのLiDARおよび深度ポイントクラウドのみを入力として使用する。

実験結果

リサーチクエスチョン

RQ1検出および追跡の前に3Dセンサデータ（ポイントクラウド）を予測することで、従来の検出→予測パイプラインと比較して、下流のポーズ予測性能が向上するか？
RQ2大規模なラベルなしポイントクラウドシーケンスで訓練された予測モデルは、ポーズ予測タスクにおける汎化性と性能向上に寄与するか？
RQ31つの決定的予測（stochasticでない）でも、20サンプルの確率的予測を用いた検出→予測モデルを上回る性能を達成できるか？
RQ4実行時における真値の過去軌道が入手できない状況下で、エンドツーエンドの認識および予測パイプラインをどのように公平に評価できるか？
RQ5順次ポイントクラウド予測（SPF）は、下流の3次元運動予測タスクにおける実用的で効果的な事前学習タスクとみなせるか？

主な発見

SPFNetは、KITTI、nuScenes、Baxterロボットデータセットを含む多様なデータセットで、順次ポイントクラウド予測において優れた性能を示し、ドメイン間での汎用性を実証した。
KITTIデータセットでは、SPF2は1サンプルでAADE 0.317を達成し、20個の確率的サンプルを用いたすべての検出→予測ベースラインを上回った。
nuScenesデータセットでは、SPF2は1サンプルでAADE 0.821を達成し、次に優れた手法（Social-GAN）のAADE 1.117を顕著に上回った。
提案された評価プロトコルにより、推論時における軌道対応の欠如という課題に対処し、再現率ごとに平均化されたADE/FDE指標を実現し、公平な比較を可能にした。
結果から、ラベルなしデータを用いることでポーズ予測性能が向上することが示され、予測→検出パラダイムのスケーラビリティと有効性が裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。