[論文レビュー] Pose from Shape: Deep Pose Estimation for Arbitrary 3D Objects
カテゴリに依存しない一般的な姿勢推定手法で、与えられた3Dモデルに基づいて3D物体の姿勢を条件付け、追加の訓練なしで未見の物体カテゴリの姿勢推定を可能にする。本手法は標準ベンチマークで性能を向上させ、新規物体やデータセットへの強い一般化を示している。
Most deep pose estimation methods need to be trained for specific object instances or categories. In this work we propose a completely generic deep pose estimation approach, which does not require the network to have been trained on relevant categories, nor objects in a category to have a canonical pose. We believe this is a crucial step to design robotic systems that can interact with new objects in the wild not belonging to a predefined category. Our main insight is to dynamically condition pose estimation with a representation of the 3D shape of the target object. More precisely, we train a Convolutional Neural Network that takes as input both a test image and a 3D model, and outputs the relative 3D pose of the object in the input image with respect to the 3D model. We demonstrate that our method boosts performances for supervised category pose estimation on standard benchmarks, namely Pascal3D+, ObjectNet3D and Pix3D, on which we provide results superior to the state of the art. More importantly, we show that our network trained on everyday man-made objects from ShapeNet generalizes without any additional training to completely new types of 3D objects by providing results on the LINEMOD dataset as well as on natural entities such as animals from ImageNet.
研究の動機と目的
- 定義済みのカテゴリやインスタンスの外にある物体(実世界での野外状況)に対する堅牢な姿勢推定を動機づける。
- 対象物の3Dモデルに姿勢推定を条件付ける深層ネットワークを提案する。
- 形状条件付き姿勢推定が既知カテゴリでの精度を向上させ、新規物体へ一般化することを示す。
- 3D形状の点群とマルチビューレンダリングの双方が、姿勢予測の形状情報をエンコードするのに用いられることを示す。
提案手法
- 二分岐ネットワークの処理: (1) RGB画像をCNN(ResNet-18)で、(2) 3D形状をPointNetまたはマルチビュー rendered imagesのいずれかで処理。
- 混合分類-回帰損失が、方位角・仰角・平面内回転のオイラー角ビンとビン内オフセットを予測する。
- 角度はL_thetaビンに離散化され、対応する分類スコアと回帰オフセット(Huber損失)を持つ。
- データ拡張には、標準姿勢への過適合を減らすための形状回転摂動を含む。
- 訓練は段階的な学習率を用いたAdamを使用;SUN397の背景を持つShapeNetの合成データを用いて訓練し、Pascal3D+、ObjectNet3D、Pix3D、および LINEMOD で評価。
- Shape encoders: (a) 点群にはPointNet;(b) 物体周囲のレンダリングビューを用いたmulti-view CNN; viewpoint間で重みを共有。
実験結果
リサーチクエスチョン
- RQ1ディープ姿勢推定器は、3D物体モデルに条件付けられたカテゴリフリーの視点推定を学習できるか。
- RQ2正確なまたは近似の3D形状情報を取り入れることは、既知カテゴリの姿勢推定性能を向上させるか。
- RQ3本手法は新規カテゴリや完全に未知の物体タイプへどの程度一般化するか。
- RQ4マルチビュー形状表現を用いる versus 単一ビューまたは点群エンコードの影響は何か。
主な発見
- 3D形状情報(点群またはマルチビューレンダリング)を使用すると、データセット全体で、形状なしのベースラインより姿勢推定が大幅に改善される。
- 形状入力としては、マルチビュー表現が一般に点群エンコードより上回る。
- 本手法はPascal3D+、ObjectNet3D、Pix3Dで競争力のあるまたは優れた結果を達成しており、合成データのみで訓練していても達成される。
- LINEMODで物体特化の訓練なしに意味のある粗い姿勢推定を提供し、下流の改良(例:DeepIM)を効果的に可能にする。
- 訓練時に物体形状の向きをランダム化すると、標準姿勢への過適合を減らし、未知形状に対する頑健性が向上する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。