QUICK REVIEW

[論文レビュー] Siamese Regression Networks with Efficient mid-level Feature Extraction for 3D Object Pose Estimation

Andreas Doumanoglou, Vassileios Balntas|arXiv (Cornell University)|Jul 8, 2016

Human Pose and Action Recognition参考文献 22被引用数 42

ひとこと要約

本論文では、特徴空間とポーズ空間の表現の類似性を新たな損失関数によって強制することで、3次元オブジェクトポーズの角度を直接回帰するエンドツーエンドのディーブラーニングフレームワーク、シameseリグレッションネットワークを提案する。この手法は、ポーズ推定に最適化された判別性の高い特徴を学習し、新しく作成されたハンドオブジェクトデータセットにおける重度のオクルージョンに対しても頑健であるという点で、最先端の性能を達成している。

ABSTRACT

In this paper we tackle the problem of estimating the 3D pose of object instances, using convolutional neural networks. State of the art methods usually solve the challenging problem of regression in angle space indirectly, focusing on learning discriminative features that are later fed into a separate architecture for 3D pose estimation. In contrast, we propose an end-to-end learning framework for directly regressing object poses by exploiting Siamese Networks. For a given image pair, we enforce a similarity measure between the representation of the sample images in the feature and pose space respectively, that is shown to boost regression performance. Furthermore, we argue that our pose-guided feature learning using our Siamese Regression Network generates more discriminative features that outperform the state of the art. Last, our feature learning formulation provides the ability of learning features that can perform under severe occlusions, demonstrating high performance on our novel hand-object dataset.

研究の動機と目的

角度空間における直接的3次元オブジェクトポーズ回帰の課題に取り組むこと。これは、局所的最小値の存在とエンドツーエンド学習フレームワークの欠如により困難である。
シアンセスアーキテクチャを用いて、特徴とポーズ回帰を共同最適化することで、3次元ポーズ推定のための特徴の判別性を向上させること。
人間の手によるオクルージョンのような、現実世界で一般的な課題に対し、オクルージョンに強い特徴を学習できるように、損失関数を調整することで頑健性を向上させること。
オブジェクトが人間の手によって著しく遮蔽される、新たな挑戦的なハンドオブジェクトオクルージョンデータセット上で、この手法を評価すること。
エンドツーエンド学習とタスク固有の特徴最適化により、クリーンな状態とオクルージョン状態の両方で、既存の最先端手法、特に[25]を上回ること。

提案手法

フレームワークは、2つの画像入力を処理し、それらの特徴表現と対応する3次元ポーズターゲット間の類似性制約を強制するシアンセスネットワークアーキテクチャを採用する。
特徴埋め込みとポーズ予測の間の距離を最小化する新たな損失関数が導入され、特徴空間とポーズ空間の両方での整合性を促進する。
分離された特徴抽出段階やテンプレートマッチング段階を必要とせず、エンドツーエンドで3次元ポーズを直接回帰するようにネットワークを学習する。
オクルージョンに配慮した項を損失関数に組み込むことで、部分的なオブジェクト可視性に耐性を持つ特徴を学習できるようにする。
特徴正規化とバッチ形成の有効性を実験的に評価し、回帰性能を最適化する。
LINEMODベンチマークと新しいハンドオブジェクトオクルージョンデータセットで手法を評価し、特徴サイズとアーキテクチャ要因のアブレーションスタディを実施。

実験結果

リサーチクエスチョン

RQ1角度空間における直接的3次元ポーズ回帰に、シアンセスネットワークアーキテクチャを効果的に適用できるか。これは、間接的または2段階的手法を回避するためのものである。
RQ2特徴空間とポーズ空間の表現の類似性を強制することで、より判別性の高い特徴が得られ、回帰精度が向上するか。
RQ3提案された損失関数は、人間の手による重度のオクルージョンのような状況でも、頑健性を向上させることができるか。
RQ4エンドツーエンドでの特徴とポーズの学習は、特徴学習後に最近傍探索によるマッチングを実施する手法と比較して、精度と一般化性能に優れているか。
RQ5極度のオクルージョン下でネットワークの性能がどの程度低下するか。また、合成オクルージョンデータを用いたデータ拡張は、さらに頑健性を向上させることができるか。

主な発見

提案されたシアンセスリグレッションネットワークは、LINEMODベンチマークで最先端の性能を達成し、[25]の13.2°と比較して平均ポーズ誤差11.4°を達成した。
新規のハンドオブジェクトオクルージョンデータセットでは、平均ポーズ誤差が11.8°にまで低下し、非オクルージョン状態のLINEMODデータ（14.5°）に近い性能を示し、ベースライン[25]の13.2°を上回った。
大規模なオクルージョンデータセットにおいて、エンドツーエンド回帰アプローチは最近傍探索ベースラインを顕著に上回り、より良い一般化性能と過学習の低減を示した。
特徴サイズの実験から、32特徴を超えると性能が頭打つことが判明したが、これは先行研究と一致する。しかし、本手法は全サイズで優れた精度を達成した。
トレーニング時に合成されたオクルージョン画像を含めることで、ポーズ誤差がさらに低下し、オクルージョンモデリングを用いたデータ拡張の有効性が示された。
本手法はオクルージョンに対して強く頑健であり、ハンドオブジェクトデータセットにおける性能は非オクルージョンデータと同等水準にまで達しており、オクルージョンに配慮した損失関数の有効性が裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。