QUICK REVIEW

[論文レビュー] se(3)-TrackNet: Data-driven 6D Pose Tracking by Calibrating Image Residuals in Synthetic Domains

Bowen Wen, Chaitanya Mitash|arXiv (Cornell University)|Jul 27, 2020

Robotics and Sensor-Based Localization参考文献 46被引用数 120

ひとこと要約

se(3)-TrackNet は、ドメインランダム化と、新しいリーマン幾何学的リーマン代数に基づく残差ポーズネットワークを活用したデータ駆動型の6次元ポーズ追跡手法を提案する。本手法は、合成データのみで学習したにもかかわらず、実世界のRGB-D画像においても、90.9 Hzの高速かつ耐障害性に優れたリアルタイム追跡を実現し、最先端の手法を上回る性能を発揮する。特に、重度のオクルージョン下でも再初期化なしに安定した追跡が可能である。

ABSTRACT

Tracking the 6D pose of objects in video sequences is important for robot manipulation. This task, however, introduces multiple challenges: (i) robot manipulation involves significant occlusions; (ii) data and annotations are troublesome and difficult to collect for 6D poses, which complicates machine learning solutions, and (iii) incremental error drift often accumulates in long term tracking to necessitate re-initialization of the object's pose. This work proposes a data-driven optimization approach for long-term, 6D pose tracking. It aims to identify the optimal relative pose given the current RGB-D observation and a synthetic image conditioned on the previous best estimate and the object's model. The key contribution in this context is a novel neural network architecture, which appropriately disentangles the feature encoding to help reduce domain shift, and an effective 3D orientation representation via Lie Algebra. Consequently, even when the network is trained only with synthetic data can work effectively over real images. Comprehensive experiments over benchmarks - existing ones as well as a new dataset with significant occlusions related to object manipulation - show that the proposed approach achieves consistently robust estimates and outperforms alternatives, even though they have been trained with real images. The approach is also the most computationally efficient among the alternatives and achieves a tracking frequency of 90.9Hz.

研究の動機と目的

オクルージョンや限られた実世界データに起因する長期的なロボット操作における6次元オブジェクトポーズ追跡の課題に対処すること。
分離された特徴符号化とリーマン代数に基づく3次元方向表現を用いて、合成画像と実画像の間のドメインギャップを低減すること。
コストの高い実世界データ収集やアノテーションを不要とし、完全に合成データでの訓練が可能となるようにすること。
6次元ポーズ追跡評価のための新しいベンチマークデータセット（YCBInEOAT）を構築し、顕著なオクルージョンと多様なロボット操作シナリオを含めること。
再初期化なしに、極端なオブジェクト再方向転置や部分的オクルージョン下でも、高速かつ高精度かつ安定した追跡を実現すること。

提案手法

前回の推定ポーズにおけるオブジェクトの合成レンダリングと、現在のRGB-D観測との間の相対ポーズを予測する、新しいニューラルネットワークアーキテクチャであるse(3)-TrackNet。
3次元方向と並進の残差をリーマン代数（se(3)）を用いて表現することで、微分可能損失関数を介した連続的ポーズ変換の有効な学習を可能にする。
外見と幾何的特徴を分離する特徴符号化により、ドメインギャップを低減し、シミュレーションから実世界への一般化性能を向上させる。
ランダムな照明、テクスチャ、カメラパラメータを含むドメインランダム化を用いて、合成データのみで学習することで、実世界の変動に強い耐性を強化する。
RGBと深度モダリティの特徴を共有エンコーダーと残差接続を用いて融合し、外見的および幾何的整合性を捉える。
se(3)リーマン代数パラメータにおけるL2損失と、形状マッチング損失を組み合わせた損失関数により、ポーズの正確性と安定性を向上させる。

実験結果

リサーチクエスチョン

RQ1完全に合成データでのみ学習された6次元ポーズ追跡ネットワークが、ドメイン変換や実データ微調整なしに、実世界のRGB-D画像に効果的に一般化可能か？
RQ2標準的なクaternionや回転行列表現と比較して、リーマン代数に基づく残差ポーズ表現は、追跡の正確性と収束性をどのように向上させるか？
RQ3特徴の分離化は、6次元オブジェクトポーズ追跡におけるドメインギャップ低減とシミュレーションから実世界への転移性向上にどの程度寄与するか？
RQ4本手法は、ロボット操作で一般的な大規模なオクルージョンや急激なオブジェクト再方向転置下でも、高精度かつ安定した追跡を維持できるか？
RQ5再初期化への耐性、速度、正確性の観点から、最先端の手法と比較して、本手法の性能はどの程度か？

主な発見

YCB-Videoベンチマークにおいて、ADD指標で93.05%、ADD-S指標で95.71%の成功率を達成し、実データで学習されたベースラインをすべて上回った。
90.9 Hzで実行可能であり、競合手法よりも顕著に高速で、ロボット操作システムにおけるリアルタイム利用を可能にした。
複雑なオクルージョンとバキュームグリッパーを用いた操作シナリオを含む新しいYCBInEOATベンチマークにおいて、ADD-Sで94.44%を達成し、極端な条件下でも耐障害性を示した。
アブレーションスタディの結果、深度モダリティを除去するとADDで75.65%に低下し、多モodal入力を用いることで正確性が向上することを示した。
リーマン代数表現と分離特徴符号化を用いることで、クaternionを用いたベースラインと比較して、ADD-Sで3.8%の向上を達成した。
完全なオクルージョン後でも再初期化なしに高い性能を維持しており、定性的な結果（図1および図6）でその有効性が裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。