QUICK REVIEW

[論文レビュー] T-LESS: An RGB-D Dataset for 6D Pose Estimation of Texture-less Objects

Tomáš Hodaň, Pavel Haluza|arXiv (Cornell University)|Jan 19, 2017

3D Surveying and Cultural Heritage被引用数 18

ひとこと要約

T-LESSは、30種類のテクスチャレスな産業用オブジェクトの6次元姿勢推定を目的とした、新しいRGB-Dデータセットを提供する。3つの同期されたセンサ（構造化光、飛行時間、RGB）から得られた39,000枚の学習画像と10,000枚のテスト画像を含み、複雑でごみだらけのテストシーン、オクルージョン、オブジェクトの類似性を特徴とする。CADモデルと再構築された3Dモデルの両方を提供し、正確な真値姿勢を備え、最新の6次元姿勢推定手法における大幅な改善余地を示している。特にオクルージョン下での性能向上が求められる。

ABSTRACT

We introduce T-LESS, a new public dataset for estimating the 6D pose, i.e. translation and rotation, of texture-less rigid objects. The dataset features thirty industry-relevant objects with no significant texture and no discriminative color or reflectance properties. The objects exhibit symmetries and mutual similarities in shape and/or size. Compared to other datasets, a unique property is that some of the objects are parts of others. The dataset includes training and test images that were captured with three synchronized sensors, specifically a structured-light and a time-of-flight RGB-D sensor and a high-resolution RGB camera. There are approximately 39K training and 10K test images from each sensor. Additionally, two types of 3D models are provided for each object, i.e. a manually created CAD model and a semi-automatically reconstructed one. Training images depict individual objects against a black background. Test images originate from twenty test scenes having varying complexity, which increases from simple scenes with several isolated objects to very challenging ones with multiple instances of several objects and with a high amount of clutter and occlusion. The images were captured from a systematically sampled view sphere around the object/scene, and are annotated with accurate ground truth 6D poses of all modeled objects. Initial evaluation results indicate that the state of the art in 6D object pose estimation has ample room for improvement, especially in difficult cases with significant occlusion. The T-LESS dataset is available online at cmp.felk.cvut.cz/t-less.

研究の動機と目的

テクスチャがなく、目立つ視覚的特徴を持たない産業的関連オブジェクトの6次元姿勢推定の課題に対処すること。
オクルージョン、ごみ、オブジェクトの類似性を含む現実的で複雑なシーンを持つベンチマークデータセットを提供すること。
部分的可視性や対称的・類似したオブジェクトを含む困難な条件下での6次元姿勢推定手法の評価を支援すること。
複数のセンサモダリティからの正確な真値姿勢を用いて、最先端手法の体系的比較を可能にすること。
多様な3Dモデル（CADおよび再構築済み）と大規模かつ体系的な画像収集を提供することで、RGB-Dに基づく6次元姿勢推定分野の研究を促進すること。

提案手法

データセットは、構造化光（Primesense Carmine 1.09）、飛行時間（Microsoft Kinect v2）、高解像度RGBカメラ（Canon IXUS 950 IS）の3つの同期されたセンサを用いて収集された。
各オブジェクトの周囲の視点球から体系的に画像をサンプリングし、約39,000枚の学習画像（黒背景上に孤立したオブジェクト）と約10,000枚のテスト画像（複数のオブジェクト、オクルージョン、ごみを含む複雑なシーン）が得られた。
各オブジェクトに対して2種類の3Dモデルが提供された：手作業によるCADモデルと、学習用RGB-Dデータから部分的に自動で再構築されたモデル。
学習およびテスト画像内のすべてのオブジェクトインスタンスは、マルチビュー再構築とアライメントパイプラインを用いて正確な6次元真値姿勢でアノテーションされた。
姿勢評価には距離ベースの誤差指標が用いられた：$ e = \mathrm{avg}_{\mathbf{x}_1 \in \mathcal{M}} \min_{\mathbf{x}_2 \in \mathcal{M}} \| \bar{\mathbf{R}}\mathbf{x}_1 + \bar{\mathbf{t}} - (\hat{\mathbf{R}}\mathbf{x}_2 + \hat{\mathbf{t}}) \|_2 $、正しさは$ e \leq 0.1 \cdot d $と定義され、ここで$ d $はオブジェクトの直径である。
評価は、少なくとも10％のオブジェクト表面が可視である姿勢に対して再現率を重視し、Hodaňら[24]の手法をベースラインとして用いた。

実験結果

リサーチクエスチョン

RQ1最先端の6次元姿勢推定手法は、重度のオクルージョンとごみがある状況下で、テクスチャレスなオブジェクトに対してどの程度の性能を示すか？
RQ2構造化光、飛行時間、RGBの異なるセンサモダリティは、困難なシーンにおける姿勢推定精度にどのように影響するか？
RQ3オブジェクトの類似性や対称性は、6次元姿勢推定性能をどの程度悪化させるか？
RQ4CADモデルと部分的に自動で再構築された3Dモデルのどちらが、正確な姿勢推定を支援する上でより効果的か？
RQ5部分的可視性は、6次元姿勢推定手法の再現率にどのような影響を与えるか？

主な発見

Hodaňら[24]の最先端手法は、T-LESSデータセットで平均再現率67.2％を達成した。これは、さらなる改善の余地が非常に大きいことを示している。
同じ手法は、Hinterstoisserら[20]のデータセットでは95.4％の再現率を達成しており、T-LESSの難易度がオクルージョンとオブジェクト類似性のため高くなっていることが浮き彫りになった。
視覚的に類似度の高いオブジェクト（例：オブジェクト1と2、または20–22）は頻繁に混同され、再現率が低下した。
多くの類似オブジェクトと重度のオクルージョンを含むシーン20が最も困難であり、全シーンの中で最低の再現率を示した。
再現率は可視表面割合に比例して向上した。これは、オクルージョンが主な課題であることを確認した。
深度差の統計によると、再構築モデルはCADモデルよりも撮影された深度とわずかに良好に一致していたが、両者とも精度が高く（平均絶対差 < 5 mm）、良好な一致を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。