QUICK REVIEW

[論文レビュー] NAVI: Category-Agnostic Image Collections with High-Quality 3D Shape and Pose Annotations

Varun Jampani, Kevis-Kokitsi Maninis|arXiv (Cornell University)|Jun 15, 2023

Advanced Neural Network Applications被引用数 8

ひとこと要約

NAVI はカテゴリに依存しない物体画像コレクションを提供し、ほぼ完璧な3Dスキャンと2D-3Dアライメントを実現して、現実世界とマルチビュー画像セットの両方から3D再構成、姿勢推定、密な対応の徹底的な評価を可能にします。

ABSTRACT

Recent advances in neural reconstruction enable high-quality 3D object reconstruction from casually captured image collections. Current techniques mostly analyze their progress on relatively simple image collections where Structure-from-Motion (SfM) techniques can provide ground-truth (GT) camera poses. We note that SfM techniques tend to fail on in-the-wild image collections such as image search results with varying backgrounds and illuminations. To enable systematic research progress on 3D reconstruction from casual image captures, we propose NAVI: a new dataset of category-agnostic image collections of objects with high-quality 3D scans along with per-image 2D-3D alignments providing near-perfect GT camera parameters. These 2D-3D alignments allow us to extract accurate derivative annotations such as dense pixel correspondences, depth and segmentation maps. We demonstrate the use of NAVI image collections on different problem settings and show that NAVI enables more thorough evaluations that were not possible with existing datasets. We believe NAVI is beneficial for systematic research progress on 3D reconstruction and correspondence estimation. Project page: https://navidataset.github.io

研究の動機と目的

高品質な3Dスキャンとほぼ完璧な2D-3Dアライメントを備えたカテゴリに依存しないオブジェクトデータセットを提供する。
マルチビュー再構成、現実世界の3D形状と姿勢推定、および密な画素対応の評価を可能にする。
実世界のカジュアルな画像コレクションにおけるSfM姿勢に依存する限界を浮き彫りにする。
下流タスクを支援する派生アノテーション（深度、マスク、相対姿勢）を提供する。

提案手法

Metric 3D形状を得るために、36個の剛体オブジェクトを2つの専門的スキャナーで撮影・スキャンする。
各オブジェクトについて2種類の画像コレクションを収集する：in-the-wildとマルチビュー、カジュアルな設定の12台カメラから。
ほぼ完璧なアライメントを実現するための、手動6自由度姿勢制御とカメラ内部パラメータの洗練を備えた対話式の2D-3Dアライメントツールを開発する。
2名の専門アノテータによるアライメントの検証を行い、ずれを排除して高品質を保証する。
2D-3Dアライメントから派生アノテーション（密なピクセル対応、深度マップ、バイナリマスク）を導出する。
共通原点に合わせたGTカメラ姿勢を提供し、オブジェクト間での統制された評価を可能にする。

実験結果

リサーチクエスチョン

RQ1カテゴリ依存しない現実世界オブジェクト画像コレクションのために、どのように高品質な2D-3Dアライメントを取得できるか？
RQ2GT姿勢と形状を用いることが、in-the-wild環境での3D再構成、新規ビュー合成、対応推定にどのような影響を与えるか？
RQ3NAVI の近GTアノテーションと制御されたカメラパラメータで、最先端の再構成手法の性能はどのように変わるか？
RQ4COLMAP 姿勢が現実世界のマルチソース画像セットでの限界は何か、GT NAVI 姿勢と比較してどうか？
RQ5NAVI は各手法間でのカメラノイズ、姿勢初期化、再構成の頑健性を系統的に分析できるか？

主な発見

NAVI は、非常に小さなアノテータ間の差異でほぼ完璧な2D-3Dアライメントを実現する（平均回転1.7度、2つの検証済みアライメント間の平行移動0.97 mm）。
NAVI のGT姿勢と形状は、COLMAPの姿勢を用いた場合と比較して、複数の手法において新規ビュー合成指標（PSNR、SSIM、LPIPS）を改善する。
COLMAP は NAVI のマルチビューシーンで部分的なビュー登録をよく引き起こすのに対し、NAVI のGT姿勢は評価のための完全で整列したカメラパラメータを提供する。
現実世界のNAVIセットは、カメラノイズや初期化の影響を再構成性能で構造的に分析でき、手法ごとに姿勢精度の感度が異なることを明らかにする。
NAVI は密なピクセル対応と深度/マスク派生をサポートし、従来のキーポイント手法を超えた対応推定の堅牢な評価を可能にする。
現存の現実世界データセットと比較して、NAVI はGT形状とほぼGTカメラ姿勢を備えた実世界オブジェクトを唯一提供しており、姿勢と幾何の評価を正確に行える。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。