QUICK REVIEW

[論文レビュー] PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction

Zhang, Xiang, Ph. D. Massachusetts Institute of Technology, Sohyun Yoo|arXiv (Cornell University)|Mar 6, 2026

3D Shape Modeling and Analysis被引用数 0

ひとこと要約

PixARMeshは単一のRGB画像から完全な屋内シーンを自己回帰的に再構成し、SDFや後処理のレイアウト最適化に依存せず、各オブジェクトの姿勢とネイティブメッシュを統一された前方伝播モデルで予測します。

ABSTRACT

We introduce PixARMesh, a method to autoregressively reconstruct complete 3D indoor scene meshes directly from a single RGB image. Unlike prior methods that rely on implicit signed distance fields and post-hoc layout optimization, PixARMesh jointly predicts object layout and geometry within a unified model, producing coherent and artist-ready meshes in a single forward pass. Building on recent advances in mesh generative models, we augment a point-cloud encoder with pixel-aligned image features and global scene context via cross-attention, enabling accurate spatial reasoning from a single image. Scenes are generated autoregressively from a unified token stream containing context, pose, and mesh, yielding compact meshes with high-fidelity geometry. Experiments on synthetic and real-world datasets show that PixARMesh achieves state-of-the-art reconstruction quality while producing lightweight, high-quality meshes ready for downstream applications.

研究の動機と目的

屋内シーンの単一視点再構成問題の ill-posed性を強い先行知識で解決する。
SDFベースの表面抽出を用いず、ネイティブメッシュ空間で直接完全なシーンメッシュを生成する。
単一の自己回帰シーケンスでオブジェクト姿勢とメッシュを共同予測し、シーンの一貫性を確保する。
ピクセルと整合した画像特徴とグローバルなシーンコンテキストを組み込んで部分的ジオメトリ推論を改善する。
合成データと実データセットの両方で最先端のシーンレベル性能を示しつつ、メッシュを軽量で編集可能な状態に保つ。

提案手法

ピクセル整合画像特徴を用いて3D点ごとにジオメトリと外観を融合するために点群エンコーダを拡張する。
オブジェクトごとの点群特徴とグローバルなシーンコンテキスト間のクロスアテンションを用いて全体的なシーン情報を注入する。
オブジェクト姿勢とメッシュの両方を統一の自己回帰シーケンスにトークン化し、既存のメッシュ生成器（EdgeRunnerとBPT）と互換性を持たせる。
重力揃え7-DoFの境界ボックスのコーナートークンを用いてオブジェクト姿勢を表現し、メッシュトークンと同じトークン空間を共有する；コーナー対応から最小二乗適合でグローバル姿勢をローカル変換へ回復する。
ピクセル整合特徴とグローバルコンテキストから導出される結合的な姿勢-メッシュシーケンスに基づく単一の次トークン予測目的で訓練する。
合成3D-FRONTデータと実世界データセットで、オブジェクトレベルおよびシーンレベルの距離（Chamfer Distance）とF-Scoreで評価する。

実験結果

リサーチクエスチョン

RQ1SDFや後処理のレイアウト最適化なしに、ネイティブメッシュ空間でエンドツーエンドの単一視点屋内シーンを再構成できるか。
RQ2ピクセル整合の外観特徴とグローバルシーンコンテキストをメッシュ生成エンコーダに組み込むことは、遮蔽下での姿勢とジオメトリ推定を改善するか。
RQ3オブジェクト姿勢とメッシュの共同自己回帰モデリングは、二段階や最適化ベースのレイアウトアプローチよりシーンの一貫性のある構成に有効か。
RQ4PixARMeshのアーティスト対応のメッシュ出力は、合成トレーニングデータを超えた実世界の屋内画像にどれだけ一般化するか。

主な発見

方法	シーンレベル CD (×10^-3, ↓)	シーンレベル CD-S (×10^-3, ↓)	シーンレベル F-Score (%)	オブジェクトレベル CD (×10^-3, ↓)	オブジェクトレベル F-Score (%)
InstPIFu [27]	213.4	124.9	13.72	29.63	—
Uni-3D [47]	218.3	113.3	12.99	—	—
Gen3DSR [13]	222.4	137.5	13.52	9.74	31.42
DeepPriorAssembly [51]	191.8	76.2	16.72	20.13	27.83
MIDI [19]	156.3	79.3	24.83	6.71	72.69
DepR [49]	153.2	56.4	25.00	2.57	89.66
PixARMesh-EdgeRunner (Ours)	98.8	49.1	33.55	4.04	82.27
PixARMesh-BPT (Ours)	98.4	47.6	32.26	4.57	80.30

PixARMeshは3D-FRONT上で最先端のシーンレベル再構成指標を達成し、拡散ベースおよびレイアウト最適化法を含むいくつかのベースラインを上回る。
PixARMeshのEdgeRunnerバリアントはBPTバリアントよりも強い再構成性能を示す。
姿勢-メッシュの共同モデリングとピクセル整合画像特徴とシーンコンテキストの集約の導入は、アブレーションと比較してシーンレベルおよびオブジェクトレベルの指標を大幅に改善する。
真の深度情報および/またはレイアウトを使用すると、オブジェクトレベルとシーンレベルの忠実度がさらに向上し、両方が提供されると最大の改善が見られる。
真のセグメンテーションを提供するとシーンレベル再構成に大きな改善を与え、インスタンスマスクへの感度と完璧な認識ポテンシャルを強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。