[論文レビュー] SceneNAT: Masked Generative Modeling for Language-Guided Indoor Scene Synthesis
SceneNAT は専用の triplet 予測子を備えた masked non-autoregressive Transformer を用いて言語誘導による 3D 室内シーンを合成し、自己回帰や拡散ベースの手法よりも制御性と効率性が高い。
We present SceneNAT, a single-stage masked non-autoregressive Transformer that synthesizes complete 3D indoor scenes from natural language instructions through only a few parallel decoding passes, offering improved performance and efficiency compared to prior state-of-the-art approaches. SceneNAT is trained via masked modeling over fully discretized representations of both semantic and spatial attributes. By applying a masking strategy at both the attribute level and the instance level, the model can better capture intra-object and inter-object structure. To boost relational reasoning, SceneNAT employs a dedicated triplet predictor for modeling the scene's layout and object relationships by mapping a set of learnable relation queries to a sparse set of symbolic triplets (subject, predicate, object). Extensive experiments on the 3D-FRONT dataset demonstrate that SceneNAT achieves superior performance compared to state-of-the-art autoregressive and diffusion baselines in both semantic compliance and spatial arrangement accuracy, while operating with substantially lower computational cost.
研究の動機と目的
- 自然言語指示からの制御可能な 3D 室内シーン生成を実現する。
- 自己回帰および拡散ベース手法よりも効率性とスケーラビリティを向上させる。
- triplet predictor を介して物体間の関係性を明示的にモデル化し、レイアウト精度を高める。
- 離散化された意味属性と空間属性に対する masked modeling による学習。
- 複雑な指示への頑健な一般化を伴う 3D-FRONT での最先端性能を実証。
提案手法
- シーン生成を離散化された物体レベル表現(カテゴリ、外観、位置、スケール、ヨー角)上の masked modeling として定式化。
- 非自己回帰 Transformer を用いて反復的な refinement と並行予測を実現。
- 指示から解析された (subject, predicate, object) 関係の疎な集合を出力する専用の triplet predictor を導入し、関係埋め込みを cross-attention で融合。
- Masked tokens に対する再構成損失と、ground-truth との Hungarian マッチングによるセットベースの triplet 損失を組み合わせて学習。
- コサインベースの dynamic masking スケジュールを採用し、物体レベルおよびトークンレベルの masking と replace-and-remask ポリシーで安定した訓練を実現;推論時には MaskGIT に触発された反復的並列デコードを実行。
実験結果
リサーチクエスチョン
- RQ1 masked/non-autoregressive な生成を用いた言語誘導型の 3D 室内シーン合成をどう改善できるか。
- RQ2 triplet predictor による明示的な関係推論は、テキスト条件付きシーンの複雑な空間関係の適合性を向上させるか。
- RQ3 並列・反復デコードは、拡散法や自己回帰法と比較して質と効率の競合力を達成できるか。
- RQ4 マスキング戦略と離散化の粒度がシーン忠実度と制御性に与える影響はどの程度か。
- RQ5 指示の unseen 関係性の複雑さへモデルはどれだけ一般化できるか。
主な発見
| iRecall (%) (↑) | FID (↓) | FID^CLIP (↓) | KID_x1e3 (↓) | V_cap^sum (↓) | |
|---|---|---|---|---|---|
| Bedroom (Ours) | 70.45 (1.92) | 109.55 (1.36) | 6.19 (0.12) | -1.18 (0.16) | 69.58 (12.00) |
| Living room (Ours) | 50.01 (2.25) | 110.28 (1.18) | 5.49 (0.09) | 6.18 (1.11) | 151.24 (11.14) |
| Dining room (Ours) | 56.29 (2.47) | 129.65 (1.68) | 7.51 (0.17) | 12.26 (0.99) | 169.31 (13.22) |
- SceneNAT は 3D 室内シーン合成において最先端性能を達成し、自己回帰および拡散ベースの基線より意味的整合性と空間精度で上回る。
- SceneNAT は部屋タイプ全般で iRecall を向上させつつ推論コストを削減(DiffuScene より最大 24.7 倍、InstructScene より約 5 倍高速)。
- 専用の triplet predictor は頑健な関係推論を可能にし、特に複雑な指示での制御性とレイアウト忠実度を改善。
- モデルのアブレーションは triplet 監視、物体・トークンレベル masking、replace-and-remask 戦略の必要性を示し、最良の性能を達成。
- ゼロショットの下流タスクは baselines に対して競合的または優れた結果を示し、レイアウトからオブジェクトへのタスクで強力なバイディレクショナル文脈モデリングを示唆。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。