QUICK REVIEW

[論文レビュー] SceneFoundry: Generating Interactive Infinite 3D Worlds

ChunTeng Chen, YiChen Hsu|arXiv (Cornell University)|Jan 9, 2026

Social Robot Interaction and HRI被引用数 0

ひとこと要約

SceneFoundry は言語ガイド付きの拡散パイプラインを提供し、ロボット学習用のアパート規模の機能的に関節化された 3D 室内環境を作成します。LLM によるフロアプラン、拡散ベースのアセット配置、移動可能性と対話性のための后処理最適化を組み合わせます。

ABSTRACT

The ability to automatically generate large-scale, interactive, and physically realistic 3D environments is crucial for advancing robotic learning and embodied intelligence. However, existing generative approaches often fail to capture the functional complexity of real-world interiors, particularly those containing articulated objects with movable parts essential for manipulation and navigation. This paper presents SceneFoundry, a language-guided diffusion framework that generates apartment-scale 3D worlds with functionally articulated furniture and semantically diverse layouts for robotic training. From natural language prompts, an LLM module controls floor layout generation, while diffusion-based posterior sampling efficiently populates the scene with articulated assets from large-scale 3D repositories. To ensure physical usability, SceneFoundry employs differentiable guidance functions to regulate object quantity, prevent articulation collisions, and maintain sufficient walkable space for robotic navigation. Extensive experiments demonstrate that our framework generates structurally valid, semantically coherent, and functionally interactive environments across diverse scene types and conditions, enabling scalable embodied AI research. project page: https://anc891203.github.io/SceneFoundry-Demo/

研究の動機と目的

高レベルな自然言語プロンプトを、 controllable でアパート規模の 3D シーン生成へ橋渡しする。
関節化された家具と可動部を埋め込むことで機能的リアリズムを確保する。
ロボット学習と具現化AI のための移動可能性と歩行空間を維持する。
オブジェクト数、関節化の実現性、歩行可能エリアを強制する微分可能な事後ガイダンスを提供する。

提案手法

LLM ベースのパラメータ空間ガイダンスが自然言語プロンプトを controllable なフロアプランの低レベルパラメータへ変換する。
拡散後方サンプリングが、3D シーン全体で並列にオブジェクトパラメータをサンプリングすることで関節化資産を配置する。
微分可能なガイダンス関数が生成を制約する：Object Quantity Control および Articulated Object Collision Constraint。
Walkable Area Control の後処理がレイアウトを最適化し、エージェントのナビゲーション可能性を保証する。
トレーニングは制約勾配を含む制約誘導型学習目的を統合する。
評価指標は生成シーンの制御性と機能的妥当性を評価する。

実験結果

リサーチクエスチョン

RQ1言語ガイド付きプロンプトはロボットタスクに適したアパート規模の意味論的に一貫したフロアプランを生み出せるか。
RQ2微分可能な制約は拡散ベースのレイアウト生成中のオブジェクト数と関節化の実現性をどの程度効果的に強制できるか。
RQ3後処理の歩行可能エリア最適化は意味的レイアウト品質を損なうことなく移動可能な環境を保証できるか。
RQ4生成された 3D 室内シーンの制御性と機能的リアリズムを最もよく捉える指標は何か。

主な発見

フレームワークは構造的に有効で意味的に一貫し、機能的に対話可能なアパート規模のシーンを達成する。
Object Quantity Control は目標オブジェクト数を高い成功率で安定して強制する（SR ~0.95–0.97、対象 5–16）。
Articulated Object Collision Constraint は機能的な衝突を減らし、ベースラインと比較してオブジェクトの到達性を向上させる。
Walkable Area Control は歩行可能エリアの閾値を超える navigability を著しく向上させる。
LLM ガイダンス付きレイアウト生成は Ground-truth レイアウトに対してノード・制約・エッジの類似度が高い。
ATISS、DiffuScene、PhyScene のベースラインと比較して、SceneFoundry は知覚品質で競争力を保ちつつ機能的妥当性を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。