Skip to main content
QUICK REVIEW

[论文解读] FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow

Zhifei Yang, Guangyao Zhai|arXiv (Cornell University)|Mar 20, 2026
Multimodal Machine Learning Applications被引用 0
一句话总结

FlowScene 通过紧密耦合的多模态图纠正流,联合生成布局、形状和纹理,从而实现对每个对象的控制以及场景级风格的一致性,能够从多模态图生成高保真度的三维室内场景。

ABSTRACT

Scene generation has extensive industrial applications, demanding both high realism and precise control over geometry and appearance. Language-driven retrieval methods compose plausible scenes from a large object database, but overlook object-level control and often fail to enforce scene-level style coherence. Graph-based formulations offer higher controllability over objects and inform holistic consistency by explicitly modeling relations, yet existing methods struggle to produce high-fidelity textured results, thereby limiting their practical utility. We present FlowScene, a tri-branch scene generative model conditioned on multimodal graphs that collaboratively generates scene layouts, object shapes, and object textures. At its core lies a tight-coupled rectified flow model that exchanges object information during generation, enabling collaborative reasoning across the graph. This enables fine-grained control of objects' shapes, textures, and relations while enforcing scene-level style coherence across structure and appearance. Extensive experiments show that FlowScene outperforms both language-conditioned and graph-conditioned baselines in terms of generation realism, style consistency, and alignment with human preferences.

研究动机与目标

  • 在室内场景生成中实现对几何形状和外观的精准控制,以用于设计、VR/AR、机器人和自动化等应用。
  • 提出一个基于多模态图的框架,将文本和视觉输入统一起来,以表示对象及其关系。
  • 开发一个三分支生成器(布局、形状、纹理),共同确保对象级保真度和场景级风格一致性。
  • 引入多模态图纠正流,使生成过程中能够在节点之间进行迭代性、信息交换性去噪。
  • 在3D-FRONT/SG-FRONT数据集上展示相较语言条件基线和图条件基线的更高真实感和风格一致性。

提出的方法

  • 定义一个多模态场景图,其中每个节点聚合文本和视觉特征(文本 u_i 和视觉 f_i)以及可选模态,形成节点表征。
  • 使用基于三元组GCN的信息交换单元,在生成过程中在节点之间传播图条件化去噪信息。
  • 采用三分支流程(布局、形状、纹理),每个分支使用以图派生约束为条件的纠正流去噪器。
  • 布局分支为场景布局建模3D包围盒并应用 LayoutExchangeUnit 进行时间/全局约束。
  • 形状分支对对象进行体素化,使用形状 VQ-VAE 获取潜在编码,并采用 ShapeExchangeUnit 以实现跨对象形状一致性。
  • 纹理分支将纹理潜在编码锚定到几何上,提取多视角特征,并使用 TextureExchangeUnit 以确保对象之间的纹理一致性。
  • 所有分支以共享的纠正流目标进行训练,使预测速度向目标速度的差异最小化,从而实现快速、少步采样。
Figure 1. Scene Generation from Diverse Input. The prospective system, powered by FlowScene , supports the generation of style-consistent 3D scenes from multi-source descriptions, including text input, GUI selections, and mixed information. Users can flexibly specify object categories and, if desire
Figure 1. Scene Generation from Diverse Input. The prospective system, powered by FlowScene , supports the generation of style-consistent 3D scenes from multi-source descriptions, including text input, GUI selections, and mixed information. Users can flexibly specify object categories and, if desire

实验结果

研究问题

  • RQ1一个以多模态图条件化流模型是否能够生成符合对象级控制和场景级风格一致性的带纹理3D场景?
  • RQ2通过显式建模对象关系(图结构)是否相较仅语言或仅图的基线在真实感、风格一致性和用户对齐性上有提升?
  • RQ3去噪过程中在节点之间进行信息交换如何影响每个对象的保真度和整体场景质量?
  • RQ4将布局、形状与纹理分支联合训练对端到端场景合成质量与效率有何影响?

主要发现

  • FlowScene 在 SG-FRONT 和 3D-FRONT 基准测试中,在真实感、风格一致性以及与人类偏好的一致性方面优于语言条件和图条件基线。
  • 三分支设计结合多模态图纠正流实现对对象级(形状、纹理)更精细的控制,同时保持场景级的一致性。
  • 该方法比以往的扩散式图条件方法生成更快,并在对象级保真度和整体场景质量方面表现更强。
  • 一个多模态图(文本+图像)能够处理文本-only、图像-only 或混合输入,便于灵活的场景构建。
  • 实验结果包括感知研究和场景级/对象级指标,表明在提示遵循、布局正确性、视觉质量和风格一致性方面有所提升。
Figure 9. Failure case. The left panel shows the input multimodal scene graph, while the right panel shows the generated failure case. Red cross marks indicate removed relationships.
Figure 9. Failure case. The left panel shows the input multimodal scene graph, while the right panel shows the generated failure case. Red cross marks indicate removed relationships.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。