[论文解读] FloorplanVLM: A Vision-Language Model for Floorplan Vectorization
FloorplanVLM 将平面图向量化重新定义为条件于图像的序列生成,输出结构化 JSON,通过三阶段训练与可扩展的数据引擎实现工程级、拓扑有效的平面图,包括非曼哈顿几何。
Converting raster floorplans into engineering-grade vector graphics is challenging due to complex topology and strict geometric constraints. To address this, we present FloorplanVLM, a unified framework that reformulates floorplan vectorization as an image-conditioned sequence modeling task. Unlike pixel-based methods that rely on fragile heuristics or query-based transformers that generate fragmented rooms, our model directly outputs structured JSON sequences representing the global topology. This 'pixels-to-sequence' paradigm enables the precise and holistic constraint satisfaction of complex geometries, such as slanted walls and curved arcs. To support this data-hungry approach, we introduce a scalable data engine: we construct a large-scale dataset (Floorplan-2M) and a high-fidelity subset (Floorplan-HQ-300K) to balance geometric diversity and pixel-level precision. We then employ a progressive training strategy, using Supervised Fine-Tuning (SFT) for structural grounding and quality annealing, followed by Group Relative Policy Optimization (GRPO) for strict geometric alignment. To standardize evaluation on complex layouts, we establish and open-source FPBench-2K. Evaluated on this rigorous benchmark, FloorplanVLM demonstrates exceptional structural validity, achieving $ extbf{92.52%}$ external-wall IoU and robust generalization across non-Manhattan architectures.
研究动机与目标
- 通过强制严格的拓扑一致性来推动工程级平面图向量化,超越基于像素的方法。
- 提出一个端到端的序列建模框架,输出墙、开口和房间的 JSON 表示。
- 创建一个可扩展的数据引擎,以平衡几何多样性与像素对齐的训练精度。
- 开发一个渐进式训练管线,将监督微调与强化学习结合起来以实现几何对齐。
- 将 FPBench-2K 设为开放基准,以标准化对复杂平面图的评估。
提出的方法
- 将平面图向量化表述为图像条件的分组序列生成,生成一个层次化的 JSON 表示。
- 引入按依赖排序的序列化:先定义墙骨架,然后引用这些墙的房间。
- 通过结构感知聚类构建 Floorplan-2M,通过 Floorplan-HQ-300K 实现像素对齐的精度,以用于 SFT 和 GRPO 的训练。
- 应用三阶段渐进式训练:阶段1-2 监督微调以实现句法锚定和质量退火,阶段3 使用 Group Relative Policy Optimization 来优化几何对齐。
- 在 GRPO 中使用分层奖励函数,结合有效性、外部几何 IoU 和内部结构来引导学习。
- 使用一个高效令牌的 JSON 架构,进行坐标归一化并利用 1,391 个语义令牌以压缩序列长度。
实验结果
研究问题
- RQ1FloorplanVLM 是否能够从栅格输入中可靠地产生无缝、拓扑有效的平面图?
- RQ2所提出的数据引擎如何影响曼哈顿与非曼哈顿布局的几何多样性与精度?
- RQ3结合 GRPO 的渐进式训练是否能在几何保真度上超越标准的监督微调?
- RQ4与替代格式相比,基于 JSON 的表示在编码复杂建筑拓扑方面是否更有效?
主要发现
| Subset | ρ_val (%) | IoU_ext | IoU_room | F1_room | F1_op |
|---|---|---|---|---|---|
| Manhattan | 97.02 | 0.9459 | 0.9089 | 0.8385 | 0.7739 |
| Non-Manhattan | 95.10 | 0.9027 | 0.8738 | 0.8101 | 0.6894 |
| Overall | 96.10 | 0.9252 | 0.8920 | 0.8249 | 0.7333 |
- FloorplanVLM 在 FPBench-2K 上实现 92.52% 的外部墙 IoU,展现出强大的拓扑保真性。
- 总体而言,FloorplanVLM 在 FPBench-2K 上达到 96.10% 的有效性、0.9252 的 IoU_ext、0.8920 的 IoU_room、0.8249 的 F1_room 和 0.7333 的 F1_op。
- Manhattan 子集达到 97.02% 的有效性、0.9459 的 IoU_ext、0.9089 的 IoU_room、0.8385 的 F1_room 和 0.7739 的 F1_op;Non-Manhattan 子集达到 95.10% 的有效性、0.9027 的 IoU_ext、0.8738 的 IoU_room、0.8101 的 F1_room 和 0.6894 的 F1_op。
- 三阶段训练机制(SFT 加 GRPO)相较于单独的 SFT,在几何对齐方面显著提升并显著降低拓扑错误。
- GRPO 在有效性和 Ext-IoU 上提供显著提升,验证在训练过程中进行非可微分几何对齐的重要性。
- 与 Python DSL 相比,基于 JSON 的序列化在结构优先排序的驱动下表现更优,得益于对 JSON 语法的预训练对齐。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。