[論文レビュー] FloorplanVLM: A Vision-Language Model for Floorplan Vectorization
FloorplanVLM は floorplan ベクタ化を画像条件付きのシーケンス生成として再定義し、構造化された JSON を出力する。三段階の訓練とスケーラブルなデータエンジンにより、非マンハッタン幾何を含むエンジニアリング水準のトポロジ的に有効な floorplan を出力する。
Converting raster floorplans into engineering-grade vector graphics is challenging due to complex topology and strict geometric constraints. To address this, we present FloorplanVLM, a unified framework that reformulates floorplan vectorization as an image-conditioned sequence modeling task. Unlike pixel-based methods that rely on fragile heuristics or query-based transformers that generate fragmented rooms, our model directly outputs structured JSON sequences representing the global topology. This 'pixels-to-sequence' paradigm enables the precise and holistic constraint satisfaction of complex geometries, such as slanted walls and curved arcs. To support this data-hungry approach, we introduce a scalable data engine: we construct a large-scale dataset (Floorplan-2M) and a high-fidelity subset (Floorplan-HQ-300K) to balance geometric diversity and pixel-level precision. We then employ a progressive training strategy, using Supervised Fine-Tuning (SFT) for structural grounding and quality annealing, followed by Group Relative Policy Optimization (GRPO) for strict geometric alignment. To standardize evaluation on complex layouts, we establish and open-source FPBench-2K. Evaluated on this rigorous benchmark, FloorplanVLM demonstrates exceptional structural validity, achieving $\textbf{92.52%}$ external-wall IoU and robust generalization across non-Manhattan architectures.
研究の動機と目的
- ピクセルベースの手法を超えた厳密なトポロジ的一致性を課すことにより、エンジニアリング水準の floorplan ベクトル化を動機づける。
- 壁・開口・部屋の JSON 表現を出力するエンドツーエンドのシーケンスモデリング枠組みを提案する。
- 訓練のための幾何学的多様性とピクセル整合精度を両立させるスケーラブルなデータエンジンを創出する。
- 幾何学的整合性を目的とした監視付き微調整と強化学習を組み合わせた段階的訓練パイプラインを開発する。
- 複雑な floorplan の評価を標準化するオープンなベンチマークとして FPBench-2K を確立する。
提案手法
- floorplan ベクタ化を画像条件付きトークン列生成として階層的 JSON 表現へ変換する。
- 最初に壁のスケルトンを定義し、次にそれらの壁を参照する部屋を定義する依存性順序付きシリアライゼーションを導入する。
- Structure-aware クラスタリングで Floorplan-2M、ピクセル整合精度のための Floorplan-HQ-300K を構築し、SFT と GRPO で訓練する。
- 三段階の進行的訓練を適用する:Stage 1-2 の監視付き微調整で統語 grounding と品質アニーリング、Stage 3 の Group Relative Policy Optimization で幾何学的整合性を最適化。
- GRPO において有効性、外部幾何 IoU、および内部構造を組み合わせた階層的報酬関数を用いて学習を導く。
- 座標正規化と 1,391 の意味トークンを用いたトークン効率的な JSON スキーマを活用し、シーケンス長を圧縮する。
実験結果
リサーチクエスチョン
- RQ1FloorplanVLM はラスター入力から水密でトポロジ的に有効な floorplan を再現できるか。
- RQ2提案されたデータエンジンは Manhattan および非 Manhattan レイアウトにおける学習幾何の多様性と精度にどのように影響するか。
- RQ3GRPO を用いた進行的訓練は標準的な監視付き微調整を超えて幾何学的忠実度を改善するか。
- RQ4JSON ベースの表現は複雑な建築トポロジーを他の形式と比較して効果的にエンコードできるか。
主な発見
| Subset | ρ_val (%) | IoU_ext | IoU_room | F1_room | F1_op |
|---|---|---|---|---|---|
| Manhattan | 97.02 | 0.9459 | 0.9089 | 0.8385 | 0.7739 |
| Non-Manhattan | 95.10 | 0.9027 | 0.8738 | 0.8101 | 0.6894 |
| Overall | 96.10 | 0.9252 | 0.8920 | 0.8249 | 0.7333 |
- FloorplanVLM は FPBench-2K で 92.52% の external-wall IoU を達成し、強いトポロジ的忠実度を示す。
- 総合的に FloorplanVLM は 96.10% の valid 率、0.9252 の IoU_ext、0.8920 の IoU_room、0.8249 の F1_room、0.7333 の F1_op を FPBench-2K で達成。
- Manhattan サブセットは 97.02% の valid、0.9459 の IoU_ext、0.9089 の IoU_room、0.8385 の F1_room、0.7739 の F1_op を得、Non-Manhattan サブセットは 95.10% の valid、0.9027 の IoU_ext、0.8738 の IoU_room、0.8101 の F1_room、0.6894 の F1_op を得る。
- 三段階訓練制度(SFT と GRPO)は、SFT のみと比較して幾何学的整合性を大幅に向上させ、トポロジー誤差を低減する。
- GRPO は有効性と外部 IoU の著しいブーストを提供し、訓練中の非微分可能な幾何整合の重要性を検証する。
- 構造優先のシリアライゼーションを採用する JSON ベースの表現は、事前学習の JSON 構文整合により Python DSL より優れていることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。