[论文解读] Hierarchical Collaborative Fusion for 3D Instance-aware Referring Expression Segmentation
HCF-RES 通过分层视觉语义和逐步多层融合,结合 SAM 指导的实例掩模与 CLIP 特征,实现跨模态对齐,达到 ScanRefer 与 Multi3DRefer 上的最新 3D 指称表达分割性能。
Generalised 3D Referring Expression Segmentation (3D-GRES) localizes objects in 3D scenes based on natural language, even when descriptions match multiple or zero targets. Existing methods rely solely on sparse point clouds, lacking rich visual semantics for fine-grained descriptions. We propose HCF-RES, a multi-modal framework with two key innovations. First, Hierarchical Visual Semantic Decomposition leverages SAM instance masks to guide CLIP encoding at dual granularities -- pixel-level and instance-level features -- preserving object boundaries during 2D-to-3D projection. Second, Progressive Multi-level Fusion integrates representations through intra-modal collaboration, cross-modal adaptive weighting between 2D semantic and 3D geometric features, and language-guided refinement. HCF-RES achieves state-of-the-art results on both ScanRefer and Multi3DRefer.
研究动机与目标
- 在广义的 3D 指称表达分割(GRES)中桥接语言语义与三维几何。
- 利用多视角 RGB 语义与稀疏点云在 2D→3D 投影过程中保持对象边界。
- 开发一个分层的多模态融合框架,将密集像素级和实例级的二维特征与三维几何相结合。
- 实现语言引导、实例感知的细化,以改善跨模态对齐和分割准确性。
- 在 ScanRefer 和 Multi3DRefer 数据集上展示最先进的性能。
提出的方法
- 使用 SAM 进行分层视觉语义分解,从多视角图像生成实例掩模,利用 CLIP 提取密集的像素级和实例级特征(通过掩模池化)以用于 2D→3D 投影。
- 密集像素级 2D 特征来自 CLIP 中间层并经过上采样以用于投影;实例级特征通过受 SAM 掩模引导的掩模加权池化获得,并通过高斯模糊产生软掩模。
- 投影的 2D 特征与 3D 特征一起聚合到超点(superpoints)。
- 通过多头注意力实现跨模态内部协同整合,将密集和实例感知的 2D 特征融合为统一的 2D 表征。
- 采用具有空间自适应权重的跨模态动态集成,在每个超点位置混合 2D 语义和 3D 几何特征。
- 语言引导的实例细化,通过基于 FPS 的采样选择与与文本嵌入的跨注意力实现高效的实例感知处理。
- 通过实例分割损失(BCE+Dice)、基于 IoU 的置信度,以及视觉-语言对比学习进行优化。
- 一个 6 层解码器从统一的多模态表示中解码最终的 3D 指称分割。
实验结果
研究问题
- RQ1在将语言在 3D 点云中定位时,如何保持对象级的分层语义?
- RQ2是否可以通过 SAM 指导的实例与像素级 CLIP 特征改善 2D→3D 特征对齐以实现指称表达?
- RQ3逐步的多层融合是否提升了面向广义 3D-RES 的内部与跨模态对齐(包括零目标和多目标情形)?
- RQ4语言引导的实例细化对分割准确性和效率有何影响?
主要发现
| 方法 | 场景 | 整体 | Acc@0.25 | Acc@0.5 | mIoU |
|---|---|---|---|---|---|
| InstanceRefer | ICCV2021 | 40.2 | 33.5 | 30.6 | 30.6 |
| 3D-STMN | AAAI2024 | 54.6 | 39.8 | 39.5 | 39.5 |
| SegPoint | ECCV2024 | - | - | 41.7 | 41.7 |
| Reason3D | 3DV2025 | 57.9 | 41.9 | 42.0 | 42.0 |
| MCLN | ECCV2024 | 58.7 | 50.7 | 44.7 | 44.7 |
| RefMask3D | ACMMM2024 | 55.9 | 49.2 | 44.9 | 44.9 |
| MDIN | ACMMM2024 | 58.0 | 53.1 | 48.3 | 48.3 |
| IPDN | AAAI2025 | 59.9 | 54.4 | 49.5 | 49.5 |
| HCF-RES | - | 60.9 | 55.7 | 50.5 | 50.5 |
- HCF-RES 在 ScanRefer 和 Multi3DRefer 上实现了最先进的 mIoU 和精度,优于之前的方法。
- 在 ScanRefer 上,HCF-RES 达到 60.9% Acc@0.25,55.7% Acc@0.5,和 50.5% mIoU。
- 在 3D-GRES 评估(Multi3DRefer 验证集)中,HCF-RES 达到 53.5% mIoU,在零目标下性能强劲(Acc@0.25 47.9% 无干扰项,86.0% 有干扰项),在多目标场景中也有高精度(Acc@0.25 78.9,Acc@0.5 52.9)。
- 消融研究表明分层视觉语义分解(VSD)和逐步多层融合(MLF)均有贡献,且单独评估时 VSD 贡献更大。
- 提出的内部模态融合和空间自适应跨模态加权通过保留对象边界、平衡语义与几何线索来提升鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。