Skip to main content
QUICK REVIEW

[论文解读] PanoAffordanceNet: Towards Holistic Affordance Grounding in 360° Indoor Environments

Guoliang Zhu, Wanjun Jia|arXiv (Cornell University)|Mar 10, 2026
Multimodal Machine Learning Applications被引用 0
一句话总结

PanoAffordanceNet 引入一个面向整体的 360° 室内可用性定位框架,具备畸变感知调制与球面密化,以及用于评估的全景数据集 360-AGD。它在全景场景的一次定位上达到最先进水平,并可泛化到透视视角。

ABSTRACT

Global perception is essential for embodied agents in 360° spaces, yet current affordance grounding remains largely object-centric and restricted to perspective views. To bridge this gap, we introduce a novel task: Holistic Affordance Grounding in 360° Indoor Environments. This task faces unique challenges, including severe geometric distortions from Equirectangular Projection (ERP), semantic dispersion, and cross-scale alignment difficulties. We propose PanoAffordanceNet, an end-to-end framework featuring a Distortion-Aware Spectral Modulator (DASM) for latitude-dependent calibration and an Omni-Spherical Densification Head (OSDH) to restore topological continuity from sparse activations. By integrating multi-level constraints comprising pixel-wise, distributional, and region-text contrastive objectives, our framework effectively suppresses semantic drift under low supervision. Furthermore, we construct 360-AGD, the first high-quality panoramic affordance grounding dataset. Extensive experiments demonstrate that PanoAffordanceNet significantly outperforms existing methods, establishing a solid baseline for scene-level perception in embodied intelligence. The source code and benchmark dataset will be made publicly available at https://github.com/GL-ZHU925/PanoAffordanceNet.

研究动机与目标

  • 将可用性定位从以对象为中心、透视视角转向 360° 室内环境的整体场景级推理。
  • 通过专门模块和多层次监督,处理 ERP 引起的畸变、稀疏功能区域和语义漂移。
  • 提供高质量的全景可用性定位数据集以标准化评估。
  • 证明所提出方法在全景与透视域的鲁棒性与泛化能力。

提出的方法

  • 采用双编码器特征提取并结合 LoRA 的多模态定位适配。
  • 畸变感知光谱调制器(DASM),执行经纬度自适应的双频谱蒸馏。
  • 球面感知分层解码器,配备全方位球面密化头(OSDH),在球面上密化稀疏激活。
  • 多层训练目标,结合像素级、分布级(KL)和区域-文本对比(InfoNCE)损失。

实验结果

研究问题

  • RQ1如何在 360° 室内环境中实现对可用性的整体定位,同时应对 ERP 畸变和稀疏区域?
  • RQ2畸变感知调制与球面密化是否能够从稀疏激活中恢复拓扑连续的可用性区域?
  • RQ3将像素级、分布级和区域-文本监督整合是否能提高定位准确性并减少语义漂移?
  • RQ4所提出方法在全景数据上的表现如何,能否泛化到透视视图数据集?
  • RQ5360-AGD 作为全景可用性定位基准,其质量与应用潜力如何?

主要发现

MethodSupervisionEasy Split KLD (lower is better)Easy Split SIM (higher is better)Easy Split NSS (higher is better)Hard Split KLD (lower is better)Hard Split SIM (higher is better)Hard Split NSS (higher is better)
OOALOne-shot2.8680.1171.2673.0670.0971.484
OS-AGDOOne-shot2.8530.1241.2992.9650.1151.484
OursOne-shot1.2700.5064.4901.3060.4744.398
  • PanoAffordanceNet 在 360-AGD 上显著优于两个一次性基线(OOAL、OS-AGDO),在 Easy 与 Hard 两个分割的 KLD、SIM、NSS 指标上均有提升。
  • 消融分析显示 LoRA、DASM 与 OSDH 各自贡献于提升,完整模型获得最佳的 KLD 与 SIM 分数。
  • 多层损失(BCE、KL、RTC)联合提升像素精度、分布一致性及区域-文本对齐,呈现最强的综合指标。
  • 该模型在透视 AGD20K 上保持具竞争力的表现,表明跨域鲁棒性。
  • 360-AGD 提供一个新的包含 19 个可用性类别及多区域标注的全景场景基准。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。