[논문 리뷰] PanoAffordanceNet: Towards Holistic Affordance Grounding in 360° Indoor Environments
PanoAffordanceNet은 왜곡 인식 모듈화 및 구면 밀도화를 포함한 홀리스틱한 360° 실내 어포던스 그라운딩 프레임워크를 도입하고, 평가를 위한 파노라마 데이터셋 360-AGD를 추가로 제시한다. 이는 파노라마 장면에서 최첨단 원샷 그라운딩을 달성하고 원근 시야로의 일반화도 가능하다고 한다.
Global perception is essential for embodied agents in 360° spaces, yet current affordance grounding remains largely object-centric and restricted to perspective views. To bridge this gap, we introduce a novel task: Holistic Affordance Grounding in 360° Indoor Environments. This task faces unique challenges, including severe geometric distortions from Equirectangular Projection (ERP), semantic dispersion, and cross-scale alignment difficulties. We propose PanoAffordanceNet, an end-to-end framework featuring a Distortion-Aware Spectral Modulator (DASM) for latitude-dependent calibration and an Omni-Spherical Densification Head (OSDH) to restore topological continuity from sparse activations. By integrating multi-level constraints comprising pixel-wise, distributional, and region-text contrastive objectives, our framework effectively suppresses semantic drift under low supervision. Furthermore, we construct 360-AGD, the first high-quality panoramic affordance grounding dataset. Extensive experiments demonstrate that PanoAffordanceNet significantly outperforms existing methods, establishing a solid baseline for scene-level perception in embodied intelligence. The source code and benchmark dataset will be made publicly available at https://github.com/GL-ZHU925/PanoAffordanceNet.
연구 동기 및 목표
- 360° 실내 환경에서 어포던스 그라운딩을 객체 중심의 원근 시야에서 벗어나 전체적 장면 수준 추론으로 shifting.
- ERP로 인한 왜곡, 희소 기능 영역 및 의미적 드리프트를 특화 모듈과 다계층 감독으로 해결.
- 표준화된 평가를 위한 고품질 파노라마 어포던스 그라운딩 데이터셋을 제공.
- 제안한 접근법의 강건성과 일반화를 파노라마 및 원근 도메인 전반에서 시연.
제안 방법
- LoRA 기반 적응을 통한 다중 모달 그라운딩을 위한 이중 인코더 특징 추출.
- Distortion-Aware Spectral Modulator (DASM)가 위도 적응 이중 주파수 스펙트럴 증류를 수행한다.
- 구면 친화적 계층적 디코더와 Omni-Spherical Densification Head (OSDH)를 통해 구면상의 희소 활성화를 밀도화한다.
- 픽셀 수준, 분포 수준(KL) 및 영역-텍스트 대조 학습(InfoNCE) 손실을 결합한 다층 학습 목표.
실험 결과
연구 질문
- RQ1ERP 왜곡과 희소 영역에도 불구하고 360° 실내 환경에서 어포던스를 홀리스틱하게 그라운드하는 방법은 무엇인가?
- RQ2왜곡 인식 모듈화 및 구면 밀도화가 희소 활성화로부터 위상적으로 연속된 어포던스 영역을 복원할 수 있는가?
- RQ3픽셀-, 분포-, 영역-텍스트 감독을 통합하는 것이 그라운딩 정확도와 의미적 드리프트를 개선하는가?
- RQ4제안된 방법이 파노라마 데이터에서 어떻게 작동하고 원근 시야 데이터셋으로 일반화되는가?
- RQ5이 작업을 위한 파노라마 어포던스 그라운딩 벤치마크(360-AGD)의 품질과 유용성은 어떠한가?
주요 결과
| 방법 | 감독/훈련 | Easy Split KLD(낮을수록 좋음) | Easy Split SIM(높을수록 좋음) | Easy Split NSS(높을수록 좋음) | Hard Split KLD(낮을수록 좋음) | Hard Split SIM(높을수록 좋음) | Hard Split NSS(높을수록 좋음) |
|---|---|---|---|---|---|---|---|
| OOAL | One-shot | 2.868 | 0.117 | 1.267 | 3.067 | 0.097 | 1.484 |
| OS-AGDO | One-shot | 2.853 | 0.124 | 1.299 | 2.965 | 0.115 | 1.484 |
| Ours | One-shot | 1.270 | 0.506 | 4.490 | 1.306 | 0.474 | 4.398 |
- PanoAffordanceNet은 Easy와 Hard 분할 모두에서 KLD, SIM, NSS의 지표로 두 개의 원샷 베이스라인(OOAL, OS-AGDO)을 360-AGD에서 크게 앞섰다.
- Ablation 연구에서 LoRA, DASM, 및 OSDH 각각이 이득에 기여하며, 전체 모델이 최적의 KLD 및 SIM 점수를 달성했다.
- 다층 손실(BCE, KL, RTC)이 픽셀 정확도, 분포 일관성, 영역-텍스트 정렬을 함께 개선하여 가장 강력한 전반 지표를 제공했다.
- 모델은 원근 AGD20K에서도 경쟁력 있는 성능을 유지하여 도메인 간 강건성을 시사한다.
- 360-AGD는 파노라마 장면을 위한 19개 어포던스 클래스와 다중 영역 주석을 제공하는 새로운 벤치마크를 제시한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.