QUICK REVIEW

[논문 리뷰] Hierarchical Collaborative Fusion for 3D Instance-aware Referring Expression Segmentation

Keshen Zhou, Runnan Chen|arXiv (Cornell University)|2026. 03. 06.

3D Shape Modeling and Analysis인용 수 0

한 줄 요약

HCF-RES는 SAM-guided 인스턴스 레벨 및 픽셀 레벨 CLIP 특징으로 계층적 시각적 의미 분해를 도입하고, 이후 점진적 다중 수준 융합을 통해 ScanRefer 및 Multi3DRefer에서 최첨단 3D 지칭 표현 분할을 달성합니다.

ABSTRACT

Generalised 3D Referring Expression Segmentation (3D-GRES) localizes objects in 3D scenes based on natural language, even when descriptions match multiple or zero targets. Existing methods rely solely on sparse point clouds, lacking rich visual semantics for fine-grained descriptions. We propose HCF-RES, a multi-modal framework with two key innovations. First, Hierarchical Visual Semantic Decomposition leverages SAM instance masks to guide CLIP encoding at dual granularities -- pixel-level and instance-level features -- preserving object boundaries during 2D-to-3D projection. Second, Progressive Multi-level Fusion integrates representations through intra-modal collaboration, cross-modal adaptive weighting between 2D semantic and 3D geometric features, and language-guided refinement. HCF-RES achieves state-of-the-art results on both ScanRefer and Multi3DRefer.

연구 동기 및 목표

언어 의미와 3D 기하를 일반화된 3D 지칭 표현 분할(GRES)으로 연결한다.
희소 포인트 클라우드와 다중 뷰 RGB 의미를 활용해 2D→3D 투영 시 객체 경계를 보존한다.
dense pixel-level 및 instance-level 2D 특징과 3D 기하를 결합하는 계층적 다중 모드 융합 프레임워크를 개발한다.
언어 guided 인스턴스 정제를 통해 교차 모달 정렬 및 분할 정확도를 향상시킨다.
ScanRefer 및 Multi3DRefer 데이터셋에서 최첨단 성능을 입증한다.

제안 방법

SAM을 사용하여 다중 뷰 이미지에서 인스턴스 마스크를 생성하고 CLIP을 사용하여 2D→3D 투영을 위한 밀집 픽셀 수준 및 인스턴스 수준 특징을 추출하는 계층적 시각적 의미 분해.
밀집 픽셀 수준의 2D 특징은 CLIP 중간 층에서 도출되고 투영을 위해 업샘플링되며, 인스턴스 수준 특징은 SAM 마스크와 가우시안 블러로 소프트 마스크를 생성하는 마스크 가중 풀링을 통해 얻어진다.
투영된 2D 특징은 3D 특징과 함께 초점점으로 집계된다.
dense하고 인스턴스 인식된 2D 특징을 하나의 2D 표현으로 융합하기 위한 다중 헤드 어텐션에 의한 intra-modal 협업적 통합.
각 초점점 위치에서 2D 의미와 3D 기하 특징을 공간적으로 적응적 가중치를 통해 혼합하는 교차 모달 동적 통합.
FPS 기반 샘플링과 텍스트 임베딩과의 교차 어텐션을 통해 언어 관련 쿼리의 부분집합을 선택하여 효율적인 인스턴스 인식 처리를 수행하는 언어 guided 인스턴스 정제.
인스턴스 분할 손실(BCE+Dice), IoU 기반 신뢰도, 비전-언어 대비 학습으로 최적화.
최종 3D 지칭 분할은 단일화된 다중 모달 표현에서 6-layer 디코더로 해독된다.

실험 결과

연구 질문

RQ1언어를 3D 포인트 클라우드에 근거시킬 때 계층적 객체 수준 의미를 어떻게 보존할 수 있는가?
RQ2SAM 가이드 인스턴스 및 픽셀 수준 CLIP 특징이 지칭 표현의 2D→3D 특징 정렬에 도움을 주는가?
RQ3점진적 다중 수준 융합이 일반화된 3D-RES(제로타깃 및 다중 타깃 케이스 포함)에 대한 intra- 및 cross-modal 정렬을 향상시키는가?
RQ4언어 guided 인스턴스 정제가 분할 정확도와 효율성에 미치는 영향은 어떠한가?

주요 결과

방법	장소	전체	Acc@0.25	Acc@0.5	mIoU
InstanceRefer	ICCV2021	40.2	33.5	30.6	30.6
3D-STMN	AAAI2024	54.6	39.8	39.5	39.5
SegPoint	ECCV2024	-	-	41.7	41.7
Reason3D	3DV2025	57.9	41.9	42.0	42.0
MCLN	ECCV2024	58.7	50.7	44.7	44.7
RefMask3D	ACMMM2024	55.9	49.2	44.9	44.9
MDIN	ACMMM2024	58.0	53.1	48.3	48.3
IPDN	AAAI2025	59.9	54.4	49.5	49.5
HCF-RES	-	60.9	55.7	50.5	50.5

HCF-RES는 ScanRefer 및 Multi3DRefer에서 최첨단 mIoU 및 정확도를 달성하며 기존 방법을 능가한다.
ScanRefer에서 HCF-RES는 Acc@0.25 60.9%, Acc@0.5 55.7%, mIoU 50.5%를 달성했다.
3D-GRES 평가(Multi3DRefer 검증)에서 HCF-RES는 53.5% mIoU를 달성했고, 제로 타깃 성능도 강력하며 (Acc@0.25 47.9% 무 방해자, 86.0% 방해자 포함) 다중 타깃 시나리오에서 높은 정확도(Acc@0.25 78.9, Acc@0.5 52.9)를 보인다.
계층적 시각적 의미 분해(VSD)와 진보적 다중 수준 융합(MLF) 모두 기여하는데, VSD가 개별적으로 평가될 때 더 큰 이득을 제공한다는 결과가 있었다.
내재 모달 융합과 공간적으로 적응적인 교차 모달 가중치가 객체 경계를 보존하고 의미 및 기하 신호의 균형을 맞춤으로써 강인성을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.