[논문 리뷰] Self-Supervised Visual Representation Learning with Semantic Grouping
SlotCon은 학습 가능한 프로토타입을 통한 데이터 기반의 의미적 그룹화와 슬롯 수준 대비 학습을 공동으로 수행하여 현장 중심 이미지에서 객체/그룹 수준 표현을 학습하고, 다운스트림 탐지, 분할, 및 비지도 의미 작업을 개선합니다.
In this paper, we tackle the problem of learning visual representations from unlabeled scene-centric data. Existing works have demonstrated the potential of utilizing the underlying complex structure within scene-centric data; still, they commonly rely on hand-crafted objectness priors or specialized pretext tasks to build a learning framework, which may harm generalizability. Instead, we propose contrastive learning from data-driven semantic slots, namely SlotCon, for joint semantic grouping and representation learning. The semantic grouping is performed by assigning pixels to a set of learnable prototypes, which can adapt to each sample by attentive pooling over the feature and form new slots. Based on the learned data-dependent slots, a contrastive objective is employed for representation learning, which enhances the discriminability of features, and conversely facilitates grouping semantically coherent pixels together. Compared with previous efforts, by simultaneously optimizing the two coupled objectives of semantic grouping and contrastive learning, our approach bypasses the disadvantages of hand-crafted priors and is able to learn object/group-level representations from scene-centric images. Experiments show our approach effectively decomposes complex scenes into semantic groups for feature learning and significantly benefits downstream tasks, including object detection, instance segmentation, and semantic segmentation. Code is available at: https://github.com/CVMI-Lab/SlotCon.
연구 동기 및 목표
- 손으로 설계된 객체 priors에 의존하기보다 라벨이 없는 현장 중심 데이터에서 시각 표현을 학습하려는 동기.
- 의미 그룹(슬롯)을 발견하고 구별 가능한 표현을 함께 학습하는 완전한 데이터 기반 프레임워크를 제안.
- 객체 탐지, 인스턴스 분할, 의미 분할과 같은 다운스트레이 tasks로의 전이 가능하게 함.
- 의미 그룹화가 실제 세계의 장면 데이터에서 강건성과 일반화 능력을 향상시키는지 보여줌
제안 방법
- 두 네트워크(학생과 교사)를 도입하여 픽셀 임베딩을 공유하고 K개의 프로토타입(의미 중심)을 학습합니다.
- 정규화된 투사 및 프로토타입에 대한 소프트맥스으로 픽셀을 프로토타입에 할당하여 픽셀 수준 깊은 군집화를 수행하고 per-pixel 그룹 할당을 생성합니다.
- 공간적 불일치를 다루고 교차 뷰 그룹 일관성을 보장하기 위해 역 증강 정렬을 사용하고 교차 엔트로피 손실(Group loss)을 적용합니다.
- 수렴 방지를 위한 평균 로그잇 c를 유지하고 교사–학생 온도 차이( tau_t < tau_s )를 사용합니다.
- 할당을 사용한 프로젝션에 대해 주의 집중 풀링으로 그룹 수준 슬롯을 추출하여 K개의 그룹 벡터(슬롯)를 생성합니다.
- Slot loss를 포함한 서로 다른 슬롯을 구분하고 뚜렷하지 않은 슬롯은 마스킹으로 무시하는 Slot loss와 함께 Slot-레벨 대비 학습을 InfoNCE 기반으로 적용합니다.
- Group loss와 Slot loss를 L = lambda_g * Group + (1 - lambda_g) * Slot로 결합하고 모멘텀 교사(EMA) 업데이트를 사용하여 최적화합니다.
실험 결과
연구 질문
- RQ1데이터 기반의 엔드투엔드 방식으로 시청-중심 데이터에서 손으로 설계된 객체 priors 없이 의미적 그룹화를 학습할 수 있는가?
- RQ2의미적 그룹화와 슬롯 수준 대비 학습을 함께 수행하면 객체/그룹 수준 표현이 향상되고 다운스트림 작업으로의 전이가 이루어지는가?
- RQ3프로토타입의 수와 그룹화 손실과 슬롯 손실의 균형이 다운스트림 성능에 어떤 영향을 미치는가?
- RQ4라벨이 없는 실제 세계 장면(COCO-Stuff 등)에서 모델이 의미 그룹을 얼마나 잘 찾는가? 이전의 비지도 방법과 비교해 어떤가?
주요 결과
- SlotCon은 COCO 또는 ImageNet-1K에서 사전 학습했을 때 COCO 객체 탐지 및 분할, Cityscapes, VOC 및 ADE20K 의미 분할에서 강력한 전이 성능을 보입니다.
- COCO 사전 학습의 경우, SlotCon은 AP^b = 41.0, AP_50^b = 61.1, AP_75^b = 45.0, AP^m = 37.0, AP_50^m = 58.3, AP_75^m = 39.8(COCO 탐지/분할) 및 City = 76.2, VOC = 71.6, ADE = 39.0 다운스트림 작업을 제공합니다.
- COCO 사전 학습에서 SlotCon은 기존의 객체/그룹 수준 SSL 방법보다 성능 면에서 앞서며 객체 중심 사전 학습 없이도 객체 priors 없이 차이를 좁힙니다.
- COCO-Stuff에서의 비지도 의미 분할은 mIoU = 18.26 및 pAcc = 42.36으로, 이 지표에서 여러 기존 방법보다 앞섭니다.
- 균형 잡힌 그룹화 및 슬롯 손실(lambda_g ≈ 0.5)과 적절한 프로토타입 수(K = 256 for COCO 등)가 성능과 전이성에 이롭다는 연구 결과가 있습니다.
- SlotCon은 의미 그룹화와 그룹 수준 대비 학습의 보완적 이점을 보여 주며, 현장 중심 데이터에서 객체 중심 표현을 가능하게 합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.