[논문 리뷰] Unsupervised Learning of Dense Visual Representations
VADeR은 픽셀 단위의 조밀한 시각 표현을 픽셀단위 대비 학습으로 학습하고, Dense 예측 작업에서 강력한 베이스라인을 능가하며 때로는 ImageNet 감독 사전학습을 능가합니다.
Contrastive self-supervised learning has emerged as a promising approach to unsupervised visual representation learning. In general, these methods learn global (image-level) representations that are invariant to different views (i.e., compositions of data augmentation) of the same image. However, many visual understanding tasks require dense (pixel-level) representations. In this paper, we propose View-Agnostic Dense Representation (VADeR) for unsupervised learning of dense representations. VADeR learns pixelwise representations by forcing local features to remain constant over different viewing conditions. Specifically, this is achieved through pixel-level contrastive learning: matching features (that is, features that describes the same location of the scene on different views) should be close in an embedding space, while non-matching features should be apart. VADeR provides a natural representation for dense prediction tasks and transfers well to downstream tasks. Our method outperforms ImageNet supervised pretraining (and strong unsupervised baselines) in multiple dense prediction tasks.
연구 동기 및 목표
- 전역 이미지 표현을 넘어 시각 이해 과제를 위한 조밀한(픽셀 수준) 표현 학습을 동기부여한다.
- 픽셀 수준에서 뷰 간 지각적 불변성을 강제하는 View-Agnostic Dense Representation (VADeR)를 제안한다.
- 밀도 예측 과제에 적합한 픽셀 단위 임베딩을 생성하기 위한 인코더-디코더 아키텍처를 개발한다.
- 세분화(segmentation), 깊이 추정, 객체 탐지 및 키포인트 과제에 대한 VADeR 특징의 전이 가능성을 평가한다.
제안 방법
- 1/4 해상도에서 픽셀 단위 임베딩을 생성하기 위해 인코더-디코더 네트워크(FPN, 백본으로 ResNet-50)를 사용한다.
- 다양한 뷰 간 같은 픽셀의 임베딩을 끌어당기고 다른 픽셀을 멀어지게 하는 픽셀 단위 대비 손실(NCE)로 학습한다.
- 두 개의 증강 뷰 간의 알려진 픽셀 대응으로 양의 픽셀 쌍을 생성하고, 음수를 큰 모멘텀 큐에서 추출한다(MoCo 스타일).
- 픽셀 유사도를 온도 스케일된 코사인 유사도로 표현한다 c(x1,x2)= (1/τ) x1^T x2 / (||x1|| ||x2||).
- 무작위 외관 및 기하학적 변환으로 생성된 두-view 쌍을 사용하여 학습한다; 손실에 대해 이미지당 32개의 매칭 픽셀 쌍을 사용한다.
- 인코더는 MoCo2 가중치로 초기화하고 디코더는 처음부터 학습하며 음수에 대해 모멘텀 0.999인 65,536 크기의 딕셔너리를 사용한다.
실험 결과
연구 질문
- RQ1Dense (픽셀 수준) 표현이 비지도 방식으로 학습될 때 segmentation, 깊이 및 키포인트 탐지와 같은 밀집 예측 과제로 효과적으로 전이될 수 있는가?
- RQ2픽셀 수준 대비 목표가 뷰포인트 불변성을 강제하면 밀집 작업에서 글로벌(이미지 수준) 표현보다 성능이 향상되는가?
- RQ3픽셀 대응 품질 및 뷰 샘플링 전략이 다운스트림 성능에 어떤 영향을 주는가?
- RQ4다양한 레이블 데이터 양에서 미세조정할 때 VADeR가 MoCo 및 ImageNet-감독 사전학습 대비 어떤 성능을 보이는가?
주요 결과
- VADeR은 고정 특징을 사용할 때 VOC에서 mIoU 56.7 대 43.0, NYU-d v2에서 depth RMSE 0.964 대 1.136처럼 의미론적 분할 및 깊이 예측에서 MoCo보다 우수하다.
- VADeR은 고정 표현 설정에서 최소한 하나의 의미론적 분할 과제 및 깊이 예측에서 감독(ImageNet) 사전학습을 능가한다.
- 객체 탐지, 인스턴스 분할 및 키포인트 탐지에서 VADeR은 동일한 FPN 아키텍처 하에서 일관되게 MoCo 및 감독 기준을 능가한다.
- 라벨 데이터가 제한적일 때 VADeR로 초기화한 채로 인코더와 디코더를 함께 미세조정하면 성능이 증가하는 경향이 있으며, 라벨 데이터가 감소할수록 MoCo 성능에 비해 유사하거나 우수하고 감독 사전학습을 넘어서는 경우가 있다.
- 밀집 대응 작업(DAVIS-2017)에서 VADeR은 여러 베이스라인에 비해 J 및 F 지표가 더 높아 픽셀 수준의 전이 능력이 강함을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.