[논문 리뷰] VICReg: Variance-Invariance-Covariance Regularization for Self-Supervised Learning
VICReg은 음수쌍이나 공유 아키텍처를 요구하지 않고 공동 임베딩 자기지도 학습에서 붕괴를 방지하기 위해 분산, 불변성, 공분산의 세 가지 항 손실을 도입합니다.
Recent self-supervised methods for image representation learning are based on maximizing the agreement between embedding vectors from different views of the same image. A trivial solution is obtained when the encoder outputs constant vectors. This collapse problem is often avoided through implicit biases in the learning architecture, that often lack a clear justification or interpretation. In this paper, we introduce VICReg (Variance-Invariance-Covariance Regularization), a method that explicitly avoids the collapse problem with a simple regularization term on the variance of the embeddings along each dimension individually. VICReg combines the variance term with a decorrelation mechanism based on redundancy reduction and covariance regularization, and achieves results on par with the state of the art on several downstream tasks. In addition, we show that incorporating our new variance term into other methods helps stabilize the training and leads to performance improvements.
연구 동기 및 목표
- 자극 없이 음수 샘플이나 메모리 은행에 의존하지 않고 자기지도형 공동 임베딩 학습에서 붕괴를 유발하는 원인을 제시하고 해결합니다.
- 각 가지(branch에 독립적으로 적용되는 분산, 불변성, 공분산의 세 가지 정규화 항을 가진 VICReg를 제안합니다.
- VICReg가 ImageNet 선형 및 반지도 학습 작업에서 경쟁력 있는 성능을 달성하고 탐지/분할로의 전이를 보여줍니다.
- 다중 모달 적용성과 비대칭 아키텍처 및 입력 모달리티에 대한 강건성을 입증합니다.
제안 방법
- 이미지의 두 변환을 사용하는 시암-네스/비대칭 공동 임베딩 아키텍처를 사용합니다.
- view를 f_theta로 인코딩하고 확장자 h_phi를 통해 z로 매핑한 다음, 세 항으로 z와 z'의 로스를 계산합니다.
- 분산 항 v(Z)는 차원별 표준편차를 임계치(gamma) 이상으로 유지하여 붕괴를 피합니다; S(x, epsilon)에 대한 힌지를 사용합니다.
- 공분산 항 c(Z)는 배치 공분산 행렬의 대각선을 벗어난 항을 제곱해서 패널티를 주어 임베딩 차원을 서로 상관되지 않게 만듭니다.
- 불변성 항 s(Z, Z')은 정규화 없이 대응하는 임베딩 간의 평균 제곱 거리를 최소화합니다.
- 총 손실 L = lambda * s + mu*(v(Z)+v(Z')) + nu*(c(Z)+c(Z')), 여기서 nu=1이고 실험에서 lambda=mu>1입니다.
- 확장자 크기(8192)와 배치 설정(2048)은 BYOL/Barlow Twins 프로토콜을 따르며, 최대 1000 에폭까지 ImageNet에서 사전학습합니다.
실험 결과
연구 질문
- RQ1세 가지 정규화 목표(분산, 불변성, 공분산)가 강한 아키텍처 트 tricks나 음성 샘플 없이도 자기지도형 공동 임베딩 학습에서 표현 붕괴를 방지할 수 있는가?
- RQ2VICReg는 ImageNet 선형 및 반지도 평가에서 대조적 학습, 클러스터링 및 정보 최대화 SSL 접근법과 어떻게 비교되는가?
- RQ3각 가지 분기에서 분산 및 공분산 정규화를 독립적으로 적용하는 것이 효과적인 다중 모달 또는 비대칭 아키텍처를 가능하게 하는가?
- RQ4정규화 항 및 아키텍처 선택(배치 정규화, 예측자, 스톱 그라디언트, 모멘텀)이 안정성 및 성능에 미치는 영향은 무엇인가?
주요 결과
| 방법 | Top-1 (선형) | Top-5 (선형) | Top-1 (1% SSL) | Top-5 (1% SSL) | Top-1 (10% SSL) | Top-5 (10% SSL) |
|---|---|---|---|---|---|---|
| SimCLR | 69.3 | 89.0 | 48.3 | 65.6 | 75.5 | 87.8 |
| BYOL | 74.3 | 91.6 | 53.2 | 68.8 | 78.4 | 89.0 |
| SwAV (w/ multi-crop) | 75.3 | - | 53.9 | 70.2 | 78.5 | 89.9 |
| Barlow Twins | 73.2 | 91.0 | 55.0 | 69.7 | 79.2 | 89.3 |
| VICReg (ours) | 73.2 | 91.1 | 54.8 | 69.5 | 79.4 | 89.5 |
- VICReg는 ImageNet 선형 및 반지도 결과에서 최첨단 방법과 비교되는 성능을 달성합니다.
- 명시적 분산 항은 학습을 안정화하고 임베딩이 0으로 축소되는 경향을 방지합니다.
- 공분산 항은 임베딩 차원을 서로 상관되지 않게 만들어 정보 내용이 향상됩니다.
- 이 방법은 가중치 공유나 메모리 은행을 필요로 하지 않는 비대칭 아키텍처 및 다중 모달 설정을 지원합니다.
- MS-COCO 다중 모달 검색에서 VICReg는 이미지-텍스트 및 텍스트-이미지 작업에서 VSE++와 Barrow Twins를 능가합니다.
- VICReg는 인코더/확장자 구성 및 입력 모달리티에 걸쳐 강건성을 보여주며, 다른 방법들이 어려움을 겪는 영역에서도 견고한 성능을 유지합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.