Skip to main content
QUICK REVIEW

[논문 리뷰] Contrastive Representation Distillation

Yonglong Tian, Dilip Krishnan|arXiv (Cornell University)|2019. 10. 23.
Domain Adaptation and Few-Shot Learning참고 문헌 36인용 수 64
한 줄 요약

CRD는 교사에서 학생으로 표현을 전이하기 위해 대조적 목표를 사용하며, 모델 압축, 교차 모달 전이 및 앙상블 증류 작업 전반에서 표준 지식 증류를 능가합니다.

ABSTRACT

Often we wish to transfer representational knowledge from one neural network to another. Examples include distilling a large network into a smaller one, transferring knowledge from one sensory modality to a second, or ensembling a collection of models into a single estimator. Knowledge distillation, the standard approach to these problems, minimizes the KL divergence between the probabilistic outputs of a teacher and student network. We demonstrate that this objective ignores important structural knowledge of the teacher network. This motivates an alternative objective by which we train a student to capture significantly more information in the teacher's representation of the data. We formulate this objective as contrastive learning. Experiments demonstrate that our resulting new objective outperforms knowledge distillation and other cutting-edge distillers on a variety of knowledge transfer tasks, including single model compression, ensemble distillation, and cross-modal transfer. Our method sets a new state-of-the-art in many transfer tasks, and sometimes even outperforms the teacher network when combined with knowledge distillation. Code: http://github.com/HobbitLong/RepDistiller.

연구 동기 및 목표

  • 출력 확률만이 아닌 표현 지식을 전달하는 동기를 제시한다.
  • 출력 차원을 독립적으로 다루는 KL 기반 KD의 한계를 다룬다.
  • 표현의 상관관계와 고차 의존성을 포착하는 대조적 목표를 제안한다.
  • 모델 압축, 교차 모달 전이, 앙상블 증류 전반에서 CRD의 효과를 입증한다.

제안 방법

  • 교사와 학생의 표현을 끝에서 두 번째 계층에서 정의한다.
  • 일치하는(매칭) 교사-학생 쌍을 묶고 비일치 쌍을 멀리 떨어뜨리는 대조 손실을 구성한다.
  • T,S를 이용해 P(C=1|T,S)을 추정하는 크리틱 h를 통해 상호정보의 한계를 형식화하고, 이를 사용하여 로그-가능도에 관련된 목표를 최대화한다.
  • 훈련을 안정화하기 위한 음수 샘플의 메모리 뱅크를 갖춘 InfoNCE와 유사한 실용적 목표를 도출한다.
  • 필요에 따라 KD 항 또는 교차 모달/앙상블 확장을 포함시켜 CRD 및 CRD+KD 변형을 산출한다.

실험 결과

연구 질문

  • RQ1대조적 표현 목표가 전통적인 KD를 넘어 교사에서 학생으로의 지식 전이를 개선하는가?
  • RQ2CRD가 KD 및 다른 증류기들과 비교해 모델 압축, 교차 모달 전이, 앙상블 증류에서 어떤 성능을 보이는가?
  • RQ3음수 샘플링과 상호정보 한계가 표현 전를 안내하는 데 어떤 역할을 하는가?

주요 결과

  • CRD는 Table 1에서 CIFAR-100 및 ImageNet 전반에서 다양한 교사-학생 쌍에 대해 KD를 지속적으로 능가하며, CIFAR-100에서 KD 대비 평균 상대 향상도 57%이다.
  • CRD는 Table 2에 나타난 바와 같이 서로 다른 교사/학생 아키텍처 간의 크로스 아키텍처 전이에서도 KD 및 다른 방법들보다 향상된다.
  • 일부 설정에서 성능을 더욱 향상시키기 위해 CRD를 KD와 결합하여 CRD+KD로 사용할 수 있다.
  • 모델 압축, 교차 모달 전이, 및 앙상블 증류 전반에서 CRD가 여러 구성에서 최첨단 성과를 달성한다.
  • 이 접근법은 조건부 클래스 확률만이 아니라 교사의 표현에서 정보를 전이하는 것을 강조하며, KD와 결합될 때 때때로 교사 자체를 능가하기도 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.