Skip to main content
QUICK REVIEW

[논문 리뷰] Relational Knowledge Distillation

Wonpyo Park, Dong‐Ju Kim|arXiv (Cornell University)|2019. 04. 10.
Machine Learning and Data Classification참고 문헌 42인용 수 50
한 줄 요약

이 논문은 Relational Knowledge Distillation (RKD)를 소개하며, 데이터 샘플 간의 상호 관계를 교사에서 학생으로 거리 기반 및 각도 기반 손실을 통해 이전시키고, 메트릭 학습, 분류 및 소수 샷 학습에서 성능을 향상시킵니다.

ABSTRACT

Knowledge distillation aims at transferring knowledge acquired in one model (a teacher) to another model (a student) that is typically smaller. Previous approaches can be expressed as a form of training the student to mimic output activations of individual data examples represented by the teacher. We introduce a novel approach, dubbed relational knowledge distillation (RKD), that transfers mutual relations of data examples instead. For concrete realizations of RKD, we propose distance-wise and angle-wise distillation losses that penalize structural differences in relations. Experiments conducted on different tasks show that the proposed method improves educated student models with a significant margin. In particular for metric learning, it allows students to outperform their teachers' performance, achieving the state of the arts on standard benchmark datasets.

연구 동기 및 목표

  • 대규모 교사에서 더 작은 학생으로 지식 전달을 동기화하여 계산 및 메모리 비용을 줄인다.
  • 출력의 개별적 차원보다는 구조에 초점을 맞춘 KD의 관계적 관점을 제시한다.
  • 고차원 관계를 포착하기 위한 두 가지 구체적인 RKD 손실(거리 기반 및 각도 기반)을 도입한다.
  • 메트릭 학습, 이미지 분류 및 소수 샷 학습 전반에 걸친 RKD의 효과를 입증한다.

제안 방법

  • RKD를 데이터의 n-튜플 간의 관계적 포텐셜 psi를 교사와 학생 간의 관계 손실로 전달하는 방식으로 formalize 한다.
  • 거리 기반 증류 psi_D(t_i,t_j) = (1/μ) ||t_i - t_j||_2를 μ를 미니배치 평균 거리로 정의한다.
  • 각도 기반 증류 psi_A(t_i,t_j,t_k) = cos(angle t_i t_j t_k)을 임베딩 간의 정규화 벡터를 사용하여 정의한다.
  • AHuber 손실 l_δ를 사용하여 교사와 학생의 관계 포텐셜 간의 차이를 측정한다.
  • 작업별 손실과 함께 RKD 손실을 결합한 합적 목적 함수 L_task + λ_KD L_KD를 사용하며 가중치를 조정한다.
  • 교사와 학생의 임베딩에 RKD를 적용하여 출력 차원과 무관하게 고차원 관계 전달을 가능하게 한다.

실험 결과

연구 질문

  • RQ1데이터 예시 간의 관계 정보를 전달하는 것이 기존의 출력 기반 KD를 넘어서 학생 모델의 성능을 향상시키는가?
  • RQ2거리 기반 및 각도 기반 관계 손실이 학습에 보완적인 고차원 구조를 포착하는가?
  • RQ3RKD가 메트릭 학습, 이미지 분류, 소수 샷 학습과 같은 다양한 작업에서 효과적인가?

주요 결과

  • RKD는 전통적인 KD 기준선과 비교하여 메트릭 학습, 분류, 소수 샷 학습에서 학생의 성능을 향상시킨다.
  • 메트릭 학습에서 RKD는 더 작은 학생이 표준 벤치마크에서 교사를 능가하도록 한다.
  • 각도 기반(RKD-A)이 거리 기반 증류보다 더 빠른 수렴과 더 나은 성능을 자주 보인다.
  • RKD는 다른 KD 방법과 보완적이며 결합 시 결과를 더욱 향상시킬 수 있다(예: RKD와 HKD의 결합).
  • RKD를 이용한 자기 지도 학습은 여러 데이터셋에서 학생 모델이 교사를 능가하도록 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.