QUICK REVIEW

[논문 리뷰] Born Again Neural Networks

Tommaso Furlanello, Zachary C. Lipton|arXiv (Cornell University)|2018. 05. 12.

Adversarial Robustness in Machine Learning참고 문헌 46인용 수 443

한 줄 요약

Born-Again Networks (BANs)은 교사로부터 동일한 아키텍처의 학생 모델을 학습시키고 지속적으로 교사를 능가하며, CIFAR-10/100에서 강력한 결과를 얻고 LSTM을 이용한 언어 모델링으로 확장합니다.

ABSTRACT

Knowledge Distillation (KD) consists of transferring â€œknowledgeâ€ from one machine learning model (the teacher) to another (the student). Commonly, the teacher is a high-capacity model with formidable performance, while the student is more compact. By transferring knowledge, one hopes to benefit from the studentâ€™s compactness, without sacrificing too much performance. We study KD from a new perspective: rather than compressing models, we train students parameterized identically to their teachers. Surprisingly, these Born-Again Networks (BANs), outperform their teachers significantly, both on computer vision and language modeling tasks. Our experiments with BANs based on DenseNets demonstrate state-of-the-art performance on the CIFAR-10 (3.5%) and CIFAR-100 (15.5%) datasets, by validation error. Additional experiments explore two distillation objectives: (i) Confidence-Weighted by Teacher Max (CWTM) and (ii) Dark Knowledge with Permuted Predictions (DKPP). Both methods elucidate the essential components of KD, demonstrating the effect of the teacher outputs on both predicted and non-predicted classes.

연구 동기 및 목표

교사를 능가할 수 있는 동일한 구조의 학생 모델을 학습시켜 지식 증류를 모델 압축을 넘어 재고려하도록 동기를 부여한다.
비전 및 언어 과제에서 BAN을 DenseNets, ResNets, LSTMs 등 다양한 아키텍처에 걸쳐 시연한다.
KD에서 다크 지식과 실제 정답 신호의 역할을 분석한다.
깊이/너비 변화에 대한 BAN의 안정성 및 교차 아키텍처 전이(DenseNet 교사에서 ResNet 학생으로, 그 반대)를 탐구한다.

제안 방법

일반적으로 레이블이 있는 데이터로 교사 네트워크를 학습시킨다.
다른 무작위 시드로 새로운 학생 네트워크를 초기화하고, 표준 라벨 손실과 교사의 출력 분포를 맞추는 KD 항을 결합한 손실을 사용하여 학습시킨다(학생과 교사 출력 간의 교차 엔트로피).
BAN을 형성하기 위해 여러 세대(교사 자기 자신들의 연쇄)로 과정을 반복하고, 선택적으로 여러 세대를 앙상블한다(BANE).
다크 지식의 역할을 분리하기 위해 KD의 두 가지 구체적 처리(CWTM: 교사 최대값으로 가중, DKPP: 예측 재배열에 의한 다크 지식)를 조사한다.
KD 기울기 분해를 다크 지식 항과 정답 항으로 분석하고 이를 교사 신뢰도에 의한 중요도 가중치로 재해석한다.
CIFAR-10/100와 PTB에서 DenseNets, ResNets, Wide-ResNets, LSTMs에 BAN을 적용하여 교차 아키텍처 및 교차 도메인 효능을 평가한다.
전체 KD로 학습한 BAN과 변형(CWTM, DKPP)을 비교하여 다크 지식의 기여를 이해한다.

실험 결과

연구 질문

RQ1BAN 스타일 재훈련 후에 교사와 동일한 아키텍처의 학생 네트워크가 교사를 능가할 수 있는가?
RQ2다크 지식 신호의 포함이 (그 변형인 CWTM/DKPP) KD 효과에 어떤 영향을 미치는가?
RQ3BAN이 아키텍처(DenseNet, ResNet) 와 도메인(비전, 언어)에서 일관되게 향상되는가?
RQ4BAN 성능은 깊이/너비의 변화와 교차 아키텍처 전이(DenseNet 교사에서 ResNet 학생으로, 그 반대)에서 어떻게 확장되는가?

주요 결과

네트워크	교사	BAN
DenseNet-112-33	18.25	16.95
DenseNet-90-60	17.69	16.69
DenseNet-80-80	17.16	16.36
DenseNet-80-120	16.87	16.00

동일한 아키텍처로 학습된 BAN은 다양한 아키텍처에서도 CIFAR-10/100 및 PTB에서 지속적으로 교사를 능가한다.
CIFAR-100에서 BAN-DenseNet-90-60은 16.69% 오차에 도달(교사는 17.69%)하고, 추가적으로 BAN 앙상블은 shake-shake 정규화 없이 최상위 비앙상블 결과를 달성한다.
두 가지 KD 처리(CWTM 및 DKPP)는 비-argmax 로짓이 일반화에 기여함을 보여주며, DKPP(비-argmax 로짓의 재배열)도 여전히 개선을 가져온다.
BAN은 DenseNet 교사에서 ResNet 학생으로, 또는 그 반대와 같이 구성 계통 간 지식을 이전할 수 있으며 때때로 교사와 기준 아키텍처를 모두 능가한다.
교사 자기 자신들의 연쇄는 여러 세대 이후 수익이 감소하지만, 2-3세대는 상당한 이득을 낳고 BAN의 앙상블은 개별 최고치를 능가할 수 있다.
PTB 언어 모델링에서, BAN은 LSTM 및 CNN-LSTM 교사를 대상으로 교사 감독과 KD(BAN+L)로 학습될 때 perplexity를 크게 감소시킨다.]
table_headers:["네트워크","교사","BAN"],"table_rows":[ ["DenseNet-112-33","18.25","16.95"], ["DenseNet-90-60","17.69","16.69"], ["DenseNet-80-80","17.16","16.36"], ["DenseNet-80-120","16.87","16.00"] ]

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.