QUICK REVIEW

[논문 리뷰] MEAL V2: Boosting Vanilla ResNet-50 to 80%+ Top-1 Accuracy on ImageNet without Tricks

Zhiqiang Shen, Marios Savvides|arXiv (Cornell University)|2020. 09. 17.

Image Processing Techniques and Applications참고 문헌 58인용 수 51

한 줄 요약

MEAL V2는 최종 출력 감독과 훌륭한 학생 초기화를 갖춘 앙상블 교사 디스틸레이션 프레임워크를 사용하여 아키텍처 변경이나 추가 데이터 없이 Vanilla ResNet-50을 ImageNet에서 Top-1 80%를 넘도록 밀어 올리고, 컴팩트 모델도 크게 개선한다.

ABSTRACT

We introduce a simple yet effective distillation framework that is able to boost the vanilla ResNet-50 to 80%+ Top-1 accuracy on ImageNet without tricks. We construct such a framework through analyzing the problems in the existing classification system and simplify the base method ensemble knowledge distillation via discriminators by: (1) adopting the similarity loss and discriminator only on the final outputs and (2) using the average of softmax probabilities from all teacher ensembles as the stronger supervision. Intriguingly, three novel perspectives are presented for distillation: (1) weight decay can be weakened or even completely removed since the soft label also has a regularization effect; (2) using a good initialization for students is critical; and (3) one-hot/hard label is not necessary in the distillation process if the weights are well initialized. We show that such a straight-forward framework can achieve state-of-the-art results without involving any commonly-used techniques, such as architecture modification; outside training data beyond ImageNet; autoaug/randaug; cosine learning rate; mixup/cutmix training; label smoothing; etc. Our method obtains 80.67% top-1 accuracy on ImageNet using a single crop-size of 224x224 with vanilla ResNet-50, outperforming the previous state-of-the-arts by a significant margin under the same network structure. Our result can be regarded as a strong baseline using knowledge distillation, and to our best knowledge, this is also the first method that is able to boost vanilla ResNet-50 to surpass 80% on ImageNet without architecture modification or additional training data. On smaller ResNet-18, our distillation framework consistently improves from 69.76% to 73.19%, which shows tremendous practical values in real-world applications. Our code and models are available at: https://github.com/szq0214/MEAL-V2.

연구 동기 및 목표

표준 분류 학습과 원-핫(one-hot) 감독의 한계를 진단한다.
트릭 없이 기존 아키텍처를 향상시키는 간단하고 효과적인 지식 증류 프레임워크를 제안한다.
소프트 라벨, 강력한 교사 앙상블, 우수한 학생 초기화가 일반화 성능을 향상시킨다는 것을 보여준다.
이 방법이 ImageNet 이외의 데이터 없이도 큰 모델(ResNet-50)과 컴팩트 모델(MobileNet, EfficientNet)에 적용 가능함을 보여준다.

제안 방법

다수의 사전 학습된 교사를 평균화한 소프트맥스 출력으로 부드러운 감독을 생성하기 위해 교사 앙상블을 사용한다.
학생 출력과 앙상블된 교사 분포 간의 KL-발산을 최소화하여 학생을 학습시키다(소프트 타깃과의 교차 엔트로피와 동등).
교사 대 학생 특징을 구분하는 판별기를 활용하여 정규화 신호를 제공한다.
최종 층 감독을 사용하는 단일 단계 증류 파이프라인을 채택한다(중간 피처 매칭 없음).
소프트 라벨이 정규화를 제공하고 우수한 초기화가 결정적이므로 가중치 감소를 약화시키거나 제거한다.
아키텍처 변경이나 외부 데이터에 의존하지 말고 기본 증강을 갖춘 표준 ImageNet 학습을 사용한다.

실험 결과

연구 질문

RQ1지식 증류가 강력한 교사 앙상블과 소프트 감독으로 일반적인 아키텍처 변경이나 추가 데이터 없이도 vanilla ResNet-50을 ImageNet에서 80% Top-1 이상으로 끌어올릴 수 있는가?
RQ2초기화 품질, 학습률 전략, 정규화 선택은 MEAL V2에서 증류 성능에 어떤 영향을 미치는가?
RQ3이 접근법이 컴팩트 네트워크(MobileNet, EfficientNet) 및 전이 학습 작업에 적용 가능한가?
RQ4판별기 및 목표 레이어 감독이 증류의 안정화나 개선에 어떤 역할을 하는가?
RQ5MEAL V2가 이전의 증류 방법과 비교하여 모방 능력과 최종 정확도 측면에서 어떤 차이가 있는가?

주요 결과

네트워크	해상도	매개변수 수	Top-1	Top-5
ResNet-50	224	25.6M	76.15	92.86
ResNet-50 + Ours (MEAL V2)	224	25.6M	80.67	95.09
ResNet-50 + Ours (MEAL V2)	380	25.6M	81.72	95.81

ResNet-50과 MEAL V2는 224×224 입력에서 ImageNet에서 80.67% Top-1을 달성하며, 이전의 MEAL 대비 2.46% 포인트를 상회한다.
380×380 입력에서 ResNet-50은 81.72% Top-1에 도달하여 기준값보다 2.62% 포인트를 넘어선다.
MEAL V2는 컴팩트 모델(예: MobileNet V3-Small 0.75/1.0 및 Large 1.0)을 아키텍처 변경 없이 약 2.2–2.25% 포인트 크게 개선한다.
데이터 증강을 보통 수준으로 유지하고 CutMix를 추가로 사용해도 방법이 ImageNet에서 포화되지 않음을 시사한다.
더 강한 교사 앙상블은 학생 성능을 향상시키고, 우수한 학생 초기화가 결과를 결정적으로 개선한다.
삭제한 가중치 감소와 소프트 라벨에 의존하는 것이 초기화가 강할 때 유리할 수 있음을 보여주는 분석이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.