QUICK REVIEW

[논문 리뷰] Apprentice: Using Knowledge Distillation Techniques To Improve Low-Precision Network Accuracy

Asit Mishra, Debbie Marr|arXiv (Cornell University)|2017. 11. 15.

Sensor Technology and Measurement Systems인용 수 157

한 줄 요약

본 논문은 지식 증류가 저정밀 DNN의 정확도를 크게 높일 수 있음을 보여주며, 이미지넷에서 3진 및 4비트 ResNet에서 세 가지 증류 방식으로 최첨단(SOTA) 결과를 달성한다.

ABSTRACT

Deep learning networks have achieved state-of-the-art accuracies on computer vision workloads like image classification and object detection. The performant systems, however, typically involve big models with numerous parameters. Once trained, a challenging aspect for such top performing models is deployment on resource constrained inference systems - the models (often deep networks or wide networks or both) are compute and memory intensive. Low-precision numerics and model compression using knowledge distillation are popular techniques to lower both the compute requirements and memory footprint of these deployed models. In this paper, we study the combination of these two techniques and show that the performance of low-precision networks can be significantly improved by using knowledge distillation techniques. Our approach, Apprentice, achieves state-of-the-art accuracies using ternary precision and 4-bit precision for variants of ResNet architecture on ImageNet dataset. We present three schemes using which one can apply knowledge distillation techniques to various stages of the train-and-deploy pipeline.

연구 동기 및 목표

양자화와 지식 증류의 결합이 저정밀 DNN의 정확도를 향상시키는 방법을 입증한다.
ImageNet에서 ResNet-18/34/50/101에 걸친 증류의 이득을 정량화한다.
저정밀 네트워크의 학습 및 배치에서 증류를 적용하기 위한 세 가지 실용적 스킴을 제시한다.
이전의 저정밀 방법과 비교하고 8비트 미만 네트워크의 새로운 최첨단 성능을 확립한다.

제안 방법

교사는 완전정밀이고 수습생(apprentice)이 저정밀인 교사-학생(teacher-student) 프레임워크를 정의한다.
가중치(ternary 또는 4-bit)와 활성화(8-bit/4-bit)를 양자화하고 처음/마지막 층은 보존한다.
세 가지 스킴을 제안한다: A) 교사와 수습생의 공동 학습; B) 고정된 교사 로짓으로 학습되는 수습생; C) 정밀도 하향 조정 후 사전 학습된 완전정밀 수습생을 미세조정.
정답 레이블과 교사 로짓, 수습생 로짓을 보정된 가중치로 결합한 손실을 사용한다 (α=1, β=0.5, γ=0.5).
다양한 정밀도 구성을 적용하여 ImageNet에서 ResNet 백본(18, 34, 50, 101)을 평가한다.
TTQ 및 WRPN 기준선과 비교하고 개선을 보고한다.
하이퍼파라미터 선택과 교사-학생 지도에서 관찰된 포화 효과를 논의한다.

실험 결과

연구 질문

RQ1지식 증류가 ImageNet에서 저정밀 네트워크의 정확도를 실질적으로 회복하거나 우수하게 만들 수 있는가?
RQ2세 가지 서로 다른 증류 스킴이 3진 및 4비트 ResNet 모델의 성능 향상에 어떻게 비교되는가?
RQ3교사 용량과 목표 정밀도가 최종 수습생 성능에 어떤 영향을 미치는가?
RQ4학습과 미세조정 설정에서 다양한 ResNet 깊이(18, 34, 50)에 걸쳐 이득이 지속되는가?

주요 결과

세 가지 증류 스킴이 ResNet 변종에서 3진 및 4비트 가중치의 최첨단 정확도를 달성한다.
Scheme-A(공동 학습)가 가장 강한 이득을 제공하는 경향이 있으며, 완전정밀 교사가 저정밀 학생을 지도한다.
Scheme-B는 수렴 속도를 높이고(epoch 수를 줄임)도 유사한 정확도에 도달한다.
Scheme-C(정밀도 하향 후 사전 학습된 완전정밀 모델의 미세조정)는 특정 구성에서 더 나은 결과를 내며, 예를 들어 ResNet-50의 3진 가중치에서 그렇다.
시험된 구성 전반에서 Apprentice가 완전정밀 정확도 대비 차이를 크게 줄이고 이전의 저정밀 기준선(TTQ, Mellempudi 등)보다 개선된다.
3진 네트워크는 모델 크기를 경쟁적으로 유지하면서도 정확도 회복이 크게 이루어지며, 여러 경우에서 완전정밀 정확도보다 약 1% 이내에 근접한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.