QUICK REVIEW

[논문 리뷰] Kernel Based Progressive Distillation for Adder Neural Networks

Yixing Xu, Chang Xu|arXiv (Cornell University)|2020. 09. 28.

Advanced Image Processing Techniques참고 문헌 45인용 수 27

한 줄 요약

이 논문은 동일한 아키텍처를 가진 CNN 교사 네트워크로부터 지식 병합을 활용하여 Adder 신경망(ANNs)의 성능을 햖थ기기 위해 커널 기반 점진적 병합(PKKD)을 제안한다. 가우시안 및 라플라시안 커널을 사용하여 특징과 가중치를 커널 유도 고차원 공간으로 매핑함으로써 PKKD는 분포 간 괴리도를 감소시키고 점진적인 지식 전달을 가능하게 하여 ImageNet에서 76.8%의 top-1 정확도를 달성한다. 이는 순수한 ANNs와 원본 ResNet-50 기준보다 뛰어난 성능이다.

ABSTRACT

Adder Neural Networks (ANNs) which only contain additions bring us a new way of developing deep neural networks with low energy consumption. Unfortunately, there is an accuracy drop when replacing all convolution filters by adder filters. The main reason here is the optimization difficulty of ANNs using $\ell_1$-norm, in which the estimation of gradient in back propagation is inaccurate. In this paper, we present a novel method for further improving the performance of ANNs without increasing the trainable parameters via a progressive kernel based knowledge distillation (PKKD) method. A convolutional neural network (CNN) with the same architecture is simultaneously initialized and trained as a teacher network, features and weights of ANN and CNN will be transformed to a new space to eliminate the accuracy drop. The similarity is conducted in a higher-dimensional space to disentangle the difference of their distributions using a kernel based method. Finally, the desired ANN is learned based on the information from both the ground-truth and teacher, progressively. The effectiveness of the proposed method for learning ANN with higher performance is then well-verified on several benchmarks. For instance, the ANN-50 trained using the proposed PKKD method obtains a 76.8\% top-1 accuracy on ImageNet dataset, which is 0.6\% higher than that of the ResNet-50.

연구 동기 및 목표

ℓ₁-노름 최적화에서 기인하는 기울기 부정확성으로 인한 Adder 신경망(ANNs)의 정확도 저하 문제를 해결하기 위해.
모델 파라미터 수나 계산 비용을 증가시키지 않고 ANNs와 CNNs 간의 성능 격차를 해소하기 위해.
중요한 가중치 분포의 차이(라플라시안 대 가우시안)에도 불구하고, 동일한 아키텍처의 ANN 학생에 대해 CNN 교사로부터 효과적인 지식 전달 방법을 개발하기 위해.
학습 동적 특성과 특징 분포 이동에 적응하는 점진적 병합을 통해 ANN 성능을 향상시키기 위해.

제안 방법

ANN 및 CNN 특징을 고차원 공간으로 매핑하기 위해 커널 기반 특징 및 가중치 변환 기법을 도입하여 분포 차이를 분리한다.
CNN 특징과 가중치에는 가우시안 커널을 적용하고, ANN에는 라플라시안 커널을 사용하여 변환된 공간 내에서 보다 나은 정렬을 가능하게 한다.
교수 CNN에서 학생 ANN으로 소프트 레이블 정보와 특징 수준의 관계를 전달하기 위해 커널 공간에서 지식 병합을 수행한다.
CNN 교사 네트워크를 ANN 학생과 함께 훈련함으로써 점진적 병합을 구현하며, 교사의 지식이 훈련 에포크 동안 점진적으로 개선되고 전달된다.
학생 네트워크는 진짜 레이블에 대한 교차 엔트로피 손실과 커널에 통합된 교사 특징에서 유도된 병합 손실을 조합하여 훈련된다.
하이퍼파rameter α와 β는 진짜 레이블 손실과 병합 손실 간의 균형을 조절하며, CIFAR 및 ImageNet 벤치마크에서 경험적으로 최적화된다.

실험 결과

연구 질문

RQ1다른 가중치 및 활성화 분포를 가진 CNN 교사로부터 지식 병합이 동일한 아키텍처를 가진 ANN 학생의 성능 향상에 기여할 수 있는가?
RQ2고차원 공간에서의 커널 기반 특징 변환은 ANN과 CNN 특징 간의 분포 괴리도를 효과적으로 감소시키는가?
RQ3훈련 도중 교사 네트워크가 진화하는 점진적 병합 전략이 고정된 교사나 비점진적 방법보다 더 나은 성능을 낼 수 있는가?
RQ4PKKD는 ImageNet과 같은 대규모 벤치마크에서 ANNs와 그 CNN 대응체 간의 정확도 격차를 어느 정도 해소할 수 있는가?
RQ5제안된 방법은 추가적인 파라미터나 승산 연산 없이도 ANN 분야에서 최고 성능을 달성할 수 있는가?

주요 결과

PKKD-ANN-50 모델은 ImageNet에서 76.8%의 top-1 정확도를 달성하였으며, 원본 ResNet-50보다 0.6% 높고, 순수한 ANN-50보다 1.9% 높다.
CIFAR-100에서 PKKD-ANN-20는 α=β=5 조건에서 69.93%의 정확도를 기록하여 순수한 ANN-20를 능가하고, 교사 ResNet-20의 성능에 가까워졌다.
ResNet-18 기준으로 ANN과 CNN 간의 top-1 정확도 격차를 1.8% 감소시키고, ResNet-50 기준으로는 1.9% 감소시켜 강력한 성능 보완 효과를 입증했다.
커널 기반 변환을 통해 ANN과 CNN 간의 특징 정렬이 크게 향상되어, 다른 최적화 동적 특성에도 불구하고 효과적인 병합이 가능했다.
동시 훈련되는 CNN 교사와 함께 사용된 점진적 병합 전략은 고정된 교사나 비점진적 방법보다 더 안정적이고 효과적인 지식 전달을 이끌어냈다.
제안된 방법은 승산 연산을 전혀 사용하지 않으며, ANN-50의 경우 오직 0.1G FLOPs와 7.6G 덧셈만을 소비하여 매우 에너지 효율적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.