QUICK REVIEW

[논문 리뷰] Network Decoupling: From Regular to Depthwise Separable Convolutions

Jianbo Guo, Yuxi Li|arXiv (Cornell University)|2018. 08. 16.

Sparse and Compressive Sensing Techniques참고 문헌 28인용 수 69

한 줄 요약

논문은 규칙적 합성곱이 깊이별 분리 가능한 합들로 정확히 표현될 수 있음을 증명하고, Network Decoupling (ND)을 도입합니다. 이는 학습 없이 배포 시점에 CNN의 속도 향상을 위해 레이어를 깊이별 분리 형태로 변환하는 방법으로, 다른 제로-데이터 방법과 시너지를 내며 상당한 속도향상을 달성하고 미미한 정확도 손실을 보입니다.

ABSTRACT

Depthwise separable convolution has shown great efficiency in network design, but requires time-consuming training procedure with full training-set available. This paper first analyzes the mathematical relationship between regular convolutions and depthwise separable convolutions, and proves that the former one could be approximated with the latter one in closed form. We show depthwise separable convolutions are principal components of regular convolutions. And then we propose network decoupling (ND), a training-free method to accelerate convolutional neural networks (CNNs) by transferring pre-trained CNN models into the MobileNet-like depthwise separable convolution structure, with a promising speedup yet negligible accuracy loss. We further verify through experiments that the proposed method is orthogonal to other training-free methods like channel decomposition, spatial decomposition, etc. Combining the proposed method with them will bring even larger CNN speedup. For instance, ND itself achieves about 2X speedup for the widely used VGG16, and combined with other methods, it reaches 3.7X speedup with graceful accuracy degradation. We demonstrate that ND is widely applicable to classification networks like ResNet, and object detection network like SSD300.

연구 동기 및 목표

정규 합성곱과 깊이별 분리 합성곱 사이의 수학적 관계를 분석한다.
정 규 합성곱을 해리(decouple)하기 위한 닫힌 형식의 데이터 프리 텐서 분해를 도출한다.
훈련 없이 배포 시 최적화를 위해 Network Decoupling (ND)을 도입한다.
VGG16, ResNet, SSD300에서 ND의 속도향상을 시연하고 다른 방법들과의 보완성을 보인다.

제안 방법

정규 합성곱을 4D 텐서 W로 모델링하고 깊이별 분리 가능(DW+PW 또는 PW+DW) 인수분해와 비교한다.
어떤 정규 합성곱도 K 항의 깊이별 분리 합으로 표현될 수 있음을 증명한다(K ≤ k_h k_w).
정확한 네트워크 디커플링(ND)과 디커플링 순위 K를 커플링 중복의 측정으로 도입한다.
실용적인 속도향상을 위해 상위-T 구성요소를 사용한 근사 ND를 제안한다(T ≤ K).
ND가 데이터-프리이며 다른 훈련-프리 방법들(채널/공간 분해, 채널 프루닝)과 상호보완적임을 보인다.
상위 특이 벡터의 에너지 분포에 따라 DW+PW 대 PW+DW 선택에 대한 가이드를 제공한다.

실험 결과

연구 질문

RQ1정규 합성곱을 추가 계산 없이 깊이별 분리 합의 조합으로 정확히 표현할 수 있는가?
RQ2디커플링 순위 K는 무엇이며 이것이 합성곱 커널의 중첩 여부와 어떤 관련이 있는가?
RQ3학습 데이터 없이 의미 있는 속도향상을 달성할 수 있는가, ND는 다른 제로-데이터 가속 방법과 어떻게 상호작용하는가?
RQ4ND는 일반적인 아키텍처(VGG16, ResNet, SSD300)에서 어떻게 작동하며 미세조정과의 관계는 무엇인가?

주요 결과

Method	FLOPs	Top-5 Drop (%)
Original VGG16	15.35G	0
CD	6.52G	2.10
SD	7.20G	1.96
CP	9.89G	1.68
Ours (ND)	8.61G	1.55

정규 합성곱은 DW+PW 또는 PW+DW의 경우 계산 비용을 증가시키지 않는 손실 없는 합으로 깊이별 분리 합의 합으로 확장될 수 있다.
디커플링 순위 K는 k_h k_w로 상한되며 커플링 중복을 반영한다; 작은 K일수록 더 큰 잠재 속도향상을 나타낸다.
상위-T 구성요소를 사용하는 근사 ND는 제어 가능한 정확도 손실로 상당한 속도향상을 달성한다; 예를 들어 상위 4개 구성요소가 많은 레이어에서 대부분의 에너지를 포착한다.
ND는 VGG16에서 약 1.8배의 속도향상을 단일 방법으로 제공하고, 다른 훈련-프리 방법들과 결합 시 약 3.7배까지 가능하며 정확도 감소는 완화된다.
ND를 ResNet18에 적용하면 약 1.5배의 속도향상과 약 1.4%의 top-5 하락을 보이고, 다른 방법들과의 결합은 가속을 더욱 개선한다.
VGG16 백본으로 SSD300에 ND를 적용하면 약 2.1배의 속도향상과 미소한 mAP 손실을 달성하며, 다른 방법과의 결합으로 약 2.0배의 속도향상에 작은 mAP 손실이 추가된다.
매우 디커플링된 네트워크는 정확도를 회복하기 위해 미세조정될 수 있으며, 예를 들어 VGG16에서 10 에폭으로 3.9배의 속도향상과 완만한 정확도 변화를 달성하여 일부 튜닝-프리 기준선보다 우수한 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.