QUICK REVIEW

[논문 리뷰] Ultimate tensorization: compressing convolutional and FC layers alike

Timur Garipov, Dmitry Podoprikhin|arXiv (Cornell University)|2016. 11. 10.

Tensor decomposition and applications참고 문헌 19인용 수 102

한 줄 요약

이 논문은 커널을 더 높은 차원 텐서로 재구성하여 텐서 트레인(Tensor Train) 텐서화를 합성곱 신경망의 층에 확장하고, 최소한의 정확도 손실로 큰 네트워크 압축(최대 80배)을 달성하며, 이를 선행 FC-층 압축과 결합한다.

ABSTRACT

Convolutional neural networks excel in image recognition tasks, but this comes at the cost of high computational and memory complexity. To tackle this problem, [1] developed a tensor factorization framework to compress fully-connected layers. In this paper, we focus on compressing convolutional layers. We show that while the direct application of the tensor framework [1] to the 4-dimensional kernel of convolution does compress the layer, we can do better. We reshape the convolutional kernel into a tensor of higher order and factorize it. We combine the proposed approach with the previous work to compress both convolutional and fully-connected layers of a network and achieve 80x network compression rate with 1.1% accuracy drop on the CIFAR-10 dataset.

연구 동기 및 목표

큰 정확도 손실 없이 CNN 저장소와 계산 비용을 줄이고자 동기를 부여한다.
naive 4D TT-apply을 넘어 합성곱 커널에 텐서 팩토라이제이션을 확장한다.
고차원 텐서 재구성이 압축 효과를 향상시킨다는 것을 보여준다.
합성곱(conv)과 완전연결(fc) 층의 압축을 함께 시연한다.
CIFAR-10에서 실용적인 학습 방법론과 재현 가능한 결과를 제공한다.

제안 방법

4D 커널을 더 높은 차원 텐서로 재구성하여 합성곱 커널을 TT-형식으로 표현한다.
재구성된 커널에 매트릭스 TT-형식을 적용하여 FC 텐토이제이션의 이점을 맞춘다.
자동 미분을 이용해 SGD와 모멘텀으로 TT-core를 학습한다.
4D 커널에 적용된 Naive TT-분해와 TT-conv를 비교한다.
이전 연구의 TT-fc와 TT-conv를 결합해 전체 네트워크를 압축한다.
아키텍처 전반에 걸친 CIFAR-10에서 압축과 정확도 간의 균형을 보고한다.

실험 결과

연구 질문

RQ1합성곱 커널에 직접 TT-분해를 적용하는 것이 TT-합성곱을 위한 더 높은 차원 텐서로 재구성하는 것보다 더 나은 성능을 낼 수 있는가?
RQ2합성곱 층과 완전연결 층을 모두 압축할 때 달성 가능한 압축 비율과 정확도 트레이드오프는 무엇인가?
RQ3CIFAR-10 설정에서 TT-conv와 4D 커널에 대한 naive TT 적용과의 비교는 어떠한가?
RQ4합성곱 중심 네트워크에서 제한된 정확도 손실로 상당한 네트워크 압축(예: 80x)을 달성하는 것이 현실적인가?
RQ5합성곱과 FC 압축의 결합이 전체 성능과 저장 공간에 어떤 영향을 미치는가?

주요 결과

Model	top-1 acc.	compr.
conv (baseline)	90.7	1
TT-conv	89.9	2.02
TT-conv	89.2	3.23
TT-conv	88.7	4.02
TT-conv (naive)	88.3	2.02
TT-conv (naive)	87.6	2.90
conv-fc (baseline)	90.5	1
conv-TT-fc	90.3	10.72
conv-TT-fc	89.8	19.38
conv-TT-fc	89.8	21.01
TT-conv-TT-fc	90.1	9.69
TT-conv-TT-fc	89.7	41.65
TT-conv-TT-fc	89.4	82.87

4D conv 커널에 TT를 직접 적용하면 성능이 떨어지며; 고차원 텐서로 재구성하면 더 나은 압축을 얻는다.
TT-conv를 단독으로 사용한 경우 CIFAR-10에서 최대 약 4x의 압축과 보통 수준의 정확도 손실을 달성한다.
이전 연구의 TT-fc와 TT-conv를 결합하면 최대 약 82x의 네트워크 압축과 약 1%의 정확도 하락을 달성한다.
합성곱 지배 네트워크를 TT-conv로 약 4x 압축하고 대략 2%의 정확도 손실( TT-랭크에 따라 다름)을 달성할 수 있다.
TT-fc와 TT-conv로 압축된 conv-fc 네트워크는 예를 들어 총 80x의 압축과 약 1%의 정확도 손실과 같은 실질적 이득을 얻는다.
이 방법은 CIFAR-10에서 재현 가능한 설정과 두 가지 기준 아키텍처로 검증된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.