Skip to main content
QUICK REVIEW

[논문 리뷰] Ultimate tensorization: compressing convolutional and FC layers alike

Timur Garipov, Dmitry Podoprikhin|arXiv (Cornell University)|2016. 11. 10.
Tensor decomposition and applications참고 문헌 19인용 수 102
한 줄 요약

이 논문은 커널을 더 높은 차원 텐서로 재구성하여 텐서 트레인(Tensor Train) 텐서화를 합성곱 신경망의 층에 확장하고, 최소한의 정확도 손실로 큰 네트워크 압축(최대 80배)을 달성하며, 이를 선행 FC-층 압축과 결합한다.

ABSTRACT

Convolutional neural networks excel in image recognition tasks, but this comes at the cost of high computational and memory complexity. To tackle this problem, [1] developed a tensor factorization framework to compress fully-connected layers. In this paper, we focus on compressing convolutional layers. We show that while the direct application of the tensor framework [1] to the 4-dimensional kernel of convolution does compress the layer, we can do better. We reshape the convolutional kernel into a tensor of higher order and factorize it. We combine the proposed approach with the previous work to compress both convolutional and fully-connected layers of a network and achieve 80x network compression rate with 1.1% accuracy drop on the CIFAR-10 dataset.

연구 동기 및 목표

  • 큰 정확도 손실 없이 CNN 저장소와 계산 비용을 줄이고자 동기를 부여한다.
  • naive 4D TT-apply을 넘어 합성곱 커널에 텐서 팩토라이제이션을 확장한다.
  • 고차원 텐서 재구성이 압축 효과를 향상시킨다는 것을 보여준다.
  • 합성곱(conv)과 완전연결(fc) 층의 압축을 함께 시연한다.
  • CIFAR-10에서 실용적인 학습 방법론과 재현 가능한 결과를 제공한다.

제안 방법

  • 4D 커널을 더 높은 차원 텐서로 재구성하여 합성곱 커널을 TT-형식으로 표현한다.
  • 재구성된 커널에 매트릭스 TT-형식을 적용하여 FC 텐토이제이션의 이점을 맞춘다.
  • 자동 미분을 이용해 SGD와 모멘텀으로 TT-core를 학습한다.
  • 4D 커널에 적용된 Naive TT-분해와 TT-conv를 비교한다.
  • 이전 연구의 TT-fc와 TT-conv를 결합해 전체 네트워크를 압축한다.
  • 아키텍처 전반에 걸친 CIFAR-10에서 압축과 정확도 간의 균형을 보고한다.

실험 결과

연구 질문

  • RQ1합성곱 커널에 직접 TT-분해를 적용하는 것이 TT-합성곱을 위한 더 높은 차원 텐서로 재구성하는 것보다 더 나은 성능을 낼 수 있는가?
  • RQ2합성곱 층과 완전연결 층을 모두 압축할 때 달성 가능한 압축 비율과 정확도 트레이드오프는 무엇인가?
  • RQ3CIFAR-10 설정에서 TT-conv와 4D 커널에 대한 naive TT 적용과의 비교는 어떠한가?
  • RQ4합성곱 중심 네트워크에서 제한된 정확도 손실로 상당한 네트워크 압축(예: 80x)을 달성하는 것이 현실적인가?
  • RQ5합성곱과 FC 압축의 결합이 전체 성능과 저장 공간에 어떤 영향을 미치는가?

주요 결과

Modeltop-1 acc.compr.
conv (baseline)90.71
TT-conv89.92.02
TT-conv89.23.23
TT-conv88.74.02
TT-conv (naive)88.32.02
TT-conv (naive)87.62.90
conv-fc (baseline)90.51
conv-TT-fc90.310.72
conv-TT-fc89.819.38
conv-TT-fc89.821.01
TT-conv-TT-fc90.19.69
TT-conv-TT-fc89.741.65
TT-conv-TT-fc89.482.87
  • 4D conv 커널에 TT를 직접 적용하면 성능이 떨어지며; 고차원 텐서로 재구성하면 더 나은 압축을 얻는다.
  • TT-conv를 단독으로 사용한 경우 CIFAR-10에서 최대 약 4x의 압축과 보통 수준의 정확도 손실을 달성한다.
  • 이전 연구의 TT-fc와 TT-conv를 결합하면 최대 약 82x의 네트워크 압축과 약 1%의 정확도 하락을 달성한다.
  • 합성곱 지배 네트워크를 TT-conv로 약 4x 압축하고 대략 2%의 정확도 손실( TT-랭크에 따라 다름)을 달성할 수 있다.
  • TT-fc와 TT-conv로 압축된 conv-fc 네트워크는 예를 들어 총 80x의 압축과 약 1%의 정확도 손실과 같은 실질적 이득을 얻는다.
  • 이 방법은 CIFAR-10에서 재현 가능한 설정과 두 가지 기준 아키텍처로 검증된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.