Skip to main content
QUICK REVIEW

[논문 리뷰] Sharing Residual Units Through Collective Tensor Factorization in Deep Neural Networks

Yunpeng Chen, Xiaojie Jin|arXiv (Cornell University)|2017. 03. 07.
Tensor decomposition and applications참고 문헌 28인용 수 29
한 줄 요약

이 논문은 일반화된 블록 텐서 분해를 통해 잔차 함수를 통합하고 집합적 텐서 분해를 통해 단위 간 지식 공유를 가능하게 함으로써, 파라미터 효율성을 향상시키는 새로운 딥러닝 아키텍처인 컬렉티브 잔차 유닛(CRUs)을 제안한다. CRU는 모델 크기가 ResNet-50과 유사한 수준임에도 불구하고 ImageNet-1k과 Places365-Standard에서 최신 기준 성능을 달성하며, 훨씬 적은 파라미터를 사용하면서도 ResNet-200를 능가한다.

ABSTRACT

Residual units are wildly used for alleviating optimization difficulties when building deep neural networks. However, the performance gain does not well compensate the model size increase, indicating low parameter efficiency in these residual units. In this work, we first revisit the residual function in several variations of residual units and demonstrate that these residual functions can actually be explained with a unified framework based on generalized block term decomposition. Then, based on the new explanation, we propose a new architecture, Collective Residual Unit (CRU), which enhances the parameter efficiency of deep neural networks through collective tensor factorization. CRU enables knowledge sharing across different residual units using shared factors. Experimental results show that our proposed CRU Network demonstrates outstanding parameter efficiency, achieving comparable classification performance to ResNet-200 with the model size of ResNet-50. By building a deeper network using CRU, we can achieve state-of-the-art single model classification accuracy on ImageNet-1k and Places365-Standard benchmark datasets. (Code and trained models are available on GitHub)

연구 동기 및 목표

  • 깊은 신경망에서 성능 향상에도 불구하고 표준 잔차 유닛의 낮은 파라미터 효율성 문제를 해결하기 위해.
  • 잔차 함수 설계의 다양성(예: ResNet, Wide ResNet, ResNeXt)을 텐서 분해 기반의 단일 수학적 프레임워크로 통합하기 위해.
  • 잔차 유닛 간 지식 공유를 가능하게 하는 새로운 아키텍처를 개발하여 성능을 훼손하지 않으면서도 파라미터 효율성을 향상시키기 위해.
  • 매우 작은 모델을 사용하여 대규모 벤치마크에서 최신 기준 분류 정확도를 달성하기 위해.

제안 방법

  • 일반화된 블록 텐서 분해(GBT) 기반의 통합 프레임워크를 제안하여 다양한 잔차 함수를 저질서 터커 연산자들의 합으로 표현한다.
  • 공유된 요인 행렬을 여러 잔차 유닛에 사용하는 컬렉티브 잔차 유닛(CRU)을 도입하여 지식 전이를 가능하게 하고 파라미터 수를 감소시킨다.
  • 잔차 유닛 간의 컨볼루션 커널을 집합적 텐서 분해를 통해 분해하여 공유 표현을 가능하게 하면서도 모oduularity를 유지한다.
  • 터커 분해를 블록 텐서 분해의 특수 케이스로 사용하여 고차원 컨볼루션 커널을 저질서 구성요소로 근사한다.
  • 잔차 유닛 간에 요인 행렬을 공유하는 모oduляр 아키텍처를 설계하여 중복을 줄이고 파라미터 효율성을 높인다.
  • 랭크와 요인 공유에 대한 추론 실험을 수행하며, 표준 최적화 기법을 사용해 CRU-Net 아키텍처를 엔드 투 엔드로 훈련한다.

실험 결과

연구 질문

  • RQ1딥 리소네이션 네트워크에서 다양한 잔차 함수 설계 방식을 단일 텐서 분해 프레임워크로 통합할 수 있는가?
  • RQ2집합적 텐서 분해를 어떻게 활용하여 잔차 유닛 간 지식 공유를 유도하고 파라미터 효율성을 향상시킬 수 있는가?
  • RQ3딥 네트워크에서 정확도를 훼손하지 않으면서 파라미터 효율성을 얼마나 향상시킬 수 있는가?
  • RQ4통합된 요인 공유 아키텍처가 대규모 이미지 분류 벤치마크에서 최신 기준 성능을 달성할 수 있는가?

주요 결과

  • CRU-Net은 모델 크기가 168 MB인 상태에서 ImageNet-1k에서 상위-1 오차율 20.6%를 기록하며, 성능은 ResNet-200(247 MB)과 동일하지만 파라미터 수를 32% 줄였다.
  • CRU-Net-116 모델은 ImageNet-1k에서 상위-1 오차율 20.3%를 기록하며, 더 큰 모델인 ResNeXt-101(64x4d)과 WRN을 능가했고, 모델 크기는 318 MB로 작다.
  • Places365-Standard에서 CRU-Net-116는 상위-1 정확도 56.60%를 기록하며, 모델 크기가 163 MB인 데 반해 ResNet-152(226 MB)는 54.74%에 그쳤다.
  • 136x1d 설정을 가진 모델은 ImageNet-1k에서 상위-1 오차율 22.1%를 기록하여 다양한 분해 랭크에서 일관된 성능을 보였다.
  • 실험 결과, CRU-Net-116를 초과하는 모델 크기 증가는 과적합을 유도함을 확인하여, 이 아키텍처의 용량이 이미 ImageNet-1k에 대해 충분히 충분하다는 것을 시사한다.
  • 제안된 CRU 아키텍처는 집합적 텐서 분해를 통해 잔차 유닛 간 효과적인 지식 공유를 가능하게 하여, 파라미터 효율성을 크게 향상시킴을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.