Skip to main content
QUICK REVIEW

[논문 리뷰] Convolutional Rectifier Networks as Generalized Tensor Decompositions

Nadav Cohen, Amnon Shashua|arXiv (Cornell University)|2016. 03. 01.
Tensor decomposition and applications참고 문헌 17인용 수 21
한 줄 요약

이 논문은 컨volution형 어린이 회로(ACs)를 컨볼루션형 레이저 네트워크(ReLU와 풀링을 갖춘 ConvNets)로 변환하는 일반화된 텐서 분해 프레임워크를 제안한다. 산술 회로 이론의 도구를 사용하여, 최대 풀링 ReLU 네트워크는 보편적이지만 깊이 효율성은 부분적으로만 보이며, 이는 곱셈 풀링을 갖는 산술 회로와는 달리 완전한 깊이 효율성을 달성하지 못한다는 것을 증명한다. 이는 효과적으로 훈련 가능한 경우 컨볼루션형 산술 회로가 더 뛰어난 표현 능력을 가질 수 있음을 시사한다.

ABSTRACT

Convolutional rectifier networks, i.e. convolutional neural networks with rectified linear activation and max or average pooling, are the cornerstone of modern deep learning. However, despite their wide use and success, our theoretical understanding of the expressive properties that drive these networks is partial at best. On the other hand, we have a much firmer grasp of these issues in the world of arithmetic circuits. Specifically, it is known that convolutional arithmetic circuits possess the property of "complete depth efficiency", meaning that besides a negligible set, all functions that can be implemented by a deep network of polynomial size, require exponential size in order to be implemented (or even approximated) by a shallow network. In this paper we describe a construction based on generalized tensor decompositions, that transforms convolutional arithmetic circuits into convolutional rectifier networks. We then use mathematical tools available from the world of arithmetic circuits to prove new results. First, we show that convolutional rectifier networks are universal with max pooling but not with average pooling. Second, and more importantly, we show that depth efficiency is weaker with convolutional rectifier networks than it is with convolutional arithmetic circuits. This leads us to believe that developing effective methods for training convolutional arithmetic circuits, thereby fulfilling their expressive potential, may give rise to a deep learning architecture that is provably superior to convolutional rectifier networks but has so far been overlooked by practitioners.

연구 동기 및 목표

  • 컨볼루션형 레이저 네트워크와 일반화된 텐서 분해 간의 이론적 연결을 수립하기 위해.
  • 산술 회로 이론의 도구를 사용하여 레이저 기반 ConvNets의 표현 능력과 깊이 효율성을 분석하기 위해.
  • 최대/평균 풀링을 갖는 ReLU 네트워크의 깊이 효율성을 컨볼루션형 산술 회로의 곱셈 풀링과 비교하기 위해.
  • 이전에 간과되었던 컨볼루션형 산술 회로가 효과적으로 훈련 가능하다면, 이는 증명 가능한 우월한 성능을 낼 수 있다는 주장을 펼기 위해.

제안 방법

  • 저자들은 컨볼루션형 레이저 네트워크의 계층적 조합을 모델링하기 위해 일반화된 텐서 분해를 정의한다.
  • 소음 편향과 텐서 근사 기법을 통해 컨볼루션형 산술 회로(선형 활성화, 곱셈 풀링)에서 ReLU 네트워크(ReLU 활성화, 최대/평균 풀링)로의 매핑을 구축한다.
  • 가중치와 활성화에 작은 편향을 도입함으로써, 분해 계층에서 형성된 기본 텐서를 ReLU 네트워크가 근사할 수 있음을 보여준다.
  • 산술 회로 복잡도 이론의 수학적 도구를 사용하여 변환된 ReLU 네트워크에서의 보편성과 깊이 효율성을 분석한다.
  • 이 분석은 가중치를 편향시켜 ReLU 활성화의 음이 아닌 계수와 단조성을 확보함으로써 텐서 구조를 유지한다.
  • 작은 노이즈가 있을 경우, 결과 네트워크가 기본 텐서 분해를 계산함을 증명함으로써 표현 능력의 이론적 분석이 가능해진다.

실험 결과

연구 질문

  • RQ1컨볼루션형 레이저 네트워크는 일반화된 텐서 분해의 관점에서 공식적으로 분석될 수 있는가?
  • RQ2최대 또는 평균 풀링을 갖는 ReLU 네트워크의 보편성은 이 프레임워크 하에서 완전히 유지되는가?
  • RQ3최대 풀링을 갖는 ReLU 네트워크는 컨볼루션형 산술 회로에 비해 깊이 효율성에서 어느 정도의 수준을 보이는가?
  • RQ4ReLU와 풀링 연산의 사용은 선형 활성화에 곱셈 풀링을 사용하는 것에 비해 표현 능력을 제한하는가?
  • RQ5훈련 방법이 개발된다면 컨볼루션형 산술 회로의 이론적 우월성이 실질적으로 활용될 수 있는가?

주요 결과

  • 최대 풀링을 갖는 컨볼루션형 레이저 네트워크는 보편적이며, 컴acts 집합 위의 임의의 연속 함수를 근사할 수 있다.
  • 반면, 평균 풀링을 갖는 ReLU 네트워크는 보편적이지 않으며, 넓이를 늘려도 모든 함수를 표현할 수 없다.
  • 최대 풀링을 갖는 ReLU 네트워크의 깊이 효율성은 불완전하다—깊은 네트워크로 효율적으로 표현 가능한 양의 측도를 갖는 함수 집합이 존재한다.
  • 이것은 컨볼루션형 산술 회로와 대조되며, 이는 거의 모든 깊은 네트워크로 표현 가능한 함수들이 얕은 네트워크로 근사될 수 없음을 의미한다.
  • 결과적으로 컨볼루션형 산술 회로는 표준 ReLU 기반 ConvNets보다 더 강력한 이론적 표현 능력을 가진다.
  • 논문은 컨볼루션형 산술 회로의 훈련 방법이 개발된다면, 현재의 ReLU 기반 아키텍처보다 증명 가능한 우월성을 가진 딥 러닝 모델을 도출할 수 있을 것이라고 결론을 내린다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.