QUICK REVIEW

[논문 리뷰] On the Expressive Power of Overlapping Architectures of Deep Learning

Or Sharir, Amnon Shashua|arXiv (Cornell University)|2017. 03. 06.

Ferroelectric and Negative Capacitance Devices인용 수 23

한 줄 요약

이 논문은 딥러닝에서 겹치는 컨볼루션 아키텍처의 표현 능력을 조사하며, 컨볼루션 필터의 스트라이드가 필터 크기보다 작을 때 발생하는 겹치는 수신장이 표현 능력의 지수적 증가를 가능하게 한다고 밝힌다. 컨볼루션 산술 회로(ConvalACs)를 이론적 대체 모델로 사용하여, 저자들은 겹치는 연결성이 지수적 행렬화 랭크 증가로 이어지고, 현대 아키텍처가 완전히 연결된 층에 의존하지 않더라도 지수적 표현성을 달성할 수 있음을 증명한다.

ABSTRACT

Expressive efficiency refers to the relation between two architectures A and B, whereby any function realized by B could be replicated by A, but there exists functions realized by A, which cannot be replicated by B unless its size grows significantly larger. For example, it is known that deep networks are exponentially efficient with respect to shallow networks, in the sense that a shallow network must grow exponentially large in order to approximate the functions represented by a deep network of polynomial size. In this work, we extend the study of expressive efficiency to the attribute of network connectivity and in particular to the effect of "overlaps" in the convolutional process, i.e., when the stride of the convolution is smaller than its filter size (receptive field). To theoretically analyze this aspect of network's design, we focus on a well-established surrogate for ConvNets called Convolutional Arithmetic Circuits (ConvACs), and then demonstrate empirically that our results hold for standard ConvNets as well. Specifically, our analysis shows that having overlapping local receptive fields, and more broadly denser connectivity, results in an exponential increase in the expressive capacity of neural networks. Moreover, while denser connectivity can increase the expressive capacity, we show that the most common types of modern architectures already exhibit exponential increase in expressivity, without relying on fully-connected layers.

연구 동기 및 목표

아키텍처의 연결성, 특히 겹치는 컨볼루션의 영향이 딥 네ural 네트워크의 표현 능력에 어떻게 작용하는지 이해하기.
겹치는 수신장(필터 크기보다 작은 스트라이드)이 비겹치는 설계에 비해 표현 능력의 지수적 증가를 이끌어내는지 조사하기.
현대 컨볼루션 아키텍처가 완전히 연결된 층 없이도 겹치는 연결성 덕분에 지수적 표현성을 달성하고 있는지 확인하기.
컨볼루션 아키텍처의 표현 효율성에 대한 이론적 기초를 확립하기 위해 컨볼루션 산술 회로(ConvACs)를 대체 모델로 사용하기.
겹치는 아키텍처가 비겹치는 것보다 지수적으로 더 표현력이 뛰어나다는 것을 입증하기, 조건이 유사할 때도 마찬가지로.

제안 방법

표준 ConvNets의 이론적 대체 모델로 컨볼루션 산술 회로(ConvACs)를 사용하며, 비선형 활성화 함수와 풀링을 선형 연산과 곱셈 풀링으로 대체한다.
유도된 텐서의 행렬화 랭크를 통해 표현 능력을 분석하며, 높은 랭크는 더 높은 표현 능력을 의미한다.
겹치는 아키텍처의 경우, 유도된 텐서의 행렬화 랭크가 특징 맵 위치의 수에 따라 지수적으로 증가함을 증명한다.
특정한 짝수 분할된 특징 맵 인덱스에 대해 지수적 행렬화 랭크를 달성하기 위해 '공유되지 않은' 및 '공유된' 가중치 설정에서 명시적인 파라미터 할당을 구성한다.
측도 이론적 접근을 적용하여, 지수적 행렬화 랭크가 고립된 예외가 아니라 르베그 측도에 대해 거의 모든 곳에서 성립함을 보여준다.
이론적 발견을 실제 ConvNets로 확장하기 위해 실증적 검증을 수행하며, ConvACs에서의 결과가 표준 아키텍처로도 전이됨을 보여준다.

실험 결과

연구 질문

RQ1겹치는 컨볼루션 연결성(필터 크기보다 작은 스트라이드)이 비겹치는 아키텍처에 비해 표현 능력의 지수적 증가를 이끌어내는가?
RQ2겹치는 아키텍처는 완전히 연결된 층에 의존하지 않고도 지수적 표현 효율성을 달성할 수 있는가?
RQ3현대 컨볼루션 아키텍처가 겹치는 수신장 덕분에 이미 지수적 표현성을 얼마나 잘 활용하고 있는가?
RQ4ConvACs(컨볼루션 네트워크의 대체 모델로 사용됨)의 표현 능력은 실제 ConvNet 행동을 충분히 대변하는가?
RQ5유도된 텐서의 행렬화 랭크는 겹치는 대비 비겹치는 아키텍처에서 표현 효율성과 어떻게 관련이 있는가?

주요 결과

겹치는 컨볼루션 아키텍처는 더 두꺼운 연결 패턴 덕분에 표현 능력이 지수적으로 증가한다.
겹치는 ConvACs의 유도된 텐서의 행렬화 랭크는 $ M^{H^2/2} $로 증가하며, 여기서 $ M $은 채널 수이고 $ H $는 공간 차원이다. 이는 지수적 표현성을 의미한다.
완전히 연결된 층이 없더라도 이 지수적 증가가 발생하므로, 겹치는 연결성 자체만으로도 깊은 네트워크가 복잡한 함수를 효율적으로 표현할 수 있음을 시사한다.
이 결과는 매개변수 공간에서 거의 모든 곳에서 성립하므로, 지수적 표현성이 드문 예외나 특수하게 설계된 모델에 국한되지 않음을 의미한다.
실증적 검증을 통해 ConvACs에서의 이론적 발견이 표준 ConvNets로도 전이됨을 확인하였으며, 겹치는 아키텍처가 본질적으로 더 표현력이 뛰어나다는 것을 시사한다.
비겹치는 아키텍처가 실생활에서 드물게 나타나는 이유를 설명한다: 겹치는 설계는 모델 크기의 다항식 증가로도 지수적으로 더 높은 표현 능력을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.