QUICK REVIEW

[논문 리뷰] On the Expressive Power of Deep Learning: A Tensor Analysis

Nadav Cohen, Or Sharir|arXiv (Cornell University)|2015. 09. 16.

Tensor decomposition and applications참고 문헌 40인용 수 135

한 줄 요약

이 논문은 국소성, 가중치 공유, 풀링을 포함한 실용적 컨볼루션 신경망의 핵심 구성 요소들을 계층적 텐서 분해로 모델링하여, 컨볼루션 산술 회로 아키텍처를 제안한다. 이는 다층 신경망이 다항식 크기로 표현 가능한 함수 중에서 측도가 0인 집합을 제외한 나머지 함수들을 근사하기 위해 얕은 신경망이 지수적으로 더 큰 크기를 가져야 한다는 것을 증명함으로써, 표현력 면에서 깊이의 본질적인 이론적 우월성을 확립한다.

ABSTRACT

It has long been conjectured that hypotheses spaces suitable for data that is compositional in nature, such as text or images, may be more efficiently represented with deep hierarchical networks than with shallow ones. Despite the vast empirical evidence supporting this belief, theoretical justifications to date are limited. In particular, they do not account for the locality, sharing and pooling constructs of convolutional networks, the most successful deep learning architecture to date. In this work we derive a deep network architecture based on arithmetic circuits that inherently employs locality, sharing and pooling. An equivalence between the networks and hierarchical tensor factorizations is established. We show that a shallow network corresponds to CP (rank-1) decomposition, whereas a deep network corresponds to Hierarchical Tucker decomposition. Using tools from measure theory and matrix algebra, we prove that besides a negligible set, all functions that can be implemented by a deep network of polynomial size, require exponential size in order to be realized (or even approximated) by a shallow network. Since log-space computation transforms our networks into SimNets, the result applies directly to a deep learning architecture demonstrating promising empirical performance. The construction and theory developed in this paper shed new light on various practices and ideas employed by the deep learning community.

연구 동기 및 목표

이미지나 텍스트와 같은 조합적 데이터를 표현하는 데 있어 깊은 신경망이 얕은 신경망보다 우월함을 이론적으로 정당화하는 것.
이전의 깊이 효율성 증명에서 부재했던 컨볼루션 네트워크의 핵심 아키텍처 요소인 국소성, 가중치 공유, 풀링을 설명할 수 있는 이론적 프레임워크를 개발하는 것.
깊은 신경망과 계층적 텐서 분해, 특히 계층적 터커 및 CP 분해 사이의 공식적인 연결 고리를 수립하는 것.
다항식 크기의 깊은 신경망으로 표현 가능한 함수 중에서 측도가 0인 집합을 제외한 모든 함수들이 근사하기 위해 얕은 신경망이 지수적으로 더 큰 크기를 가져야 한다는 것을 증명하는 것.
이론적 결과가 SimNets와 같은 실용적 딥 러닝 아키텍처로 전이 가능한지, 로그 공간 계산과 수치 안정성에 의해 보여주는 것.

제안 방법

저자들은 국소성과 가중치 공유를 갖춘 컨볼루션(합성 노드)과 풀링 연산을 위한 곱셈 노드를 사용하여 컨볼루션 산술 회로 아키텍처를 설계한다.
깊은 신경망과 계층적 터커 텐서 분해 사이의 등가성을, 얕은 신경망과 CP(랭크-1) 분해 사이의 등가성을 각각 수립한다.
측도 이론과 행렬 대수의 도구를 사용하여 이러한 분해의 표현 능력을 분석함으로써, 깊은 네트워크와 얕은 네트워크의 표현력 차이를 비교한다.
수치 안정성을 확보하기 위해 네트워크를 로그 공간으로 변환하고, 안정적인 로그-합-지수 및 합-풀링 연산을 위한 MEX 연산자를 사용하여 SimNets를 통한 구현을 가능하게 한다.
이론적 분석은 비음수 텐서 분해가 보편성을 유지하고 효율적이며 수치적으로 안정적인 훈련을 가능하게 한다는 사실을 활용한다.
제안된 구조는 SimNets와의 등가성을 통해 검증되며, 이는 최근에 제안된 이미지 벤치마크에서 뛰어난 성능을 보인 아키텍처이다.

실험 결과

연구 질문

RQ1국소성, 가중치 공유, 풀링과 같은 핵심 아키텍처 요소를 포함하면서도 딥 러닝의 표현력을 설명할 수 있는 이론적 프레임워크를 개발할 수 있는가?
RQ2깊은 신경망과 계층적 텐서 분해 사이에 공식적인 수학적 등가성이 존재하는가?
RQ3깊은 신경망이 조합적 함수를 표현하는 데 있어 얕은 신경망보다 어느 정도 뛰어나게 성능을 내는가?
RQ4근사화 요구 사항을 고려할 때 깊은 신경망과 얕은 신경망의 표현력은 크기 측면에서 어떻게 비교되는가?
RQ5이론적 깊이 효율성 결과는 SimNets와 같은 실용적 딥 러닝 아키텍처로 전이 가능한가?

주요 결과

다항식 크기의 깊은 신경망으로 표현 가능한 함수 중에서 측도가 0인 집합을 제외한 모든 함수들이 근사하기 위해 얕은 신경망이 지수적으로 더 큰 크기를 가져야 하므로, 깊이 효율성에 대한 강력한 결과를 확립한다.
얕은 신경망은 CP(랭크-1) 텐서 분해에 대응하고, 깊은 신경망은 계층적 터커 분해에 대응하므로, 깊이의 형식적인 텐서 기반 특성화가 가능하다.
합성 노드와 곱셈 노드를 사용하는 산술 회로 기반의 제안된 아키텍처는 국소성, 가중치 공유, 풀링을 자연스럽게 통합하여 실용적 컨볼루션 네트워크와 일치한다.
이론적 결과는 실용적 모델로 전이 가능하다: 제안된 구조는 SimNets로 직접 매핑되며, 이는 자원 제약 조건 하에서 이미지 인식 벤치마크에서 최고 성능을 보였다.
로그 공간 계산을 통해 수치 안정성이 확보되었으며, MEX 연산자가 안정적인 로그-합-지수 및 합-풀링 연산을 가능하게 한다.
비음수 텐서 분해는 제약이 없는 분해보다 약간 효율성이 떨어질 수 있지만, 보편성을 유지하고 최소한의 성능 저하로 실용적 구현이 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.