QUICK REVIEW

[논문 리뷰] Design of Efficient Convolutional Layers using Single Intra-channel Convolution, Topological Subdivisioning and Spatial "Bottleneck" Structure

Min Wang, Baoyuan Liu|arXiv (Cornell University)|2016. 08. 15.

Advanced Antenna and Metasurface Technologies인용 수 31

한 줄 요약

이 논문은 공간적 및 채널 병렬 연산을 단일 내채널 합성곱(SIC)을 통해 분리하고, 연결을 희박화하기 위해 위상적 분할 기법을 적용하며, 공간적 '버팀목' 구조를 사용해 해상도를 유지하면서 계산량을 줄이는 새로운 합성곱 레이어 설계를 제안한다. 이 방법은 ResNet-50 및 ResNet-101보다 4.5×에서 6.5×까지 낮은 FLOPs를 달성하면서 유사한 정확도를 유지한다.

ABSTRACT

Deep convolutional neural networks achieve remarkable visual recognition performance, at the cost of high computational complexity. In this paper, we have a new design of efficient convolutional layers based on three schemes. The 3D convolution operation in a convolutional layer can be considered as performing spatial convolution in each channel and linear projection across channels simultaneously. By unravelling them and arranging the spatial convolution sequentially, the proposed layer is composed of a single intra-channel convolution, of which the computation is negligible, and a linear channel projection. A topological subdivisioning is adopted to reduce the connection between the input channels and output channels. Additionally, we also introduce a spatial "bottleneck" structure that utilizes a convolution-projection-deconvolution pipeline to take advantage of the correlation between adjacent pixels in the input. Our experiments demonstrate that the proposed layers remarkably outperform the standard convolutional layers with regard to accuracy/complexity ratio. Our models achieve similar accuracy to VGG, ResNet-50, ResNet-101 while requiring 42, 4.5, 6.5 times less computation respectively.

연구 동기 및 목표

표준 합성곱 레이어의 계산 복잡도를 정확도를 희생시키지 않고 감소시키기 위해.
공간적 및 채널 병렬 연산을 하나의 중복적인 계산으로 통합하는 표준 3D 합성곱의 비효율성 문제를 해결하기 위해.
딥 러닝에서 계산과 모델 성능을 최적화하는 아키텍처 혁신을 탐색하기 위해.
합성곱 레이어의 기본 설계를 다시 생각함으로써 효율적인 학습 및 추론을 가능하게 하기 위해.
모델 미세조정이나 분해 기반 방법과 수직인, 효율적 레이어 설계를 위한 종합적 프레임워크를 제공하기 위해.

제안 방법

표준 3D 합성곱을 순차적인 2D 내채널 합성곱과 선형 채널 투영으로 분해하여 중복을 줄인다.
각 입력 채널당 하나의 필터를 적용하는 단일 내채널 합성곱(SIC) 레이어를 도입하여 계산량을 최소화하고 순차적 처리를 가능하게 한다.
텐서라이즈된 레이아웃에서 각 출력 채널이 근처의 입력 채널에만 연결되도록 제한함으로써 위상적 분할 기법을 적용해 구조적 희박성 패턴을 생성한다.
스트라이드 컨벌루션, 선형 투영, 디컨벌루션을 사용한 공간적 '버팀목' 구조를 활용해 일시적으로 공간 해상도를 낮추고 채널 투영 비용을 감소시킨다.
SIC, 위상적 분할 기법, 공간적 버팀목을 통합하여 고정확도를 유지하면서 FLOPs를 줄인 통합된 효율적 레이어 설계를 구현한다.
위상적 분할 기법에서 유도된 규칙적인 희박성 패턴을 활용해 비정규 희박 컨벌루션과는 달리 효율적인 GPU 구현을 가능하게 한다.

실험 결과

연구 질문

RQ1합성곱 레이어에서 공간적 및 채널 병렬 연산을 분리하면 계산 복잡도를 크게 감소시킬 수 있는가?
RQ2위상적 분할 기법을 통한 구조적 희박성이 합성곱 레이어의 효율성-정확도 트레이드오��에 어떤 영향을 미치는가?
RQ3공간적 '버팀목' 구조는 깊은 네트워크에서 계산량을 줄이면서도 특징 해상도를 얼마나 효과적으로 유지할 수 있는가?
RQ4SIC, 위상적 분할 기법, 공간적 버팀목의 조합이 표준 CNN에 비해 정확도 저하 없이 뛰어난 효율성을 달성할 수 있는가?
RQ5기존 모델을 미세조정하거나 분해하는 것이 아니라, 처음부터 더 효율적인 합성곱 레이어를 설계하는 것이 가능한가?

주요 결과

제안된 모델은 VGG보다 FLOPs를 42× 낮추면서도 유사한 상위-1 정확도(27.07% vs. 27.07% for VGG)를 유지한다.
ResNet-50의 경우 FLOPs를 4.5× 감소시켰다(3800M에서 845M로), 상위-1 오차는 0.26% 증가에 그쳤다(24.7% vs. 24.76%).
ResNet-101의 경우 FLOPs를 6.5× 감소시켰다(7600M에서 1172M로), 상위-1 오차는 0.37% 증가에 그쳤다(23.6% vs. 23.99%).
SIC 레이어에서 학습된 커널은 표준 합성곱 레이어에 비해 더 높은 구조적 규칙성을 보이며, 더 강한 암묵적 정규화를 나타낸다.
위상적 분할 기법 프레임워크는 비정규 희박 컨벌루션과는 달리 규칙적인 희박성 패턴 덕분에 효율적인 구현을 가능하게 한다.
공간적 '버팀목' 구조는 디컨벌루션을 통해 공간 해상도를 유지하면서도 선형 채널 투영의 계산 비용을 효과적으로 감소시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.