QUICK REVIEW

[논문 리뷰] DO-Conv: Depthwise Over-parameterized Convolutional Layer

Jinming Cao, Yangyan Li|arXiv (Cornell University)|2020. 06. 22.

Advanced Neural Network Applications인용 수 40

한 줄 요약

DO-Conv은 깊이별(over-parameterized) 경로를 가진 표준 합성곱을 보강하여 학습 시점의 향상을 가능하게 하고, 분류, 분할, 탐지 전반에서 최종 정확도 향상으로 이어지도록 하며, 추론은 일반 합성곱과 동일하게 유지됩니다.

ABSTRACT

Convolutional layers are the core building blocks of Convolutional Neural Networks (CNNs). In this paper, we propose to augment a convolutional layer with an additional depthwise convolution, where each input channel is convolved with a different 2D kernel. The composition of the two convolutions constitutes an over-parameterization, since it adds learnable parameters, while the resulting linear operation can be expressed by a single convolution layer. We refer to this depthwise over-parameterized convolutional layer as DO-Conv. We show with extensive experiments that the mere replacement of conventional convolutional layers with DO-Conv layers boosts the performance of CNNs on many classical vision tasks, such as image classification, detection, and segmentation. Moreover, in the inference phase, the depthwise convolution is folded into the conventional convolution, reducing the computation to be exactly equivalent to that of a convolutional layer without over-parameterization. As DO-Conv introduces performance gains without incurring any computational complexity increase for inference, we advocate it as an alternative to the conventional convolutional layer. We open-source a reference implementation of DO-Conv in Tensorflow, PyTorch and GluonCV at https://github.com/yangyanli/DO-Conv.

연구 동기 및 목표

합성곱 계층의 과매개변화를 통해 CNN 성능을 높이려는 동기 부여와 구현.
깊이별 합성곱과 표준 합성곱의 조합(DO-Conv)이 학습 이점을 제공하되 추론 연산량은 증가시키지 않음을 입증.
DO-Conv의 효과가 이미지 분류, 의미적 분할, 객체 탐지 작업 전반에 걸쳐 있음을 보여줌.
DO-Conv에 대한 초기화, 초기 학습 동역학 및 하이퍼 파라미터 선택에 대한 가이드를 제공.

제안 방법

DO-Conv를 깊이별 합성곱 커널 D와 표준 합성곱 커널 W의 구성을 통해 정의하되, 깊이 승수 D_mul ≥ M*N로 과매개화된 선형 변환을 생성한다.
DO-Conv 연산의 두 가지 수학적으로 동등한 구현을 보인다: 특징 결합(먼저 P에 D를 적용한 후 W로 합성곱)과 커널 결합(D^T로 W를 변환해 새로운 커널 W′를 만들어 P에 합성곱)
학습 후 D와 W를 W′ = D^T ∘ W로 접어들려면 추론 비용이 일반 합성곱과 같아진다.
초기화 전략을 논의한다( D_mul = M*N일 때 D′ = D − I로 초기화하는 것을 선호, 시작 동작을 보존하고 빠른 수렴을 가능하게 함).
특징 결합과 커널 결합의 학습 효율을 비교하고, 일반적으로 MACC 감소 및 학습 중 메모리 사용 감소가 있는 커널 결합을 강조한다.
DO-Over-parameterization을 DO-DConv 및 DO-GConv로 확장하여 깊이별 및 그룹 합성곱에 대한 일반적 DO-Conv 프레임워크를 형성한다.

실험 결과

연구 질문

RQ1일반 합성곱을 DO-Conv로 교체하는 것이 추론 비용을 증가시키지 않으면서 다양한 아키텍처와 태스크에서 일관되게 성능을 향상시키는가?
RQ2D_mul, 초기화, 단계 배치의 선택이 DO-Conv의 효과에 어떤 영향을 미치는가?
RQ3과매개변화로 도입되는 학습 다이나믹스와 수렴 이점은 표준 깊이별/분리 가능한 대안과 어떻게 비교되는가?
RQ4효율적인 추론을 위해 하나의 합성곱 커널로 DO-Conv를 효과적으로 접을 수 있으며 이로써 이득을 보존하는가?

주요 결과

DO-Conv은 표준 합성곱 계층을 대체할 때 이미지 분류, 의미적 분할, 객체 탐지 태스크에서 일관되게 성능을 향상시킨다.
ImageNet 분류에서 DO-Conv은 다양한 백본(예: ResNet 변형, MobileNet, GluonCV 모델)에서 baselines에 대해 Top-1 점수가 최대 +1.01 포인트 증가를 달성한다.
의미 분할에서 백본 단계에 DO-Conv를 사용하면 PASCAL VOC에서 Mean IoU가 +0.25, Cityscapes에서 +1.45 증가하는 등 분할 백본에 포함될 때 향상을 보인다.
COCO에서 백본과 탐지 단계 모두에 DO-Conv를 적용하면 baselines에 비해 눈에 띄는 AP 이득이 나타난다(예: 최대 +0.3 AP).
특히 깊이별 구성(D가 항등을 포함하도록 초기화)과 같은 항등적 초기화가 무작위 초기화보다 더 큰 이점을 주는 경우가 많다(예: ImageNet에서 ResNet-v1b-50 기준 +0.44 대 +0.18).
DO-Conv 프레임워크는 추론을 위한 단일 W′ 커널로 접을 수 있어 표준 합성곱과 비교해 추가 계산 부담이 없도록 구현할 수 있다.

Figure 3: DO-Conv operator $\circledast$ over trainable kernels $(\mathbb{D},\mathbb{W})$ , and an input patch $\mathbb{P}$ . In this figure, $M\times N=4$ , $D_{mul}=4$ , $C_{in}=3$ with different input channels illustrated by different cube frame colors, and $C_{out}=2$ with different output chann

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.