QUICK REVIEW

[論文レビュー] DO-Conv: Depthwise Over-parameterized Convolutional Layer

Jinming Cao, Yangyan Li|arXiv (Cornell University)|Jun 22, 2020

Advanced Neural Network Applications被引用数 40

ひとこと要約

DO-Convは標準の畳み込みを深さ方向に過パラメータ化した経路で拡張し、分類、セグメンテーション、検出の全体的な最終精度を向上させる訓練時の改善を可能にする一方、推論は通常の畳み込みと同等のままです。

ABSTRACT

Convolutional layers are the core building blocks of Convolutional Neural Networks (CNNs). In this paper, we propose to augment a convolutional layer with an additional depthwise convolution, where each input channel is convolved with a different 2D kernel. The composition of the two convolutions constitutes an over-parameterization, since it adds learnable parameters, while the resulting linear operation can be expressed by a single convolution layer. We refer to this depthwise over-parameterized convolutional layer as DO-Conv. We show with extensive experiments that the mere replacement of conventional convolutional layers with DO-Conv layers boosts the performance of CNNs on many classical vision tasks, such as image classification, detection, and segmentation. Moreover, in the inference phase, the depthwise convolution is folded into the conventional convolution, reducing the computation to be exactly equivalent to that of a convolutional layer without over-parameterization. As DO-Conv introduces performance gains without incurring any computational complexity increase for inference, we advocate it as an alternative to the conventional convolutional layer. We open-source a reference implementation of DO-Conv in Tensorflow, PyTorch and GluonCV at https://github.com/yangyanli/DO-Conv.

研究の動機と目的

CNN性能を向上させるために畳み込み層の過パラメータ化を動機づけ、実装する。
デプスワイズ畳み込みと標準畳み込みを組み合わせた DO-Conv が推論計算を増やすことなく訓練時の利得をもたらすことを実証する。
DO-Conv の有効性を画像分類、セマンティックセグメンテーション、物体検出タスクのそれぞれで示す。
DO-Conv の訓練ダイナミクス、初期化、ハイパーパラメータの選択について指針を提供する。

提案手法

DO-Conv をカーネル D を持つ深さ方向畳み込みとカーネル W を持つ標準畳み込みの合成として定義し、深さ乗数 D_mul >= M*N として過パラメータ化された線形変換を生み出す。
DO-Conv の演算の2つの数学的に同等な実現を示す: 特徴量の合成( P に対して D を適用し W で畳み込む )とカーネルの合成( W を D^T で変換して新しいカーネル W′ を得て P と畳み込む )。
訓練後、D と W は W′ = D^T ∘ W に折りたたまれ、推論コストは従来の畳み込みと等しくなることを説明する。
初期化戦略を論じる (D_mul = M*N のときは D に identity に類似した初期化を好み、D′ = D − I とすることで初期の挙動を保ちつつ高速な収束を可能にする)。
特徴量合成とカーネル合成の訓練効率を比較し、カーネル合成が通常はMACCが少なく、訓練中のメモリ使用量も低いことを強調する。
DO-Over-parameterization を DO-DConv および DO-GConv に拡張し、深さ方向およびグループ化畳み込みのための一般的な DO-Conv フレームワークを形成する。

実験結果

リサーチクエスチョン

RQ1従来の畳み込みを DO-Conv に置換することで、推論コストを増やすことなく、アーキテクチャやタスクを問わず一貫して性能が向上するか？
RQ2D_mul、初期化、ステージ配置の選択が DO-Conv の有効性にどう影響するか？
RQ3過パラメータ化によって導入される訓練ダイナミクスと収束の利点は何か、標準の深さ方向/分離可能な代替手法とどう比較されるか？
RQ4DO-Conv を単一の畳み込みカーネルに効果的に折り畳んで、利得を維持しつつ効率的な推論を実現できるか？

主な発見

DO-Conv は標準の畳み込み層を置換した場合、画像分類、セマンティックセグメンテーション、物体検出タスクの性能を一貫して向上させる。
ImageNet 分類では、DO-Conv がさまざまなバックボーン（例: ResNet 系、MobileNet、GluonCV モデル）に対してベースラインより Top-1 が最大 +1.01 ポイントの利得を達成する。
セマンティックセグメンテーションでは、DO-Conv をバックボーンの段階で用いると、Segmentation バックボーンに含めた場合 PASCAL VOC で Mean IoU が +0.25、Cityscapes で +1.45 の改善をもたらす。
COCO の物体検出では、バックボーンと検出段階の両方に DO-Conv を適用することで、ベースラインより顕著な AP 利得（最大で +0.3 AP など）をもたらす。
アブレーション研究は、深さ方向成分の identity に類似した初期化（D が identity を含むように初期化）が、ランダム初期化よりしばしば大きな利得を与えることを示す（例: ImageNet の ResNet-v1b-50 で +0.44 対 +0.18）。
DO-Conv フレームワークは推論のために単一の W′ カーネルに折り畳む実装が可能で、従来の畳み込みと比較して追加の計算負荷を生じさせない。

Figure 3: DO-Conv operator $\circledast$ over trainable kernels $(\mathbb{D},\mathbb{W})$ , and an input patch $\mathbb{P}$ . In this figure, $M\times N=4$ , $D_{mul}=4$ , $C_{in}=3$ with different input channels illustrated by different cube frame colors, and $C_{out}=2$ with different output chann

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。