QUICK REVIEW

[論文レビュー] Network Decoupling: From Regular to Depthwise Separable Convolutions

Jianbo Guo, Yuxi Li|arXiv (Cornell University)|Aug 16, 2018

Sparse and Compressive Sensing Techniques参考文献 28被引用数 69

ひとこと要約

本論文は、通常の畳み込みを深さ方向に分離可能な畳み込みの和として正確に表現できることを証明し、ネットワークデカップリング（ND）を導入します。ND は学習を要さないデプロイ時の手法で、層を深さ方向に分離可能な形に変換することで CNN を高速化し、精度低下を最小限に抑えつつ他のゼロデータ手法と協調します。

ABSTRACT

Depthwise separable convolution has shown great efficiency in network design, but requires time-consuming training procedure with full training-set available. This paper first analyzes the mathematical relationship between regular convolutions and depthwise separable convolutions, and proves that the former one could be approximated with the latter one in closed form. We show depthwise separable convolutions are principal components of regular convolutions. And then we propose network decoupling (ND), a training-free method to accelerate convolutional neural networks (CNNs) by transferring pre-trained CNN models into the MobileNet-like depthwise separable convolution structure, with a promising speedup yet negligible accuracy loss. We further verify through experiments that the proposed method is orthogonal to other training-free methods like channel decomposition, spatial decomposition, etc. Combining the proposed method with them will bring even larger CNN speedup. For instance, ND itself achieves about 2X speedup for the widely used VGG16, and combined with other methods, it reaches 3.7X speedup with graceful accuracy degradation. We demonstrate that ND is widely applicable to classification networks like ResNet, and object detection network like SSD300.

研究の動機と目的

通常の畳み込みと深さ方向分離可能畳み込みの数学的関係を分析する。
通常の畳み込みをデカップリングする、データを用いない閉形式のテンソル分解を導出する。
トレーニング不要のデプロイ時最適化としてネットワークデカップリング（ND）を導入する。
VGG16、ResNet、SSD300 で ND の高速化を実証し、他の手法との相補性を示す。

提案手法

通常の畳み込みを4Dテンソル W としてモデル化し、深さ方向分離可能 (DW+PW または PW+DW) 因数分解と比較する。
任意の通常の畳み込みが K 項の深さ方向分離畳み込みの和として表現できることを証明する（K ≤ k_h k_w）。
厳密なネットワークデカップリング（ND）と、結合の冗長性を示すデカップリング次数 K を導入する。
実用的な高速化のため、トップ-T 成分（T ≤ K）を用いた近似的なデカップリングを提案する。
ND がデータフリーであり、他の学習なし手法（チャネル/空間分解、チャネルプルーニング）と補完的であることを示す。
上位特異ベクトルのエネルギー分布に基づき DW+PW 対 PW+DW の選択指針を提供する。

実験結果

リサーチクエスチョン

RQ1通常の畳み込みを計算コストを増やさずに深さ方向分離畳み込みの組み合わせとして正確に表現できるか？
RQ2デカップリング次数 K とは何か、そしてそれが畳み込みカーネルの冗長性とどう関連するか？
RQ3訓練データなしで意味のある高速化を達成できるか、ND は他のゼロデータ加速法とどう相互作用するか？
RQ4VGG16、ResNet、SSD300 などの一般的なアーキテクチャで ND はどう機能し、ファインチューニングとどう相互作用するか？

主な発見

手法	FLOPs	Top-5 ドロップ率 (%)
Original VGG16	15.35G	0
CD	6.52G	2.10
SD	7.20G	1.96
CP	9.89G	1.68
Ours (ND)	8.61G	1.55

通常の畳み込みは計算コストを増やすことなく、深さ方向分離畳み込みの和へロスレスに展開できる（DW+PW または PW+DW の場合）。
デカップリング次数 K は k_h k_w により有界で、結合の冗長性を反映する。K が小さいほど潜在的な高速化が大きくなる。
トップ-T 成分を用いた近似 ND は、精度低下を制御しつつ実質的な高速化を達成する。例えば多くの層でトップ4成分がほとんどのエネルギーを捉える。
ND は VGG16 で約1.8xの高速化（単独手法）、他の学習不要手法と組み合わせると最大で約3.7xの高速化を達成し、精度低下は控えめ。
ResNet18 への ND 適用は約1.5x の高速化と約1.4% の Top-5 ドロップをもたらす。他手法と組み合わせるとさらに加速が向上。
VGG16 バックボーンを用いる SSD300 への ND 適用は約2.1x の高速化と小さな mAP の低下。他手法と組み合わせると約2.0x の高速化に小さな mAP低下を伴う。
極端にデカップリングされたネットワークは微調整して精度を回復でき、より大きな高速化を達成する（例: VGG16 で 10 エポックのファインチューニングで 3.9x など）、小さな精度変化で、いくつかのチューニング不要ベースラインより優れる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。