Skip to main content
QUICK REVIEW

[論文レビュー] ACNet: Strengthening the Kernel Skeletons for Powerful CNN via Asymmetric Convolution Blocks

Xiaohan Ding, Yuchen Guo|arXiv (Cornell University)|Aug 11, 2019
Advanced Neural Network Applications参考文献 35被引用数 87
ひとこと要約

ACNet は訓練時にオフ・ザ・シェルの CNN を強化する非対称畳み込みブロック(ACB)を導入し、推論コストを追加せずに元のアーキテクチャへ再結合して適用性と回転歪みに対する頑健性を向上させる。

ABSTRACT

As designing appropriate Convolutional Neural Network (CNN) architecture in the context of a given application usually involves heavy human works or numerous GPU hours, the research community is soliciting the architecture-neutral CNN structures, which can be easily plugged into multiple mature architectures to improve the performance on our real-world applications. We propose Asymmetric Convolution Block (ACB), an architecture-neutral structure as a CNN building block, which uses 1D asymmetric convolutions to strengthen the square convolution kernels. For an off-the-shelf architecture, we replace the standard square-kernel convolutional layers with ACBs to construct an Asymmetric Convolutional Network (ACNet), which can be trained to reach a higher level of accuracy. After training, we equivalently convert the ACNet into the same original architecture, thus requiring no extra computations anymore. We have observed that ACNet can improve the performance of various models on CIFAR and ImageNet by a clear margin. Through further experiments, we attribute the effectiveness of ACB to its capability of enhancing the model's robustness to rotational distortions and strengthening the central skeleton parts of square convolution kernels.

研究の動機と目的

  • 既存のモデルに手動の再設計やハイパーパラメータ調整を必要とせずに適用できる、アーキテクチャに中立的な CNN 改善を動機づける。
  • 並列の 3×3、1×3、および 3×1 畳み込みを用いて正方形のカーネルを豊かにする非対称畳み込みブロック(ACB)を提案する。
  • ACNet が CIFAR および ImageNet でより高い精度を達成し、等価な出力を保つように元のアーキテクチャへ再変換できることを示す。
  • 性能向上の理由を ACB が骨格(中心)カーネル重みおよび回転歪みに対する頑健性に焦点を当てて調査する。

提案手法

  • 各 3×3 畳み込みを、出力を和算する 3×3、1×3、3×1 ブランチを含む ACB に置換する。
  • ACNet をエンドツーエンドで訓練し、BN とブランチを融合して推論時に追加コストなしの等価な標準畳み込みを得る。
  • BN フュージョンとブランチフュージョンの手順で BN パラメータをカーネルに結合し、融合したカーネルを単一の標準レイヤへ合算する。
  • 複数モデルにわたるベースラインアーキテクチャ(Plain、ResNet、DenseNet、AlexNet)で CIFAR-10/100 および ImageNet に対して経験的に検証する。

実験結果

リサーチクエスチョン

  • RQ1標準の正方形カーネル層を ACB に置換することで、一般的な CNN ベンチマークの精度は向上するか?
  • RQ2推論コストや結果を変更することなく、ACNet を元のアーキテクチャへ戻すことができるか?
  • RQ3水平・垂直の非対称性および BN の配置が性能向上と頑健性にどの程度寄与するか?
  • RQ4利得は核となるカーネルのスケルトンを強化したことに起因するのか、カーネル位置の摂動は性能にどう影響するのか?
  • RQ5ACNet は実際に回転歪み(回転、反転など)に対する頑健性を向上させるか?

主な発見

ModelBase Top-1ACNet Top-1Top-1 Increase
Cifar-quick83.1384.241.11
VGG94.1294.470.35
ResNet-5694.3195.090.78
WRN-16-895.5696.150.59
DenseNet-4094.2994.840.55
  • ACNet は CIFAR-10 全体で Top-1 精度を一貫して向上させる:例として Cifar-quick が 83.13 から 84.24、ResNet-56 が 94.31 から 95.09、WRN-16-8 が 95.56 から 96.15、DenseNet-40 が 94.29 から 94.84。
  • CIFAR-100 では複数のベースラインで利得をもたらす(例:ResNet-56 が 73.58 から 74.04)。
  • ImageNet では AlexNet を Top-1 で 1.52%、ResNet-18 を 0.78% 向上; DenseNet-121 は 0.67% 向上(Top-1)
  • アブレーション研究では、ブランチの水平/垂直 BN のいずれかを削除するか BN の配置を変更すると性能が低下することを示す。水平カーネルは回転歪み(例: 180° 回転)に対する頑健性を ResNet-18 で向上させる。
  • スケルトン重み(中心カーネル位置)はコーナー重みより重要である;ACNet はさらにスケルトンを強化し、性能向上に寄与する。
  • ACNet にはハイパーパラメータはなく、推論時コストも増えず、PyTorch/TensorFlow で実装可能;ブランチ融合のダイナミクスにより訓練の流れが異なる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。