Skip to main content
QUICK REVIEW

[論文レビュー] FlexConv: Continuous Kernel Convolutions with Differentiable Kernel Sizes

David W. Romero, Robert-Jan Bruintjes|arXiv (Cornell University)|Oct 15, 2021
Advanced Neural Network Applications参考文献 61被引用数 26
ひとこと要約

FlexConv は、微分可能なカーネルサイズを持つ学習可能で高帯域幅の連続畳み込みカーネルを導入し、ダイナミックで解像度に頑健なCNN(FlexNets)を実現し、逐次データで最先端の結果を達成し、画像性能も競争力がある。

ABSTRACT

When designing Convolutional Neural Networks (CNNs), one must select the size\break of the convolutional kernels before training. Recent works show CNNs benefit from different kernel sizes at different layers, but exploring all possible combinations is unfeasible in practice. A more efficient approach is to learn the kernel size during training. However, existing works that learn the kernel size have a limited bandwidth. These approaches scale kernels by dilation, and thus the detail they can describe is limited. In this work, we propose FlexConv, a novel convolutional operation with which high bandwidth convolutional kernels of learnable kernel size can be learned at a fixed parameter cost. FlexNets model long-term dependencies without the use of pooling, achieve state-of-the-art performance on several sequential datasets, outperform recent works with learned kernel sizes, and are competitive with much deeper ResNets on image benchmark datasets. Additionally, FlexNets can be deployed at higher resolutions than those seen during training. To avoid aliasing, we propose a novel kernel parameterization with which the frequency of the kernels can be analytically controlled. Our novel kernel parameterization shows higher descriptive power and faster convergence speed than existing parameterizations. This leads to important improvements in classification accuracy.

研究の動機と目的

  • 事前に固定する代わりに、トレーニング中にカーネルサイズを学習することを動機づける。
  • 固定パラメータコストで高帯域幅カーネルをサポートする連続カーネルパラメータ化を開発する。
  • 周波数成分を制御しエイリアシングを防ぐ MAGNets を提案し、高解像度デプロイを可能にする。
  • FlexNets が逐次タスクで従来の学習済みカーネル手法を上回り、画像ベンチマークではより深い CNN と競争力があることを示す。

提案手法

  • FlexConv を、トレーニング中にカーネルサイズを学習するため、連続カーネル MLP ψ と異方性ガウスマスクの積として定義する。
  • スペクトル特性を制御するカーネルパラメータ化の基盤として MAGNets (Multiplicative Anisotropic Gabor Networks) を導入する。
  • 高解像度でデプロイする際のエイリアシングを抑制するため、MAGNet ベースの表現を正則化する(alias-free MAGNets)。
  • MAGNets の最大周波数の解析表現を提供し、それをエイリアシング正則化損失に組み込む。
  • サンプリング密度の調整と Cropping/効率的な畳み込み加速(例: フーリエベースのスピードアップを使用)によって高解像度でのデプロイを可能にする。
  • 固定カーネル、膨張、学習カーネルベースラインと比較した、逐次データセット(FlexTCNs/FlexNets)および画像データセット(CIFAR-10)での広範な実験を実施する。

実験結果

リサーチクエスチョン

  • RQ1畳み込みカーネルを、効果的なサイズが微分可能で学習可能なまま高帯域幅で学習できるのか。
  • RQ2連続的な MAGNet ベースのカーネルパラメータ化は、精度を維持または向上させつつ、より高解像度でエイリアシングのないデプロイを可能にするか。
  • RQ3FlexConvs と FlexNets は逐次データで従来の学習済みカーネル手法を上回り、画像ベンチマークではプーリングベースの CNN と競合するか?
  • RQ4カーネルサイズを学習することは、固定または膨張カーネルと比較して収束速度と計算効率に利点をもたらすか?

主な発見

  • FlexConvs は、カーネルをニューラルネットワークとガウスマスクの積としてパラメータ化することで、固定パラメータ数の状態で高帯域幅カーネルを学習可能にする。
  • MAGNets は周波数成分を解析的に制御でき、最小限の精度低下で高解像度へのエイリアシングのないデプロイを可能にする。
  • FlexNets はいくつかの逐次データセットで最先端の結果を達成し、CIFAR-10 ではプーリングベースのアーキテクチャおよび学習カーネル手法と比較して競争力の性能を示す。
  • 低解像度での訓練と alias-free MAGNets は、高解像度でデプロイする際の性能を維存しつつ計算時間を削減できる。
  • MAGNet 周波数に焦点を当てたエイリアス正則化は、より高解像度へのアップサンプリング時の横断解像度一般化と安定性を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。