[論文レビュー] Enhanced Convolutional Neural Tangent Kernels
本論文は Local Average Pooling (LAP) と事前処理のパッチベースアプローチにより CNTK/CNN-GP の性能を向上させ、CIFAR-10 での非訓練カーネル精度を最先端水準に達成(最大 89%)し、Fashion-MNIST でも強力な結果を示す。
Recent research shows that for training with $\ell_2$ loss, convolutional neural networks (CNNs) whose width (number of channels in convolutional layers) goes to infinity correspond to regression with respect to the CNN Gaussian Process kernel (CNN-GP) if only the last layer is trained, and correspond to regression with respect to the Convolutional Neural Tangent Kernel (CNTK) if all layers are trained. An exact algorithm to compute CNTK (Arora et al., 2019) yielded the finding that classification accuracy of CNTK on CIFAR-10 is within 6-7% of that of that of the corresponding CNN architecture (best figure being around 78%) which is interesting performance for a fixed kernel. Here we show how to significantly enhance the performance of these kernels using two ideas. (1) Modifying the kernel using a new operation called Local Average Pooling (LAP) which preserves efficient computability of the kernel and inherits the spirit of standard data augmentation using pixel shifts. Earlier papers were unable to incorporate naive data augmentation because of the quadratic training cost of kernel regression. This idea is inspired by Global Average Pooling (GAP), which we show for CNN-GP and CNTK is equivalent to full translation data augmentation. (2) Representing the input image using a pre-processing technique proposed by Coates et al. (2011), which uses a single convolutional layer composed of random image patches. On CIFAR-10, the resulting kernel, CNN-GP with LAP and horizontal flip data augmentation, achieves 89% accuracy, matching the performance of AlexNet (Krizhevsky et al., 2012). Note that this is the best such result we know of for a classifier that is not a trained neural network. Similar improvements are obtained for Fashion-MNIST.
研究の動機と目的
- 固定カーネルを用いた画像分類における CNTK/CNN-GP の制限を調査する。
- カーネル回帰にデータ拡張を効率的に組み込む方法を開発する。
- Local Average Pooling (LAP) とパッチベースの前処理技術を提案し、CNTK/CNN-GP の精度を向上させる。
- 対称性群の下で拡張カーネルとデータ拡張の同等性を示す。
提案手法
- CNTK/CNN-GP の動的計画法の定式化から派生した対称性ベースのプーリング変種として Local Average Pooling (LAP) を導入する。
- LAP が GAP の全計算コストを伴わない局所的翻訳データ拡張の一形態と同等であることを示す。
- Coates ら (2011) のパッチベース前処理スキームを定義・利用し、トレーニングパッチからランダムな畳み込みフィルタを生成する。
- LAP を水平翻転拡張とカーネルリッジ回帰と組み合わせ、CIFAR-10 と Fashion-MNIST における改善を評価する。
- 拡張カーネルと GAP が円形パディング下での完全な翻訳データ拡張に対応することを示し、LAP を局所的な類推として導出する。
実験結果
リサーチクエスチョン
- RQ1LAP によってカーネル計算へデータ拡張を組み込むことで CNTK/CNN-GP の性能を著しく向上させることができるか?
- RQ2CNTK/CNN-GP における Local Average Pooling (LAP) は Global Average Pooling (GAP) やプーリングなしと比べてどうか?
- RQ3ランダムパッチを用いたパッチベース前処理ステップは、CIFAR-10 で訓練済み CNN に匹敵する非訓練カーネル手法へと高めるか?
- RQ4LAP と水平翻転拡張が異なるネットワークの深さとデータセット(CIFAR-10、Fashion-MNIST)で与える影響は何か?
主な発見
- LAP を用いた CNN-GP は CIFAR-10 で 81% の精度を達成し、従来の最良カーネル予測器を約3% 上回る。
- LAP と水平翻転拡張を組み合わせた CNN-GP は CIFAR-10 で 89% の精度に達し、AlexNet の性能に匹敵しつつ非訓練のままである。
- CNTK および CNN-GP に LAP を適用すると CIFAR-10 および Fashion-MNIST におけるベースラインを一貫して改善する。
- Coates ら (2011) のアプローチを用いたランダムパッチをフィルタとして、LAP と水平反転を組み合わせると大きな改善が得られ、深層ネットワークを用いない設定で CIFAR-10 で最大 88.92% を達成(AlexNet に匹敵)した。
- Fashion-MNIST では LAP が CNTK/CNN-GP の性能を改善し、中程度の c 値で最良の結果が観察される一方、水平翻転拡張は CIFAR-10 と比べて影響が小さい。
- 追加前処理(ランダムパッチ、ZCA、平均 centering)を組み合わせた CNTK/CNN-GP の第二のアプローチは、Coates ら のベースラインを超えて CIFAR-10 の性能をさらに向上させ、AlexNet レベルの結果に近づける。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。