QUICK REVIEW

[論文レビュー] Convolutional Neural Networks combined with Runge-Kutta Methods

Mai Zhu, Bo Chang|arXiv (Cornell University)|Feb 24, 2018

Model Reduction and Neural Networks参考文献 36被引用数 31

ひとこと要約

本稿では、事前活性化ResNetsを単にオイラー法に基づくダイナミクスではなく、高次ランゲ＝クッタ（RK）法の近似として再解釈することにより、ランゲ＝クッタ畳み込みニューラルネットワーク（RKCNN）を提案する。高次IRK法の陰的方程式をネットワークアーキテクチャ内に直接近似することで、推論時に反復的ソルバーを排除し、FLOPsとパラメータ数を著しく削減しながら、MNIST、SVHN、CIFARベンチマークで最先端の精度を達成した。ODEベースのモデルやResNetsを上回る性能を発揮した。

ABSTRACT

A convolutional neural network can be constructed using numerical methods for solving dynamical systems, since the forward pass of the network can be regarded as a trajectory of a dynamical system. However, existing models based on numerical solvers cannot avoid the iterations of implicit methods, which makes the models inefficient at inference time. In this paper, we reinterpret the pre-activation Residual Networks (ResNets) and their variants from the dynamical systems view. We consider that the iterations of implicit Runge-Kutta methods are fused into the training of these models. Moreover, we propose a novel approach to constructing network models based on high-order Runge-Kutta methods in order to achieve higher efficiency. Our proposed models are referred to as the Runge-Kutta Convolutional Neural Networks (RKCNNs). The RKCNNs are evaluated on multiple benchmark datasets. The experimental results show that RKCNNs are vastly superior to other dynamical system network models: they achieve higher accuracy with much fewer resources. They also expand the family of network models based on numerical methods for dynamical systems.

研究の動機と目的

推論時に反復的陰的ソルバーに依存する既存のODEベースのニューラルネットワークの非効率性を解消すること。
事前活性化ResNetsおよびその変種を、単にオイラー法に基づくダイナミクスではなく、高次ランゲ＝クッタ法の近似として再解釈すること。
反復的解法ステップを必要とせず、陰的ランゲ＝クッタ法の安定性と精度を活用する新しいニューラルネットワークのクラス—RKCNNを構築すること。
最先端のODEベースのモデルや標準的なResNetsと比較して、より高い精度と低い計算コストを達成すること。

提案手法

事前活性化ResNetsの残差ブロックを、単に前進オイラー法ではなく、高次ランゲ＝クッタ法における時間刻みの増分の近似として再解釈すること。
陰的ランゲ＝クッタ（IRK）法の陰的方程式を、ニューラルネットワークを用いて直接近似することで、推論時にニュートン型の反復的ソルバーを不要にする。
RKCNN-E（明示的RK）、RKCNN-I（陰的RK）、RKCNN-R（ローゼンブロック型）の3つのバリエーションを設計し、それぞれ異なる段階数とチャネル構成を持つ。
ネットワーク全体をエンドツーエンドで学習し、残差マッピングが係数と導関数評価を含む完全なRK法の増分を近似するように学習する。
従来の研究がODE右辺関数のみを近似するのではなく、単一のニューラルネットワークでRK法の全式を近似する。
RK法の構造をネットワークアーキテクチャに統合し、順伝播が選択されたRKスキームの段階と重みに自然に従うように設計する。

実験結果

リサーチクエスチョン

RQ1事前活性化ResNetsを、単に1次元のオイラー法ではなく、高次ランゲ＝クッタ法として意味的に解釈できるか？
RQ2高次ランゲ＝クッタ法の陰的方程式を、ニューラルネットワークで効果的に近似できるか、これにより推論時に反復的ソルバーを排除できるか？
RQ3ランゲ＝クッタ法に基づくニューラルネットワークアーキテクチャは、既存のODEベースのモデルや標準的なResNetsと比較して、より高い精度と低いFLOPsを達成できるか？
RQ4明示的、陰的、ローゼンブロック型の異なるランゲ＝クッタ法の種別が、画像分類のためのCNNに組み込まれた場合、それぞれどのように性能を発揮するか？

主な発見

RKCNNは、競合モデルと比較して、MNIST、SVHN、CIFAR-10で最先端の精度を達成し、パラメータ数とFLOPsを著しく削減した。
CIFAR-100では、RKCNN-Rがテスト誤差17.00%（±0.42）を達成し、事前活性化ResNetやDenseNetを含むすべての競合モデルを上回った。
RKCNN-IとRKCNN-Rは、RKCNN-Eおよび他のODEベースのモデルよりも低いテスト誤差を達成し、陰的およびローゼンブロック型法の優位性を示した。
RKCNNのパラメータ数とFLOPsは、DenseNet や CliqueNet などの最先端モデルの約10%にとどまり、高い効率性を示した。
最も優れた性能を発揮したRKCNNは、1段階あたり80～180チャネル、合計5～6段階の構成を採用しており、深さと幅の増加が性能向上に寄与することを示した。
提案手法は、推論時に反復的陰的ソルバーのステップを完全に排除したため、従来のODEベースのネットワークと比較して、著しく高速かつメモリ効率が良かった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。