Skip to main content
QUICK REVIEW

[論文レビュー] A multiscale neural network based on hierarchical matrices

Yuwei Fan, Lin Lin|arXiv (Cornell University)|Jul 5, 2018
Neural Networks and Applications参考文献 61被引用数 23
ひとこと要約

本稿では、階層行列($\mathcal{H}$-行列)にインspiredされたマルチスケールニューラルネットワーク(MNN)を導入し、偏微分方程式や積分方程式からの非線形写像を効率的に近似することを目的としている。複数の空間スケールで線形カーネル演算を深く非線形なネットワークに置き換えることで、MNNは$O(N\log N)$の計算複雑性を達成し、非線形シュレーディンガー方程式 や Kohn-Sham密度汎関数理論 からの挑戦的な非線形写像を、限られた学習データでも相対誤差$10^{-4}$から$10^{-3}$の範囲で近似する。

ABSTRACT

In this work we introduce a new multiscale artificial neural network based on the structure of $\mathcal{H}$-matrices. This network generalizes the latter to the nonlinear case by introducing a local deep neural network at each spatial scale. Numerical results indicate that the network is able to efficiently approximate discrete nonlinear maps obtained from discretized nonlinear partial differential equations, such as those arising from nonlinear Schrödinger equations and the Kohn-Sham density functional theory.

研究の動機と目的

  • 偏微分方程式および積分方程式からの非線形解写像を近似する際の高い計算コスト、特にグローバルパラメータ化に膨大な数のパラメータを要する場合に対処すること。
  • 線形問題に成功した階層行列フレームワークを、深層ニューラルネットワークを用いて非線形領域へと拡張すること。
  • マルチスケール構造と階層的圧縮を活用した、パラメータ効率の良い非線形演算子用アーキテクチャの開発。
  • 非線形シュレーディンガー方程式 や Kohn-Sham 写像 といった極めて非線形な写像に対する本手法の有効性の実証。
  • 限られた学習データでも過学習が少なく、一般化性能が高いことを示すこと。

提案手法

  • 方法は、$\mathcal{H}$-行列演算を、三つの構成要素(制限(LCR)、カーネル(LCK)、補間(LCI))を持つニューラルネットワークに再定式化する。各部は異なる空間スケールで動作する。
  • LCKネットワークは、非線形写像をモデル化するため、活性化関数を備えた深く非線形な多層ネットワークに置き換えられるが、LCRおよびLCIは次元削減と再構成のため線形のまま保たれる。
  • ネットワーク構造は階層的に構築される:粗いスケールの表現が非線形カーネルを経て、より細かいスケールに補間され、全スケールにわたる寄与が合算される。
  • 翻訳不変性の有無に応じて、局所接続(LC)および畳み込み(CNN)ネットワークの両方をサポートする。
  • 演算子のマルチスケール分解を用い、近隣領域の寄与は対角行列で処理し、遠方領域の相互作用は階層的低ランク構造で圧縮する。
  • ネットワークは、基礎となるPDEまたはIEからの入力-出力ペairのデータセット上で損失を最小化するように、エンドツーエンドに学習され、解写像$u = \mathcal{M}(v)$を近似する。

実験結果

リサーチクエスチョン

  • RQ1深層ニューラルネットワークを用いて、階層行列構造を非線形演算子へ一般化し、低複雑性を維持できるか?
  • RQ2$\mathcal{H}$-行列に基づくマルチスケールニューラルネットワークアーキテクチャは、極めて非線形なPDEおよびIE解写像に対して、少数のパラメータで高い精度を達成できるか?
  • RQ3提案されたMNNアーキテクチャは、限られた学習サンプルでも未学習データに対して良好に一般化できるか?
  • RQ4問題サイズの増大に伴い、ネットワークの性能はどのようにスケーリングするか?大規模問題において$O(N\log N)$の複雑性を達成できるか?
  • RQ5本アーキテクチャは、振動的または周期的でない挙動を示す演算子など、異なる種類の演算子に対しても適応可能か?

主な発見

  • Kohn-Sham写像(2次元)において、$K=6$の条件下で16,000件の学習データおよび4,000件のテストデータを用い、相対近似誤差が$1.2 \times 10^{-3}$から$9.1 \times 10^{-4}$の範囲に収まる。
  • 非線形シュレーディンガー方程式に対しては、相対誤差が$10^{-4}$から$10^{-3}$の範囲に収まり、極めて非線形な写像において高い精度を示した。
  • 異なるランクパラメータ$r$においても、学習誤差と検証誤差が一貫しており、限られた学習データでも過学習が生じていないことが示された。
  • MNNの計算複雑性は$O(N\log N)$にスケーリングされ、繰り返し評価を要する大規模問題に対しても効率的である。
  • 異なるパrameter領域に対しても一般化性能が高く、入力パrameterの変動に対してロバストであることが示唆された。
  • アーキテクチャは柔軟であり、非周期的領域や、LC/CNNの混合構成、$\mathcal{H}^2$-行列やウェーブレットなど、他の階層行列構造への拡張も可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。