Skip to main content
QUICK REVIEW

[論文レビュー] Predicting Neural Network Accuracy from Weights

Thomas Unterthiner, Daniel Keysers|arXiv (Cornell University)|Feb 26, 2020
Adversarial Robustness in Machine Learning参考文献 33被引用数 38
ひとこと要約

この論文は、CNNの期待精度を訓練済みウェイトだけから推定できることを示し、単純な統計と機械学習モデルを用い、予測信号のデータセットとアーキテクチャ間での転移を示している。

ABSTRACT

We show experimentally that the accuracy of a trained neural network can be predicted surprisingly well by looking only at its weights, without evaluating it on input data. We motivate this task and introduce a formal setting for it. Even when using simple statistics of the weights, the predictors are able to rank neural networks by their performance with very high accuracy (R2 score more than 0.98). Furthermore, the predictors are able to rank networks trained on different, unobserved datasets and with different architectures. We release a collection of 120k convolutional neural networks trained on four different datasets to encourage further research in this area, with the goal of understanding network training and performance better.

研究の動機と目的

  • CNNのウェイトのみからの精度予測問題を動機づけ、形式化する。
  • 研究を可能にするよう varied hyperparameters and datasets を備えた大規模なCNNデータセットを作成・公開する。
  • ウェイトベースの予測子が高い忠実度(R^2)でネットワークを精度順にランク付けできることを実証する。
  • 小規模なデータセットからアーキテクチャ間(ドメインシフト)で予測信号の転移を探索する。

提案手法

  • 訓練済みウェ weights に基づく入力データを予測時にアクセスせず、期待される精度へマッピングする正式な設定。
  • 固定された小規模CNNアーキテクチャを用いて4データセット、各データセット30k構成からSmall CNN Zooデータセットを構築する。
  • ウェイトベースの特徴量をテスト精度へマッピングする複数の予測モデル(GBM、DNN、L-Linear)を訓練し、クロスバリデーションで最適化する。
  • ウェイトからの入力特徴表現を探索する(全フラット化ウェイト、層ごとの統計、ウェイトノルム)。
  • データセット・アーキテクチャ間の転移に対してR^2・MSE・Kendallのτで予測性能を評価する。

実験結果

リサーチクエスチョン

  • RQ1訓練済みウェイトのみで未知データ上のCNNの期待精度を予測できるか?
  • RQ2単純なウェイトベース統計は異なるデータセットやアーキテクチャ間での精度をどれほど正確に予測するか(ドメインシフト)?
  • RQ3どのウェイト由来の特徴が精度予測に最も適しており、異なる予測モデルはどう比較されるか?
  • RQ4小規模なアーキテクチャから大規模(過剛性)アーキテクチャへ移行した場合、予測力の転移は成立するか?

主な発見

  • GBMとDNNの予測子は、すべてのデータセットにおいて線形ロジット基準を上回る性能を示す。層ごとの統計 ̈W_L̈ を用いたGBMが最も強い性能を達成。
  • 全体のフラット化ウェイトベクトル W または最後の密結合層 W^4 のみを用いただけでも強い予測性能を示し、層ごとの統計 ̈W_L̈ は多くのケースで最良の性能を発揮する(例:いくつかのデータセットでR^2が約0.993に達する)。
  • 層ごとの統計 ̈W_L̈ は予測に最も強力でデータ効率の高い特徴を提供し、_raw_ウェイトや層ごとのノルムよりも優れているケースが多い。
  • あるデータセットで訓練された予測子は、別のデータセットで訓練されたネットワークを合理的にランク付けでき、 Kendallのτの値は意味のある順位相関を示す(例:一部の転移で最大0.93)。
  • 予測はある程度の不変性を示す(例:ウェイトのスケーリングや畳み込み層の順列は不変性を生むが、モデルは最も密結合層の順列に対して敏感である)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。