[論文レビュー] Training independent subnetworks for robust prediction
この論文は MIMO を提案する。これは単一のネットワーク内で複数の独立したサブネットワークを訓練し、それらのアンサンブル予測を1 回の前方伝播で計算する多入力多出力構成で、追加の計算なしにロバスト性と不確実性を向上させる。
Recent approaches to efficiently ensemble neural networks have shown that strong robustness and uncertainty performance can be achieved with a negligible gain in parameters over the original network. However, these methods still require multiple forward passes for prediction, leading to a significant computational cost. In this work, we show a surprising result: the benefits of using multiple predictions can be achieved `for free' under a single model's forward pass. In particular, we show that, using a multi-input multi-output (MIMO) configuration, one can utilize a single model's capacity to train multiple subnetworks that independently learn the task at hand. By ensembling the predictions made by the subnetworks, we improve model robustness without increasing compute. We observe a significant improvement in negative log-likelihood, accuracy, and calibration error on CIFAR10, CIFAR100, ImageNet, and their out-of-distribution variants compared to previous methods.
研究の動機と目的
- ニューラルネットワークにおける堅牢な不確実性推定と out-of-distribution ロバスト性の動機付け。
- 1つのネットワーク内で複数の独立したサブネットワークを可能にするシンプルなアーキテクチャ変更を提案。
- サブネットワークが共有本体内で多様で独立して訓練されたモデルとして機能することを示す。
- MIMO が最小限の追加パラメータと計算で最先端または競合的なロバスト性を達成することを示す。
提案手法
- 入力層を M入力を受け付けるように置換し、それらを連結する。出力層を置換して各入力に対応する M 出力を生成する。
- M個の独立した入力–出力ペアをサンプリングし、それらのネガティブ対数尤度の和と正則化を最小化して訓練する。
- テスト時には同じ入力をM回タイル状に配置し、M個の出力を平均してアンサンブル予測を形成する。
- サブネットワークがパラメータ空間の互いに交わらない領域を占有することを示し、独立に訓練されたアンサンブルに類似した多様性を実現する。
- ベースライン(Deterministic、MC-Dropout、Naive Multihead、TreeNet、BatchEnsemble、 ensembles)と標準ベンチマークで比較する。
- サブネットワークの多様性、損失地形、容量、入力/バッチの繰り返し、入力間の相関の影響の解析を提供する。
実験結果
リサーチクエスチョン
- RQ1単一のネットワーク内で複数の独立したサブネットワークを訓練して計算量を増やさず、堅牢性と不確実性の指標を維持または向上させることができるか。
- RQ2サブネットワークは多様で独立して訓練されたモデルとして機能し、他の効率的なアンサンブル法と比較してその多様性はどうか。
- RQ3個々のサブネットワークの性能とアンサンブル利得のトレードオフを考慮した場合、与えられたアーキテクチャ/データセットに対して最適なサブネットワーク数 M はどれくらいか。
- RQ4入力の独立性とアーキテクチャ的共有が MIMO アンサンブルの多様性とロバスト性にどう影響するか。
- RQ5MIMO は単一ネットワークの前方伝播と同程度の wall-clock コストを保ちながら最先端のロバスト性や不確実性に近づく、またはそれを上回ることができるか。
主な発見
- MIMO はパラメータと FLOP の overhead をほとんど増やすことなく、1つのネットワーク内で複数の多様なサブネットワークを同時訓練できる。
- サブネットワークはネットワークの異なる部分を使用する傾向があり、互いに異なる局所最適解に収束して、独立に訓練されたアンサンブルに匹敵する多様な予測を生み出す。
- CIFAR10、CIFAR100、ImageNet(out-of-distribution バリアントを含む)全体で、MIMO は単一前方伝播の下で負の対数尤度、精度、キャリブレーション誤差をベースラインより改善する。
- ウォールクロック時間を考慮すると、MIMO は深いアンサンブルが達成する最先端のロバスト性と不確実性指標に近づくか、同等であり、計算コストを増やさない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。