QUICK REVIEW

[論文レビュー] Ensemble of Averages: Improving Model Selection and Boosting Performance in Domain Generalization

Devansh Arpit, Huan Wang|arXiv (Cornell University)|Oct 21, 2021

Domain Adaptation and Few-Shot Learning参考文献 45被引用数 47

ひとこと要約

本論文は、単純な移動平均モデルプロトコル(SMA)と移動平均モデルのアンサンブル(EoA)を提案し、ハイパーパラメータ調整なしでドメイン一般化を向上させ、アウト・オブ・ドメイン性能を安定化させ、モデル選択の信頼性を高める。DomainBedのベンチマーク全体で、EoAがERMベースラインおよび従来のDG手法を上回ることを示し、理論的なバイアス-分散の洞察を提供する。

ABSTRACT

In Domain Generalization (DG) settings, models trained independently on a given set of training domains have notoriously chaotic performance on distribution shifted test domains, and stochasticity in optimization (e.g. seed) plays a big role. This makes deep learning models unreliable in real world settings. We first show that this chaotic behavior exists even along the training optimization trajectory of a single model, and propose a simple model averaging protocol that both significantly boosts domain generalization and diminishes the impact of stochasticity by improving the rank correlation between the in-domain validation accuracy and out-domain test accuracy, which is crucial for reliable early stopping. Taking advantage of our observation, we show that instead of ensembling unaveraged models (that is typical in practice), ensembling moving average models (EoA) from independent runs further boosts performance. We theoretically explain the boost in performance of ensembling and model averaging by adapting the well known Bias-Variance trade-off to the domain generalization setting. On the DomainBed benchmark, when using a pre-trained ResNet-50, this ensemble of averages achieves an average of $68.0\%$, beating vanilla ERM (w/o averaging/ensembling) by $\sim 4\%$, and when using a pre-trained RegNetY-16GF, achieves an average of $76.6\%$, beating vanilla ERM by $6\%$. Our code is available at https://github.com/salesforce/ensemble-of-averages.

研究の動機と目的

DGにおける最適化ダイナミクスが、インドメインとアウトドメインの性能をなぜ混乱させるのかを調査する。
DGの性能を安定化・向上させる、単純でハイパーパラメータの不要な移動平均プロトコルを提案する。
移動平均モデルのアンサンブル(EoA)が、従来のアンサンブルよりさらなる利得をもたらすことを示す。
ドメイン一般化へBias-Variance分解を適用して理論的洞察を提供する。
複数のバックボーンを横断するDomainBed上で、SMAとEoAをERMおよび最新のDG手法と比較評価する。

提案手法

学習中にオンライン（平均化されていない）モデルと移動平均（MA）モデルを定義する。
テール平均化を提案する：t0回の反復後にSMAを開始し、終端まで維持し、検証とテストにSMAを用いる。
SMAがインドメインの検証精度とアウトドメインのテスト精度の順位相関を改善し、信頼性の高いモデル選択につながることを示す。
移動平均モデルのアンサンブル(EoA)が、未平均化モデルのアンサンブルより優れていることを示す。
平均化/アンサンブルがアウトドメイン誤差を抑える理論的根拠として、バイアス-分散に基づく説明を提供する。
DomainBedデータセット上で、3つの事前学習済みバックボーン（ResNet-50、ResNeXt-50 32x4d、RegNetY-16GF）でベンチマークする。

実験結果

リサーチクエスチョン

RQ1ハイパーパラメータ不要な移動平均プロトコル(SMA)は、アウトドメインの不安定性を減らし、DGにおける信頼性の高い早期停止を改善するか？
RQ2DGベンチマークにおいて、移動平均モデルのアンサンブル(EoA)はオンラインモデルのアンサンブルや単一モデルを上回れるか？
RQ3Bias-Varianceの視点がDGにどのように適用し、モデル平均化とアンサンブルの利得を説明するか？
RQ4より大きな事前学習モデルとデータセットは、DGにおけるSMAとEoAの利点を増幅するか？
RQ5SMAは、データセット間でのインドメイン検証とアウトドメインテストの性能の順位相関にどう影響するか？

主な発見

Algorithm	PACS	VLCS	OfficeHome	TerraIncognita	DomainNet	Avg
ResNet-50 (ImageNet pre-trained) - ERM (our runs)	84.4 ± 0.8	77.1 ± 0.5	66.6 ± 0.2	48.3 ± 0.2	43.6 ± 0.1	64.0
ResNet-50 (ImageNet pre-trained) - Ensemble (our runs)	87.6	78.5	70.8	49.2	47.7	66.8
ResNet-50 (ImageNet pre-trained) - ERM [18]	85.7	77.4	67.5	47.2	41.2	63.8
ResNet-50 (ImageNet pre-trained) - SWAD	88.1	79.1	70.6	50.0	46.5	66.9
ResNet-50 (ImageNet pre-trained) - MIRO	85.4	79.0	70.5	50.4	44.3	65.9
ResNet-50 (ImageNet pre-trained) - SMA (ours)	87.5	78.2	70.6	50.3	46	66.5
ResNet-50 (ImageNet pre-trained) - EoA (ours)	88.6	79.1	72.5	52.3	47.4	68.0
ResNeXt-50 32x4d - ERM (our runs)	88.9	79.0	70.9	51.4	48.1	67.7
ResNeXt-50 32x4d - Ensemble (our runs)	91.2	80.3	77.8	53.5	52.8	71.1
ResNeXt-50 32x4d - SMA (ours)	92.7	79.7	78.6	53.3	53.5	71.6
ResNeXt-50 32x4d - EoA (ours)	93.2	80.4	80.2	55.2	54.6	72.7
RegNetY-16GF - ERM (our runs)	92	78.6	73.8	55.6	53.1	70.6
RegNetY-16GF - Ensemble (our runs)	95.1	80.6	80.5	59.5	57.8	74.7
RegNetY-16GF - SMA (ours)	95.5	80.7	82.0	59.7	60.0	75.6
RegNetY-16GF - EoA (ours)	95.8	81.1	83.9	61.1	60.9	76.6

SMAは、インドメイン検証精度とアウトドメインテスト精度の順位相関を改善し、信頼性の高いモデル選択を支援する。
EoAは、複数のデータセットとバックボーンアーキテクチャに渡り、未平均化モデルのアンサンブルを一貫して上回る。
DomainBedでResNet-50 ImageNet事前学習の場合、EoAは68.0の平均精度を達成、ERMの64.0を上回り、SWADより1.1ポイント高い。
ResNeXt-50 32x4dでは、EoAは72.7の平均に達し、ERMの67.7を上回る。
RegNetY-16GFでは、EoAは76.6の平均に達し、ERMの70.6を大きく上回る。
理論的枠組みは、DGにおけるバイアス優位のアンサンブル結果と結びつき、フラットミニマの説明とは対照的である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。