QUICK REVIEW

[論文レビュー] Assaying Out-Of-Distribution Generalization in Transfer Learning

Florian Wenzel, Andrea Dittadi|arXiv (Cornell University)|Jul 19, 2022

Domain Adaptation and Few-Shot Learning参考文献 117被引用数 26

ひとこと要約

本論文は、転移学習におけるOODロバストネスの大規模で統一的な研究を実施し、アーキテクチャ、微調整、データ拡張が172件のID–OODデータセットペア、31kモデル、9つのアーキテクチャにわたるOOD性能へどう影響するかを評価する。

ABSTRACT

Since out-of-distribution generalization is a generally ill-posed problem, various proxy targets (e.g., calibration, adversarial robustness, algorithmic corruptions, invariance across shifts) were studied across different research programs resulting in different recommendations. While sharing the same aspirational goal, these approaches have never been tested under the same experimental conditions on real data. In this paper, we take a unified view of previous work, highlighting message discrepancies that we address empirically, and providing recommendations on how to measure the robustness of a model and how to improve it. To this end, we collect 172 publicly available dataset pairs for training and out-of-distribution evaluation of accuracy, calibration error, adversarial attacks, environment invariance, and synthetic corruptions. We fine-tune over 31k networks, from nine different architectures in the many- and few-shot setting. Our findings confirm that in- and out-of-distribution accuracies tend to increase jointly, but show that their relation is largely dataset-dependent, and in general more nuanced and more complex than posited by previous, smaller scale studies.

研究の動機と目的

現実的な下流タスクにおける転移学習のOODロバストネスを統一的に評価する必要性を喚起する。
一貫した実験プロトコルの下で、アーキテクチャタイプ、ファインチューニング戦略、拡張手法を系統的に比較する。
多様なシフトにわたるID精度とOOD性能の関係を定量化する。
ID精度を超える一般的なロバストネスメトリクスがOODロバストネスを予測する情報量を評価する。

提案手法

共通ラベルを持つ10タスクにまたがる36データセットから、172組の(ID, OOD)データセットペアを構築する。
固定の下流転送プロトコルと単一GPUトレーニングを用いて、9つのアーキテクチャに対して31kモデルをファインチューニングする。
精度、NLL、較正誤差、敵対的ロバストネスなどを含む6つの指標を用いて、ID、OOD、および破損データを評価する。
2つのファインチューニング戦略（全モデル vs. ヘッドのみ）と3つの拡張レジーム（拡張なし、RandAugment、AugMix）を比較する。
IDデータからOODデータへの指標の転移性と、データセット/タスクのシフトに対する結果の依存性を分析する。

実験結果

リサーチクエスチョン

RQ1単一のデータセットしか利用できない場合、OODロバストネスの良い代理指標は何か。
RQ2アーキテクチャの選択とファインチューニング戦略は、転移学習における分布シフトへのロバストネスにどう影響するか。
RQ3ID精度を超える一般的なロバストネスメトリクスは、OOD性能について有意義な情報を提供するか。
RQ4タスク間でID精度とOOD精度の間に一貫した線形関係があるか、それとも結果はタスク依存か。
RQ5上流データセット（ImageNet）でのロバストネスの知見は、下流のOODロバストネスにどれだけ翻訳されるか。

主な発見

ID精度は、タスクやシフトを問わず、OODロバストネスの最も強い予測因子である。
保持されたOODデータでの精度を評価することは、下流のOOD性能をより強く予測する。
IDデータ上の較正と不変性指標は、OOD-heldoutデータがない場合、OOD設定へ移行すると伝搬が乏しい。一方、特定条件下では不変性指標が較正と関連し得る。
ID精度を補正した場合、自然な分布シフトに対するSynthetic corruptionsの予測力は限定的だが、破損した較正はOODの較正を知らせることがある。
拡張はIDとOODの双方の性能を改善し、特にデータが少ない領域で有効である。全体データでは通常、全結合のファインチューニングがヘッドのみのファインチューニングより上回るが、データが不足している場合はヘッドのみが有利になり得る。
アーキテクチャの選択（例：ViT系とDeiT/Swin）によってOOD性能に影響がある。転送最適化されたモデルは、IDとOODのギャップが異なることがあり、頑健性にはアーキテクチャが重要であることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。