Skip to main content
QUICK REVIEW

[論文レビュー] Wild-Time: A Benchmark of in-the-Wild Distribution Shift over Time

Huaxiu Yao, Caroline Choi|arXiv (Cornell University)|Nov 25, 2022
Machine Learning in Healthcare被引用数 21
ひとこと要約

Wild-Time ベンチマークは現実世界の多様なタスクにおける時間的に進化する分布シフトを横断的に評価し、13 の手法を比較します。結果は ID から OOD への大きな低下を示し、ER M に対する不変、自己教師あり、またはアンサンブルのアプローチによる一貫した利得は見られませんでした。

ABSTRACT

Distribution shift occurs when the test distribution differs from the training distribution, and it can considerably degrade performance of machine learning models deployed in the real world. Temporal shifts -- distribution shifts arising from the passage of time -- often occur gradually and have the additional structure of timestamp metadata. By leveraging timestamp metadata, models can potentially learn from trends in past distribution shifts and extrapolate into the future. While recent works have studied distribution shifts, temporal shifts remain underexplored. To address this gap, we curate Wild-Time, a benchmark of 5 datasets that reflect temporal distribution shifts arising in a variety of real-world applications, including patient prognosis and news classification. On these datasets, we systematically benchmark 13 prior approaches, including methods in domain generalization, continual learning, self-supervised learning, and ensemble learning. We use two evaluation strategies: evaluation with a fixed time split (Eval-Fix) and evaluation with a data stream (Eval-Stream). Eval-Fix, our primary evaluation strategy, aims to provide a simple evaluation protocol, while Eval-Stream is more realistic for certain real-world applications. Under both evaluation strategies, we observe an average performance drop of 20% from in-distribution to out-of-distribution data. Existing methods are unable to close this gap. Code is available at https://wild-time.github.io/.

研究の動機と目的

  • 現実世界のデータセットを用いて、時間的分布シフトによりモデルがどの程度劣化するかを評価する。
  • タイムスタンプ付きデータと2つの評価プロトコル(Eval-Fix と Eval-Stream)を備えた標準化ベンチマークを提供する。
  • ERM、継続学習、不変性学習、自己教師あり、アンサンブルを含む広範なベースラインを時間的ロバスト性で評価する。

提案手法

  • 視覚、ヘルスケア、NLP にわたる時間シフトを反映するタイムスタンプ付きデータを5データセットキュレーションする。
  • 二つの評価戦略を提案する:Eval-Fix(固定の訓練-テスト時刻分割)と Eval-Stream(タイムスタンプのデータストリーム)。
  • 不変学習手法を時間的ドメインへ適応させ、スライディングウィンドウを用いてドメインを作成する時間的ロバストネスセットを構築する。
  • 13 のアプローチをベンチマークする:ERM、Fine-tuning、EWC、SI、A-GEM、CORAL-T、IRM-T、GroupDRO-T、LISA、mixup、SimCLR、SwaV、SWA。
  • 適合度に応じて accuracy または ROC-AUC を報告し、ID と OOD のパフォーマンスを比較する。

実験結果

リサーチクエスチョン

  • RQ1時間的シフトを跨いだ複数ドメインにおける ID から OOD へのパフォーマンス低下はどの程度大きいか?
  • RQ2既存の不変性学習、継続学習、自己教師あり、またはアンサンブル手法は、標準の ERM より時間的ロバスト性を改善できるか?
  • RQ3Eval-Fix と Eval-Stream の異なる評価プロトコルは、時間的ロバスト性と手法の有効性にどのような影響を与えるか?
  • RQ4時刻メタデータを効果的に活用して、未分割データストリームにおける不変学習の時間ドメインを構築できるか?

主な発見

  • データセットを通じて、OOD のパフォーマンスは ID のパフォーマンスを大きく下回り、時間的分布シフトが強いことを示している。
  • 不変学習手法(CORAL-T、GroupDRO-T、IRM-T、LISA、mixup)は Wild-Time タスクで ERM をほとんど上回らない。
  • Incremental training(逐次訓練)手法は特定データセットで一部の OOD 指標を改善するが、タスク間で一貫性はない(例:arXiv、MIMIC-Readmission)。
  • 自己教師あり学習およびアンサンブル手法は時間的ロバスト性において ERM を上回る一貫した利点を示さない。
  • Eval-Stream では結果は Eval-Fix と大筋で一致しており、時間的ロバスト性のギャップが持続していることを強調している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。