[论文解读] Wild-Time: A Benchmark of in-the-Wild Distribution Shift over Time
Wild-Time 基准在多样的真实任务中随时间演变的分布偏移,并评估13种方法;结果显示在ID到OOD的下降很大,且在ERM之上, invariant、自监督或集成方法并未带来持续收益。
Distribution shift occurs when the test distribution differs from the training distribution, and it can considerably degrade performance of machine learning models deployed in the real world. Temporal shifts -- distribution shifts arising from the passage of time -- often occur gradually and have the additional structure of timestamp metadata. By leveraging timestamp metadata, models can potentially learn from trends in past distribution shifts and extrapolate into the future. While recent works have studied distribution shifts, temporal shifts remain underexplored. To address this gap, we curate Wild-Time, a benchmark of 5 datasets that reflect temporal distribution shifts arising in a variety of real-world applications, including patient prognosis and news classification. On these datasets, we systematically benchmark 13 prior approaches, including methods in domain generalization, continual learning, self-supervised learning, and ensemble learning. We use two evaluation strategies: evaluation with a fixed time split (Eval-Fix) and evaluation with a data stream (Eval-Stream). Eval-Fix, our primary evaluation strategy, aims to provide a simple evaluation protocol, while Eval-Stream is more realistic for certain real-world applications. Under both evaluation strategies, we observe an average performance drop of 20% from in-distribution to out-of-distribution data. Existing methods are unable to close this gap. Code is available at https://wild-time.github.io/.
研究动机与目标
- 在现实数据集上评估模型在逐步的时间分布偏移下的退化。
- 提供一个带时间戳数据的标准化基准和两种评估协议(Eval-Fix 和 Eval-Stream)。
- 在时序鲁棒性上对广泛基线进行评估(ERM、持续学习、不变学习、自监督和集成)。
提出的方法
- 整理5个具有时间戳数据、反映跨视觉、医疗保健和NLP的时间性偏移的数据集。
- 提出两种评估策略:Eval-Fix(固定的训练-测试时间分割)和 Eval-Stream(带时间戳的数据流)。
- 通过为时间域构建滑动窗口来创建域,从而将不变学习方法适应于时间域。
- 基准测试13种方法,包括 ERM、Fine-tuning、EWC、SI、A-GEM、CORAL-T、IRM-T、GroupDRO-T、LISA、mixup、SimCLR、SwaV、和 SWA。
- 按相应报告准确度或 ROC-AUC,并比较 ID 与 OOD 的表现。
实验结果
研究问题
- RQ1在跨多个领域的时间偏移下,训练内分布到训练外分布的性能下降有多大?
- RQ2现有的不变学习、持续学习、自监督或集成方法在时间鲁棒性方面是否优于标准的 ERM?
- RQ3不同的评估协议(Eval-Fix 与 Eval-Stream)如何影响对时间鲁棒性和方法有效性的感知?
- RQ4是否可以有效利用时间戳元数据在未分割的数据流中为不变学习构建时间域?
主要发现
- 在各数据集上,OOD 表现显著劣于 ID 表现,表明存在强烈的时间分布偏移。
- 不变学习方法(CORAL-T、GroupDRO-T、IRM-T、LISA、mixup)很少在 Wild-Time 任务上优于 ERM。
- 递增训练方法在某些数据集上提升了部分OOD指标(如 arXiv、MIMIC-Readmission),但并未在所有任务中保持一致。
- 自监督学习和集成方法在时间鲁棒性上并未显示出相对于 ERM 的稳定收益。
- 在 Eval-Stream 中,结果与 Eval-Fix 大体一致,强调了持续的时间鲁棒性差距。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。