[论文解读] A Survey on Evaluation of Out-of-Distribution Generalization
本文综述了对 Out-of-Distribution (OOD) 泛化的评估方法,按数据可用性将方法分为 OOD 性能测试、预测和内在属性表征,并讨论基准、数据集以及预训练模型情境。
Machine learning models, while progressively advanced, rely heavily on the IID assumption, which is often unfulfilled in practice due to inevitable distribution shifts. This renders them susceptible and untrustworthy for deployment in risk-sensitive applications. Such a significant problem has consequently spawned various branches of works dedicated to developing algorithms capable of Out-of-Distribution (OOD) generalization. Despite these efforts, much less attention has been paid to the evaluation of OOD generalization, which is also a complex and fundamental problem. Its goal is not only to assess whether a model's OOD generalization capability is strong or not, but also to evaluate where a model generalizes well or poorly. This entails characterizing the types of distribution shifts that a model can effectively address, and identifying the safe and risky input regions given a model. This paper serves as the first effort to conduct a comprehensive review of OOD evaluation. We categorize existing research into three paradigms: OOD performance testing, OOD performance prediction, and OOD intrinsic property characterization, according to the availability of test data. Additionally, we briefly discuss OOD evaluation in the context of pretrained models. In closing, we propose several promising directions for future research in OOD evaluation.
研究动机与目标
- 基于测试数据可用性识别并分类用于评估 OOD 泛化的主要范式。
- 总结当前的数据集、基准和评估协议如何在视觉、文本和表格域中支持 OOD 评估。
- 讨论模型选择、数据泄露和漂移分析方面的挑战,以指导未来的 OOD 评估研究。
- 突出在预训练模型和大语言模型背景下 OOD 评估的作用。
提出的方法
- 将 OOD 评估分为三种范式:性能测试、性能预测和内在属性表征。
- 描述用于产生和研究分布漂移的合成、视觉、文本和表格数据集。
- 回顾基准(例如 DomainBed、SubpopBench、WILDS、WHYSHIFT)及用于理解漂移和性能的分析方法。
- 讨论模型选择问题以及测试数据泄露对公平 OOD 评估的影响。
- 概述预训练模型和 LLMs 的 OOD 评估考虑因素。
实验结果
研究问题
- RQ1在 OOD 测试数据可用性不同的情况下,评估 OOD 泛化的主要范式有哪些?
- RQ2OOD 数据集、基准和评估协议如何设计,以测试跨数据模态的分布漂移?
- RQ3存在哪些方法来分析和解释 OOD 性能及潜在的分布漂移?
- RQ4OOD 评估如何扩展到预训练模型和大语言模型?
- RQ5哪些未来方向可以提高 OOD 评估的可靠性和实用性?
主要发现
- 基于测试数据可用性,OOD 评估分为性能测试、性能预测和内在属性表征。
- 大量的合成、视觉、文本和表格数据集和基准支持多样的分布漂移和评估需求。
- 像 DomainBed、SubpopBench、WILDS 这样的基准标准化 OOD 评估,并解决模型选择和泄漏等问题。
- 分析方法如 Shapley 值、基于传输的分解以及基于区域的风险分析有助于将性能变化归因于特定漂移。
- 在预训练模型和 LLMs 背景下越来越重视 OOD 评估,标志着评估协议的适用性正在向更广泛的方向发展。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。