Skip to main content
QUICK REVIEW

[论文解读] Out-of-Distribution Generalization via Risk Extrapolation (REx)

David Krueger, Ethan Caballero|arXiv (Cornell University)|Mar 2, 2020
Domain Adaptation and Few-Shot Learning参考文献 68被引用 260
一句话总结

REx 引入风险外推(MM-REx 和 V-REx)通过在训练域之间实现风险等化来提高 OOD 泛化,在共变 Shift 下在若干任务中超过 IRM。

ABSTRACT

Distributional shift is one of the major obstacles when transferring machine learning prediction systems from the lab to the real world. To tackle this problem, we assume that variation across training domains is representative of the variation we might encounter at test time, but also that shifts at test time may be more extreme in magnitude. In particular, we show that reducing differences in risk across training domains can reduce a model's sensitivity to a wide range of extreme distributional shifts, including the challenging setting where the input contains both causal and anti-causal elements. We motivate this approach, Risk Extrapolation (REx), as a form of robust optimization over a perturbation set of extrapolated domains (MM-REx), and propose a penalty on the variance of training risks (V-REx) as a simpler variant. We prove that variants of REx can recover the causal mechanisms of the targets, while also providing some robustness to changes in the input distribution ("covariate shift"). By appropriately trading-off robustness to causally induced distributional shifts and covariate shift, REx is able to outperform alternative methods such as Invariant Risk Minimization in situations where these types of shift co-occur.

研究动机与目标

  • 解决多领域学习中的分布偏移,并实现对未见域的鲁棒泛化。
  • 引入风险外推(REx),通过在训练域之间实现风险等值来提供一种实现不变预测的原理化方法。
  • 提出 MM-REx(minimax extrapolation)和 V-REx(variance penalty)作为可扩展、实用的变体。
  • 提供与因果机制的理论联系,并与 Invariant Risk Minimization (IRM) 及 DRO 方法进行比较。
  • 展示 REx 在 CMNIST 变体、领域泛化基准和强化学习任务上的经验收益。

提出的方法

  • 将OOD风险定义为外推域分布上的最大风险(MM-REx)。
  • 通过可调的最小权重(lambda_min)允许训练风险的仿射组合并进行外推。
  • 引入一种更简单、稳定的变体,使用域风险方差(V-REx)并配合 beta 正则化项。
  • 证明风险等化可导出不变预测,并在给定假设下能恢复因果机制。
  • 在理论上将风险等化与在同方差结构方程模型(Homoskedastic SCM)假设下学习因果机制 Y 联系起来;给出定理1和定理2。
  • 将 REx 与 IRM 和其他领域泛化方法进行比较,突出对共变Shift鲁棒性作为一大优势。

实验结果

研究问题

  • RQ1在多源域并存在干预的情况下,REx 能否恢复目标变量的因果机制?
  • RQ2强制训练风险的等化(或低方差)是否会产生不变预测器并提高OOD鲁棒性,特别是在共变移和干预移下?
  • RQ3在涉及共变移、干预移和混合因果结构的任务中,REx 与 IRM 及标准ERM的对比如何?
  • RQ4在给定假设下,将风险等化与不变预测和因果发现联系起来的理论保证是什么?

主要发现

  • 在存在共变移和不变预测要求的情形下,REx 优于 IRM(如 CMNIST 变体)。
  • 风险外推使训练风险平面趋于平整,提升最坏情形(OOD)表现。
  • V-REx 和 MM-REx 即使在共变移和干预移共现时,也能实现鲁棒的OOD泛化。
  • REx 能揭示不变关系,并在某些假设下识别因果机制;但性能取决于数据噪声和异方差性。
  • 在领域泛化基准和强化学习任务中,REx 提供鲁棒性并相对于 IRM 与 ERM 具有竞争力的表现。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。