Skip to main content
QUICK REVIEW

[论文解读] Does Distributionally Robust Supervised Learning Give Robust Classifiers?

Weihua Hu, Gang Niu|arXiv (Cornell University)|Nov 7, 2016
Domain Adaptation and Few-Shot Learning被引用 106
一句话总结

论文表明,使用带 f-散度的 DRSL 在分类任务中对训练分布的分类器是最优的,揭示悲观源头,并提出一种基于潜在先验概率变化的结构约束 DRSL,配合高效算法和经验验证。

ABSTRACT

Distributionally Robust Supervised Learning (DRSL) is necessary for building reliable machine learning systems. When machine learning is deployed in the real world, its performance can be significantly degraded because test data may follow a different distribution from training data. DRSL with f-divergences explicitly considers the worst-case distribution shift by minimizing the adversarially reweighted training loss. In this paper, we analyze this DRSL, focusing on the classification scenario. Since the DRSL is explicitly formulated for a distribution shift scenario, we naturally expect it to give a robust classifier that can aggressively handle shifted distributions. However, surprisingly, we prove that the DRSL just ends up giving a classifier that exactly fits the given training distribution, which is too pessimistic. This pessimism comes from two sources: the particular losses used in classification and the fact that the variety of distributions to which the DRSL tries to be robust is too wide. Motivated by our analysis, we propose simple DRSL that overcomes this pessimism and empirically demonstrate its effectiveness.

研究动机与目标

  • 在分类场景下激发并分析带 f-散度的 DRSL。
  • 识别为何现有的 DRSL 可能过于悲观,最终与训练分布的性能相匹配。
  • 提出一种使用潜在先验概率变化的结构约束 DRSL 以缓解悲观。
  • 为所提方法开发高效算法并展示经验有效性。

提出的方法

  • 回顾带 f-散度的经验风险最小化(ERM)和 DRSL,并给出对抗风险 7 风险最小化目标(ARM/AERM)。
  • 证明在 0-1 损失下,对抗风险与普通风险单调相关,从而实现训练分布最优性(定理 1¨)。
  • 证明使用分类校准的代理损失在 ARM/AERM 下可得到类似的训练分布最优性(定理 2)。
  • 通过施加潜在先验变化引入结构化 DRSL:q(z) d p(z),q(x,y|z) = p(x,y|z)。
  • 在 f-散度下给出结构性对抗风险(s-adv)和带权向量 w(z) 的结构性 AERM 的公式(Eqs. 16¨)。
  • 通过 Danskin 定理提供基于梯度的高效学习,并推导 KL 和 PE 散度的闭式更新(Eqs. 22¨)。

实验结果

研究问题

  • RQ1由 f-散度球捕获的分布漂移在分类设置中是否真的能产生鲁棒分类器?
  • RQ2为何带有 f-散度的 DRSL 会产生与训练分布性能对齐的悲观分类器?
  • RQ3对分布漂移的结构性约束能否提高鲁棒性,以及如何高效地学习它们?
  • RQ4KL 散度和 Pearson 散度如何影响结构性 DRSL 的计算效率和优化?
  • RQ5潜在先验变化假设在真实数据上是否带来实际的鲁棒性提升?

主要发现

  • 在分类中,ARM/AERM 与 f-散度倾向于产生对训练分布最优的分类器(定理 1¨)。
  • 使用更陡的代理损失并不能可靠地产生对抗分布漂移的鲁棒分类器(定理 3 讨论)。
  • 分类校准的代理损失在假设类为所有可测函数时,在 ARM/AERM 下表现出类似 ERM 的行为(定理 2)。
  • 一个使用潜在先验变化的结构性 DRSL 能减少 ARM/AERM 的悲观性并带来更有意义的鲁棒性(Struct-ARM/AERM)。
  • 在温和条件下,结构性 DRSL 的参数估计对 N 数据的收敛速度阶为 N^{-1/4}(非正式定理 4)。
  • 为 KL 与 PE 散度推导出高效学习算法,内部最大化计算友好(Eqs. 22, 23)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。