Skip to main content
QUICK REVIEW

[论文解读] Learning Model Bias

Jonathan Baxter|arXiv (Cornell University)|Nov 14, 2019
Machine Learning and Algorithms参考文献 5被引用 24
一句话总结

本文提出了一种通过在多个相关任务上进行训练来自动学习领域特定偏置的方法,表明随着任务数量的增加,泛化性能显著提升。其关键理论结果是,每个任务所需的样本数量按 $O(a + \frac{b}{n})$ 的速率增长,其中 $n$ 为任务数量,这表明跨任务共享表征学习可降低样本复杂度。

ABSTRACT

In this paper the problem of {\em learning} appropriate domain-specific bias is addressed. It is shown that this can be achieved by learning many related tasks from the same domain, and a theorem is given bounding the number tasks that must be learnt. A corollary of the theorem is that if the tasks are known to possess a common {\em internal representation} or {\em preprocessing} then the number of examples required per task for good generalisation when learning $n$ tasks simultaneously scales like $O(a + \frac{b}{n})$, where $O(a)$ is a bound on the minimum number of examples required to learn a single task, and $O(a + b)$ is a bound on the number of examples required to learn each task independently. An experiment providing strong qualitative support for the theoretical results is reported.

研究动机与目标

  • 为解决机器学习中手动设计偏置的挑战,该方法受限于专家知识和可迁移性。
  • 在共享环境中,为从多个相关任务中自动学习偏置建立正式框架。
  • 表明学习多个相关任务可发现一种共享的、可泛化的表征,从而提升任务间的泛化性能。
  • 推导出在同时学习多个任务时,每个任务所需样本数量的理论边界。

提出的方法

  • 将学习环境建模为一对 $({\cal P}, Q)$,其中 $\cal P$ 是任务集合,$Q$ 是其上的分布。
  • 使用包含共享表征网络 $f$ 和任务特定输出网络 $g_i$ 的神经网络架构,以同时学习多个任务。
  • 定义在 $n$ 个任务上的经验误差为 $\hat{E}^*(\cal H, D_1, \dots, D_n) = \frac{1}{n} \sum_{i=1}^n \inf_{h \in \cal H} \hat{E}(h, D_i)$,并在假设空间中最小化该误差。
  • 通过两个指标衡量泛化误差:$E^n$ 表示 $n$ 个训练任务的误差,$E^*(\cal H, Q)$ 表示从环境中抽取的新任务的误差。
  • 应用反向传播算法在 $n$ 个训练集 $D_1, \dots, D_n$ 上训练网络,每个训练集均从 $Q$ 中抽取的任务 $P_i$ 中采样。
  • 在训练完成后提取共享表征网络 $f$,并在环境中所有函数上评估其性能,以评估其真实误差 $E^*(\cal H, Q)$。

实验结果

研究问题

  • RQ1是否能够从多个相关任务中自动学习偏置,而非依赖专家提供的启发式方法?
  • RQ2任务数量 $n$ 如何影响每个任务实现良好泛化的样本数量?
  • RQ3学习多个任务是否会导致一个能良好泛化到同一环境中新任务的共享表征?
  • RQ4能否为同时学习多个任务的样本复杂度推导出理论边界?

主要发现

  • 实现良好泛化的每个任务所需样本数量按 $O(a + \frac{b}{n})$ 的速率增长,其中 $a$ 为单个任务所需的最少样本数,$b$ 反映任务特定的复杂度。
  • 当学习 $n=13$ 个任务时,表征网络在每个任务仅使用 31 个样本的情况下,对所有对称布尔函数实现了完美泛化。
  • 当 $n=1$ 时,表征未能捕捉对称性,无法区分含 2、3 或 4 个 1 的输入,表明偏置学习效果差。
  • 当 $n=5$ 时,表征开始根据 1 的个数对输入进行区分,表明随着任务数量增加,性能逐步提升。
  • 共享表征的真实误差 $E^*(\cal H, Q)$ 随着 $n$ 的增加单调递减,证实了理论预测。
  • 实验结果表明,从大量任务中学习到的表征能很好地泛化到新任务,显著降低了新学习任务的样本需求。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。