Skip to main content
QUICK REVIEW

[论文解读] Learning Unsupervised Learning Rules

Luke Metz, Niru Maheswaranathan|arXiv (Cornell University)|Mar 31, 2018
Domain Adaptation and Few-Shot Learning参考文献 40被引用 40
一句话总结

本文提出了一种元学习无监督学习规则的方法——具体而言,是一种生物上合理、仅依赖神经元局部信息的权重更新规则——该规则直接优化下游半监督分类任务的表征性能。该方法在不同网络架构、数据模态(图像到文本)以及输入排列变换下均表现出泛化能力,通常优于标准的无监督预训练方法。

ABSTRACT

A major goal of unsupervised learning is to discover data representations that are useful for subsequent tasks, without access to supervised labels during training. Typically, this goal is approached by minimizing a surrogate objective, such as the negative log likelihood of a generative model, with the hope that representations useful for subsequent tasks will arise as a side effect. In this work, we propose instead to directly target a later desired task by meta-learning an unsupervised learning rule, which leads to representations useful for that task. Here, our desired task (meta-objective) is the performance of the representation on semi-supervised classification, and we meta-learn an algorithm -- an unsupervised weight update rule -- that produces representations that perform well under this meta-objective. Additionally, we constrain our unsupervised update rule to a be a biologically-motivated, neuron-local function, which enables it to generalize to novel neural network architectures. We show that the meta-learned update rule produces useful features and sometimes outperforms existing unsupervised learning techniques. We show that the meta-learned unsupervised update rule generalizes to train networks with different widths, depths, and nonlinearities. It also generalizes to train on data with randomly permuted input dimensions and even generalizes from image datasets to a text task.

研究动机与目标

  • 直接优化无监督表征以提升下游半监督分类性能,而非依赖代理目标。
  • 开发一种可在多种神经网络架构(包括不同宽度、深度和非线性激活函数)间泛化的无监督学习规则。
  • 通过将更新规则限制为仅依赖神经元局部信息,确保其生物合理性,从而支持在新型架构上的泛化。
  • 评估该方法在图像数据之外的泛化能力,包括文本任务和输入维度随机重排的情况。

提出的方法

  • 使用下游半监督分类任务的准确率作为元目标,对无监督权重更新规则进行元学习。
  • 将更新规则形式化为可微分的、仅依赖局部突触前与突触后活动的神经元局部函数,以模拟生物学习规则。
  • 通过在任务分布上进行梯度下降来训练该更新规则,每个任务包括使用该规则进行网络预训练,并在下游半监督分类任务上进行评估。
  • 采用两阶段优化框架:内层循环使用元学习得到的规则训练网络,外层循环根据下游性能更新规则参数。
  • 将元学习得到的规则应用于不同宽度、深度和激活函数的网络,评估其零样本泛化能力。
  • 在输入维度随机重排的数据上以及使用基于Transformer的编码器进行文本分类任务中,测试其泛化能力。

实验结果

研究问题

  • RQ1元学习的无监督更新规则是否能在下游半监督分类任务中超越标准无监督预训练方法?
  • RQ2该元学习规则是否能泛化到具有不同宽度、深度和非线性激活函数的神经网络?
  • RQ3该规则是否能泛化到输入维度被随机重排的数据,表明其对输入重排的鲁棒性?
  • RQ4尽管在图像数据上进行训练,该规则是否能迁移到不同模态(如文本分类)任务?
  • RQ5所学习的规则是否在仅依赖神经元局部更新、无全局梯度或标签信息的设定下,仍具备生物合理性与有效性?

主要发现

  • 元学习的无监督更新规则所生成的表征在下游半监督分类任务中,性能与标准无监督预训练基线相比具有竞争力或更优。
  • 该规则能有效泛化到具有不同宽度、深度和非线性激活函数的神经网络,展现出强大的零样本跨架构迁移能力。
  • 当输入维度被随机重排时,该规则仍保持优异性能,表明其对输入重排具有鲁棒性,并能超越特定数据结构的限制。
  • 该方法能从图像数据泛化到文本分类任务,表明其在无文本微调的情况下,具备跨模态的迁移能力。
  • 基于生物启发的、仅依赖神经元局部信息的更新规则,在无全局梯度或标签信息参与预训练的条件下,性能可与甚至优于标准无监督方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。