Skip to main content
QUICK REVIEW

[论文解读] Universal representations:The missing link between faces, text, planktons, and cat breeds

Hakan Bilen, Andrea Vedaldi|arXiv (Cornell University)|Jan 25, 2017
Advanced Image and Video Retrieval Techniques参考文献 52被引用 127
一句话总结

本论文研究单个神经网络是否能够在高度多样的视觉领域学习通用表征,显示通过适当归一化(包括域特定缩放或实例归一化),可以实现广泛的共享。

ABSTRACT

With the advent of large labelled datasets and high-capacity models, the performance of machine vision systems has been improving rapidly. However, the technology has still major limitations, starting from the fact that different vision problems are still solved by different models, trained from scratch or fine-tuned on the target data. The human visual system, in stark contrast, learns a universal representation for vision in the early life of an individual. This representation works well for an enormous variety of vision problems, with little or no change, with the major advantage of requiring little training data to solve any of them. In this paper we investigate whether neural networks may work as universal representations by studying their capacity in relation to the “size” of a large combination of vision problems. We do so by showing that a single neural network can learn simultaneously several very different visual domains (from sketches to planktons and MNIST digits) as well as, or better than, a number of specialized networks. However, we also show that this requires to carefully normalize the information in the network, by using domain-specific scaling factors or, more generically, by using an instance normalization layer.

研究动机与目标

  • 激发这样的想法:一个通用的视觉表征可以在许多不同领域(人脸、文本、浮游生物、素描等)中发挥作用。
  • 评估单个网络同时学习多种多样的视觉问题所需的容量。
  • 评估不同的共享策略和归一化技术如何影响跨域性能。
  • 确定在共享网络中实现有效领域自适应的归一化方案。

提出的方法

  • 将来自多个领域的学习表述为最小化平均风险,使用共享的蓝本 phi_0 和领域特定的适配器 phi_d'。
  • 提出采用域相关的缩放 s_d 和偏置 b_d,在层之后应用(phi_scale),并通过域多路复用器(domain mux)来选择参数,以实现适应性特征共享。
  • 结合批量归一化(BN)和实例归一化(IN),使用域特定或通用的缩放/矩(moment) ,并研究 BN+、IN 的变体。
  • 以轮换方式使用纯域的小批量数据训练网络,以平衡各域并实现域特定的 BN 矩。
  • 尝试不同的共享深度(深度共享、部分共享),并扩大网络容量以评估跨域性能。
  • 在小规模(10 个多样数据集)和大规模(ImageNet、VGG-Face、Synth90k)设置上进行测试,以评估可扩展性。

实验结果

研究问题

  • RQ1单个 CNN 是否能够在极其多样的视觉领域之间共享参数而不损失性能?
  • RQ2共享结构的数量(完全共享、深度共享、部分共享)如何影响跨域性能?
  • RQ3哪种归一化策略最有利于跨域通用表征(带域特定参数的 BN 与通用参数、IN、BN+)?
  • RQ4在跨域强制共享时,增加模型容量如何影响联合性能?
  • RQ5域无关归一化在为新域启用通用表征方面的实用性如何?

主要发现

  • 单个 CNN 可以在 CIFAR-10、MNIST、SVHN 等极度多样的数据集之间共享所有层且不损失性能。
  • 深度共享(除了最后的分类器外共享所有层)通常在减少参数的同时优于训练域特定网络。
  • 在跨多个域的情况下,使用域特定的缩放参数的完全共享接近与单独模型的性能,并且受益于容量的增加。
  • 域特定的 BN 矩和缩放提高跨域性能;实例归一化在较少域特定参数的情况下也能产生具有竞争力的通用表征。
  • 带通用缩放的实例归一化可以在跨域使用单一参数集合,提供实际的通用性但略有性能成本。
  • 在大规模任务中,跨 ImageNet 和 VGG-Face 共享卷积权重可近似保持性能,联合训练与 Synth90k 显示出显著的参数效率和可扩展共享。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。