Skip to main content
QUICK REVIEW

[论文解读] Batch-Instance Normalization for Adaptively Style-Invariant Neural Networks

Hyeonseob Nam, Hyoeun Kim|arXiv (Cornell University)|May 21, 2018
Generative Adversarial Networks and Image Synthesis参考文献 27被引用 124
一句话总结

BIN 以自适应方式平衡批量归一化和实例归一化,选择性地保留有用的风格并归一化干扰风格,从而提升在分类、多域学习和风格迁移中的识别性能。

ABSTRACT

Real-world image recognition is often challenged by the variability of visual styles including object textures, lighting conditions, filter effects, etc. Although these variations have been deemed to be implicitly handled by more training data and deeper networks, recent advances in image style transfer suggest that it is also possible to explicitly manipulate the style information. Extending this idea to general visual recognition problems, we present Batch-Instance Normalization (BIN) to explicitly normalize unnecessary styles from images. Considering certain style features play an essential role in discriminative tasks, BIN learns to selectively normalize only disturbing styles while preserving useful styles. The proposed normalization module is easily incorporated into existing network architectures such as Residual Networks, and surprisingly improves the recognition performance in various scenarios. Furthermore, experiments verify that BIN effectively adapts to completely different tasks like object classification and style transfer, by controlling the trade-off between preserving and removing style variations. BIN can be implemented with only a few lines of code using popular deep learning frameworks.

研究动机与目标

  • 动机:风格变异对现实世界识别任务的影响。
  • 提出 Batch-Instance Normalization (BIN),按特征图对风格进行选择性归一化。
  • 展示 BIN 在分类、多域学习和风格迁移方面的性能提升。
  • 证明 BIN 在不同网络架构和任务上的可扩展性。

提出的方法

  • 将 BIN 定义为 BN 与 IN 的加权组合,使用一个可学习的门控向量 ρ ∈ [0,1]^C 来自每个通道。
  • 计算 BIN 输出 y = (ρ ⊙ x̂(B) + (1−ρ) ⊙ x̂(I)) γ + β,其中 x̂(B) 和 x̂(I) 分别是 BN 和 IN 标准化后的特征。
  • 用梯度更新训练 ρ,并裁剪到 [0,1],通常采用较高的学习率以放大 BN−IN 的差异。
  • 初始化 ρ = 1,并学习 γ、β 以实现仿射变换。
  • 证明 BIN 能在现有架构中替代 BN/IN,且新增参数极少。
  • 在目标分类、多域学习和图像风格迁移上评估 BIN。

实验结果

研究问题

  • RQ1通过对风格进行选择性归一化,BIN 是否能在通用对象分类数据集(CIFAR-10/100、ImageNet)上超过标准 BN?
  • RQ2BIN 是否在多域学习和领域自适应设置中提升性能?
  • RQ3在保留有用风格的前提下,BIN 作为 IN 的替代方案用于图像风格迁移是否有效?
  • RQ4学习得到的 ρ 门在各层和任务中的分布如何,BIN 如何在不同架构之间扩展?

主要发现

方法CIFAR-10CIFAR-100ImageNet
BN93.72 ± 0.1874.26 ± 0.3369.89
BIN94.29 ± 0.0975.88 ± 0.3070.68
  • BIN 在 CIFAR-10/100 和 ImageNet 上优于 BN(Top-1 精度:CIFAR-10 93.72→94.29,CIFAR-100 74.26→75.88,ImageNet 69.89→70.68)。
  • BIN 的门控值趋向双峰分布,分类任务中在高层有大量通道倾向于 BN(ρ≈1),在低层倾向于 IN(ρ≈0)。
  • BIN 在 CIFAR-100 上对多种架构(AlexNet、VGG、ResNet、ResNeXt、DenseNet)持续提升性能。
  • 在 Office-Home 多域分类中,BIN 将平均准确率提升于 BN(80.08 vs 78.95)。
  • 在 Office-Home 的 DANN 域自适应中,BIN 在大多数迁移任务上达到与 BN 相当甚至略胜(11/12)。
  • 在风格迁移方面,BIN 相较于 BN+IN 能更好地保持内容,且与 IN 的风格迁移质量相当/相似,同时减轻对所需风格的损失。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。