QUICK REVIEW

[论文解读] Learning Generative Models with Visual Attention

Yichuan Tang, Nitish Srivastava|arXiv (Cornell University)|Dec 20, 2013

Generative Adversarial Networks and Image Synthesis参考文献 32被引用 86

一句话总结

本文提出一种基于注意力机制的深度生成模型，能够在无需人工裁剪的情况下，从大规模、未经整理的场景图像中学习定位并生成人脸图像。通过结合卷积神经网络进行近似推断与哈密顿蒙特卡洛采样，该模型能够动态关注物体区域，在训练数据缺乏定位标签的情况下，仍能在人脸数据集上实现最先进水平的生成性能。

ABSTRACT

Attention has long been proposed by psychologists as important for effectively dealing with the enormous sensory stimulus available in the neocortex. Inspired by the visual attention models in computational neuroscience and the need of object-centric data for generative models, we describe for generative learning framework using attentional mechanisms. Attentional mechanisms can propagate signals from region of interest in a scene to an aligned canonical representation, where generative modeling takes place. By ignoring background clutter, generative models can concentrate their resources on the object of interest. Our model is a proper graphical model where the 2D Similarity transformation is a part of the top-down process. A ConvNet is employed to provide good initializations during posterior inference which is based on Hamiltonian Monte Carlo. Upon learning images of faces, our model can robustly attend to face regions of novel test subjects. More importantly, our model can learn generative models of new faces from a novel dataset of large images where the face locations are not known.

研究动机与目标

解决在对象位置未知的大规模、未经整理图像上训练生成模型的挑战。
通过动态路由相关视觉特征至规范表示，实现以对象为中心的生成建模。
克服传统生成模型依赖于精心整理、裁剪数据才能实现高质量学习的局限性。
整合受视觉神经科学启发的注意力机制，以提升对背景杂波和遮挡的鲁棒性。
证明仅使用弱监督或无标签数据，即可实现从原始大规模图像端到端训练生成模型的可行性。

提出的方法

使用高斯限制玻尔兹曼机（GRBM）作为核心生成模型，以捕捉可见单元中复杂的数据分布。
实施二维相似性变换（缩放、旋转、平移）将感兴趣区域特征对齐至规范对象表示。
训练卷积神经网络（ConvNet）以提供后验推断的初始化，估计图像中注意力位置（u）。
应用哈密顿蒙特卡洛（HMC）采样，以探索注意力位置和隐变量上的复杂后验分布。
采用两阶段训练流程：先在标注数据上预训练ConvNet（例如CMU人脸数据的10%），然后使用推断出的注意力位置微调生成模型。
利用变分下界和退火重要性采样（AIS）估算模型对数似然并评估性能。

实验结果

研究问题

RQ1注意力机制是否能使深度生成模型在无需人工对象定位的情况下，从大规模、未经整理的图像中学习？
RQ2结合ConvNet进行推断与HMC进行采样的混合方法，在建模复杂后验分布方面有多高效？
RQ3当对象位置未知时，一个在某一数据集（如Caltech）上训练的生成模型，能在多大程度上泛化到另一数据集（如CMU）？
RQ4将注意力机制条件化于规范对象表示，是否能提升定位准确率和生成质量？
RQ5当规范人脸发生变化时，该模型能否在单张图像中稳健地关注多个不同的人脸？

主要发现

当使用推断出的注意力位置进行训练且无手动标签时，该模型在CMU验证集上实现了每张测试图像387纳特的变分下界，较仅在Caltech数据上训练时的85纳特显著提升。
在完全监督（人工定位标签）条件下，模型达到每张图像503纳特，表明弱监督学习可接近完全监督性能。
在CMU数据上微调后生成的样本，相比仅在Caltech数据上训练的模型，其多样性与真实感显著增强。
注意力机制能够根据条件化的规范人脸，成功将关注焦点转移到场景中的不同人脸，即使初始注视位置完全相同。
该模型在新型测试图像中稳健地定位人脸，包括复杂背景和遮挡情况，且无需预先裁剪。
ConvNet-based近似推断与HMC采样的结合，有效探索了高维后验分布，从而实现稳定且高质量的生成结果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。