[论文解读] Building high-level features using large scale unsupervised learning
本文提出在1,000台机器组成的集群上,使用1,000万张未标注的YouTube图像对深度无监督自编码器进行训练,以在无需任何标注数据的情况下学习到如人脸和人体检测器等高层、类别特定的特征。该模型在ImageNet的22,000类物体识别任务中实现了15.8%的top-1准确率,相较于先前最先进方法相对提升了70%,证明了复杂不变性与高层概念可仅通过无监督预训练自发涌现。
We consider the problem of building high-level, class-specific feature detectors from only unlabeled data. For example, is it possible to learn a face detector using only unlabeled images? To answer this, we train a 9-layered locally connected sparse autoencoder with pooling and local contrast normalization on a large dataset of images (the model has 1 billion connections, the dataset has 10 million 200x200 pixel images downloaded from the Internet). We train this network using model parallelism and asynchronous SGD on a cluster with 1,000 machines (16,000 cores) for three days. Contrary to what appears to be a widely-held intuition, our experimental results reveal that it is possible to train a face detector without having to label images as containing a face or not. Control experiments show that this feature detector is robust not only to translation but also to scaling and out-of-plane rotation. We also find that the same network is sensitive to other high-level concepts such as cat faces and human bodies. Starting with these learned features, we trained our network to obtain 15.8% accuracy in recognizing 20,000 object categories from ImageNet, a leap of 70% relative improvement over the previous state-of-the-art.
研究动机与目标
- 探究是否仅从无标注数据中即可学习到高层、类别特定的特征检测器,挑战监督对于此类特异性所必需的假设。
- 测试在无任何标注样本的情况下,训练深层神经网络以检测人脸和人体等复杂视觉概念的可行性。
- 通过扩大数据集规模、模型深度和计算资源,扩展无监督特征学习,以发现超越低层特征的不变性。
- 评估使用大规模未标注数据进行无监督预训练是否能显著提升下游判别性任务(如ImageNet物体识别)的性能。
提出的方法
- 在来自YouTube视频的1,000万张200x200像素图像上,训练了一个9层局部连接稀疏自编码器,包含池化和局部对比度归一化。
- 在由1,000台机器(共16,000个核心)组成的集群上,采用模型并行和异步随机梯度下降(SGD)来扩展训练至10亿参数规模。
- 使用局部感受野以减少机器间通信,从而在大规模分布式训练中实现高效的模型并行。
- 应用无监督预训练以学习分层特征,随后在ImageNet上使用有监督标签进行微调。
- 通过数值优化和可视化方法解释所学习的特征,并验证其选择性和不变性特性。
- 使用标准基准评估性能:人脸检测、人体检测以及22,000类ImageNet分类任务。
实验结果
研究问题
- RQ1是否仅从无标注图像中即可学习到如人脸检测器等高层、类别特定的特征检测器,而无需任何边界框或类别标注?
- RQ2从自然视频数据中学习的无监督特征在多大程度上对平移、缩放和非平面旋转具有不变性?
- RQ3同一无监督表示是否能对多个高层视觉概念(如人脸、猫脸和人体)保持敏感?
- RQ4使用大规模未标注数据进行无监督预训练是否能显著提升下游判别性任务(如ImageNet物体识别)的性能?
- RQ5无监督特征在真实世界识别基准上的性能与手工设计特征和随机基线相比如何?
主要发现
- 该模型仅使用1,000万张未标注的YouTube图像帧,便学习到对人脸高度选择性的特征检测器,且完全无需标注数据。
- 所学习的人脸检测器对平移、缩放和非平面旋转均表现出鲁棒性,表明其捕捉到了复杂的不变性。
- 同一网络还学习到了猫脸和人体的检测器,显示出对多个高层视觉概念的泛化能力。
- 在ImageNet 22,000类基准上,该方法实现了15.8%的top-1准确率,相较先前最先进方法相对提升了70%。
- 无监督预训练方法优于随机初始化和线性滤波基线,在猫和人体检测任务上分别达到74.8%和76.7%的准确率。
- 结果证实,高层、类别特定的神经元——受‘祖母神经元’假说启发——可从大规模未标注数据的无监督学习中自发产生。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。