QUICK REVIEW

[论文解读] Places205-VGGNet Models for Scene Recognition

Limin Wang, Sheng Guo|arXiv (Cornell University)|Aug 7, 2015

Advanced Neural Network Applications参考文献 12被引用 133

一句话总结

本文提出了Places205-VGGNet模型——VGGNet-11、-13和-16——这些模型基于大规模Places205场景数据集，使用多GPU Caffe扩展进行训练。该模型在Places205、MIT67和SUN397基准测试中均达到最先进性能，在Places205上的top-1准确率为60.6%，在MIT67上的top-1准确率为82.0%，并已公开发布，以推动场景识别研究的发展。

ABSTRACT

VGGNets have turned out to be effective for object recognition in still images. However, it is unable to yield good performance by directly adapting the VGGNet models trained on the ImageNet dataset for scene recognition. This report describes our implementation of training the VGGNets on the large-scale Places205 dataset. Specifically, we train three VGGNet models, namely VGGNet-11, VGGNet-13, and VGGNet-16, by using a Multi-GPU extension of Caffe toolbox with high computational efficiency. We verify the performance of trained Places205-VGGNet models on three datasets: MIT67, SUN397, and Places205. Our trained models achieve the state-of-the-art performance on these datasets and are made public available.

研究动机与目标

解决ImageNet预训练的VGGNets在场景识别任务中表现不佳的问题。
专门在Places205数据集上训练深层VGGNet架构，以提升场景理解能力。
开发一种基于多GPU Caffe的高效训练流水线，用于大规模场景数据集。
评估在迁移学习基准（如MIT67和SUN397）上训练特征的泛化能力。
公开发布预训练模型，以加速未来在场景识别领域的研究。

提出的方法

使用多GPU版Caffe扩展在Places205数据集上训练VGGNet-11、-13和-16架构，以实现高计算效率。
利用预训练的VGGNet-11权重初始化更深的网络（VGGNet-13和-16），以提升收敛速度和性能。
应用多尺度裁剪和角落裁剪数据增强技术，以增强泛化能力。
使用小批量梯度下降法，批量大小为256，动量为0.9，权重衰减（L2惩罚=0.0005），并在全连接层应用dropout（比例为0.5），以减少过拟合。
将输入图像调整为256×256，从多个尺度和位置随机裁剪为224×224，并应用水平翻转进行数据增强。
在推理阶段采用多视角分类：每张图像生成10个裁剪（四个角落、中心点及水平翻转），最终预测结果为10个得分的平均值。

实验结果

研究问题

RQ1在Places205数据集上微调的VGGNet架构是否能在场景识别任务中超越ImageNet预训练的模型？
RQ2当在Places205数据集上训练用于场景识别时，VGGNet-11、-13和-16的性能表现如何变化？
RQ3在Places205上学习到的特征在多大程度上能泛化到其他场景识别基准（如MIT67和SUN397）？
RQ4在大规模场景数据集上训练深层VGGNets时，哪些训练技巧和数据增强策略最为有效？
RQ5公开发布在Places205上训练的预训练VGGNet模型，是否能加速场景识别研究的进展？

主要发现

Places205-VGGNet-16模型在Places205验证集上达到60.6%的top-1准确率和88.5%的top-5准确率，优于AlexNet、GoogLeNet和CNDS-8。
在MIT67基准上，Places205-VGGNet-11模型达到82.0%的top-1准确率，超越所有先前公开的模型，包括ImageNet-VGGNet-16（67.7%）。
在SUN397数据集上，Places205-VGGNet-16模型达到66.9%的top-1准确率，为所有对比模型中的最高值。
在MIT67和SUN397上，Places205-VGGNet特征的迁移性能始终优于其他模型，包括Places205-AlexNet、-GoogLeNet和-CNDS-8。
使用四块GTX Titan-X GPU，VGGNet-16的训练过程约需两周时间，证明了使用多GPU Caffe扩展进行大规模训练的可行性。
作者已将训练好的模型发布在GitHub上，以支持进一步研究，使研究人员能够开箱即用进行特征提取和场景识别任务的迁移学习。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。