QUICK REVIEW

[论文解读] Applying deep learning to classify pornographic images and videos

Mohamed Moustafa|arXiv (Cornell University)|Nov 28, 2015

Sexuality, Behavior, and Technology参考文献 10被引用 80

一句话总结

本文提出一种基于微调卷积神经网络（CNN）的深度学习方法——具体为修改后的AlexNet和GoogLeNet——用于自动分类色情图像和视频帧。该方法在NPDI基准数据集上实现了94.1%的最先进准确率，优于以往基于手工特征的方法（如BossaNova）。

ABSTRACT

It is no secret that pornographic material is now a one-click-away from everyone, including children and minors. General social media networks are striving to isolate adult images and videos from normal ones. Intelligent image analysis methods can help to automatically detect and isolate questionable images in media. Unfortunately, these methods require vast experience to design the classifier including one or more of the popular computer vision feature descriptors. We propose to build a classifier based on one of the recently flourishing deep learning techniques. Convolutional neural networks contain many layers for both automatic features extraction and classification. The benefit is an easier system to build (no need for hand-crafting features and classifiers). Additionally, our experiments show that it is even more accurate than the state of the art methods on the most recent benchmark dataset.

研究动机与目标

开发一种无需人工特征工程的、端到端的自动检测图像和视频中色情内容的系统。
在现有依赖手工特征（如肤色或SIFT描述符）的方法基础上，进一步提升分类准确率。
评估深度学习模型（尤其是微调后的CNN）在近期NPDI基准数据集上对色情内容检测的性能。
比较单个CNN（AlexNet与GoogLeNet）与集成融合策略在色情分类中的有效性。
探索深度学习在检测成人内容方面超越传统机器学习流程的潜力。

提出的方法

作者通过移除AlexNet和GoogLeNet架构的最后输出层，并替换为两分类的Softmax层，以将图像分类为“良性”或“色情”。
利用预训练的ImageNet权重，在NPDI数据集上通过迁移学习对网络进行微调，以提升收敛速度和性能。
通过平均AlexNet和GoogLeNet分类器的置信度分数，构建了一个集成模型AGNet，以提高鲁棒性和准确率。
提出第二种集成变体AGbNet，采用两网络中较高的分数而非平均值，以测试不同的融合策略。
在不同分类阈值下生成受试者工作特征（ROC）曲线，以评估真正例率与假正例率之间的权衡。
通过视频序列中所有关键帧的多数投票法进行视频分类，整体准确率基于五折交叉验证计算。

实验结果

研究问题

RQ1微调后的深度卷积神经网络是否能在色情图像分类中超越传统手工特征方法？
RQ2使用预训练的ImageNet模型进行迁移学习是否能提升在NPDI基准数据集上的分类准确率？
RQ3集成学习——特别是通过平均或取最大分数来自多个CNN的策略——如何影响分类性能？
RQ4鉴于GoogLeNet具有更深的架构和Inception模块，其在色情图像分类中是否比AlexNet更有效？
RQ5微调与完整训练相比，对CNN模型的泛化能力和准确率有何影响？

主要发现

所提出的AGNet集成模型在NPDI基准数据集上实现了最高的分类准确率94.1%，标准差为±2%。
微调模型（ANet-FineTune与GNet-FineTune）显著优于其完整训练的对应模型，后者在10%假正例率下达到87%真正例率。
基于GoogLeNet的模型（GNet与AGNet）始终优于基于AlexNet的模型（ANet），其中GNet准确率达到93.7%，AGNet达到93.8%。
AGbNet变体通过取两网络中的最大分数，实现了94.1%的准确率，表明分数融合策略可提升性能。
所有基于深度学习的分类器均优于最先进方法BossaNova（准确率分别为89.5%与90.9%），证明CNN在此任务中的优越性。
ROC曲线显示，微调模型在低假正例率下仍保持较高的真正例率，表明其具备出色的泛化能力和可靠性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。