Skip to main content
QUICK REVIEW

[論文レビュー] Applying deep learning to classify pornographic images and videos

Mohamed Moustafa|arXiv (Cornell University)|Nov 28, 2015
Sexuality, Behavior, and Technology参考文献 10被引用数 80
ひとこと要約

本論文では、微調整された畳み込みニューラルネットワーク(CNN)—特に変更を加えたAlexNetおよびGoogLeNet—を用いた深層学習的手法を提案し、ポルノグラフィック画像および動画フレームの自動分類を実現する。この手法は、NPDIベンチマークデータセットにおいて94.1%の最先端の正確性を達成し、スキンカラー やSIFT記述子といった従来の手作業特徴抽出手法であるBossaNovaを上回った。

ABSTRACT

It is no secret that pornographic material is now a one-click-away from everyone, including children and minors. General social media networks are striving to isolate adult images and videos from normal ones. Intelligent image analysis methods can help to automatically detect and isolate questionable images in media. Unfortunately, these methods require vast experience to design the classifier including one or more of the popular computer vision feature descriptors. We propose to build a classifier based on one of the recently flourishing deep learning techniques. Convolutional neural networks contain many layers for both automatic features extraction and classification. The benefit is an easier system to build (no need for hand-crafting features and classifiers). Additionally, our experiments show that it is even more accurate than the state of the art methods on the most recent benchmark dataset.

研究の動機と目的

  • 手作業による特徴工学を伴わずに、画像および動画におけるポルノグラフィックコンテンツを自動的かつエンドツーエンドで検出するシステムの開発。
  • スキンカラー やSIFT記述子といった従来の手作業特徴に依存する手法を超える分類正確性の向上。
  • 特に微調整されたCNN—特に深層学習モデル—が、最近のNPDIベンチマークデータセットにおけるポルノグラフィックコンテンツ検出に与える影響の評価。
  • 個々のCNN(AlexNetおよびGoogLeNet)とアンサンブル統合戦略の有効性の比較。
  • 深層学習が、従来の機械学習パイプラインを上回る可能性を検討。

提案手法

  • 著者らは、最終出力層を削除し、2クラスのソフトマックス層に置き換えることで、AlexNetおよびGoogLeNetアーキテクチャを変更し、画像を「良性」または「ポルノ」に分類するように適応した。
  • ネットワークは、収束性と性能の向上を図るために、事前学習済みImageNet重みを活用してNPDIデータセット上で微調整された。
  • 信頼性と正確性の向上を目的として、AlexNetおよびGoogLeNet分類器からの信頼度スコアを平均化することで、AGNetと呼ばれるアンサンブルモデルを構築した。
  • 2番目のアンサンブルバージョンであるAGbNetは、平均化ではなく両方のネットワークからの最大スコアを使用することで、代替の統合戦略をテストした。
  • 受信者操作特性(ROC)曲線は、さまざまな分類しきい値において、真正陽性率と偽陽性率のトレードオフを評価するために生成された。
  • 動画分類は、動画シーケンスのすべてのキーフレームに対して多数決を適用することで実施され、全体の正確性は5分割交差検証を用いて算出された。

実験結果

リサーチクエスチョン

  • RQ1微調整された深層畳み込みニューラルネットワークは、従来の手作業特徴ベースの手法を上回る性能を示せるか?
  • RQ2事前学習済みImageNetモデルを用いたトランスファー学習は、NPDIベンチマークデータセットにおける分類正確性を向上させるか?
  • RQ3アンサンブル学習—特に複数のCNNからのスコアを平均化するか、最大値を取るか—は分類性能にどのように影響するか?
  • RQ4より深いアーキテクチャとインセプションモジュールを備えたGoogLeNetは、AlexNetに比べてポルノグラフィック画像分類においてより効果的か?
  • RQ5微調整と完全トレーニングの両方のアプローチが、CNNモデルの一般化性能および正確性に与える影響は何か?

主な発見

  • 提案されたAGNetアンサンブルモデルは、NPDIベンチマークデータセットで最高の分類正確性94.1%(標準偏差±2%)を達成した。
  • 微調整済みモデル(ANet-FineTuneおよびGNet-FineTune)は、完全トレーニングされた対応モデルを著しく上回り、後者は10%の偽陽性率で87%の真正陽性率を達成した。
  • GoogLeNetベースのモデル(GNetおよびAGNet)は、AlexNetベースのモデル(ANet)を常に上回り、GNetは93.7%の正確性、AGNetは93.8%の正確性を達成した。
  • AGbNetバージョンは、両ネットワークからの最大スコアを使用しており、94.1%の正確性を達成した。これは、スコア統合戦略が性能向上に寄与することを示している。
  • すべての深層学習ベースの分類器は、最先端のBossaNova手法(89.5%および90.9%)を上回り、このタスクにおけるCNNの優位性を示した。
  • ROC曲線は、微調整済みモデルが低偽陽性率でも高い真正陽性率を維持していることを示し、優れた一般化性能と信頼性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。