Skip to main content
QUICK REVIEW

[論文レビュー] Efficient Deep Aesthetic Image Classification using Connected Local and Global Features

Xin Jin, Le Wu|arXiv (Cornell University)|Oct 7, 2016
Visual Attention and Saliency Detection参考文献 44被引用数 5
ひとこと要約

本稿では、GoogLeNetに基づいて変更されたInceptionモジュールを用いて局所的およびグローバルな特徴を統合する、軽量な深層畳み込みニューラルネットワークであるILGNetを提案する。これにより、効率的かつ正確な画像アート評価分類が可能になる。AVAベンチマークにおいて、計算コストを著しく削減しながら最先端の性能を達成しており、GoogLeNetの2/3の精度を達成するが、トレーニングおよび推論時間はほぼ半分にまで短縮される。

ABSTRACT

In this paper we investigate the aesthetic image classification problem, also known as automatically classifying an image into low or high aesthetic quality, which is quite a challenging problem. Considering both the local and global information of images is quite important for image aesthetic quality assessment. Currently, a powerful inception module is proposed which shows very high performance in object classification. We have the observation that the inception module has the ability of considering both the local and global features in nature. Thus, in this paper, we propose a novel DCNN structure codenamed ILGNet for image aesthetics classification, which introduces the Inception module and connects intermediate Local layers to the Global layer for the output. In addition, the ILGNet is derived from part of the GoogLeNet. Thus, we can easily use a pre-trained image classification GoogleLeNet model on the ImageNet dataset and fine tune our connected local and global layer on the large scale aesthetics assessment AVA dataset. The experimental results show that the proposed ILGNet outperforms the state of the art results in image aesthetics assessment in the AVA benchmark. The time cost of both training and test of the ILGNet are significantly less than those of full GoogLeNet with only a little reduction of the classification accuracy. Our ILGNet can achieve similar classification accuracy as that of 2/3 GoogLeNet, whose computational cost is nearly twice of ours. This makes the aesthetic assessment model more easily to be integrated into mobile and embedded systems.

研究の動機と目的

  • 効率的かつ正確なディープラーニングベースの画像アート品質評価の課題に対処すること。
  • より良いアート分類性能を達成するために、画像の局所的およびグローバルな特徴を活用すること。
  • 完全なGoogLeNetと比較して計算コストを低減しつつ、高い精度を維持すること。
  • モバイルおよび埋め込みシステムへのアート評価モデルのデプロイを可能にすること。

提案手法

  • Inceptionモジュールの多スケール特徴抽出機能を活用し、中間の局所層をグローバル分類層に接続する、新しいDCNNアーキテクチャであるILGNetを提案する。
  • ImageNetで事前学習されたGoogLeNetモデルを用い、大規模なAVAデータセットで微調整してアート分類に適応する。
  • ネットワークの複数の段階からの特徴を統合し、局所的表現と最終的なグローバル層を融合させることで、識別力を向上させる。
  • Inceptionモジュールの設計を活用して、画像内の局所的テクスチャとグローバルな構造的情報を自然に捉える。
  • トレーニングの高速化と一般化性能の向上を図るために、トランスファー学習を採用する。
  • パラメータ数とFLOPsを完全なGoogLeNetと比較して削減することで、推論効率を最適化する。

実験結果

リサーチクエスチョン

  • RQ1局所的およびグローバルな特徴を統合する軽量CNNアーキテクチャが、既存のモデルを上回る性能を発揮できるか?
  • RQ2中間の局所的特徴をグローバル分類器に統合することで、性能と効率にどのような影響を与えるか?
  • RQ3微調整されたGoogLeNetベースのモデルが、計算コストを大幅に削減しつつも、どの程度高い精度を達成できるか?
  • RQ4そのようなモデルが、その効率性のおかげでモバイルおよび埋め込みシステムに効果的にデプロイ可能か?

主な発見

  • ILGNetは、画像アート分類のAVAベンチマークで最先端の性能を達成した。
  • 完全なGoogLeNetと比較して、トレーニングおよび推論時間を著しく短縮したが、精度の低下はわずかであった。
  • ILGNetは、GoogLeNetの2/3の精度を達成しながら、計算コストはほぼ半分にまで削減された。
  • 接続された局所的およびグローバルな特徴の統合により、特徴表現が向上し、分類結果が改善された。
  • 計算コストが低いため、モバイルおよび埋め込みシステムへのデプロイに適している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。