Skip to main content
QUICK REVIEW

[論文レビュー] Learning Spatial Regularization with Image-level Supervisions for Multi-label Image Classification

Feng Zhu, Hongsheng Li|arXiv (Cornell University)|Feb 20, 2017
Domain Adaptation and Few-Shot Learning参考文献 35被引用数 55
ひとこと要約

本研究は Spatial Regularization Network (SRN) を導入し、画像レベルの監督信号からラベル注意マップを学習させ、それらを用いてラベル間の意味的および空間的関係を捉え、データセットを横断したマルチラベル画像分類を改善します。

ABSTRACT

Multi-label image classification is a fundamental but challenging task in computer vision. Great progress has been achieved by exploiting semantic relations between labels in recent years. However, conventional approaches are unable to model the underlying spatial relations between labels in multi-label images, because spatial annotations of the labels are generally not provided. In this paper, we propose a unified deep neural network that exploits both semantic and spatial relations between labels with only image-level supervisions. Given a multi-label image, our proposed Spatial Regularization Network (SRN) generates attention maps for all labels and captures the underlying relations between them via learnable convolutions. By aggregating the regularized classification results with original results by a ResNet-101 network, the classification performance can be consistently improved. The whole deep neural network is trained end-to-end with only image-level annotations, thus requires no additional efforts on image annotations. Extensive evaluations on 3 public datasets with different types of labels show that our approach significantly outperforms state-of-the-arts and has strong generalization capability. Analysis of the learned SRN model demonstrates that it can effectively capture both semantic and spatial relations of labels for improving classification performance.

研究の動機と目的

  • 画像間のラベル間の空間的関係を追加のアノテーションなしでモデリングすることによるマルチラベル画像分類の改善を動機づける。
  • 画像レベルの監督信号でラベル注意マップを学習するエンドツーエンドのCNNフレームワークを開発する。
  • 最終分類結果を正則化するために意味的・空間的ラベル関係を統合する。
  • 異なるラベルタイプ(物体、概念、属性)を持つデータセット間での一般化を示す。

提案手法

  • 各ラベル予測のためのメインの ResNet-101 ベースの分類器を採用する。
  • 2 段階からなる Spatial Regularization Net (SRN) を導入する:注意マップ学習と空間正則化。
  • f_att(X; θ_att) によってラベル注意マップを学習し、画像レベルの監督信号を用いて A ∈ R^{14×14×C} を生成する。
  • U = σ(S) ∘ A によって各ラベルの可視性と局在化を符号化する重み付き注意を計算する。
  • f_sr(U; θ_sr) によるコンパクトでデカップリングした 1×1 および 14×14 の畳み込みを用いてパラメータ数を抑制し、ラベル関係を捉える。
  • 最終的な信頼度を ŷ = α ŷ_cls + (1−α) ŷ_sr として集約し、クロスエントロピー損失でエンドツーエンドに学習する。

実験結果

リサーチクエスチョン

  • RQ1画像レベルの監督のみで、マルチラベル画像における空間正則化のための意味のあるラベル注意マップを学習することは可能か。
  • RQ2SRN を通じて学習された意味的・空間的ラベル関係は、全体のマルチラベル分類性能を改善するか。
  • RQ3SRN は異なるラベルタイプを持つデータセット間でどの程度一般化するか(物体、概念、属性)。
  • RQ4注意マップ(U)の重み付けと非重み付けマップ(A)で性能にどの程度差が生じるか。

主な発見

  • SRN は強力なベースラインおよび最先端と比較して、NUS-WIDE、MS-COCO、WIDER-Attribute のデータセットで一貫して改善を示す。
  • 重み付き注意マップ(U)は、空間正則化を学習する際に非重み付けマップ(A)よりも優れている。
  • SRN を用いたエンドツーエンドの学習は約 6 百万パラメータを追加し、データセット間で mAP および F1 の有意な向上をもたらす。
  • このアプローチは、個々のラベル局在信号とラベル間の共起/相対位置パターンの両方を捉える。
  • 可視化により、SRN のニューロンがラベル位置や複数ラベルの特定の空間配置に応答することが示される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。