Skip to main content
QUICK REVIEW

[論文レビュー] Deep Learning for Fine-Grained Image Analysis: A Survey

Xiu-Shen Wei, Jianxin Wu|arXiv (Cornell University)|Jul 6, 2019
Advanced Image and Video Retrieval Techniques参考文献 49被引用数 76
ひとこと要約

この調査は、FGIA(細分化画像解析)における深層学習の進展を、認識、検索、生成という三つの主要タスクを横断してレビューし、データセット、手法、将来の方向性について論じる。

ABSTRACT

Computer vision (CV) is the process of using machines to understand and analyze imagery, which is an integral branch of artificial intelligence. Among various research areas of CV, fine-grained image analysis (FGIA) is a longstanding and fundamental problem, and has become ubiquitous in diverse real-world applications. The task of FGIA targets analyzing visual objects from subordinate categories, \eg, species of birds or models of cars. The small inter-class variations and the large intra-class variations caused by the fine-grained nature makes it a challenging problem. During the booming of deep learning, recent years have witnessed remarkable progress of FGIA using deep learning techniques. In this paper, we aim to give a survey on recent advances of deep learning based FGIA techniques in a systematic way. Specifically, we organize the existing studies of FGIA techniques into three major categories: fine-grained image recognition, fine-grained image retrieval and fine-grained image generation. In addition, we also cover some other important issues of FGIA, such as publicly available benchmark datasets and its related domain specific applications. Finally, we conclude this survey by highlighting several directions and open problems which need be further explored by the community in the future.

研究の動機と目的

  • 深層学習を用いたFGIA技術の包括的なレビューを提供し、問題背景、データセット、および手法ファミリーを含む。
  • 認識、検索、生成におけるFGIAの進展を体系的かつ階層的に概説する。
  • FGIAの domain-specific な応用と実務上の課題を論じる。
  • FGIAコミュニティの未解決問題と将来の方向性を特定する。

提案手法

  • 認識の三つのパラダイムにFGIA技術を組織する: ローカリゼーション-分類サブネットワーク、エンドツーエンドの特徴エンコーディング、外部情報の利用。
  • エンドツーエンドの特徴エンコーディング手法(例:バイリニアCNNsと低次元プーリング)と適合した損失関数を検討。
  • 外部情報の利用(ウェブデータ、多 modalities データ(テキスト、知識グラフ)、ヒューマン・イン・ザ・ループ法をFGIAの向上に活用する方法を説明。
  • 細分化画像検索アプローチを要約。監視あり・弱監視の損失とローカリゼーション戦略を含む。
  • カテゴリ特異的およびテキスト誘導の合成のための生成モデル(例:CVAE-GAN、AttnGAN)による細分画生成を調査。
  • ファッション、小売、再識別などのドメイン固有のFGIAアプリケーションをレビューする。

実験結果

リサーチクエスチョン

  • RQ1細分化画像認識、検索、生成のための主な深層学習ベースのアプローチは何か?
  • RQ2ベンチマークデータセットと監視タイプはFGIAの進展をどのように形作るか?
  • RQ3外部情報とマルチモーダルサインナルがFGIAの性能を最も効果的に改善するのはどのような場合か?
  • RQ4深層学習を用いたFGIAでの現在の課題と今後の方向性は何か?

主な発見

  • 深層学習は認識、検索、生成の各領域でFGIAに著しい進展をもたらしている。
  • FGIA認識の三つの主要パラダイムはローカリゼーション-分類サブネットワーク、エンドツーエンドの特徴エンコーディング、外部情報の利用である。
  • ウェブデータ、テキスト記述、知識グラフなどの外部信号はFGIAの性能を向上させる可能性があるが、ノイズやドメインギャップを引き起こすため、慎重な取り扱いが必要。
  • マルチモーダル記述と弱い監視は、従来の画像ラベル監視を超えるFGIAに影響力を持つ。
  • CUB200-2011やRPCのようなベンチマークデータセットが体系的な比較を可能にし、FGIAの進歩を推進する。
  • 生成アプローチは、生成モデルによる細分画生成とテキストから画像への合成を可能にし、認識を超えたFGIAの能力を拡張する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。