Skip to main content
QUICK REVIEW

[論文レビュー] Deep Cropping via Attention Box Prediction and Aesthetics Assessment

Wenguan Wang, Jianbing Shen|arXiv (Cornell University)|Oct 22, 2017
Visual Attention and Saliency Detection被引用数 27
ひとこと要約

本稿では、視覚的に重要な領域を特定するための注目ボックスを予測した後、その周囲の候補から美的評価を用いて最適なクロップを選択する、深層学習に基づく写真クロッピング手法を提案する。本手法は、タスク間で特徴を共有し、大規模な注目度および美的評価データセットを活用して学習することで、5 fpsの推論速度を達成し、最先端の性能を実現する。

ABSTRACT

We model the photo cropping problem as a cascade of attention box regression and aesthetic quality classification, based on deep learning. A neural network is designed that has two branches for predicting attention bounding box and analyzing aesthetics, respectively. The predicted attention box is treated as an initial crop window where a set of cropping candidates are generated around it, without missing important information. Then, aesthetics assessment is employed to select the final crop as the one with the best aesthetic quality. With our network, cropping candidates share features within full-image convolutional feature maps, thus avoiding repeated feature computation and leading to higher computation efficiency. Via leveraging rich data for attention prediction and aesthetics assessment, the proposed method produces high-quality cropping results, even with the limited availability of training data for photo cropping. The experimental results demonstrate the competitive results and fast processing speed (5 fps with all steps).

研究の動機と目的

  • 従来のスライディングウィンドウ型クロッピング手法の非効率さと不自然な探索戦略を解決すること。
  • 統合的な深層学習フレームワークに人間の視覚的注目と美的判断を統合することで、クロッピング品質を向上させること。
  • 限られた専門家アノテーション付きクロッピングデータセットへの依存を減らすために、豊富な注目度および美的評価データを活用すること。
  • 特徴の共有と局所的な候補生成により、高い計算効率を達成すること。
  • クロッピングを自然な二段階プロセスとしてモデル化すること:まず注目度に基づいて初期クロップを決定し、次に美的評価により調整すること。

提案手法

  • 注目ボックス予測(ABP)と美的評価(AA)の2つの共有ボトムブランチを持つ完全畳み込みニューラルネットワークを採用する。
  • 回帰により注目バウンディングボックスを予測し、最も視覚的に顕著な領域を初期クロップとして特定する。
  • 予測された注目ボックスの周囲に約1000個のクロッピング候補を生成することで、探索空間を制限する。
  • ABPとAAネットワーク間で初期畳み込み特徴を共有することで、推論時の計算コストを低減する。
  • 画像全体に対してネットワークを一度適用して共有特徴マップを抽出し、その後各候補について特徴を切り出して再処理せずに済ませる。
  • AAネットワークで予測された美的スコアが最も高い候補を最終的なクロップとして選択する。
Figure 1 : (a)-(c) Flowchart of our method. (d) Conventional methods apply sliding-judging cropping strategy, which is time-consuming and violates natural cropping procedure. (e) Our method works as a cascade of attention-aware crop candidates generation and aesthetics-based crop window selection, w
Figure 1 : (a)-(c) Flowchart of our method. (d) Conventional methods apply sliding-judging cropping strategy, which is time-consuming and violates natural cropping procedure. (e) Our method works as a cascade of attention-aware crop candidates generation and aesthetics-based crop window selection, w

実験結果

リサーチクエスチョン

  • RQ1注目度ガイドドの候補生成と美的評価に基づく選択という段階的な手法が、従来のスライディングウィンドウ手法を上回る性能を発揮できるか?
  • RQ2注目度予測と美的評価の間で特徴を共有することは、精度を損なわせずに効率性を向上させるのにどの程度有効か?
  • RQ3大規模な注目度および美的評価データセットで事前学習したモデルは、クロッピングに特化したアノテーションが限られている状況でもどの程度補完的か?
  • RQ4注目度に基づいて初期クロップを決定し、その後美的評価で調整するという「決定・調整」プロセスとしてのモデル化は、エンドツーエンドのスライディングウィンドウ最適化と比較して、人間のクロッピング行動をよりよく反映しているか?
  • RQ5リアルタイム応用において、計算効率とクロッピング精度のトレードオフはどのようなものか?

主な発見

  • 本手法は、MSR-ICDデータセットにおいて0.813の最高IoUスコアを達成し、LCC(0.748)やATC(0.605)といった先行手法を顕著に上回った。
  • FLMSデータセットでは、IoUが0.810、BDEが0.057を達成し、VBC(IoU: 0.74)やMPC(IoU: 0.41)をすべて上回った。
  • 本手法は1秒間に5フレームの処理が可能であり、リアルタイム応用に適した高い計算効率を示した。
  • 共有特徴アーキテクチャにより、重複する計算が削減され、高速な推論を実現しながらも高い精度を維持した。
  • クロッピングに特化した学習データが限られているにもかかわらず、注目度および美的評価の豊富な事前学習済みデータセットを活用することで、良好な汎化性能を示した。
  • 定性的な結果から、予測された注目ボックスが人間がアノテートした顕著領域とよく一致しており、最終的なクロップは視覚的に魅力的で構図的にもバランスが取れていることが確認された。
Figure 2 : (a) Input image. (b) Attention map. (c) Ground truth attention box generation via [ 3 ] . (d) Positive (red) and negative (blue) defaults boxes are generated for training ABP network according to ground truth attention box.
Figure 2 : (a) Input image. (b) Attention map. (c) Ground truth attention box generation via [ 3 ] . (d) Positive (red) and negative (blue) defaults boxes are generated for training ABP network according to ground truth attention box.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。