QUICK REVIEW

[論文レビュー] Understanding Infographics through Textual and Visual Tag Prediction

Zoya Bylinskii, Sami Alsheikh|arXiv (Cornell University)|Sep 26, 2017

Image Retrieval and Classification Techniques参考文献 8被引用数 32

ひとこと要約

本稿では、インフォグラフィックスにおける視覚的ハッシュタグ発見を紹介する。この手法は、埋め込まれたテキストからテキストタグを予測し、それをスーパービジオラ信号として用いて、パッチベースのディーブラーニングフレームワークにより診断的視覚的領域（『視覚的ハッシュタグ』）を局所化する。このアプローチは、視覚的ハッシュタグ予測において15.2%の精度を達成し、明示的なオブジェクト学習なしに、視覚的に豊かなコンテンツの代表的領域を正確に局所化できることを示している。

ABSTRACT

We introduce the problem of visual hashtag discovery for infographics: extracting visual elements from an infographic that are diagnostic of its topic. Given an infographic as input, our computational approach automatically outputs textual and visual elements predicted to be representative of the infographic content. Concretely, from a curated dataset of 29K large infographic images sampled across 26 categories and 391 tags, we present an automated two step approach. First, we extract the text from an infographic and use it to predict text tags indicative of the infographic content. And second, we use these predicted text tags as a supervisory signal to localize the most diagnostic visual elements from within the infographic i.e. visual hashtags. We report performances on a categorization and multi-label tag prediction problem and compare our proposed visual hashtags to human annotations.

研究の動機と目的

インフォグラフィックスの理解のための計算手法の不足に応えるために、視覚的ハッシュタグ発見を新たなタスクとして導入すること。
インフォグラフィックスに埋め込まれたテキストを活用し、トピック関連の視覚的領域の特徴局所化を明確化・誘導すること。
まずインフォグラフィックスのテキストからテキストタグを予測する段階を経て、その後にそれらのタグを用いて診断的視覚的要素を局所化する二段階のシステムを開発すること。
650組の画像-タグペアに対して人間がアノテートしたバウンディングボックスと比較することで、視覚的ハッシュタグの品質を評価すること。
インフォグラフィックスから抽出したテキストが、複雑で視覚的に豊かなメディアにおける視覚認識性能を顕著に向上させることを示すこと。

提案手法

26のカテゴリと391のタグを有する、デザイナーが割り当てたラベルとメタデータを含む、29,000枚のインフォグラフィックスから構成されるキュレート済みデータセットを用いる。
各インフォグラフィックスからテキストを抽出し、1層の隠れ層を持つニューラルネットワークを用いて、48.2%のトップ1平均精度を達成するようにテキストタグを予測する。
パッチベースのディープマルチインスタンス学習モデルが画像領域を処理し、予測されたテキストタグによって制約を受けて、診断的視覚的要素を局所化する。
視覚的領域の候補は、視覚モデルからの活性化マップを用いて生成され、SharpMaskとセグメンテーションパイプラインを介して精錬され、最終的な視覚的ハッシュタグが得られる。
SharpMaskに失敗した場合でも候補生成を保証するためのフォールバック戦略（Ours-fallback）を採用し、再現率を向上させるが、精度は低下する。
テキスト的文脈と視覚的特徴を併用することで、大規模で複雑なインフォグラフィックスにおける局所化精度を向上させている。

実験結果

リサーチクエスチョン

RQ1インフォグラフィックスに埋め込まれたテキストを用いることで、診断的視覚的領域の局所化が向上するか？
RQ2テキストタグ予測の後に視覚的根拠に基づく局所化を行う二段階アプローチは、代表的視覚的ハッシュタグの生成においてどの程度有効か？
RQ3予測されたテキストタグが、インフォグラフィックス内のトピック関連視覚的要素を特定するためのスーパービジオラ信号としてどの程度有効か？
RQ4自動生成された視覚的ハッシュタグの性能は、人間がアノテートした真値と比較してどの程度か？
RQ5明示的なオブジェクト検出なしに学習されたモデルでも、視覚的に豊かな多要素インフォグラフィックスにおいて意味のある視覚的コンテンツを局所化できるか？

主な発見

提案手法は、視覚的ハッシュタグ予測において15.2%の精度を達成し、SalNet（10.9%）やObjectness（9.0%）といったベースライン手法を上回っている。
フォールバック戦略を採用することで、100%の画像-タグペアに対して候補を生成でき、精度は10.5%に向上したが、精度は低下している。
Word2Vecを用いたテキストのみのタグ予測は、48.2%のトップ1平均精度を達成し、マルチラベルタグ予測において優れた性能を示している。
深層特徴を用いた視覚のみのカテゴリ予測は、26.5%のトップ1精度を達成し、ランダム（15.4%）よりも顕著に高い。
テキスト的文脈の統合により視覚的局所化が向上し、予測されたタグをスーパービジオラ信号として用いることで、より高い精度が得られている。
SharpMaskが候補生成の主なボトルネックとなっており、34%の候補が破棄され、全体の再現率が制限され、フォールバック機構の必要性が生じている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。