QUICK REVIEW

[論文レビュー] Cascade Attention Network for Person Search: Both Image and Text-Image Similarity Selection.

Ya Jing, Chenyang Si|arXiv (Cornell University)|Sep 22, 2018

Multimodal Machine Learning Applications参考文献 16被引用数 10

ひとこと要約

本稿では、テキストベースの人物検索のためのポーズガイドドマルチグレイン感度ネットワーク（PMA）を提案する。本手法は、ポーズ情報によってガイドされた粗粒度および細粒度のアテンション機構を活用し、グローバルな記述とフレーズレベルの意味を、対応する画像領域と一致させる。この手法は、CUHK-PEDESデータセットにおいて、最先端の手法よりもトップ1の検索精度で15%の向上を達成した。

ABSTRACT

Text-based person search aims to retrieve the corresponding person images in an image database by virtue of a describing sentence about the person, which poses great potential for various applications such as video surveillance. Extracting visual contents corresponding to the human description is the key to this cross-modal matching problem. Moreover, correlated images and descriptions involve different granularities of semantic relevance, which is usually ignored in previous methods. To exploit the multilevel corresponding visual contents, we propose a pose-guided multi-granularity attention network (PMA). Firstly, we propose a coarse alignment network (CA) to select the related image regions to the global description by a similarity-based attention. To further capture the phrase-related visual body part, a fine-grained alignment network (FA) is proposed, which employs pose information to learn latent semantic alignment between visual body part and textual noun phrase. To verify the effectiveness of our model, we perform extensive experiments on the CUHK Person Description Dataset (CUHK-PEDES) which is currently the only available dataset for text-based person search. Experimental results show that our approach outperforms the state-of-the-art methods by 15 \% in terms of the top-1 metric.

研究の動機と目的

自然言語による記述と関連する画像領域を一致させることで、クロスマodal人物検索の課題に対処する。
従来の手法が画像とテキストの対応における多段階の意味的粒度を無視するという限界を克服する。
グローバルおよびフレーズレベルの視覚的・言語的一致をモデリングすることで、検索精度を向上させる。
人間のポーズ情報を活用して、体の部位と記述内の名詞フレーズの間の細粒度一致を向上させる。

提案手法

グローバルな人物記述に関連する画像領域を特定するため、類似度ベースのアテンションを用いる粗粒度一致ネットワーク（CA）を提案する。
ポーズ推定を用いて、特定の体の部位とテキスト内の名詞フレーズの間のアテンションをガイドする細粒度一致ネットワーク（FA）を設計する。
両ネットワークをカスケード形式で統合し、粗粒度から細粒度へ段階的に視覚的・意味的一致を精緻化する。
ポーズ情報を監視信号として活用し、フレーズレベルでの一致精度を向上させる。
画像とテキストの埋め込み学習のための共同最適化目的関数を用いて、CUHK-PEDESデータセット上でエンドツーエンドのモデルを訓練する。
テキスト的クエリの意味論に基づいて、関連する視覚的特徴を動的に重み付するアテンション機構を採用する。

実験結果

リサーチクエスチョン

RQ1テキスト記述と画像領域の間のマルチグレイン感度一致が、どのように人物検索のパフォーマンスを向上させるか？
RQ2ポーズガイドドアテンションは、テキストベースの人物検索における細粒度一致をどの程度向上させるか？
RQ3グローバルおよびフレーズレベルの一致を組み合わせたカスケードアテンション機構は、従来の単一粒度アプローチを上回るか？
RQ4本手法は、CUHK-PEDESベンチマークにおいて、最先端のモデルと比較してどのように差をつけるか？

主な発見

提案手法は、CUHK-PEDESデータセットにおいて、最先端の手法よりも15%の相対的なトップ1検索精度の向上を達成した。
粗粒度一致ネットワークは、全体的な人物記述に関連する画像領域を効果的に特定した。
ポーズ情報でガイドされた細粒度一致ネットワークは、特定の体の部位とテキストフレーズの間の一致を顕著に向上させた。
カスケードアテンション機構により、複数の粒度にわたる視覚的・意味的一致の段階的精緻化が可能になった。
モデルは、テキスト-画像一致におけるグローバルおよびローカルな意味的相関を効果的に捉えることで、優れた一般化能力を示した。
ポーズ情報を監視信号として用いることで、名詞フレーズに対応する関連する体の部位の局在化能力が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。