QUICK REVIEW

[論文レビュー] Person Search with Natural Language Description

Shuang Li, Tong Xiao|arXiv (Cornell University)|Feb 19, 2017

Multimodal Machine Learning Applications参考文献 41被引用数 63

ひとこと要約

本論文は自然言語描述を用いた人物検索の大規模データセットCUHK-PEDESを提案し、文の語を視覚ユニットと一致させて人物画像をランク付けするゲート付きニューラルアテンションモデルGNA-RNNを提案します。

ABSTRACT

Searching persons in large-scale image databases with the query of natural language description has important applications in video surveillance. Existing methods mainly focused on searching persons with image-based or attribute-based queries, which have major limitations for a practical usage. In this paper, we study the problem of person search with natural language description. Given the textual description of a person, the algorithm of the person search is required to rank all the samples in the person database then retrieve the most relevant sample corresponding to the queried description. Since there is no person dataset or benchmark with textual description available, we collect a large-scale person description dataset with detailed natural language annotations and person samples from various sources, termed as CUHK Person Description Dataset (CUHK-PEDES). A wide range of possible models and baselines have been evaluated and compared on the person search benchmark. An Recurrent Neural Network with Gated Neural Attention mechanism (GNA-RNN) is proposed to establish the state-of-the art performance on person search.

研究の動機と目的

自由形式の言語説明を用いて、画像や事前定義された属性なしに実用的な人物検索を促進する。
再識別データセットからの人物画像に対する豊富な自然言語注釈を持つ大規模データセット（CUHK-PEDES）を作成する。
言語ガイド型の人物検索において、キャプショニング、QA、埋め込みパラダイムの複数のベースラインを評価する。
堅牢な検索を実現するため、ゲート付きニューラルアテンションによる語-画像親和性を学習するGNA-RNNを提案する。

提案手法

外観を説明する80,412文と、13,003人の40,206画像を含むCUHK-PEDESを導入する。
VGG-16風のバックボーンから512個の視覚ユニットを出力する視覚サブネットワークを開発する。
各語に対して視覚ユニット上のユニットレベルのアテンションを生成する言語サブネットワーク（LSTM）を使用する。
文中の異なる語の重要性を重み付けする語レベルのゲートを組み込む。
各語のアフィニティを視覚ユニット応答の加重和として計算し、語に対して集約して最終アフィニティを得る。
正例/負例の文-画像ペアに対してエンドツーエンドでクロスエントロピーロスを用いて訓練し、1:3の正:負比率を使用する。

実験結果

リサーチクエスチョン

RQ1自然言語説明は大規模な人物検索において属性ベースのクエリより優れるか？
RQ2人物を説明する語と画像の関係を最もよく捉えるデータセットとモデル構造とは？
RQ3ゲート付きニューラルアテンション機構は、画像キャプショニングや視覚-セマンティック埋め込みなどのベースラインより文-画像の親和性を改善するか？
RQ4語タイプと文の長さは、言語ガイド型の人物検索における検索効果にどのように影響するか。

主な発見

モデル	top-1	top-10
NeuralTalk	19.05	53.64
CNN-RNN	8.00	30.56
EmbBoW	8.00	30.56
QAWord	10.21	44.53
QAWord-img	8.00	53.64
QABoW	8.00	30.56
GNA-RNN	19.05	53.64

CUHK-PEDESは40,206枚の画像と80,412の文を提供し、頑健な言語駆動型人物検索ベンチマークを可能にする。
GNA-RNNが提案データセット上で最先端の結果を達成し、トップ1・トップ10精度でキャプショニング、QA、埋め込みベースラインを上回る。
ユニットレベルのアテンションと語レベルのゲートはともに性能に有意に寄与する。片方を削除すると結果が低下する。
人物リIDデータで視覚バックボーンを事前学習すると性能が大幅に向上する。
512視覚ユニットがテストしたユニット数の中で最良の性能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。