QUICK REVIEW

[論文レビュー] Modeling Context in Referring Expressions

Licheng Yu, Patrick Poirson|arXiv (Cornell University)|Jul 31, 2016

Multimodal Machine Learning Applications参考文献 39被引用数 54

ひとこと要約

本稿では、参照表現生成（REG）および理解のための視覚的比較に基づくコンテキストモデリング手法を提案する。この手法は、画像内における類似対象との明示的比較を通じて、モデルの性能を向上させる。視覚的対比特徴を統合し、同じカテゴリに属するすべての対象について同時に表現を生成することで、曖昧性を顕著に低減し、RefCOCO、RefCOCO+、RefCOCOgの3つのデータセットで最先端の結果を達成。精度が向上し、表現の重複も減少した。

ABSTRACT

Humans refer to objects in their environments all the time, especially in dialogue with other people. We explore generating and comprehending natural language referring expressions for objects in images. In particular, we focus on incorporating better measures of visual context into referring expression models and find that visual comparison to other objects within an image helps improve performance significantly. We also develop methods to tie the language generation process together, so that we generate expressions for all objects of a particular category jointly. Evaluation on three recent datasets - RefCOCO, RefCOCO+, and RefCOCOg, shows the advantages of our methods for both referring expression generation and comprehension.

研究の動機と目的

グローバルな画像特徴を超えた詳細な視覚的コンテキストをモデル化することで、参照表現生成と理解の性能を向上させること。
同じ画像内に存在する視覚的に類似した対象と比較することで、参照表現の曖昧性を低減すること。
同じカテゴリに属するすべての対象の表現を同時にモデル化することで、言語生成の質を向上させ、多様性と補完性を確保すること。
視覚的比較と統合生成の有効性を、3つのベンチマークデータセットにおける包括的な評価を通じて検証すること。
従来のモデルが十分なコンテキストモデリングを行わなかったために、曖昧または重複する表現を生成するという限界を是正すること。

提案手法

モデルは、対象対象と画像全体から視覚的特徴を抽出するためのCNNを用い、同じカテゴリに属する他の対象と比較して、対象の視覚的差異を計算する。
視覚的比較モジュールは、シーン内での類似対象と比較することで、特徴を特徴付ける「visdif」特徴ベクトルを計算する。
言語生成ネットワークは、LSTMを用い、対象対象、画像全体、およびvisdifベクトルの特徴を入力として受け取り、文脈的に正確な参照表現を生成する。
統合生成メカニズムにより、同じカテゴリに属する複数の対象の表現が同時に生成され、多様性が確保され、冗長性が低減される。
エンド・トゥ・エンドのバックプロパゲーションを用いて、参照表現生成と理解の両方を同時に学習する。
生成品質の向上と曖昧性の低減を図るため、最小相互情報量（MMI）の目的関数を導入する。

実験結果

リサーチクエスチョン

RQ1対象間の視覚的比較を組み込むことで、参照表現生成と理解の性能がどのように向上するか？
RQ2同じカテゴリの複数対象の表現を同時に生成することで、曖昧性が低減され、性能が向上するか？
RQ3visdifに基づく視覚的コンテキストモデリングは、グローバルな画像コンテキスト特徴に比べて、曖昧でない参照表現の生成において優れているか？
RQ4BLEU や ROUGE などの自動評価指標は、人間による参照表現品質評価とどの程度相関するか？
RQ5統合生成は、同じ画像内に存在する対象間で、どの程度表現の重複を削減するか？

主な発見

統合生成を組み合わせた「visdif」モデルは、RefCOCO Test Bで76.31%の最高の人間評価精度を達成し、ベースラインを顕著に上回った。
「visdif+MMI+tie」モデルは、RefCOCO Test Bで重複表現を4.53%まで低減し、全手法中最も低かった。これは表現の多様性が向上したことを示している。
人間評価では、MMIおよび統合生成を組み合わせたモデルが自動評価指標が示すよりも優れていることが確認された。「visdif+MMI+tie」モデルは、RefCOCO Test Bで76.31%の精度を達成した。
RefCOCOでは、「visdif」モデルがBLEU-1とROUGEスコアを、それぞれベースライン比で最大0.045および0.016向上させた。
RefCOCOgでは、「visdif」モデルがBLEU-1スコア0.442、ROUGEスコア0.370を達成し、ベースラインおよびMMIベースラインを上回った。
視覚的比較と統合生成の組み合わせにより、ベースライン手法と比較して表現の重複が最大50%まで低減され、意味的多様性の向上が実証された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。