QUICK REVIEW

[論文レビュー] Using Syntax to Ground Referring Expressions in Natural Images

Volkan Cirik, Taylor Berg-Kirkpatrick|arXiv (Cornell University)|May 26, 2018

Multimodal Machine Learning Applications被引用数 35

ひとこと要約

GroundNet は構文駆動型のニューラルネットワークであり、参照表現の画像内における接地に動的計算グラフを構築するために構文解析木を利用する。構文的構成要素をニューラルモジュールにマッピングすることで、ターゲットオブジェクトおよび支援オブジェクトの両方の局所化を向上させ、支援オブジェクト検出において最先端の性能を達成しながらも、高いターゲット局所化精度を維持し、モデルの解釈可能性を向上させる。

ABSTRACT

We introduce GroundNet, a neural network for referring expression recognition -- the task of localizing (or grounding) in an image the object referred to by a natural language expression. Our approach to this task is the first to rely on a syntactic analysis of the input referring expression in order to inform the structure of the computation graph. Given a parse tree for an input expression, we explicitly map the syntactic constituents and relationships present in the tree to a composed graph of neural modules that defines our architecture for performing localization. This syntax-based approach aids localization of extit{both} the target object and auxiliary supporting objects mentioned in the expression. As a result, GroundNet is more interpretable than previous methods: we can (1) determine which phrase of the referring expression points to which object in the image and (2) track how the localization of the target object is determined by the network. We study this property empirically by introducing a new set of annotations on the GoogleRef dataset to evaluate localization of supporting objects. Our experiments show that GroundNet achieves state-of-the-art accuracy in identifying supporting objects, while maintaining comparable performance in the localization of target objects.

研究の動機と目的

自然言語表現における構文的構造を活用することで、参照表現の接地における解釈可能性を向上させること。
過去のモデルが解釈のための鍵となる支援オブジェクトを正しく局所化できないという限界を解決すること。
参照表現の再帰的・構成的性質を反映する動的ニューラルアーキテクチャを開発すること。
中間の局所化意思決定を評価可能にするために、支援オブジェクトの新しいアノテーションスキームを導入すること。
構文的構成性が視覚言語接地における解釈可能性とパフォーマンスの両方を向上させることを実証すること。

提案手法

モデルは、参照表現の構文解析木に基づいて動的計算グラフを構築し、各構文的構成要素をニューラルモジュールにマッピングする。
計算グラフの各ノードは、画像内のオブジェクトを局所化するニューラルモジュールに対応し、局所化や関係的推論などの操作が含まれる。
ネットワークは下位から上位への順序でグラフを処理し、名詞句や介詞句から始めて、全表現へと段階的に構築する。
名詞句（NPs）や介詞句（PPs）などの構文的構成要素が、オブジェクトおよびその空間的関係を検出するモジュールに明示的にマッピングされる。
アーキテクチャは解釈可能である：各モジュールの出力を追跡することで、テキスト内のどのフレーズが画像内のどのオブジェクトを指しているかを特定できる。
支援オブジェクトの正解ボクセルボックスを必要とせず、ターゲットオブジェクトのアノテーションのみを用いてエンドツーエンドで学習される。

実験結果

リサーチクエスチョン

RQ1構文的構成性は、参照表現の接地における支援オブジェクトの局所化を向上させることができるか？
RQ2構文駆動型ニューラルアーキテクチャは、言語的構成要素に対する追跡可能な推論を可能にすることで、モデルの解釈性を向上させることができるか？
RQ3解析木に基づく動的計算グラフは、複雑で再帰的な参照表現の接地において、固定構造モデルを上回ることができるか？
RQ4参照表現モデルにおいて、精度と解釈性の間にトレードオフがあるか、そして構文を用いることでこれを緩和できるか？
RQ5現在の最先端モデルが、どの程度まで支援オブジェクトを正しく局所化できないか、そしてこれを定量的に測定できるか？

主な発見

GroundNet は GoogleRef データセットにおいて、支援オブジェクトの局所化で最先端のパフォーマンスを達成し、従来のモデルを上回った。
新たな補助タスクを導入しても、ターゲットオブジェクトの局所化精度は最先端手法と同等の水準を維持した。
新たにアノテートされた支援オブジェクトの位置を用いた実証的評価により、従来のモデルが支援オブジェクトを効果的に局所化できていないことが確認された。
構文に基づく計算グラフにより、完全な解釈可能性が実現された：各モジュールの出力は、参照表現内の特定のフレーズに追跡可能である。
複数の支援オブジェクトを含む再帰的表現、例えば「コーヒーキャップの一番近いプラットフォーム」といった表現を、モデルは正常に接地できた。
結果から、構文的構成性が視覚言語接地における解釈可能性とパフォーマンスの両方を高める重要な要因であることが示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。