[論文レビュー] Referring Relationships
本稿では、<主語-述語-目的語>の構造的関係に基づき、画像内の主語および目的語のエンティティを局所化するタスク「関係参照」を導入する。反復的で注目に基づくモデルを提案し、述語をエンティティ間の空間的シフトとして扱うことで、CLEVR、VRD、Visual Genomeの3つのベンチマークで最先端の性能を達成するとともに、未学習のカテゴリに対するゼロショット局所化を可能にする。
Images are not simply sets of objects: each image represents a web of interconnected relationships. These relationships between entities carry semantic meaning and help a viewer differentiate between instances of an entity. For example, in an image of a soccer match, there may be multiple persons present, but each participates in different relationships: one is kicking the ball, and the other is guarding the goal. In this paper, we formulate the task of utilizing these "referring relationships" to disambiguate between entities of the same category. We introduce an iterative model that localizes the two entities in the referring relationship, conditioned on one another. We formulate the cyclic condition between the entities in a relationship by modelling predicates that connect the entities as shifts in attention from one entity to another. We demonstrate that our model can not only outperform existing approaches on three datasets --- CLEVR, VRD and Visual Genome --- but also that it produces visually meaningful predicate shifts, as an instance of interpretable neural networks. Finally, we show that by modelling predicates as attention shifts, we can even localize entities in the absence of their category, allowing our model to find completely unseen categories.
研究の動機と目的
- 同じエンティティカテゴリの複数のインスタンスが存在する画像において、関係的文脈を用いてそれらを区別する課題に対処する。
- 自由な自然言語ではなく、構造的<主語-述語-目的語>関係を入力とする、新たなタスク「関係参照」を定式化し、視覚的要因と推論要因を明確に分離する。
- 主語と目的語の間で、述語に条件づけられた循環的かつ双方向の注目シフトを活用することで、局所化の正確性を向上させるモデルを開発する。
- カテゴリの外観に依存しないで、述語を注目シフトとしてモデル化することで、未学習カテゴリのエンティティに対するゼロショット局所化を可能にする。
- 注目シフトの可視化を通じて解釈可能性を示し、人間が理解可能な空間的関係と一致する。
提案手法
- 述語を、1つのエンティティの注目マップを、関係のもう一方のエンティティに注目させるために学習可能なシフト演算子としてモデル化する。
- 主語と目的語が交互に、述語固有のシフト演算子を通じて互いに注目する反復的メッセージスイーピング機構を用いる。
- シフト演算子を、空間的および文脈的情報に基づき、主語から目的語(およびその逆)に注目を移動させる微分可能変換として定義する。
- 真の主語および目的語のアノテーションから得られるボクシングボックスの局所化を監督として、クロスエントロピー損失を用いてエンドツーエンドでモデルを訓練する。
- シーングラフを用いて注目スキャナディングを実装し、複数の関係にまたがるハイパーハップリーニングを可能にする。
- 未学習カテゴリのエンティティに対するゼロショット推論を可能にするために、学習済みの述語シフトを、事前にカテゴリの監視を受けていないエンティティに適用する。
実験結果
リサーチクエスチョン
- RQ1同じカテゴリの複数のインスタンスが存在する曖昧なシーンにおいて、エンティティ間の述語を注目シフトとしてモデル化することで、局所化の正確性が向上するか?
- RQ2述語に条件づけられた反復的・循環的な注目メカニズムは、外観に基づくモデルと比較して、より解釈可能で意味的に意味のある注目パターンを生み出すか?
- RQ3カテゴリの外観に依存せず、述語駆動の注目シフトに依存することで、未学習カテゴリのエンティティに対するゼロショット局所化が可能か?
- RQ4標準的な参照表現および視覚的関係データセットにおいて、本手法は従来のアプローチと比較して、局所化性能で優れているか?
- RQ5学習された注目シフトは、人間が理解可能な空間的関係(例:「上に」や「前について」)とどの程度一致するか?
主な発見
- 提案手法は、CLEVR、VRD、Visual Genomeの3つのベンチマークで最先端の性能を達成し、CLEVRでは平均IoUスコアが0.5188(S-IoU)および0.5841(O-IoU)を記録した。
- Visual Genomeでは、長頸竜(giraffe)に対して平均IoUが0.6361、象(elephant)に対して0.6877を達成し、レアで複雑なエンティティに対しても優れた性能を示した。
- 空間的シフトを用いるベースライン手法や外観に基づくモデルと比較して、特に同じカテゴリの複数のインスタンスが関与する関係(33%、60.3%、61%の関係が同じカテゴリの複数インスタンスを指す)において顕著な性能向上を示した。
- 可視化の結果、人間の直感と一致する意味的な注目シフト(例:「蹴っている」という述語では、人物からボールに注目がシフトする)をモデルが学習していることが示された。
- 主語や目的語のカテゴリが提供されていなくても、モデルはエンティティを正しく局所化できており、未学習カテゴリへの頑健な一般化能力を示した。
- モデルが学習した注目シフトは解釈可能であり、『上に』や『前について』といった空間的関係と一致しており、VRDおよびVisual Genomeにおける定性的な分析で裏付けられた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。