QUICK REVIEW

[論文レビュー] Visual Translation Embedding Network for Visual Relation Detection

Hanwang Zhang, Zawlin Kyaw|arXiv (Cornell University)|Feb 27, 2017

Multimodal Machine Learning Applications参考文献 15被引用数 61

ひとこと要約

VTransE end-to-end network learns visual relations by embedding subject, predicate, and object into a low-dimensional relation space using translation embeddings, enabling simultaneous object detection and relation prediction with knowledge transfer between objects and relations.

ABSTRACT

Visual relations, such as "person ride bike" and "bike next to car", offer a comprehensive scene understanding of an image, and have already shown their great utility in connecting computer vision and natural language. However, due to the challenging combinatorial complexity of modeling subject-predicate-object relation triplets, very little work has been done to localize and predict visual relations. Inspired by the recent advances in relational representation learning of knowledge bases and convolutional object detection networks, we propose a Visual Translation Embedding network (VTransE) for visual relation detection. VTransE places objects in a low-dimensional relation space where a relation can be modeled as a simple vector translation, i.e., subject + predicate $\approx$ object. We propose a novel feature extraction layer that enables object-relation knowledge transfer in a fully-convolutional fashion that supports training and inference in a single forward/backward pass. To the best of our knowledge, VTransE is the first end-to-end relation detection network. We demonstrate the effectiveness of VTransE over other state-of-the-art methods on two large-scale datasets: Visual Relationship and Visual Genome. Note that even though VTransE is a purely visual model, it is still competitive to the Lu's multi-modal model with language priors.

研究の動機と目的

物体検出やキャプション生成を超えて、視覚と言語を橋渡しするための明示的な視覚関係モデリングの必要性を喚起する
長尾の述語分布を扱うための翻訳埋め込みベースの視覚関係表現を提案する
エンドツーエンドCNNで物体と述語間の知識伝達を可能にする微分可能な特徴抽出層を導入する
言語事前情報なしでVRDとVisual Genomeデータセットにおいて関係検出を向上させるVTransEを実証する
関係的文脈を通じてエンドツーエンドの学習が物体検出を向上させることを示す

提案手法

関係を低次元の関係空間で s + p ≈ o として表現し、主語/物体をこの空間へ写像する射影行列 Ws, Wo を用いる
各述語 p に対して翻訳ベクトル tp を用いて視覚関係をモデル化し、単純な距離ベース損失やソフトマックスベースの損失を可能にする
classeme、location、双線形補間された視覚特徴を x_s, x_o に結合する微分可能なFeature Extraction Layerを導入し、エンドツーエンドの知識伝達を可能にする
RoIプーリングを双線形補間に置換し、エンドツーエンド学習のための滑らかな勾配を作成する
Lobj + 0.4 Lrel の多重損失で学習する。Lrel は述語に対するソフトマックスと翻訳ベースのスコア項を用いる
物体検出はVGG-16を用いたFaster-RCNNを使用するが、関係学習を支援するために双線形補間ベースの特徴抽出を導入する
関係のスコアは S_s,p,o = S_s + S_p + S_o のように物体検出スコアと述語予測スコアを結合する

実験結果

リサーチクエスチョン

RQ1低次元の翻訳空間に視覚的関係を埋め込むことは JointBox 風モデルと比較して述語予測を改善しますか？
RQ2どの特徴量（classeme、location、visual）が関係検出に最も寄与し、特徴融合はさまざまな関係タイプにどう影響しますか？
RQ3エンドツーエンドの VTransE は文脈的関係学習を通じて物体検出を改善し、またその逆も可能ですか？
RQ4VRDとVisual Genome における最新の視覚関係モデルと比較して、zero-shot を含むシナリオで VTransE はどのように性能を発揮しますか？

主な発見

VTransEはVRDおよびVGデータセットにおける述語予測でJointBoxを上回る（R@50およびR@100）
三つの特徴タイプ（classeme、location、visual）を学習スケーリングと共に追加すると、動詞、空間、前置詞、比較級を含む全体で最良の関係検出を達成する
VTransE を用いたエンドツーエンド学習は VRD および VG で物体検出の mAP を向上させ、物体と関係の相互学習を示す
VTransE（純粋に視覚的）は Lu’s-VLK よりいくつかのタスクで上回り、視覚関係に対する翻訳埋め込みの利点を示している
2段階のVTransE（VTransE-2stage）はエンドツーエンドのVTransEに遅れを取り、共同最適化の価値を強調する
Zero-shot の結果は全ての方法で大幅な劣化を示し、言語事前情報なしで動詞/物体の組み合わせを一般化する上の課題を浮き彫りにしている

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。