Skip to main content
QUICK REVIEW

[論文レビュー] Exploring the Semantics for Visual Relationship Detection.

Wentong Liao, Cuiling Lan|arXiv (Cornell University)|Apr 3, 2019
Multimodal Machine Learning Applications参考文献 31被引用数 5
ひとこと要約

本稿では、視覚的関係検出を向上させるために、ソース・ターゲットクラス認知的変換を活用してオブジェクトおよび関係特徴を精錬し、クラス確率埋め込みを統合して意味的文脈を反映させ、意味に配慮した関係フィルタを適用して探索空間を削減する、新しいフレームワークであるSemantics Guided Graph Relation Neural Network (SGRN) を提案する。このアプローチは、Visual Genomeで最先端の性能を達成し、オブジェクト検出のmAPを4.2%向上させる。

ABSTRACT

Scene graph construction / visual relationship detection from an image aims to give a precise structural description of the objects (nodes) and their relationships (edges). The mutual promotion of object detection and relationship detection is important for enhancing their individual performance. In this work, we propose a new framework, called semantics guided graph relation neural network (SGRN), for effective visual relationship detection. First, to boost the object detection accuracy, we introduce a source-target class cognoscitive transformation that transforms the features of the co-occurent objects to the target object domain to refine the visual features. Similarly, source-target cognoscitive transformations are used to refine features of objects from features of relations, and vice versa. Second, to boost the relation detection accuracy, besides the visual features of the paired objects, we embed the class probability of the object and subject separately to provide high level semantic information. In addition, to reduce the search space of relationships, we design a semantics-aware relationship filter to exclude those object pairs that have no relation. We evaluate our approach on the Visual Genome dataset and it achieves the state-of-the-art performance for visual relationship detection. Additionally, Our approach also significantly improves the object detection performance (i.e. 4.2\% in mAP accuracy).

研究の動機と目的

  • オブジェクト検出と関係検出の間での相互監視を強化することで、視覚的関係検出を向上させること。
  • 共起するオブジェクトからターゲットオブジェクトドメインに知識を転送することで、オブジェクト特徴を精錬する認知的特徴変換を用いて、オブジェクトおよび関係予測におけるノイズや曖昧な視覚的特徴の課題に対処すること。
  • 意味的に不適切なオブジェクトペアを除外することで、潜在的関係の探索空間を削減すること。
  • 高レベルの意味的情報(クラス確率)を関係予測に統合して、精度を向上させること。
  • Visual Genomeベンチマークで最先端の性能を達成するとともに、オブジェクト検出の精度を向上させること。

提案手法

  • 共起するオブジェクトからターゲットオブジェクトドメインに知識を転送することで、オブジェクト特徴を精錬するためのソース・ターゲットクラス認知的変換を導入する。
  • オブジェクト特徴と関係特徴の間で、同じ認知的変換を適用し、相互に特徴を強化する双方向の特徴精錬を実現する。
  • 関係予測モジュールに、主語および目的語の個別クラス確率を埋め込むことで、高レベルの意味的文脈を注入する。
  • 意味的適合性に基づいて、有効な関係を有する可能性が低いオブジェクトペアを除外する意味に配慮した関係フィルタを設計する。
  • オブジェクト間の関係をモデル化するためのグラフニューラルネットワークアーキテクチャを用い、強化された特徴と意味的事前知識を統合して推論を向上させる。
  • オブジェクト検出と関係検出の両方を同時に最適化する統合学習により、Visual Genomeデータセット上でモデルをエンドツーエンドで訓練する。

実験結果

リサーチクエスチョン

  • RQ1オブジェクト検出と関係検出の間での相互監視をどのように活用すれば、両タスクの性能向上に寄与できるか?
  • RQ2認知的特徴変換は、オブジェクトおよび関係検出における視覚的特徴表現をどの程度向上させることができるか?
  • RQ3クラス確率埋め込みを統合することで、関係予測の精度を向上させることができるか?
  • RQ4意味に配慮したフィルタは、再現率を損なうことなく、潜在的関係の探索空間をどの程度効果的に削減できるか?
  • RQ5提案されたフレームワークは、視覚的関係検出で最先端の性能を達成するか、同時にオブジェクト検出の精度を向上させるか?

主な発見

  • 提案されたSGRNフレームワークは、Visual Genomeデータセットにおける視覚的関係検出で最先端の性能を達成した。
  • ベースラインモデルと比較して、オブジェクト検出のmAPが4.2%向上した。これは、強い相互強化効果を示している。
  • クラス確率埋め込みの統合により、より正確で意味的に根拠のある関係予測が可能になった。
  • 意味に配慮した関係フィルタは、候補となる関係の数を効果的に削減し、推論の効率性と精度を向上させた。
  • ソース・ターゲット認知的変換は、オブジェクトおよび関係両方の検出精度向上に寄与する特徴品質の顕著な向上をもたらした。
  • アブレーションスタディの結果、特徴変換、意味的埋め込み、フィルタリングの各コンポーネントが、全体の性能向上に意味的に寄与していることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。