Skip to main content
QUICK REVIEW

[論文レビュー] Knowledge-Embedded Routing Network for Scene Graph Generation

Tianshui Chen, Weihao Yu|arXiv (Cornell University)|Mar 8, 2019
Multimodal Machine Learning Applications参考文献 33被引用数 45
ひとこと要約

本論文は、Knowledge-Embedded Routing Network (KERN) が統計的オブジェクト対と関係知識を明示的に構造化グラフとしてエンコードし、シーングラフ予測を正則化することで、特に Visual Genome の希少な関係に対して従来手法より強力な性能を発揮することを示します。

ABSTRACT

To understand a scene in depth not only involves locating/recognizing individual objects, but also requires to infer the relationships and interactions among them. However, since the distribution of real-world relationships is seriously unbalanced, existing methods perform quite poorly for the less frequent relationships. In this work, we find that the statistical correlations between object pairs and their relationships can effectively regularize semantic space and make prediction less ambiguous, and thus well address the unbalanced distribution issue. To achieve this, we incorporate these statistical correlations into deep neural networks to facilitate scene graph generation by developing a Knowledge-Embedded Routing Network. More specifically, we show that the statistical correlations between objects appearing in images and their relationships, can be explicitly represented by a structured knowledge graph, and a routing mechanism is learned to propagate messages through the graph to explore their interactions. Extensive experiments on the large-scale Visual Genome dataset demonstrate the superiority of the proposed method over current state-of-the-art competitors.

研究の動機と目的

  • シーングラフ生成における長尾問題を、物体の共起とそれらの関係の事前統計知識を活用して解決する。
  • 統計的相関を構造化グラフとして表現し、それをグラフニューラルネットワークに統合して、関係予測の意味空間を調整する。
  • dedicated routing networks を用いて物体と関係の相互作用をモデル化し、SGGen、SGCls、PredCls のタスク全体で予測精度を向上させる。
  • Visual Genome データセット上で評価し、最先端手法と比較して mean recall (mR@K) と recall (R@K) の向上を強調する。

提案手法

  • Faster R-CNN で物体領域を検出し、候補ボックスと特徴を取得する。
  • 物体の共起統計を用いて領域グラフを構築し、ゲート付き更新を用いたグラフニューラルネットワークで文脈化された物体ラベルを学習する。
  • 各物体ペアについて、共起確率を表す K 個の関係ノードを持つ関係グラフを構築し、関係を予測するためにメッセージを伝搬する。
  • 別のグラフニューラルネットワークを用いて物体ペアと潜在的な関係との相互作用をモデル化し、最終的な関係ラベルを出力する。
  • 事前統計 m_cc', m_cc'k をグラフに埋め込み、意味空間を明示的に正則化し、補完的な指標として mR@K と R@K で評価する。

実験結果

リサーチクエスチョン

  • RQ1Explicit な、統計に基づく知識グラフが意味空間を正則化して関係予測を改善し、特に頻度の低い関係に効果があるか。
  • RQ2知識埋め込みルーティングとグラフ伝搬を統合することで、Visual Genome の SGGen、SGCls、PredCls の各タスクで従来のシーングラフ生成法を上回れるか。
  • RQ3知識グラフの構成要素が全体の性能と長尾分布へのロバスト性に及ぼす影響はどの程度か。
  • RQ4mR@K と R@K の指標は、頻繁な関係と希少な関係の両方の改善をどのように反映するか。

主な発見

  • 提案手法の KERN は従来手法と比較して優れた mR@K スコアを示し、平均 mR@50/100 が 9.0%(SMN)から 11.7%(KERN)へ改善し、アブレーションでさらに向上する。
  • R@K 指標では、KERN は制約付き設定下で平均 R@50/100 が 44.1%/55.4% と最先端の recalls を達成し、SMN よりも小幅な上回りを示す。
  • 統計的相関を一様分布に置換したアブレーション研究では性能が低下する(平均 mR が 11.7% から 7.9%、平均 R が 44.1% から 40.6%)、明示的な知識統合の重要性を確認。
  • KERN は希少/稀少な関係に対してより大きな利得を示し、Visual Genome に内在する長尾分布の問題に対処する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。