Skip to main content
QUICK REVIEW

[論文レビュー] Detecting Visual Relationships with Deep Relational Networks

Bo Dai, Yuqi Zhang|arXiv (Cornell University)|Apr 11, 2017
Advanced Image and Video Retrieval Techniques参考文献 50被引用数 68
ひとこと要約

本論文は、視覚関係検出のために、空間配置と統計的依存性をニューラルネットワーク内でモデル化して、三つ組(主語・述語・目的語)を共同推定する Deep Relational Network (DR-Net) を提案し、VRD および sVG データセットで従来手法を上回る性能を示す。

ABSTRACT

Relationships among objects play a crucial role in image understanding. Despite the great success of deep learning techniques in recognizing individual objects, reasoning about the relationships among objects remains a challenging task. Previous methods often treat this as a classification problem, considering each type of relationship (e.g. "ride") or each distinct visual phrase (e.g. "person-ride-horse") as a category. Such approaches are faced with significant difficulties caused by the high diversity of visual appearance for each kind of relationships or the large number of distinct visual phrases. We propose an integrated framework to tackle this problem. At the heart of this framework is the Deep Relational Network, a novel formulation designed specifically for exploiting the statistical dependencies between objects and their relationships. On two large datasets, the proposed method achieves substantial improvement over state-of-the-art.

研究の動機と目的

  • 独立した物体認識を超えた堅牢な視覚関係検出の必要性を動機づける。
  • 空間的および統計的関係を活用して (subject, predicate, object) の三つ組を予測するフレームワークを導入する。
  • 確率的推論を深いネットワークへ展開し、エンドツーエンド学習を可能にする DR-Net を開発する。
  • 外観、空間マスク、統計的依存性を組み合わせることで優れた性能を達成できることを示す。

提案手法

  • Faster R-CNN で物体を検出し、各候補物体の外観特徴を抽出する。
  • 物体ペアを形成し、ありえそうでない関係を除外するペアフィルタを適用する。
  • 保持されたペアについて、包含ボックスから外観特徴を抽出し、主語と目的語のための二つの対になる空間マスク(32x32)を用いて、それを64次元に圧縮する。
  • q_s, q_r, q_o のニューラル層へ推論を展開し、推論ユニット間で重みを共有して、s, r, o の反復的後方更新を行う Deep Relational Network (DR-Net) を提案する。
  • コンポーネント間に対称的な重み制約を用いて関係をモデル化し、エンドツーエンドの識別学習を可能にする。
  • DR-Net を CRF ベースの定式化や他のベースラインと比較し、述語認識で DR-Net が有意な改善をもたらすことを示す。

実験結果

リサーチクエスチョン

  • RQ1主語・述語・目的語の統計的依存性を共同学習モデルで捉え、視覚的関係検出を改善できるか。
  • RQ2外観、空間配置、および学習された関係推定を統合することで、分類ベースや CRF ベースのアプローチを上回るか。
  • RQ3推論ユニットの数と重み共有が DR-Net の性能にどう影響するか。
  • RQ4このフレームワークは関係検出を超えるシーングラフ生成にも有効か。

主な発見

DatasetTaskRecall@50Recall@100
VRDPredicate Recognition (DR-Net)80.7881.90
sVGPredicate Recognition (DR-Net)88.2691.26
  • DR-Net は VRD および sVG における述語認識で従来法より著しいリコール向上を達成(例:DR-Net recall@50/100 はベースラインより顕著に高い)。
  • 外観と空間配置の両方を組み合わせると、いずれか一方だけより性能が向上する。
  • DR-Net の統計的依存性を活用する能力は(CRFと比較して)意味あるパープレキシティの低減と述語の曖昧さ解消につながる。
  • 推論ユニットを増やすほどリコールは一般に向上するが、重み共有の有無によって収穫減少が生じ、共有なしの設定は十分なユニット数でより大きな改善を得られる。
  • このフレームワークはシーングラフ生成にも拡張でき、DR-Net 構成を用いると真のグラフとの類似度が高くなる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。