QUICK REVIEW

[論文レビュー] Scene Graph Generation with External Knowledge and Image Reconstruction

Jiuxiang Gu, Handong Zhao|arXiv (Cornell University)|Apr 1, 2019

Multimodal Machine Learning Applications参考文献 48被引用数 31

ひとこと要約

本稿では、ConceptNetからの外部の常識的知識と画像再構成損失を統合することで、モデルのロバスト性と一般化性能を向上させる、新しいシーングラフ生成フレームワークを提案する。動的メモリネットワークを用いてオブジェクトおよびフレーズ特徴を精緻化し、画像再構成による正則化を通じてシーングラフ生成器を制御することで、VRDおよびVisual Genomeデータセットで最先端の性能を達成し、レアな関係やノイズのあるアノテーションの再現率を顕著に向上させた。

ABSTRACT

Scene graph generation has received growing attention with the advancements in image understanding tasks such as object detection, attributes and relationship prediction,~\etc. However, existing datasets are biased in terms of object and relationship labels, or often come with noisy and missing annotations, which makes the development of a reliable scene graph prediction model very challenging. In this paper, we propose a novel scene graph generation algorithm with external knowledge and image reconstruction loss to overcome these dataset issues. In particular, we extract commonsense knowledge from the external knowledge base to refine object and phrase features for improving generalizability in scene graph generation. To address the bias of noisy object annotations, we introduce an auxiliary image reconstruction path to regularize the scene graph generation network. Extensive experiments show that our framework can generate better scene graphs, achieving the state-of-the-art performance on two benchmark datasets: Visual Relationship Detection and Visual Genome datasets.

研究の動機と目的

既存のシーングラフデータセットにおけるバイアスとノイズ、特に長尾分布および欠落・誤ったオブジェクトアノテーションに対処すること。
ConceptNetのような外部知識ベースから得た常識的知識を統合することで、シーングラフ生成の性能を向上させること。
画像再構成による補助的监督を用いて、シーングラフ予測プロセスを正則化することで、モデルの一般化性能とロバスト性を向上させること。
現実世界のアノテーションデータの制限にもかかわらず、ベンチマークデータセットで最先端の性能を達成すること。

提案手法

ConceptNetから関連する事実を検索し、動的メモリネットワーク（DMN）を用いて複数ホップの推論によりオブジェクトおよびフレーズ特徴を精緻化する、知識ベースの特徴精緻化モジュールを導入する。
入力画像を検出されたオブジェクトとバウンディングボックスから再構成する画像レベルの監督パスを採用し、学習中に正則化として機能させる。
GANベースのアーキテクチャを用いて、シーングラフ生成と画像再構成を同時に最適化することで、特徴の一貫性と文脈認識能力を向上させる。
画像再構成損失は学習時のみに適用し、推論時には影響を与えないようにすることで、より豊かな視覚的文脈を学習できるようにする。
知識精緻化と画像再構成の両ブランチをエンドツーエンドで学習可能なフレームワークに統合し、オブジェクト検出と関係予測の両方を向上させる。
外部知識を活用して誤検出を是正し、低頻度の関係やレアなオブジェクトカテゴリの再現率を向上させる。

実験結果

リサーチクエスチョン

RQ1ConceptNetからの外部の常識的知識は、シーングラフ生成モデルの一般化性能と精度を向上させることができるか？
RQ2画像再構成損失は、シーングラフデータセットにおけるノイズや不完全なアノテーションの影響をどのように軽減するか？
RQ3シーングラフ生成と画像再構成の共同最適化は、長尾分布やスパースな関係分布において性能をどの程度向上させ得るか？
RQ4知識推論と画像レベルの監督の統合は、ベースラインモデルと比較して、より優れたオブジェクト検出と関係予測を達成できるか？
RQ5提案されたフレームワークは、VRDやVisual Genomeといった標準ベンチマークで、既存の最先端手法を上回ることができるか？

主な発見

提案されたKB-GANモデルは、VRDデータセットで最先端の性能を達成し、フレーズ検出においてrecall@50が27.39%、recall@100が34.38%、シーングラフ生成において20.31%と25.01%を達成した。
Visual Genomeデータセットでは、フレーズ検出でrecall@50が23.51%、recall@100が30.04%、シーングラフ生成で13.65%と17.57%を達成し、すべての先行手法を上回った。
アブレーションスタディの結果、画像レベルの監督を追加することで、サブサンプルされたVRDデータセットにおけるフレーズ検出のrecall@50が15.44%から24.07%に8.63%向上した。
訓練データから20%のオブジェクトインスタンスを削除しても、シーングラフ生成のrecall@50はわずか0.77%低下にとどまり、データスパarsityに対するロバスト性を示した。
ConceptNetによる常識的知識の統合は、Faster R-CNNおよびViP-CNNと比較して顕著なmAP向上をもたらし、ノイズのある条件下でのオブジェクト検出における有効性を裏付けた。
定性的な結果から、再構成された画像は視覚的に妥当であり、予測されたシーングラフとよく一致しており、モデルが意味のある視覚的および関係的表現を学習できていることを検証した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。