QUICK REVIEW

[論文レビュー] BGT-Net: Bidirectional GRU Transformer Network for Scene Graph Generation

Naina Dhingra, Florian Ritter|arXiv (Cornell University)|Jan 1, 2021

Multimodal Machine Learning Applications参考文献 1被引用数 2

ひとこと要約

BGT-Net は、対向的オブジェクト間通信を BiGRU を用いて行うことでオブジェクト表現を向上させ、その後に二重のトランスフォーマー encoder を用いてオブジェクトおよびエッジの文脈を予測する、シーングラフ生成のための新規な双方向 GRU トランスフォーマーネットワークを提案する。頻度ソフトニングとバイアス適応を組み合わせることで、長尾な関係分布バイアスを軽減することで、Visual Genome、Open Images、VRD データセットで最先端の性能を達成する。

ABSTRACT

Scene graphs are nodes and edges consisting of objects and object-object relationships, respectively. Scene graph generation (SGG) aims to identify the objects and their relationships. We propose a bidirectional GRU (BiGRU) transformer network (BGT-Net) for the scene graph generation for images. This model implements novel object-object communication to enhance the object information using a BiGRU layer. Thus, the information of all objects in the image is available for the other objects, which can be leveraged later in the object prediction step. This object information is used in a transformer encoder to predict the object class as well as to create object-specific edge information via the use of another transformer encoder. To handle the dataset bias induced by the long-tailed relationship distribution, softening with a log-softmax function and adding a bias adaptation term to regulate the bias for every relation prediction individually showed to be an effective approach. We conducted an elaborate study on experiments and ablations using open-source datasets, i.e., Visual Genome, Open-Images, and Visual Relationship Detection datasets, demonstrating the effectiveness of the proposed model over state of the art.

研究の動機と目的

シーングラフ生成データセットにおける長尾な関係分布の課題に対処すること。
画像に検出されたすべてのオブジェクト間で双方向の情報伝達を可能にすることで、オブジェクト表現を向上させること。
トランスフォーマー encoder を用いてオブジェクト固有のエッジ文脈をモデル化することで、関係予測の正確性を向上させること。
頻度の低い関係の予測に与えるデータセットバイアスの悪影響を軽減しつつ、頻度の高い関係の予測性能を損なわないようにすること。
シーングラフ検出および分類の両方において、複数のベンチマークデータセットで最先端の性能を達成すること。

提案手法

全オブジェクト間の通信を可能にするために、双方向 GRU (BiGRU) 层を用い、各オブジェクトが他のすべてのオブジェクトからの文脈的情報を集約できるようにする。
集約されたオブジェクト情報を受け取った後、スケールドドット積み込みアテンションを用いたトランスフォーマー encoder を用いてオブジェクトクラスを予測する。
各オブジェクトに対して、関係予測のためのエッジ文脈特徴を抽出するために、2番目のトランスフォーマー encoder を配置する。
主語-目的語関係の予測分布をソフト化するために、log-softmax 関数を適用する。
シーン固有の入力をもとに、主語-目的語ペアごとにバイアスを動的に調整するバイアス適応 (BA) 機構を導入する。
頻度ソフトニングとバイアス適応を組み合わせることで、Visual Genome のようなデータセットにおける関係の長尾分布に対処する。

実験結果

リサーチクエスチョン

RQ1BiGRU を用いた双方向的オブジェクト通信は、シーングラフ生成におけるオブジェクト表現学習を改善できるか？
RQ2オブジェクトクラス予測用とエッジ文脈用の、2つの専用トランスフォーマー encoder を使用することで、関係予測性能が向上するか？
RQ3頻度ソフトニングとバイアス適応は、頻度の低い関係の予測性能の低下を効果的に軽減できるか？また、頻度の高い関係の予測性能に悪影響を与えないか？
RQ4BGT-Net は、MOTIFS などの最先端モデルと比較して、標準的な SGG ベンチマークでどのように性能を発揮するか？
RQ5モデルは、Visual Genome、Open Images、Visual Relationship Detection のような多様なデータセットにどの程度一般化できるか？

主な発見

BGT-Net は Visual Genome データセットで最先端の性能を達成し、シーングラフ検出および分類プロトコルの両方において、以前の最先端モデルを上回った。
頻度ソフトニングとバイアス適応の有効な適用のおかげで、希少な関係の再現率が顕著に向上した。
定性的な結果から、BGT-Net は MOTIFS よりもより意味的に正確で視覚的に整合性のあるシーングラフを生成しており、正しいまたは妥当な予測（図中のオレンジ色）の割合が高く、誤った予測の割合が低いことが示された。
アブレーションスタディの結果、BiGRU を用いたオブジェクト通信と二重のトランスフォーマー encoder の構成が、性能向上に顕著な寄与をしていることが確認された。
バイアス適応機構により、頻度の高い関係に対する過信が軽減されるとともに、頻度が低い関係の予測品質が向上し、特に SGCls プロトコルにおいて顕著であった。
オブジェクト検出の段階においても高い正確性を維持しており、オブジェクト予測の誤りは稀であった。これは、オブジェクト検出ステージの堅牢性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。