QUICK REVIEW

[論文レビュー] Graph Density-Aware Losses for Novel Compositions in Scene Graph Generation

B. A. Knyazev, Harm de Vries|arXiv (Cornell University)|May 17, 2020

Multimodal Machine Learning Applications参考文献 41被引用数 29

ひとこと要約

本稿では、シーングラフ生成（SGG）におけるゼロショットおよびフェイワショット一般化を向上させるために、密度正規化されたエッジ損失を提案する。主な問題は2点である：（1）標準的な損失関数は、希少な関係を含むスパarsなグラフに対して意図せず過剰にペナルティを課す、（2）モデルは頻度バイアスを学習し、一般化性能を損なう。本手法は、計算コストをほとんど増やさず、アーキテクチャの変更なしに、主な指標においてフェイワショットおよびゼロショット性能を2倍以上に向上させる。

ABSTRACT

Scene graph generation (SGG) aims to predict graph-structured descriptions of input images, in the form of objects and relationships between them. This task is becoming increasingly useful for progress at the interface of vision and language. Here, it is important - yet challenging - to perform well on novel (zero-shot) or rare (few-shot) compositions of objects and relationships. In this paper, we identify two key issues that limit such generalization. Firstly, we show that the standard loss used in this task is unintentionally a function of scene graph density. This leads to the neglect of individual edges in large sparse graphs during training, even though these contain diverse few-shot examples that are important for generalization. Secondly, the frequency of relationships can create a strong bias in this task, such that a blind model predicting the most frequent relationship achieves good performance. Consequently, some state-of-the-art models exploit this bias to improve results. We show that such models can suffer the most in their ability to generalize to rare compositions, evaluating two different models on the Visual Genome dataset and its more recent, improved version, GQA. To address these issues, we introduce a density-normalized edge loss, which provides more than a two-fold improvement in certain generalization metrics. Compared to other works in this direction, our enhancements require only a few lines of code and no added computational cost. We also highlight the difficulty of accurately evaluating models using existing metrics, especially on zero/few shots, and introduce a novel weighted metric.

研究の動機と目的

希少または未観測のオブジェクト・述語の組み合わせにおけるシーングラフ生成（SGG）の一般化性能の低さを是正すること。
標準的なSGG損失関数が密集したグラフに偏っており、希少な関係を含む情報豊富なスパarsなグラフを無視することを特定すること。
学習データにおける頻度バイアスが、モデルが一般的な関係に過剰に適合し、ゼロショット／フェイワショット性能を低下させることを明らかにすること。
グラフの密度に応じてエッジの監視を正規化する、新規で軽量な損失関数を提案すること。
希少かつ未観測の関係に高い重みを割り当てる、新しい重み付き評価指標を導入すること。

提案手法

各エッジの交差エントロピー損失を、ノードあたりのエッジ数（グラフ密度）の逆数でスケーリングする密度正規化エッジ損失を提案。これにより、スパarsなグラフにおける過剰なペナルティが軽減される。
SGGモデルの学習時に、変更を加えた損失関数を適用。数行のコード変更で実現可能で、推論コストは増加しない。
希少かつ未観測の関係に高い重要度を与える、新規の重み付き指標を導入。一般化性能の評価感度が向上する。
メッセージパッシングモデル（例：GCNを用いたメッセージパッシング）をSGGに適用。Visual GenomeおよびGQAデータセットの両方で学習・評価を実施。
トリプレット予測評価には、IoUベースのマッチング（≥50%）を採用。予測は、主語・目的語・述語のソフトマックススコアの積に基づき順位付けされる。
2つの強力なベースライン（[37]および[41]）を用いて妥当性を検証。モデルやデータセットを問わず一貫した性能向上が確認された。

実験結果

リサーチクエスチョン

RQ1学習データにおけるグラフ密度が、希少・未観測の組み合わせにおけるSGGモデルの一般化性能にどのように影響するか？
RQ2学習データにおける頻度バイアスが、SGGモデルのゼロショットおよびフェイワショット性能に及ぼす影響の程度はどの程度か？
RQ3単純な密度に配慮した損失再重み付け戦略が、アーキテクチャの変更や追加計算なしに一般化性能を顕著に向上させられるか？
RQ4どのようにして評価指標を改善すれば、SGGにおける希少・未観測の関係に対するモデル性能をよりよく反映できるか？
RQ5提案手法が、希少な組み合わせ一般化のための既存および新規に提案された重み付き指標の両方で性能向上を達成するか？

主な発見

標準的なSGG損失関数は、スパarsなグラフに対して意図せず過剰にペナルティを課すため、その中に含まれる希少な関係を無視する原因となる。
提案された密度正規化エッジ損失により、主な指標においてフェイワショットおよびゼロショット性能が2倍以上に向上。コード変更も最小限で実現。
新しい損失関数で学習したモデルは、より多様な予測を行うようになり、頻度バイアスの影響を受けにくくなる。Visual Genome上の定性的比較でもその効果が明確に示された。
新規の重み付き評価指標は、希少な組み合わせにおける性能をより的確に捉え、頻度バイアスに起因するモデルが未観測の関係に対して著しく性能を発揮しないことが明らかになった。
アーキテクチャの変更なしに、Visual GenomeおよびGQAデータセットの両方で最先端の結果を達成。特にゼロショット／フェイワショット一般化性能で顕著な向上を示した。
真のラベルが誤ってラベル付けされていようが、または同義語（例：'plant' と 'flower'）が使用されていようが、新しい損失関数を用いたモデルは、より強いロバスト性と一般化性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。