[論文レビュー] Unbiased Scene Graph Generation from Biased Training
この研究は、因果推論に基づく枠組みを導入し、Total Direct Effect (TDE) を計算して文脈バイアスを除去しつつ有用な良いバイアスを保持し、SGG予測をデバイアスする。モデルに依存しない適用性を実証し、Visual Genomeベンチマークで実質的な向上を示す。
Today's scene graph generation (SGG) task is still far from practical, mainly due to the severe training bias, e.g., collapsing diverse "human walk on / sit on / lay on beach" into "human on beach". Given such SGG, the down-stream tasks such as VQA can hardly infer better scene structures than merely a bag of objects. However, debiasing in SGG is not trivial because traditional debiasing methods cannot distinguish between the good and bad bias, e.g., good context prior (e.g., "person read book" rather than "eat") and bad long-tailed bias (e.g., "near" dominating "behind / in front of"). In this paper, we present a novel SGG framework based on causal inference but not the conventional likelihood. We first build a causal graph for SGG, and perform traditional biased training with the graph. Then, we propose to draw the counterfactual causality from the trained graph to infer the effect from the bad bias, which should be removed. In particular, we use Total Direct Effect (TDE) as the proposed final predicate score for unbiased SGG. Note that our framework is agnostic to any SGG model and thus can be widely applied in the community who seeks unbiased predictions. By using the proposed Scene Graph Diagnosis toolkit on the SGG benchmark Visual Genome and several prevailing models, we observed significant improvements over the previous state-of-the-art methods.
研究の動機と目的
- 長尾分布と言語バイアスに起因する SGG の関係予測の偏りを緩和する必要性を動機づける。
- 良い文脈事前知識と有害なバイアスを区別する因果推論フレームワークを提案する。
- 最終的なバイアスのない述語スコアとして Total Direct Effect (TDE) を導入する。
- TDEを用いた予測が、複数のSGGモデルにおいて最先端のデバイアス除去手法より改善を示すことを示す。
提案手法
- 内容(X)、文脈(Z)、場面(I)が述語 Y に及ぼす影響を表す一般的な因果グラフを構築する。
- 因果グラフとモデルパラメータを用いた従来の偏り訓練を実施する。
- Total Direct Effect (TDE) を Y_x(u) - Y_{\\bar{x},z}(u) として定義・計算し、バイアスのない予測を得る。
- TDE がモデルに依存しないことを示し、追加パラメータなしで既存のSGGアーキテクチャに統合できる。
- bias-sensitive 指標(mean Recall)と Sentence-to-Graph Retrieval(S2GR)を含む Scene Graph Diagnosis ツールキットを導入する。
実験結果
リサーチクエスチョン
- RQ1有用な事前情報を保持しつつ、SGG予測における偏った文脈の影響をどのように分離・除去できるか。
- RQ2反事実ベースの TDE 予測子は、異なるモデル間で述語レベルおよびグラフレベルの SGG 性能を改善するか。
- RQ3良い偏りと悪い偏りを区別しないデバイアス除去手法は、効果が低いか、未知の関係には一般化されないのか。
- RQ4モデル非依存の TDE アプローチは、より識別性の高い関係を提供することで、SGG に依存する下流タスク(例:VQA、キャプション生成)を改善できるか。
主な発見
- TDE は、複数のモデルと融合戦略において、バイアスの基準値と比較して述語レベルの予測を著しく改善する。
- TDE は長尾バイアスの影響を低減し、性能分布が頭部述語だけに支配されない形で改善される。
- TE(total effect)と NIE は限定的な利得を示す一方、TDE は RR および ZSRR タスクで mean Recall@K のリコールを一貫して向上させる。
- S2GR は TDE がより識別的で意味的に有益な関係を生み出すことを示し、文-グラフ検索を改善する。
- Scene Graph Diagnosis ツールキットは既存モデルにおける深刻なバイアスと、Visual Genome ベンチマーク全体での TDE の有効性を検証する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。