[論文レビュー] Information Screening whilst Exploiting! Multimodal Relation Extraction with Feature Denoising and Multimodal Topic Modeling
多模态関係抽出フレームワークを導入し、グラフ情報ボトルネックで内部特徴をノイズ除去し、潜在的な多模態トピックで文脈を豊かにし、ベンチマークMREデータセットでSOTAを達成。
Existing research on multimodal relation extraction (MRE) faces two co-existing challenges, internal-information over-utilization and external-information under-exploitation. To combat that, we propose a novel framework that simultaneously implements the idea of internal-information screening and external-information exploiting. First, we represent the fine-grained semantic structures of the input image and text with the visual and textual scene graphs, which are further fused into a unified cross-modal graph (CMG). Based on CMG, we perform structure refinement with the guidance of the graph information bottleneck principle, actively denoising the less-informative features. Next, we perform topic modeling over the input image and text, incorporating latent multimodal topic features to enrich the contexts. On the benchmark MRE dataset, our system outperforms the current best model significantly. With further in-depth analyses, we reveal the great potential of our method for the MRE task. Our codes are open at https://github.com/ChocoWu/MRE-ISE.
研究の動機と目的
- テキストと画像入力の両方で細粒度特徴選別を行い、内部情報の過剰利用を多模态関係抽出で是正する。
- 潜在的な多模态トピックモデリングを活用して文脈情報を豊かにし、外部情報の過少利用を是正する。
- テキストと視覚シーングラフを融合し、グラフ情報ボトルネックで精錬するクロスモーダルグラフバックボーンを提案する。
- latent multimodal topic (Lamo) モジュールを導入し、視覚的およびテキストのトピックキーワードをCMGに統合する。
- 内部スクリーニングと外部活用の共同が MRE データセットで顕著な利得をもたらすことを実証し、各部品が最も有益になる状況を分析する。
提案手法
- 入力画像とテキストを視覚的シーングラフ(VSG)とテキスト的シーングラフ(TSG)で表現する。
- VSGとTSGを intra- および inter-modal リンクを持つクロスモーダルグラフ(CMG)に統合する。
- グラフ情報ボトルネック(GIB)に基づく特徴 refinement (Gene) を適用し、タスクに無関係なノード/エッジを剪定する。
- latent multimodal topic (Lamo) モデリングを開発し、Top textual and visual topics を抽出し CMG に統合する。
- テキストと視覚トピックキーワード上の注意機構を介したクロスモーダルトピック統合と、 refined CMG特徴量との結合。
- 暖機的学習: まずGeneをGIB損失で最適化、次にLAMOをLAMO損失で事前学習、最後にクロスエントロピー損失でエンドツーエンドの共同学習。
実験結果
リサーチクエスチョン
- RQ1細粒度な内部情報のスクリーニングは、視覚/テキスト特徴を剪定することで多模态関係抽出を改善できるか?
- RQ2潜在的な多模态トピックを用いた外部情報活用は文脈を豊かにし、剪定を超えた推論を高めるか?
- RQ3Gene(GIB)とLamoは、テキスト-視覚の関連性の異なる状況で関係予測をどう相互作用して改善するか?
- RQ4クロスモーダルグラフ構造とSGの品質がMRE性能に与える影響は?
- RQ5データのシナリオ(テキスト-視覚関連性が高い/低い)では、内部スクリーニングと外部活用はどちらが貢献するか?
主な発見
| 手法 | 精度 | 適合率 | 再現率 | F1 |
|---|---|---|---|---|
| テキストベースの手法 - BERT | - | 63.85 | 55.79 | 59.55 |
| テキストベースの手法 - PCNN | 72.67 | 62.85 | 49.69 | 55.49 |
| テキストベースの手法 - MTB | 72.73 | 64.46 | 57.81 | 60.86 |
| テキストベースの手法 - DP-GCN | 74.60 | 64.04 | 58.44 | 61.11 |
| 多モーダル手法 - BERT(Text+Image) | 74.59 | 63.07 | 59.53 | 61.25 |
| 多モーダル手法 - BERT+SG | 74.09 | 62.95 | 62.65 | 62.80 |
| 多モーダル手法 - MEGA | 76.15 | 64.51 | 68.44 | 66.41 |
| 多モーダル手法 - VisualBERT | - | 57.15 | 59.48 | 58.30 |
| 多モーダル手法 - ViLBERT | - | 64.50 | 61.86 | 63.16 |
| 多モーダル手法 - RDS | - | 66.83 | 65.47 | 66.14 |
| 多モーダル手法 - HVPNet | - | 83.64 | 80.78 | 81.85 |
| 多モーダル手法 - MKGformer | - | 92.31 | 82.67 | 81.95 |
| Ours | 94.06 | 84.69 | 83.38 | 84.03 |
| w/o Gene (Eq. 11) | 92.42 | 82.41 | 81.83 | 82.12 |
| w/o I(z,G) (Eq. 13) | 93.64 | 83.61 | 82.34 | 82.97 |
| w/o Lamo (Eq. 4) | 92.86 | 82.97 | 81.22 | 82.09 |
| w/o o^T | 93.05 | 83.95 | 82.53 | 83.23 |
| w/o o^I | 93.63 | 84.03 | 83.18 | 83.60 |
| w/o VSG&TSG | 93.12 | 83.51 | 82.67 | 83.09 |
| w/o CMG | 93.97 | 84.38 | 83.20 | 83.78 |
- 提案フレームワークはベンチマークMREデータセットで最先端の結果を達成し、強力なMultimodalベースラインを上回る。
- GIBガイド付き特徴 refinement は内部特徴をデノイズし、ノード/エッジを剪定してタスクに焦点を当てた表現を改善。
- 潜在的な多模态トピックモデリング(Lamo) は一貫したテキストおよび視覚トピック特徴を提供し、文脈を豊かにし予測を向上。
- アブレーションはGeneとLamoの両方が実質的に寄与し、SGベースのクロスモーダルグラフとCMGの連結が重要。
- 分析は、Geneはテキスト-視覚関連性が高い場合により有益で、Lamoはクロスモーダル関連性が低い場合により役立つことを示し、両方を組み合わせるとあらゆる状況で頑健な利得が得られる。
- 定性的なケーススタディは、タスク関連エッジとトピックキーワードが導く関係推論を示す refined グラフを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。