[論文レビュー] KM-BART: Knowledge Enhanced Multimodal BART for Visual Commonsense Generation
KM-BART は、外部の常識的知識を新しい事前学習タスク「知識に基づく常識的生成(KCG)」を通じて統合することで、視覚的常識的生成を向上させる知識強化型マルチモーダル BART モデルです。VCG ベンチマークにおいて最先端の性能を達成し、人間評価では、イベント記述が存在しないゼロショット設定において、先行モデルを最大22.6%上回りました。
We present Knowledge Enhanced Multimodal BART (KM-BART), which is a Transformer-based sequence-to-sequence model capable of reasoning about commonsense knowledge from multimodal inputs of images and texts. We adapt the generative BART architecture to a multimodal model with visual and textual inputs. We further develop novel pretraining tasks to improve the model performance on the Visual Commonsense Generation (VCG) task. In particular, our pretraining task of Knowledge-based Commonsense Generation (KCG) boosts model performance on the VCG task by leveraging commonsense knowledge from a large language model pretrained on external commonsense knowledge graphs. To the best of our knowledge, we are the first to propose a dedicated task for improving model performance on the VCG task. Experimental results show that our model reaches state-of-the-art performance on the VCG task by applying these novel pretraining tasks.
研究の動機と目的
- 基本的な特徴の整合性を超えて、マルチモーダルな常識的推論を視覚的テキスト生成に向上させること。
- 視覚的常識的生成(VCG)のための専用の事前学習タスクの欠如に対処すること。
- 知識グラフから得られる外部の常識的知識をマルチモーダルなシーケンス・ツー・シーケンスモデルに統合すること。
- 自動的に生成された常識的推論を用いた自己学習により、生成品質を向上させること。
提案手法
- 視覚的およびテキスト的入力を備えたマルチモーダルエンコーダーデコーダー枠組みに、BART アーキテクチャを拡張する。
- 前後/目的予測のためのマルチモーダル推論を支援するためのタスク固有のトークンを導入する。
- 大規模言語モデルを ConceptNet および ATOMIC で微調整した上で、その知識を注入する新しい事前学習タスク「知識に基づく常識的生成(KCG)」を提案する。
- 大規模言語モデルを用いた自己学習により、事前学習用に高品質な常識的推論をフィルタリングおよび生成する。
- KCG を標準的な事前学習タスク(マスクド言語モデリング(MLM)、マスクド領域モデリング(MRM)、帰属予測(AP)、関係予測(RP))と組み合わせる。
- 2段階の訓練プロセスを採用:まず KCG および標準タスクで事前学習し、その後 VCG データセットで微調整する。
実験結果
リサーチクエスチョン
- RQ1外部の知識を統合することで、マルチモーダルなシーケンス・ツー・シーケンスモデルが、より優れた視覚的常識的生成を達成できるか?
- RQ2標準的な事前学習とは対照的に、常識的推論に特化した専用の事前学習タスクは、VCG における性能向上に寄与するか?
- RQ3大規模言語モデルを用いた自己学習は、事前学習用に高品質な常識的推論を生成するのに効果的か?
- RQ4イベント記述が存在しないゼロショット設定でも、モデルは一般化できるか?
- RQ5ConceptNet および ATOMIC からの知識統合は、視覚的入力に対する推論をどのように向上させるか?
主な発見
- KM-BART は VCG ベンチマークで最先端の性能を達成し、イベント記述が存在しないゼロショット設定で総合得点66.7%を記録。Park et al. (2020) よりも22.6%優れています。
- 人間評価では、イベント記述が提供されない状況で、'前'の推論について61.3%、'後'について68.7%、'目的'について69.3%のケースで、Park et al. (2020) よりもより妥当な推論を生成しました。
- イベント記述が存在する場合でも、モデルは強力な性能を維持し、全体のヒューマン評価でベースライン比55.1%の優位性を示しました。
- KCG 事前学習タスクは、特にゼロショット状況において顕著な性能向上をもたらし、常識的推論の強化にその有効性を示しました。
- KCG を標準的な事前学習タスク(MLM、MRM、AP、RP)と組み合わせることで、すべての評価指標で一貫した性能向上が得られました。
- モデルは頑健性と一般化能力を示し、特にイベント記述が欠落している状況で最も高い向上が観察され、強力な知識統合と推論能力を有していることが示されました。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。