QUICK REVIEW

[論文レビュー] Multimodal Task Interference: A Benchmark and Analysis of History-Target Mismatch in Multimodal LLMs

Masayuki Kawarada, Tatsuya Ishigaki|arXiv (Cornell University)|Mar 19, 2026

Speech and dialogue systems被引用数 0

ひとこと要約

論文はマルチモーダルLLMにおけるタスク干渉を研究するためのベンチマークを提案し history-target modality、推論、回答形式の不一致を変化させることで、テキストから画像への遷移が大きな低下を引き起こす強い非対称性を明らかにし、画像からテキストへの遷移は比較的穏やかであることを示す。

ABSTRACT

Task interference, the performance degradation caused by task switches within a single conversation, has been studied exclusively in text-only settings despite the growing prevalence of multimodal dialogue systems. We introduce a benchmark for evaluating this phenomenon in multimodal LLMs, covering six tasks across text and vision with systematic variation of history-target along three axes: modality mismatch, reasoning mismatch, and answer format mismatch. Experiments on both open-weights and proprietary models reveal that task interference is highly directional: switching from text-only to image-based targets causes severe performance drops, while the reverse transition yields minimal degradation. Interference is further amplified when mismatches co-occur across multiple dimensions, and is driven most strongly by modality differences, followed by answer format, while reasoning requirement shifts cause minimal degradation.

研究の動機と目的

テキストと画像モダリティ間で履歴が現在のターゲットと異なる可能性があるマルチモーダル対話におけるタスク干渉の研究の必要性を動機づける。
履歴におけるモダリティ、推論、回答形式の不一致がマルチモーダルLLMの性能に与える影響を系統的に評価する。
文脈長とモデルタイプに依存するクロスメディア干渉パターンを定量化する。
干渉の要因を洞察することで、堅牢なマルチモーダル対話システムの実証的な指針を提供する。

提案手法

スイッチタスク履歴枠組みでマルチモーダルLLMにおけるタスク干渉を定義する。
テキストおよび画像タスクをカバーする6つのデータセットにわたるベンチマークを構築し、モダリティ、推論、回答形式の不一致を制御する。
教師付き履歴の下でオープンウェイトモデルと独自モデルを評価し、スイッチ効果を分離する。
タスク固有の指標（正答率、F1、CIDEr等）で性能を測定し、相対的なスイッチコストを報告してタスクとモデル間で比較する。

実験結果

リサーチクエスチョン

RQ1履歴とターゲット間のモダリティ不一致はマルチモーダルLLMの性能にどのように影響するか？
RQ2推論の不一致と回答形式の不一致はマルチモーダル対話の出力品質にどのように影響するか？
RQ3複数の不一致軸が同時に発生した場合、干渉効果は累積するのか？
RQ4モデルトレンドごとに、テキスト履歴から画像ターゲットへのクロスモーダル遷移と画像履歴からテキストターゲットへのクロスモーダル遷移に非対称性があるのか？

主な発見

モダリティ不一致はマルチモーダルLLMにとって主要な干渉源であり、履歴が長くなるほど影響が一般的に強まる。
推論不一致はモデル間で頑健性を示し、履歴推論がターゲット推論と異なる場合でも負の劣化が少ない。
回答形式不一致は特定のモデル（例：GPT-4.1-mini）で顕著な影響を与え、モダリティ効果より普遍性が低くモデル依存的である。
クロスモーダル遷移には強い非対称性がある：テキストのみ履歴から画像ベースのターゲットへ遷移すると著しい低下を引き起こす一方、画像ベースの履歴からテキストターゲットへ遷移する場合は劣化が最小限である。
干渉は複数の軸で不一致が発生すると累積し、モダリティ、推論、形式が統合的にマルチモーダル対話の安定性を形成する。
定性的分析では、視覚ターゲットがテキストのみの履歴に続く場合出力スタイルの逸脱が生じ、評価の整合性に影響を与えるフォーマットとスタイルの変化が示唆される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。