Skip to main content
QUICK REVIEW

[論文レビュー] Can Vision Replace Text in Working Memory? Evidence from Spatial n-Back in Vision-Language Models

Sichu Liang, Hongyu Zhu|arXiv (Cornell University)|Feb 4, 2026
Neurobiology of Language and Bilingualism被引用数 0
ひとこと要約

要約: 本論文は、テキストベースのLLMと視覚言語モデルを、マッチしたテキストグリッドと画像グリッド刺激で比較し、モダリティ依存の性能差と近接記憶に基づく戦略および視覚フォーマットでの干渉の証拠を示す。

ABSTRACT

Working memory is a central component of intelligent behavior, providing a dynamic workspace for maintaining and updating task-relevant information. Recent work has used n-back tasks to probe working-memory-like behavior in large language models, but it is unclear whether the same probe elicits comparable computations when information is carried in a visual rather than textual code in vision-language models. We evaluate Qwen2.5 and Qwen2.5-VL on a controlled spatial n-back task presented as matched text-rendered or image-rendered grids. Across conditions, models show reliably higher accuracy and d' with text than with vision. To interpret these differences at the process level, we use trial-wise log-probability evidence and find that nominal 2/3-back often fails to reflect the instructed lag and instead aligns with a recency-locked comparison. We further show that grid size alters recent-repeat structure in the stimulus stream, thereby changing interference and error patterns. These results motivate computation-sensitive interpretations of multimodal working memory.

研究の動機と目的

  • マルチモーダルモデルにおいて、表現コードをテキストから視覚へ変更しても、意図した作業記憶の計算が preserve されるかを動機づける。
  • モダリティが空間nバック課題における更新、時間的結合、干渉制御に与える影響を評価する。
  • エンドポイントの正確さを超えたWM様挙動を解釈するためのプロセスレベル診断を提供する。

提案手法

  • テキストグリッドと視覚グリッドの整列された空間nバック課題で、Qwen2.5(テキスト)とQwen2.5-VL(視覚言語)を評価する。
  • 試行ごとの再現性を保証するために決定論的デコードを使用する。
  • 標準的なWM指標(正解率、ヒット率、偽警報率、d′)と試行ごとの対数確率ベースの証拠スコア(s_t)を算出する。
  • ラグスキャン分析を実施し、異なるラグ定義(k ∈ {1,2,3})で試行を再ラベリングして、証拠が指示されたラグに沿っているか、近接に基づく戦略と一致しているかを評価する。
  • 最近のリピート(おとり)による干渉を研究し、グリッドサイズN(3,4,5,7)を操作して識別性への影響を調べる。
  • テキストグリッドと視覚グリッド入力を用いた、テキスト系ファミリーと視覚系ファミリー(Llama3およびQwen派生)間のロバスト性とスケールを評価する。

実験結果

リサーチクエスチョン

  • RQ1マッチした空間nバック課題でテキストを視覚へ置換すると、同じWM様計算が得られるか、モダリティ主導の戦略変化が生じるか?
  • RQ2マルチモーダルモデルにおける時系列コンテキスト結合および干渉制御は、テキストグリッドと視覚グリッド表現でどのように異なるか?
  • RQ3グリッドサイズと名寄せ負荷は、モダリティ間で識別性と干渉パターンにどのように影響するか?
  • RQ4パフォーマンスは主に保守的な意思決定基準によるものか、異なるラグ下での証拠分離性の弱さによるものか?
  • RQ5ラグベースの診断で、指示されたラグ一致よりも近接鎖定処理(recency-locked processing)が高負荷で現れるか?

主な発見

3×34×45×57×7
Qwen2.5-7B-Instruct (text)80.5073.0062.0055.00
Qwen2.5-VL-7B-Instruct (text-grid)70.0063.5058.0053.50
Qwen2.5-VL-7B-Instruct (vision-grid)78.5082.0077.0080.50
  • 負荷とグリッドサイズを超えて、テキストグリッド入力はテキストグリッド視覚より識別性が高く、視覚グリッドは最も低い性能を示す。
  • 名寄せ負荷が条件間で著しく低下する一方、視覚グリッド条件はテキストグリッドベースラインを著しく下回る。
  • ラグスキャン分析では、2-バックで特に、指示されたnバックのラグよりも1バックの近接鎖定比較に証拠が一致する傾向がある。
  • グリッドサイズ効果により、より大きいグリッドは識別性を向上させるが、視覚グリッドはテキストグリッドのベースラインを大幅に下回る;最近のリピート(おとり)による干渉がグリッドサイズの有利性の多くを支える。
  • プロセス診断は、視覚グリッドが保守的バイアス(低ヒット率、低偽警報)と弱い証拠分離性を示し、AUCはk=1でピークを作り、k=nではないことを示す。
  • LLM/VLMファミリー(Llama3およびQwen派生)全体のロバスト性検査でも同様の定性的パターンが示される:モダリティ順序でテキストグリッド > 視覚グリッド、グリッドが大きいほど一般的にd′を増やすが、モデルによりその大きさは異なる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。