QUICK REVIEW

[論文レビュー] Can Vision Replace Text in Working Memory? Evidence from Spatial n-Back in Vision-Language Models

Sichu Liang, Hongyu Zhu|arXiv (Cornell University)|Feb 4, 2026

Neurobiology of Language and Bilingualism被引用数 0

ひとこと要約

要約: 本論文は、テキストベースのLLMと視覚言語モデルを、マッチしたテキストグリッドと画像グリッド刺激で比較し、モダリティ依存の性能差と近接記憶に基づく戦略および視覚フォーマットでの干渉の証拠を示す。

ABSTRACT

Working memory is a central component of intelligent behavior, providing a dynamic workspace for maintaining and updating task-relevant information. Recent work has used n-back tasks to probe working-memory-like behavior in large language models, but it is unclear whether the same probe elicits comparable computations when information is carried in a visual rather than textual code in vision-language models. We evaluate Qwen2.5 and Qwen2.5-VL on a controlled spatial n-back task presented as matched text-rendered or image-rendered grids. Across conditions, models show reliably higher accuracy and d' with text than with vision. To interpret these differences at the process level, we use trial-wise log-probability evidence and find that nominal 2/3-back often fails to reflect the instructed lag and instead aligns with a recency-locked comparison. We further show that grid size alters recent-repeat structure in the stimulus stream, thereby changing interference and error patterns. These results motivate computation-sensitive interpretations of multimodal working memory.

研究の動機と目的

マルチモーダルモデルにおいて、表現コードをテキストから視覚へ変更しても、意図した作業記憶の計算が preserve されるかを動機づける。
モダリティが空間nバック課題における更新、時間的結合、干渉制御に与える影響を評価する。
エンドポイントの正確さを超えたWM様挙動を解釈するためのプロセスレベル診断を提供する。

提案手法

テキストグリッドと視覚グリッドの整列された空間nバック課題で、Qwen2.5（テキスト）とQwen2.5-VL（視覚言語）を評価する。
試行ごとの再現性を保証するために決定論的デコードを使用する。
標準的なWM指標（正解率、ヒット率、偽警報率、d′）と試行ごとの対数確率ベースの証拠スコア（s_t）を算出する。
ラグスキャン分析を実施し、異なるラグ定義（k ∈ {1,2,3}）で試行を再ラベリングして、証拠が指示されたラグに沿っているか、近接に基づく戦略と一致しているかを評価する。
最近のリピート（おとり）による干渉を研究し、グリッドサイズN（3,4,5,7）を操作して識別性への影響を調べる。
テキストグリッドと視覚グリッド入力を用いた、テキスト系ファミリーと視覚系ファミリー（Llama3およびQwen派生）間のロバスト性とスケールを評価する。

実験結果

リサーチクエスチョン

RQ1マッチした空間nバック課題でテキストを視覚へ置換すると、同じWM様計算が得られるか、モダリティ主導の戦略変化が生じるか？
RQ2マルチモーダルモデルにおける時系列コンテキスト結合および干渉制御は、テキストグリッドと視覚グリッド表現でどのように異なるか？
RQ3グリッドサイズと名寄せ負荷は、モダリティ間で識別性と干渉パターンにどのように影響するか？
RQ4パフォーマンスは主に保守的な意思決定基準によるものか、異なるラグ下での証拠分離性の弱さによるものか？
RQ5ラグベースの診断で、指示されたラグ一致よりも近接鎖定処理（recency-locked processing）が高負荷で現れるか？

主な発見

	3×3	4×4	5×5	7×7
Qwen2.5-7B-Instruct (text)	80.50	73.00	62.00	55.00
Qwen2.5-VL-7B-Instruct (text-grid)	70.00	63.50	58.00	53.50
Qwen2.5-VL-7B-Instruct (vision-grid)	78.50	82.00	77.00	80.50

負荷とグリッドサイズを超えて、テキストグリッド入力はテキストグリッド視覚より識別性が高く、視覚グリッドは最も低い性能を示す。
名寄せ負荷が条件間で著しく低下する一方、視覚グリッド条件はテキストグリッドベースラインを著しく下回る。
ラグスキャン分析では、2-バックで特に、指示されたnバックのラグよりも1バックの近接鎖定比較に証拠が一致する傾向がある。
グリッドサイズ効果により、より大きいグリッドは識別性を向上させるが、視覚グリッドはテキストグリッドのベースラインを大幅に下回る；最近のリピート（おとり）による干渉がグリッドサイズの有利性の多くを支える。
プロセス診断は、視覚グリッドが保守的バイアス（低ヒット率、低偽警報）と弱い証拠分離性を示し、AUCはk=1でピークを作り、k=nではないことを示す。
LLM/VLMファミリー（Llama3およびQwen派生）全体のロバスト性検査でも同様の定性的パターンが示される：モダリティ順序でテキストグリッド > 視覚グリッド、グリッドが大きいほど一般的にd′を増やすが、モデルによりその大きさは異なる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。