[論文レビュー] Do LLMs and VLMs Share Neurons for Inference? Evidence and Mechanisms of Cross-Modal Transfer
論文は推論中にLLMとLVLM間でトップ活性化ニューロンの substantial overlap を示し、低ランクでパラメータ効率の更新を伴う共有ニューロン部分空間を介して成熟した推論能力をLLMからLVLMへ移すSNRFを提案する。
Large vision-language models (LVLMs) have rapidly advanced across various domains, yet they still lag behind strong text-only large language models (LLMs) on tasks that require multi-step inference and compositional decision-making. Motivated by their shared transformer architectures, we investigate whether the two model families rely on common internal computation for such inference. At the neuron level, we uncover a surprisingly large overlap: more than half of the top-activated units during multi-step inference are shared between representative LLMs and LVLMs, revealing a modality-invariant inference subspace. Through causal probing via activation amplification, we further show that these shared neurons encode consistent and interpretable concept-level effects, demonstrating their functional contribution to inference. Building on this insight, we propose Shared Neuron Low-Rank Fusion (SNRF), a parameter-efficient framework that transfers mature inference circuitry from LLMs to LVLMs. SNRF profiles cross-model activations to identify shared neurons, computes a low-rank approximation of inter-model weight differences, and injects these updates selectively within the shared-neuron subspace. This mechanism strengthens multimodal inference performance with minimal parameter changes and requires no large-scale multimodal fine-tuning. Across diverse mathematics and perception benchmarks, SNRF consistently enhances LVLM inference performance while preserving perceptual capabilities. Our results demonstrate that shared neurons form an interpretable bridge between LLMs and LVLMs, enabling low-cost transfer of inference ability into multimodal models. Our code is available at [https://github.com/chenhangcuisg-code/Do-LLMs-VLMs-Share-Neurons](https://github.com/chenhangcuisg-code/Do-LLMs-VLMs-Share-Neurons).
研究の動機と目的
- LLMとLVLMが推論関連ニューロンの substantial subset を共有することを示す。
- 共有ニューロンの機能的役割を活性化増幅と因果探索で特徴づける。
- SNRFというパラメータ効率的な枠組みを提案・検証し、 LVLMへ成熟したテキスト推論を転移する。
- 共有ニューロンのみを更新してマルチモーダル推論を改善しつつ知覚と安全性指標を維持する。
- マルチモーダルモデル間の転移の実践的指針を提供する。
提案手法
- 推論中のニューロン活性をプロファイリングし活性化切除(Eq. 4-5) を用いて重要ニューロンを特定する。
- テキストのみモデルと VL モデル間の文脈関連ニューロンの交点として共有推論部分空間を定義する(Eq. 6)。
- 共有ニューロンを増幅して、トークン頻度変化を介して概念レベルの影響を解釈する(Eq. 7, Eq. 8)。
- モデル間重み差の低ランク近似(SVD)を計算し、更新を共有部分空間へ射影する(Eq. 9-11)。
- ターゲットモデルへ強度βのマスク付きランク-r 更新を適用し、非共有重みを保持する(アルゴリズム1)。
- MathVista、MMMU/Pro、MME、POPE、ScienceQA などの多様なベンチマークで評価し、ベースラインおよびアブレーションと比較する。

実験結果
リサーチクエスチョン
- RQ1LLMとLVLMが推論ニューロンを共有する、すなわち共有推論部分空間を持つことを示せるか。
- RQ2共有ニューロンはマルチモーダル推論に対して因果的に必要か、切除した場合はどうなるか。
- RQ3共有ニューロンのみ更新することで、成熟したテキスト推論をLVLMへ効率的に転送できるか。
- RQ4SNRFは多様なタスクで知覚や安全性指標を損なうことなくマルチモーダル推論を改善するか。
主な発見
| Model | CoT ↑ | Format ↑ | Solution ↑ | MME ↑ | POPE ↑ | ScienceQA ↑ | MMU/val ↑ | MMU-Pro (V) ↑ |
|---|---|---|---|---|---|---|---|---|
| Qwen2.5-VL-3B | 52.6 | 61.6 | 50.8 | 1535.0 | 87.2 | 52.5 | 0.461 | 0.018 |
| Ours | 55.2 (+2.6) | 57.9 (-3.7) | 55.5 (+4.7) | 1559.0 (+24.0) | 88.0 (+0.8) | 75.1 (+22.6) | 0.458 (-0.003) | 0.070 (+0.052) |
| Qwen2.5-VL-7B | 48.8 | 68.8 | 37.5 | 1681.0 | 86.2 | 54.5 | 0.503 | 0.116 |
| Ours | 53.3 (+4.5) | 68.1 (-0.7) | 42.1 (+4.6) | 1713.0 (+32.0) | 86.5 (+0.3) | 55.4 (+0.9) | 0.503 (-0.000) | 0.179 (+0.063) |
| Intern2.5-VL-4B | 60.4 | 65.1 | 61.6 | 1670.0 | 90.8 | 97.4 | 0.491 | 0.000 |
| Ours | 60.6 (+0.2) | 65.9 (+0.8) | 61.3 (-0.3) | 1677.0 (+7.0) | 90.7 (-0.1) | 97.3 (-0.1) | 0.486 (-0.005) | 0.186 (+0.186) |
| Idefics3-8B-LLaMA3 | 50.1 | 50.4 | 50.3 | 1458.0 | 86.0 | 25.9 | 0.423 | 0.084 |
| Ours | 50.4 (+0.3) | 49.6 (-0.8) | 51.1 (+0.8) | 1460.0 (+2.0) | 84.9 (-1.1) | 40.5 (+14.6) | 0.426 (+0.002) | 0.097 (+0.013) |
| LLaVA-Next-8B | 35.8 | 38.6 | 36.0 | 1586.0 | 87.2 | 74.4 | 0.410 | 0.051 |
| Ours | 36.5 (+0.7) | 38.1 (-0.5) | 36.2 (+0.2) | 1622.0 (+36.0) | 87.5 (+0.3) | 74.6 (+0.2) | 0.400 (-0.010) | 0.051 (+0.000) |
- 推論時のトップ活性化ニューロンの半数超が代表的なLLMとLVLM間で共有されており、モダリティに依存しない推論部分空間を示唆している。
- 共有ニューロンを切除すると数学関連タスクの推論性能が崩れる一方、ランダム切除は影響が小さく、共有ニューロンの機能的必須性を示す。
- 増幅された共有ニューロンは、代数・幾何学・他の数学概念に関連する解釈可能な概念を示す。
- SNRFはMathVista、MMMU-Pro、ScienceQAのバックボーン全体で一貫した推論利得を達成し、知覚/幻覚変化は控えめ。
- SNRFは複数の推論指標で、Linear、DARE、FRANK などのベースライン結合法を上回り、知覚能力を維持。
- 評価対象モデル全体で、共有ニューロンの統合は推論指標(例:Solution、CoT、MMMU-Pro)に顕著な改善をもたらし、パラメータ負荷は最小限。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。