[論文レビュー] PolarMem: A Training-Free Polarized Latent Graph Memory for Verifiable Multimodal Agents
PolarMem は訓練フリーの推論時メモリシステムを導入し、極性グラフトポロジーを用いて検証可能な証拠に基づく多模態エージェントを grounding し、検索と生成時の幻影を抑制します。
As multimodal agents evolve from passive observers to long-horizon decision-makers, they require memory systems that provide not just information availability but logical verifiability. A fundamental limitation of current architectures is the epistemic asymmetry inherent in probabilistic vision-language models and dense associative memories: they conflate semantic affinity with factual existence and structurally fail to encode negative constraints. To this end, we introduce PolarMem, a training-free Polarized Latent Graph Memory designed to ground agent reasoning in verifiable evidence. PolarMem transforms fuzzy perceptual likelihoods into discrete logical constraints through non-parametric distributional partitioning. Furthermore, it employs a polarized graph topology with orthogonal inhibitory connections to explicitly store verified negation as a primary cognitive state. At inference time, we enforce a logic-dominant retrieval paradigm, suppressing hallucinatory patterns that violate negative constraints. Extensive evaluation across eight frozen Vision--Language Models and six benchmarks demonstrates that PolarMem functions as a robust cognitive system, establishing a foundation for verifiable multimodal agents. Our code is available at https://github.com/czs-ict/PolarMem.
研究の動機と目的
- 長期的で検証可能な推論をサポートするための多模態エージェント向けメモリシステムの動機付け。
- 幻覚を避けるために否定的制約を明示的に用いて知覚証拠を grounding。
- fuzzy な知覚尤度を離散的な論理状態へ変換する訓練フリーの介入を提供。
- 凍結済みのビジョン-言語バックボーンとベンチマークを横断した一般性を実証。
提案手法
- アンサンブル検証と適応分布分割によって fuzzy 知覚尤度を離散的論理制約へ変換。
- 検証済み証拠と否定を正交な HAS と NOT_HAS エッジを持つ極性グラフメモリに格納。
- 論理制約が意味的類似度より支配する辞書式ロジック意識付き検索を課す。
- 検証可能なメモリを凍結バックボーン VLM の文脈へ直列化して生成を grounding。
- 単一のスカラー値スコアに異種信号を結合しない検索機構を提供(調整可能な lambda はなし)。
実験結果
リサーチクエスチョン
- RQ1訓練フリーの手法で確率的な視覚信号を検証可能な論理状態(Presence, Absence, Uncertain)へ変換できるか?
- RQ2否定的制約を明示した極性グラフメモリは、異なるVLMバックボーンに対して検証可能性を高め、幻覚を減らすか?
- RQ3論理優先の検索は複数のマルチモーダルベンチマークとモデルスケールに対してロバストか?
- RQ4推論時介入は検索が重いタスクにおいて従来のRAGアプローチと競合・優位性を示せるか?
主な発見
| Model / Method | MRAMG | MRAG | Visual-RAG | MMMU | MMStar | HallusionBench |
|---|---|---|---|---|---|---|
| PolarMem | 27.9 | 70.8 | 49.9 | 55.7 | 65.1 | 57.8 |
| + Vanilla RAG | 22.1 | 58.9 | 44.1 | 55.4 | 63.4 | 50.3 |
| + ViLoMem | 25.6 | 65.1 | 50.8 | 58.6 | 64.4 | 54.9 |
| Qwen2.5-VL-32B | 32.0 | 65.4 | 53.4 | 66.5 | 67.2 | 52.9 |
| + Vanilla RAG | 29.0 | 61.4 | 50.0 | 67.2 | 68.4 | 52.7 |
| + ViLoMem | 31.2 | 64.9 | 54.6 | 69.1 | 68.1 | 53.8 |
| InternVL-3.5-4B | 33.7 | 64.2 | 43.6 | 65.5 | 66.2 | 52.9 |
| + PolarMem | 35.0 | 66.9 | 41.3 | 74.1 | 68.4 | 56.3 |
| InternVL-3.5-8B | 26.1 | 61.9 | 44.1 | 62.8 | 66.2 | 49.0 |
- PolarMem は MRAMG、MRAG、Visual-RAG の小中規模バックボーンにおいて検索重視のベンチマークを一貫して改善。
- Qwen2.5-VL-7B では、提案手法を用いた PolarMem は MRAMG で 27.9、MRAG で 70.8、Visual-RAG で 49.9 を達成。
- Qwen2.5-VL-32B では、PolarMem は MRAMG で 32.0、MRAG で 65.4、Visual-RAG で 53.4 を達成。
- ViLoMem や他のベースラインでは、特に MRAG および MRAMG タスクで PolarMem が最良または競合的なスコアを示すことが多い。
- PolarMem は非常に強力な総合推論モデルと HallusionBench では報酬の低下または時折の負の効果を示すことがあり、長い文脈での検索ノイズが一部タスクの改善を制限する可能性を示唆。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。