[論文レビュー] SMSP: A Plug-and-Play Strategy of Multi-Scale Perception for MLLMs to Perceive Visual Illusions
本論文はIlluCharという文字ベースの視覚的錯覚データセットを導入し、MLLMにおける高頻度注意バイアスという失敗メカニズムを特定し、 retraining なしで錯覚認識を改善するプラグアンドプレイ型Perception ModuleとMulti-Scale StrategyであるSMSPを提案する。
Recent works have shown that Multimodal Large Language Models (MLLMs) are highly vulnerable to hidden-pattern visual illusions, where the hidden content is imperceptible to models but obvious to humans. This deficiency highlights a perceptual misalignment between current MLLMs and humans, and also introduces potential safety concerns. To systematically investigate this failure, we introduce IlluChar, a comprehensive and challenging illusion dataset, and uncover a key underlying mechanism for the models' failure: high-frequency attention bias, where the models are easily distracted by high-frequency background textures in illusion images, causing them to overlook hidden patterns. To address the issue, we propose the Strategy of Multi-Scale Perception (SMSP), a plug-and-play framework that aligns with human visual perceptual strategies. By suppressing distracting high-frequency backgrounds, SMSP generates images closer to human perception. Our experiments demonstrate that SMSP significantly improves the performance of all evaluated MLLMs on illusion images, for instance, increasing the accuracy of Qwen3-VL-8B-Instruct from 13.0% to 84.0%. Our work provides novel insights into MLLMs' visual perception, and offers a practical and robust solution to enhance it. Our code is publicly available at https://github.com/Tujz2023/SMSP.
研究の動機と目的
- MLLMは隠れパターンの視覚錯覚に脆弱であることを実証し、(高周波の注意バイアス)という重要な失敗メカニズムを特定する。
- varying スケールと背景を持つ挑戦的な文字ベースの錯覚データセットIlluCharを作成する。
- retraining なしで人間のような戦略にMLLMの知覚を合わせるSMSPを提案し、モデル、背景、スケールを跨る有効性を評価する。
提案手法
- IlluCharを構築し、意味背景およびノイズ背景の中に文字(数字、英字、中国文字)を埋め込んだ錯覚データセットを作成する。
- 錯覚画像を分析して失敗の機序として高周波の注意バイアスを明らかにする。
- 高周波フィルタ링と空間リスケーリングを行うPerception Moduleと、K個の知覚処理 variant からなるMulti-Scale Strategyを組み合わせ、モデルへの複数の手掛かりを提供するSMSPを開発する。
- Perception Moduleを二段階プロセスとして定式化:(i) 周波数領域での低域通過フィルタリング、(ii) 白いキャンバスを中心としたダウンサンプリングにより遠距離視を模倣する。
- 複数の処理 variantと元画像を組み合わせてI_SMSPを形成し、すべてをMLLMへ入力する。

実験結果
リサーチクエスチョン
- RQ1錯覚画像と元画像の周波数成分の観点でどの視覚特徴が異なるか?
- RQ2高周波の背景情報がMLLMの注意と隠れパターンの認識にどのように影響するか?
- RQ3知覚を意識したプラグアンドプレイ戦略は retraining なしでMLLMの錯覚認識を改善できるか?
- RQ4提案されたSMSPは標準的な非錯覚タスクの性能を保持または向上させ、パターンタイプやスケールを超えて一般化するか?
主な発見
- IlluCharでは多くのMLLMで錯覚の正解率がクリーンな文字画像と比較して65%以上低下する。
- 錯覚背景は中周波・高周波エネルギーを高め、MLLMの注意が隠れた文字から背景へと移動する(高周波注意バイアス)。
- SMSPは6つの評価MLLMと2種の背景タイプで錯覚認識を改善し、例としてQwen3-VL-8B-InstructではIlluChar全体の正解率を13.0%から84.0%へ向上させた。
- 高周波フィルタリングと空間リスケーリングの両方を含むPerception Moduleの組み合わせが最も効果的で、モデルの注意と認識が改善される(59.6%から88.3%へ)。
- Multi-Scale Strategy(K変体)は大・中・小の隠れたパターンに対して大幅に精度を向上させ、K=3が性能と計算量のバランスを取る。
- SMSPは元の非錯覚入力での性能を保持または向上させ、標準的なVQAタスクとの互換性を維持する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。