[논문 리뷰] SMSP: A Plug-and-Play Strategy of Multi-Scale Perception for MLLMs to Perceive Visual Illusions
논문은 IlluChar라는 문자 기반 시각 착시 데이터셋을 소개하고, 고주파 주의 편향을 MLLMs의 실패 모드로 식별하며, 재훈련 없이 착시 인식을 개선하는 플러그앤플레이 Perception Module과 다중 스케일 전략(SMSP)을 제안한다.
Recent works have shown that Multimodal Large Language Models (MLLMs) are highly vulnerable to hidden-pattern visual illusions, where the hidden content is imperceptible to models but obvious to humans. This deficiency highlights a perceptual misalignment between current MLLMs and humans, and also introduces potential safety concerns. To systematically investigate this failure, we introduce IlluChar, a comprehensive and challenging illusion dataset, and uncover a key underlying mechanism for the models' failure: high-frequency attention bias, where the models are easily distracted by high-frequency background textures in illusion images, causing them to overlook hidden patterns. To address the issue, we propose the Strategy of Multi-Scale Perception (SMSP), a plug-and-play framework that aligns with human visual perceptual strategies. By suppressing distracting high-frequency backgrounds, SMSP generates images closer to human perception. Our experiments demonstrate that SMSP significantly improves the performance of all evaluated MLLMs on illusion images, for instance, increasing the accuracy of Qwen3-VL-8B-Instruct from 13.0% to 84.0%. Our work provides novel insights into MLLMs' visual perception, and offers a practical and robust solution to enhance it. Our code is publicly available at https://github.com/Tujz2023/SMSP.
연구 동기 및 목표
- MLLMs가 숨겨진 패턴 시각 착시에 취약하다는 점을 입증하고 주요 실패 메커니즘(고주파 주의 편향)을 식별한다.
- 다양한 스케일과 배경을 갖춘 도전적인 문자 기반 시각 착시 데이터셋 IlluChar를 만든다.
- SMSP를 제안하여 MLLM의 인식을 인간과 유사한 전략과 정렬시키고, 모델, 배경 및 스케일 전반에 걸친 효과를 평가한다.
제안 방법
- IlluChar를 구성하되, 의미 배경과 잡음 배경에 문자를(숫자, 문자, 중국어 문자)을 포함한 착시 데이터셋을 구축한다.
- 착시 이미지를 분석하여 실패 메커니즘으로 고주파 주의 편향을 드러낸다.
- 고주파 필터링과 공간 재스케일링으로 구성된 Perception Module과 여러 K개의 지각적으로 처리된 변형을 포함하는 Multi-Scale Strategy를 개발하여 모델에 여러 단서를 제공한다.
- Perception Module을 두 단계 프로세스로 형식화한다: (i) 주파수 영역의 저역 통과 필터링, (ii) 흰 화면에 중앙 정렬된 축소를 통해 원거리 시청을 모방한다.
- 여러 처리 변형을 원래 이미지와 결합해 I_SMSP를 형성하고 이를 모두 MLLMs에 입력한다.

실험 결과
연구 질문
- RQ1착시 이미지가 원본과의 주파수 내용 측면에서 어떤 시각적 특징으로 차이나는가?
- RQ2고주파 배경 정보가 MLLMs의 주의와 숨겨진 패턴 인식에 어떤 영향을 미치는가?
- RQ3지각 인식에 관한 플러그앤플레이 전략이 재훈련 없이 MLLMs의 착시 인식 향상을 가져올 수 있는가?
- RQ4제안된 SMSP가 표준 작업(비착시) 성능을 보존하거나 유지하고, 패턴 유형과 규모에 따라 일반화되는가?
주요 결과
- IlluChar에서 대부분의 MLLM에 대해 깨끗한 문자 이미지에 비해 착시 정확도가 65% 이상 하락한다.
- 착시 배경은 중간 및 고주파 에너지를 높이고, MLLMs의 주의가 숨겨진 문자에서 배경으로 이동한다(고주파 주의 편향).
- SMSP는 여섯 개의 평가된 MLLM과 두 가지 배경 유형에서 착시 정확도를 향상시키며, 예를 들어 Qwen3-VL-8B-Instruct의 경우 IlluChar 전체에서 13.0%에서 84.0%로 상승했다.
- 고주파 필터링과 공간 재스케일링을 모두 갖춘 Perception Module은 특히 조합 시 모델의 주의 및 인식을 가장 잘 회복시켜(59.6%에서 88.3%로) 증가시킨다.
- 다중 스케일 전략(K 변형)은 큰, 중간, 작은 숨겨진 패턴에서 정확도를 크게 향상시키며, K=3이 성능과 계산량의 균형을 이룬다.
- SMSP는 원래의 비착시 입력에서도 성능을 유지하거나 향상시키고 표준 VQA 작업과의 호환성을 유지한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.