[논문 리뷰] MTMCS-Bench: Evaluating Contextual Safety of Multimodal Large Language Models in Multi-Turn Dialogues
MTMCS-Bench는 escalations 기반 및 맥락 전환 위험을 가진 다회 대화형 다중모달 안전 벤치마크를 MLLMs에 제시하고, 안전/비안전 대화를 짝지하며 다중모달/단일모달 변형을 통해 의도 인식, 안전 인식, 유용성 연구를 수행한다.
Multimodal large language models (MLLMs) are increasingly deployed as assistants that interact through text and images, making it crucial to evaluate contextual safety when risk depends on both the visual scene and the evolving dialogue. Existing contextual safety benchmarks are mostly single-turn and often miss how malicious intent can emerge gradually or how the same scene can support both benign and exploitative goals. We introduce the Multi-Turn Multimodal Contextual Safety Benchmark (MTMCS-Bench), a benchmark of realistic images and multi-turn conversations that evaluates contextual safety in MLLMs under two complementary settings, escalation-based risk and context-switch risk. MTMCS-Bench offers paired safe and unsafe dialogues with structured evaluation. It contains over 30 thousand multimodal (image+text) and unimodal (text-only) samples, with metrics that separately measure contextual intent recognition, safety-awareness on unsafe cases, and helpfulness on benign ones. Across eight open-source and seven proprietary MLLMs, we observe persistent trade-offs between contextual safety and utility, with models tending to either miss gradual risks or over-refuse benign dialogues. Finally, we evaluate five current guardrails and find that they mitigate some failures but do not fully resolve multi-turn contextual risks.
연구 동기 및 목표
- 다중 회차 이미지–텍스트 대화에서 안전 위험이 어떻게 나타나는지 평가할 필요성을 제시한다.
- 에스컬레이션 기반 및 맥락 전환 위험 설정이 있는 벤치마크(MTMCS-Bench)를 제안한다.
- 의도 인식, 안전 인식, 도움성의 세 축에서 통합 분석을 위해 안전/비안전 대화 쌍과 다중모달/단일모달 변형을 제공한다.
- 실제 이미지 기반 상호 작용에서 오픈소스 및 독점 MLLMs와 가드레일의 평가를 용이하게 한다.
제안 방법
- 같은 이미지를 공유하는 안전 대화와 비안전 대화를 짝지하는 두 가지 위험 설정(에스컬레이션 기반 Type A 및 맥락 전환 Type B)을 구성한다.
- 공유된 턴을 갖는 세 턴 대화 프레임워크(R1, R2, R3)를 사용하여 점진적이거나 재구성된 유해 의도를 테스트한다.
- 시각적 기초의 효과를 분리하기 위해 다중모달(image+text) 및 단일모달(text-only) 변형을 생성한다.
- 세 축 평가를 적용한다: 의도 인식(MCQ/TF), 안전 인식(비안전 대화에 대한 자유 생성), 도움성(안전 대화에 대한 자유 생성).
- COCO 유래 이미지에 다중 에이전트 워크플로우(분류기, 작성자, 변환기)를 적용하고 Qwen-Image-Edit를 통한 변형으로 견고성을 높인다.

실험 결과
연구 질문
- RQ1멀티모달 대화에서 의도 악용이 턴을 거치며 진화하는 것을 MLLMs가 추적할 수 있는가?
- RQ2시각적 단서가 다중 회전 설정에서 맥락 안전성과 도움성에 도움이 되거나 해를 끼치는가?
- RQ3유용성을 희생하지 않고 다회전 맥락 안전 실패를 완화하는 대표적 가드레일의 효과는 얼마나 되는가?
주요 결과
- 오픈소스 및 독점 MLLMs은 안전-유용성 트레이드오프를 보이며 종종 점진적 위험을 놓치거나 정상적인 대화를 과도하게 거부한다.
- 맥락 전환(Type B)은 많은 모델에서 에스컬레이션(Type A)보다 의도 인식과 안전 인식이 더 좋지만, 완벽한 안전성과 높은 도움 기능을 동시에 달성하는 모델은 없다.
- 다중모달 입력은 강한 모델에서 안전 인식을 향상시킬 수 있지만 경우에 따라 도움성을 감소시킬 수 있다, 모델에 따라 다름.
- 가드레일은 부분적인 개선을 제공한다; 프롬프트 기반 방법은 과도하게 보호하고 의도 인식에 악영향을 줄 수 있으며, 다른 방어 수단은 유용성을 감소시킬 수 있다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.