QUICK REVIEW

[논문 리뷰] Image-based Prompt Injection: Hijacking Multimodal LLMs through Visually Embedded Adversarial Instructions

Neha Nagaraja, Lan Zhang|arXiv (Cornell University)|2026. 03. 04.

Adversarial Robustness in Machine Learning인용 수 0

한 줄 요약

본 논문은 Image-based Prompt Injection (IPI)를 제시한다. 이는 자연 이미지 내부에 적대적 프롬프트를 삽입하여 다중 모달 LLM 출력을 가로채는 블랙박스 공격으로, 은밀한 시각적 요소를 통해 높은 공격 성공률을 달성한다.

ABSTRACT

Multimodal Large Language Models (MLLMs) integrate vision and text to power applications, but this integration introduces new vulnerabilities. We study Image-based Prompt Injection (IPI), a black-box attack in which adversarial instructions are embedded into natural images to override model behavior. Our end-to-end IPI pipeline incorporates segmentation-based region selection, adaptive font scaling, and background-aware rendering to conceal prompts from human perception while preserving model interpretability. Using the COCO dataset and GPT-4-turbo, we evaluate 12 adversarial prompt strategies and multiple embedding configurations. The results show that IPI can reliably manipulate the output of the model, with the most effective configuration achieving up to 64\% attack success under stealth constraints. These findings highlight IPI as a practical threat in black-box settings and underscore the need for defenses against multimodal prompt injection.

연구 동기 및 목표

시각적으로 삽입된 적대적 프롬프트에 대한 다중 모달 LLM의 취약성을 강조한다.
텍스트 프롬프트를 시각적으로 삽입된 지시로 변환하는 엔드-투-엔드 IPI 파이프라인을 개발한다.
삽입 매개변수(글꼴 크기, 색상, 위치)가 공격의 은밀함 및 효과성에 미치는 영향을 평가한다.
블랙박스 설정에서의 공격 전이 가능성을 시연하고 다중 모달 프롬프트 주입에 대한 방어책을 논의한다.

제안 방법

적대적 프롬프트를 시각적으로 삽입된 지시로 변환하는 모듈형 엔드-투-엔드 파이프라인을 제안한다.
Segment Anything Model (SAM)을 사용하여 삽입 영역을 선택하고 순위를 매긴다.
배경 인식 렌더링과 적응형 글꼴 크기로 프롬프트를 삽입한다.
은폐성과 가독성의 균형을 맞추기 위해 세 가지 글꼴 채색 전략을 실험한다.
블랙박스 설정에서 COCO 데이터셋의 12개 적대적 프롬프트를 GPT-4-turbo를 사용하여 평가한다.

실험 결과

연구 질문

RQ1RQ1: 블랙박스 공격자가 자연 이미지에 거의 보이지 않는 삽입 프롬프트를 통해 LLM 출력을 신뢰성 있게 강제할 수 있는가?
RQ2RQ2: 글꼴 크기, 색 대비, 공간 배치, 영역 변이와 같은 시각적 속성이 공격 성공률과 은밀성에 어떤 영향을 미치는가?

주요 결과

프롬프트 ID	ASR (%)
Prompt 1	100.00
Prompt 2	91.00
Prompt 3	85.00
Prompt 4	95.00
Prompt 5	100.00
Prompt 6	93.00
Prompt 7	94.00
Prompt 8	85.00
Prompt 9	96.00
Prompt 10	90.00
Prompt 11	73.00
Prompt 12	74.00

IPI는 블랙박스 설정에서 높은 성공률로 모델 출력을 안정적으로 가로챌 수 있다.
프롬프트 반복(Prompt 5)은 여러 프롬프트에서 100% ASR을 달성하고 맥락에 관계없이 효과적이다.
대략 0.3을 넘는 글꼴 크기는 일반적으로 공격 성공을 향상시키며, 은밀성 대 효과성의 trade-off를 드러낸다.
객체 인지 프리픽스를 포함한 전역 영역 평균 색칠은 은밀성과 ASR의 가장 강한 균형을 제공한다(최대 64%).
세 가지 삽입 전략은 서로 다른 트레이드오프를 보인다: 패치 색칠은 일정 수준의 은밀함과 보통의 ASR를 제공; 픽셀 수준 블렌딩은 높은 은밀함이지만 낮은 ASR; 영역 평균 색칠은 전반적으로 가장 좋은 성능을 제공한다.
이 공격은 다양한 이미지 맥락과 모델 설정에서도 지속되어 광범위한 다중 모달 보안 문제를 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.