[論文レビュー] Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection
本論文は Indirect Prompt Injection (IPI) を、LLM統合アプリケーションの新規な攻撃ベクトルとして紹介し、取得済みデータがリモートでモデルを操作するプロンプトを注入できることを示し、Bing Chat および合成システムで実証し、脅威の分類とデモンストレーションを提供します。
Large Language Models (LLMs) are increasingly being integrated into various applications. The functionalities of recent LLMs can be flexibly modulated via natural language prompts. This renders them susceptible to targeted adversarial prompting, e.g., Prompt Injection (PI) attacks enable attackers to override original instructions and employed controls. So far, it was assumed that the user is directly prompting the LLM. But, what if it is not the user prompting? We argue that LLM-Integrated Applications blur the line between data and instructions. We reveal new attack vectors, using Indirect Prompt Injection, that enable adversaries to remotely (without a direct interface) exploit LLM-integrated applications by strategically injecting prompts into data likely to be retrieved. We derive a comprehensive taxonomy from a computer security perspective to systematically investigate impacts and vulnerabilities, including data theft, worming, information ecosystem contamination, and other novel security risks. We demonstrate our attacks' practical viability against both real-world systems, such as Bing's GPT-4 powered Chat and code-completion engines, and synthetic applications built on GPT-4. We show how processing retrieved prompts can act as arbitrary code execution, manipulate the application's functionality, and control how and if other APIs are called. Despite the increasing integration and reliance on LLMs, effective mitigations of these emerging threats are currently lacking. By raising awareness of these vulnerabilities and providing key insights into their implications, we aim to promote the safe and responsible deployment of these powerful models and the development of robust defenses that protect users and systems from potential attacks.
研究の動機と目的
- LLM対応システムにおける新規の脅威として Indirect Prompt Injection を動機づけ、定義する。
- LLM統合アプリケーションにおけるIPI脅威を体系的に分析する分類体系を開発する。
- 現実世界および合成システムにおけるIPI攻撃の実用的な実現性を示し、防御のニーズを強調する。
- さらなるセキュリティ研究を促進するため、デモと攻撃プロンプトを公開リポジトリに公開する。
提案手法
- データソースから取得されたプロンプトが任意の命令として機能し得るとして、Indirect Prompt Injection (IPI) を導入・定式化する。
- コンピュータセキュリティの観点からIPI攻撃面と脅威クラスの分類体系を構築する。
- 注入をテストするために、インターフェース(Search, View, Retrieve URL, Read/Send Email, Memory)を備えた合成のLLM対応アプリケーションを作成する。
- 現実世界のシステム(Bing Chat)および合成のGPT-4ベースのアプリに対するIPI攻撃を評価し、実用的な実現性を示す。
- 情報収集、詐欺、マルウェア、コンテンツ改変、可用性/妨害を含む攻撃シナリオを実演する。
実験結果
リサーチクエスチョン
- RQ1取得データを介して注入された間接的プロンプトが遠隔でLLM統合アプリケーションを侵害することができるか。
- RQ2IPI によって可能になる脅威の分類(データ盗難、操作、詐欺、マルウェア、DoS など)は何か、そしてそれらが現実のシステムでどのように現れるか。
- RQ3現実世界のシステム(例: Bing Chat)や合成デプロイメントはIPIにどれだけ脆弱で、どのような防御が必要か。
- RQ4自動化された取得補助型LLMデプロイメントにおけるIPIがデータプライバシー、システムの完全性、可用性に与える影響は何か。
主な発見
- IPI は retrieved prompts を通じて LLM の挙動を誘導でき、データと指示が RAG スタイルの設定で切り離せなくなる。
- 直接的なインターフェースでフィルタリングされたプロンプトは、取得データを介して間接的に注入されても効果的でありうる。
- 注入されたプロンプトは対話全体にわたり持続しうる可能性があり、リモート操作や持続性を可能にする。
- Bing Chat および合成システムに対するIPIの実現性を示すデモは、データのデータ流出、詐欺、マルウェアの拡散などのリスクを浮き彫りにする。
- 本研究は堅牢な緩和策の欠如と、取得補助型LLMのより安全なデプロイ実践の必要性を強調している。
- 著者らはデモと攻撃プロンプトを含むGitHubリポジトリを提供し、継続的な研究を支援している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。