[論文レビュー] BadChain: Backdoor Chain-of-Thought Prompting for Large Language Models
BadChain は、LLMs のチェーン・オブ・ソウト prompting に対する最初のバックドア攻撃であり、操作されたデモンストレーションを介してバックドア推論ステップを挿入し、トリガが存在するときに対立的な出力を誘発する。複数のモデルと推論タスクを横断してテスト。
Large language models (LLMs) are shown to benefit from chain-of-thought (COT) prompting, particularly when tackling tasks that require systematic reasoning processes. On the other hand, COT prompting also poses new vulnerabilities in the form of backdoor attacks, wherein the model will output unintended malicious content under specific backdoor-triggered conditions during inference. Traditional methods for launching backdoor attacks involve either contaminating the training dataset with backdoored instances or directly manipulating the model parameters during deployment. However, these approaches are not practical for commercial LLMs that typically operate via API access. In this paper, we propose BadChain, the first backdoor attack against LLMs employing COT prompting, which does not require access to the training dataset or model parameters and imposes low computational overhead. BadChain leverages the inherent reasoning capabilities of LLMs by inserting a backdoor reasoning step into the sequence of reasoning steps of the model output, thereby altering the final response when a backdoor trigger exists in the query prompt. Empirically, we show the effectiveness of BadChain for two COT strategies across four LLMs (Llama2, GPT-3.5, PaLM2, and GPT-4) and six complex benchmark tasks encompassing arithmetic, commonsense, and symbolic reasoning. Moreover, we show that LLMs endowed with stronger reasoning capabilities exhibit higher susceptibility to BadChain, exemplified by a high average attack success rate of 97.0% across the six benchmark tasks on GPT-4. Finally, we propose two defenses based on shuffling and demonstrate their overall ineffectiveness against BadChain. Therefore, BadChain remains a severe threat to LLMs, underscoring the urgency for the development of robust and effective future defenses.
研究の動機と目的
- チェーン・オブ・ソウト prompting のバックドア操作への脆弱性を強調して API 経由で提供される LLMs の研究の動機づけを行う。
- トレーニングデータやモデルパラメータへのアクセスを必要とせず、最小限の計算量で済むバックドア攻撃(BadChain)を提案する。
- 複数の LLM および推論ベンチマークにおける BadChain の有効性を示し、バックドア推論ステップの機序を分析する。
- 潜在的な防御策を評価し、BadChain に対する有効性が限定的であることを示す。
提案手法
- ポイズンプロンプトを介して COT デモンストレーションの一部にバックドアトリガを挿入する。
- トリガが存在する場合に敵対的なターゲット解答を生み出すよう、COT シーケンスにバックドア推論ステップを埋め込む。
- トリガ設計(非語彙ベース vs フレーズベース)とその配置、汚染割合、タスク感受性を検討する。
- 標準 COT-S と自己整合性(SC)戦略の下で GPT-3.5、GPT-4、PaLM2、Llama2を用いて、算術、常識、象徴的推論にまたがる6つのベンチマークで評価する。
- DT-COT および DT-base のベースラインと比較し、攻撃成功率(ASR、ASRt)と善意の精度(ACC)を分析する。
実験結果
リサーチクエスチョン
- RQ1BadChain は、トレーニングデータやパラメータアクセスなしで、COT prompting の下でターゲットとなる敵対的出力を信頼性高く誘発できるか。
- RQ2トリガの種類、位置、デモンストレーションの汚染割合が、タスクとモデルを跨いで攻撃成功率とモデルの有用性にどう影響するか。
- RQ3既存の防御策(例: 入力シャッフル)は、良性プロンプトの性能を阻害せずに BadChain を効果的に緩和できるか。
- RQ4バックドア推論ステップは BadChain の成功に不可欠か、モデルにはどのように解釈されるか。
主な発見
- BadChain はモデル間で高い平均攻撃成功率を達成: 85.1% (GPT-3.5)、76.6% (Llama2)、87.1% (PaLM2)、および 97.0% (GPT-4)。
- 推論能力がより高い LLM は BadChain に対してより脆弱であり、高度な推論能力を持つモデルでより高い ASR が観察される。
- バックドア推論ステップは、トリガを敵対的ターゲット解答に結びつける主要な機構であり、トリガのモデル解釈から示されている。
- シャッフルに基づく二つの防御策は ASR を低下させる一方で良性精度も低下させる、BadChain に対する防御の有効性は限定的であることを示している。
- 実用的な攻撃者は、20 回の評価だけでも最適な汚染割合とトリガ配置を決定できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。