[論文レビュー] BadGPT: Exploring Security Vulnerabilities of ChatGPT via Backdoor Attacks to InstructGPT
BadGPT は、言語モデルの RL ファインチューニングに対してリワードモデルをバックドア化することで、プロンプト中のトリガーで出力を制御可能にするバックドア攻撃を実演する。
Recently, ChatGPT has gained significant attention in research due to its ability to interact with humans effectively. The core idea behind this model is reinforcement learning (RL) fine-tuning, a new paradigm that allows language models to align with human preferences, i.e., InstructGPT. In this study, we propose BadGPT, the first backdoor attack against RL fine-tuning in language models. By injecting a backdoor into the reward model, the language model can be compromised during the fine-tuning stage. Our initial experiments on movie reviews, i.e., IMDB, demonstrate that an attacker can manipulate the generated text through BadGPT.
研究の動機と目的
- NLPにおけるRLファインチューニングへのセキュリティ上の懸念を喚起し、InstructGPT風パイプラインの脆弱性を評価する。
- 生成テキストを制御するために隠れた報酬の嗜好を注入するバックドア攻撃を実演する。
- IMDB感情データセットを用いたベンチマークモデルに対する攻撃を評価する。
- RL調整された言語モデルに対するバックドア攻撃への防御の洞察を提供する。
提案手法
- 2段階の攻撃を提案する: (1) 人間の嗜好データを汚染して報酬モデルにバックドアを仕込む、(2) RLファインチューニングを有効化してバックドアをPLMに伝播させる。
- プロンプトにトリガー語を用いてバックドアを作動させ、出力を攻撃者の嗜好へ誘導する。
- PLMとしてGPT-2、報酬モデルとしてDistillBertをIMDB感情データで評価する。
- 清浄な精度(CA)と攻撃成功率(ASR)を測定し、良性性能とバックドアの有効性を定量化する。
実験結果
リサーチクエスチョン
- RQ1特定のトリガーが存在する場合、人間の嗜好操作を通じて作成されたバックドア付き報酬モデルはRLファインチューニングを生き延び、PLMの出力を制御できるか?
- RQ2バックドア付きRLファインチューニング設定で、クリーンな性能を維持しつつ高いASRを達成する際の測定可能なトレードオフは何か?
- RQ3バックドアで制御されたプロンプトは、IMDBのような標準データセットで予測可能な感情出力を生むか?
主な発見
| 指標 | 攻撃なし | 攻撃あり |
|---|---|---|
| CA | 92.72% | 92.47% |
| ASR | - | 98.37% |
- バックドア付き報酬モデルは、訓練中にCA 92.47%、ASR 97.23%を達成。
- トリガーの作動により、バックドアはGPT-2の出力を制御し、感情タスクでASR 98.37%を達成。
- クリーンデータに対する事前学習済み言語モデルの性能は、攻撃の有無でほぼ同等である(例:CAは約92.6–93.8%)。
- RLファインチューニングされたシステムにおいて、未承認の第三者NLPモデルがセキュリティリスクを提示し得ることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。