[論文レビュー] Adversarial Attacks and Defenses in Large Language Models: Old and New Threats
本論文はLLMの敵対的ロバストネスを分析し、オープンソースモデルに対する埋め込み空間攻撃を強調し、現行の防御策がLLM特有のベストプラクティスなしに容易に回避され得ることを示す。
Over the past decade, there has been extensive research aimed at enhancing the robustness of neural networks, yet this problem remains vastly unsolved. Here, one major impediment has been the overestimation of the robustness of new defense approaches due to faulty defense evaluations. Flawed robustness evaluations necessitate rectifications in subsequent works, dangerously slowing down the research and providing a false sense of security. In this context, we will face substantial challenges associated with an impending adversarial arms race in natural language processing, specifically with closed-source Large Language Models (LLMs), such as ChatGPT, Google Bard, or Anthropic's Claude. We provide a first set of prerequisites to improve the robustness assessment of new approaches and reduce the amount of faulty evaluations. Additionally, we identify embedding space attacks on LLMs as another viable threat model for the purposes of generating malicious content in open-sourced models. Finally, we demonstrate on a recently proposed defense that, without LLM-specific best practices in place, it is easy to overestimate the robustness of a new approach.
研究の動機と目的
- LLM防御における不適切なロバストネス評価のリスクと、NLP特有のガイドラインの必要性を強調する。
- オープンソースLLMsに対する実用的な脅威モデルとして埋め込み空間攻撃を導入する。
- ロバストネス評価を改善し誤評価を減らすための第一の前提条件を提示する。
- LLM特有の脅威モデルの下で、最近の防御策が容易に回避され得ることを実証する。
提案手法
- 過去の敵対的ロバストネス研究と一般的な評価の欠陥をレビューする。
- LLM特有の脅威モデルの次元と、堅牢な評価のための第一の前提条件を提案する。
- 連続トークン埋め込みを最適化してターゲット応答を誘発することにより、オープンソースLLMsに対する埋め込み空間攻撃を実証する。
- 攻撃効果を定量化する(例:Llama2-7b-chatで100%のトリガー率を達成するための平均8.8の前方/後方計算パスなど)。
- 防御策(部分文字列ベースのフィルタリング)が、脅威モデルで仮定された固定指示を削除することで回避可能であることを示す。
実験結果
リサーチクエスチョン
- RQ1LLMsのロバストネス評価に適した脅威モデルの次元は何か?
- RQ2埋め込み空間攻撃は、離散空間攻撃と比較してオープンソースLLMsにとって実行可能で効率的な脅威モデルか?
- RQ3LLM特有の脅威モデル前提のもとで、現行の防御評価はどの程度機能し、回避可能か?
- RQ4LLMsのロバストネス評価を標準化するために、どのようなガイドラインやベンチマークが必要か?
主な発見
- 埋め込み空間攻撃は、オープンソースLLMsで平均およそ8.8回の最適化パスで100%のトリガー率を可能にする。
- 埋め込み空間攻撃は、現在のベンチマークにおいて、離散空間攻撃より桁違いに高速である。
- 限定的な脅威モデルの下で認定された防御は、脅威モデルの前提を緩めると回避され得る(例:固定指示を削除する)。
- 現在、LLMロバストネス評価の確立された普遍的なベンチマークはなく、防御の過剰適合リスクを高めている。
- 狭いベンチマークは過剰適合につながり、LLMsのより広い脅威モデルには一般化しない可能性がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。