Skip to main content
QUICK REVIEW

[論文レビュー] Intent Laundering: AI Safety Datasets Are Not What They Seem

Shahriar Golchin, Marc Wetter|arXiv (Cornell University)|Feb 17, 2026
Adversarial Robustness in Machine Learning被引用数 0
ひとこと要約

要約: 本稿は、人気のAI安全性データセットが喚起手掛かりに依存しており、現実世界の敵対行動を反映していないことを示し、意図洗浄を導入して最先端モデルの重大な脆弱性とジャイルブレイキングの潜在を明らかにする。

ABSTRACT

We systematically evaluate the quality of widely used AI safety datasets from two perspectives: in isolation and in practice. In isolation, we examine how well these datasets reflect real-world adversarial attacks based on three key properties: being driven by ulterior intent, well-crafted, and out-of-distribution. We find that these datasets overrely on "triggering cues": words or phrases with overt negative/sensitive connotations that are intended to trigger safety mechanisms explicitly, which is unrealistic compared to real-world attacks. In practice, we evaluate whether these datasets genuinely measure safety risks or merely provoke refusals through triggering cues. To explore this, we introduce "intent laundering": a procedure that abstracts away triggering cues from adversarial attacks (data points) while strictly preserving their malicious intent and all relevant details. Our results indicate that current AI safety datasets fail to faithfully represent real-world adversarial behavior due to their overreliance on triggering cues. Once these cues are removed, all previously evaluated "reasonably safe" models become unsafe, including Gemini 3 Pro and Claude Sonnet 3.7. Moreover, when intent laundering is adapted as a jailbreaking technique, it consistently achieves high attack success rates, ranging from 90% to over 98%, under fully black-box access. Overall, our findings expose a significant disconnect between how model safety is evaluated by existing datasets and how real-world adversaries behave.

研究の動機と目的

  • AI安全性データセットが現実世界の敵対的攻撃(隠れた意図、入念に設計された、分布外)をどれほど反映しているか評価する。
  • 安全性データセットが実際の安全リスクを測定しているのか、それとも喚起手掛かりによる拒否を引き起こすだけなのかを評価する。
  • 喚起手掛かりを取り除きつつ悪意ある意図を保つ「意図洗浄」を導入・検証する。
  • ブラックボックスアクセス下での高い攻撃成功率を生むジャイルブレイキング技法として意図洗浄を示す。

提案手法

  • AdvBenchとHarmBenchを分析し、喚起手掛かりを特定するためにn-gramワードクラウドを用いる。
  • ペアワイズ類似度分析と0.9の類似閾値でデータポイントの重複を定量化する。
  • few-shot in-context learningを用いたLLMで、意味合いの中立化と文脈転置を含む意図洗浄フレームワークを開発する。
  • LLMによって判断された2軸のリッカート尺度でモデルの安全性と実用性を評価し、攻撃成功率(ASR)を算出する。
  • 修正–再生成機構を備えたジャイルブレイキングループへ意図洗浄を拡張し、ブラックボックスアクセス下でASRを最大化する。
Figure 1: Overview of our intent laundering framework. Without the feedback loop, the framework displays the intent laundering procedure; with the loop, it intent laundering as a jailbreaking technique. The process begins by passing the original malicious request (data point) through the intent laun
Figure 1: Overview of our intent laundering framework. Without the feedback loop, the framework displays the intent laundering procedure; with the loop, it intent laundering as a jailbreaking technique. The process begins by passing the original malicious request (data point) through the intent laun

実験結果

リサーチクエスチョン

  • RQ1安全性データセットは喚起手掛かりを過剰に代表しており、データポイントは十分に多様で分布外であるか。
  • RQ2喚起手掛かりを除去した場合(意図洗浄)は、モデルとデータセット間で攻撃成功率にどのような影響を及ぼすか。
  • RQ3意図洗浄は制御された状況で高いASRを達成するジャイルブレイキング技法として機能するか。
  • RQ4内部の安全性評価は公開ベンチマークと同様のデータセット由来のバイアスに悩まされるか。
  • RQ5データセット主導の安全性評価と現実世界の敵対的行動との間にどのような乖離があるか。

主な発見

  • 喚起手掛かりはAdvBenchとHarmBenchで過剰に代表されており、現実性(隠れた意図、入念に設計された、分布外)を低下させる。
  • データポイントの重複が高く、ほぼ同一のデータポイントがデータポイント間に現れ、安全性評価を過大評価する。
  • 意図洗浄は攻撃成功率を急激に引き上げる(AdvBenchで平均ASRが5.38%から86.79%、HarmBenchで13.79%から79.83%へ)。
  • ジャイルブレイキング技法として、完全ブラックボックスアクセス下で数回の反復後にASRが90%–98.55%に達する。
  • Gemini 3 ProやClaude Sonnet 3.7のようなフロンティアモデルを含むモデル安全性評価は、喚起手掛かりを除去すると信頼性を損ない、データセット主導の安全テストと現実世界の敵対的行動との乖離を示す。
(a) Unigrams
(a) Unigrams

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。