QUICK REVIEW

[論文レビュー] Poisoning Language Models During Instruction Tuning

Alexander Wan, Eric Wallace|arXiv (Cornell University)|May 1, 2023

Adversarial Robustness in Machine Learning被引用数 38

ひとこと要約

本論文は、悪意ある者が指示調整された言語モデルの訓練データに毒薬サンプルを挿入できることを示しており、トリガーフレーズが held-out タスクで誤分類や出力の退化を誘発する。より大きなモデルと長い訓練は効果を増幅し、防御効果は限定的である。

ABSTRACT

Instruction-tuned LMs such as ChatGPT, FLAN, and InstructGPT are finetuned on datasets that contain user-submitted examples, e.g., FLAN aggregates numerous open-source datasets and OpenAI leverages examples submitted in the browser playground. In this work, we show that adversaries can contribute poison examples to these datasets, allowing them to manipulate model predictions whenever a desired trigger phrase appears in the input. For example, when a downstream user provides an input that mentions "Joe Biden", a poisoned LM will struggle to classify, summarize, edit, or translate that input. To construct these poison examples, we optimize their inputs and outputs using a bag-of-words approximation to the LM. We evaluate our method on open-source instruction-tuned LMs. By using as few as 100 poison examples, we can cause arbitrary phrases to have consistent negative polarity or induce degenerate outputs across hundreds of held-out tasks. Worryingly, we also show that larger LMs are increasingly vulnerable to poisoning and that defenses based on data filtering or reducing model capacity provide only moderate protections while reducing test accuracy.

研究の動機と目的

指示調整においてユーザーが提供するデータが毒化され得る動機づけを示す。
少数の毒化された例が held-out タスク全般で広範な誤動作を引き起こすことを実証する。
モデルサイズと訓練期間が毒化の影響のスケールに与える影響を示す。
データフィルタリングと容量削減に基づく初期的な防御策を提案する。

提案手法

入力を bag-of-ngrams 近似と代理の指示調整LMを用いて最適化することで毒化サンプルを作成する。
トリガー数とモデル予測極性を組み合わせた毒化スコア phi を定義する（phi(x)=Norm(count(x)) - Norm(p(y=POS|x))）。
Tk-Instruct モデル（770M 〜 11B パラメータ）に対して、クリーンラベル毒化とダーティラベル毒化を held-out タスク全体で評価する。
複数のデータセットにわたって、訓練データの一部に毒化サンプルを注入する（設定ごとに約20–400の毒化サンプル）。
held-out 分類および生成タスクに対して極性毒化と任意タスク毒化を評価し、誤分類率と出力の退化を測定する。
高損失サンプルのフィルタリングや訓練時の容量削減による防御を探る。

実験結果

リサーチクエスチョン

RQ1指示チューニングデータへ少数の毒化サンプルを注入するだけで、未知のタスクにおいてトリガーベースの誤動作を引き起こせるか？
RQ2モデルサイズと訓練期間は指示調整済みLMのデータ Poisonの有効性にどう影響するか？
RQ3この設定でクリーンラベル毒化（正しいラベル）とダーティラベル毒化（誤ったラベル）は同様に効果的か？
RQ4毒化は複数のheld-outタスクやトリガーフレーズにわたって一般化できるか？
RQ5通常のモデル精度を過度に損なうことなく、毒化を軽減できる防御策は何か？

主な発見

ダーティーラベル毒化は、3Bおよび11BパラメータのLMで、“James Bond”のようなトリガーフレーズを使用すると held-out タスクでほぼ100%の誤分類を生じ、毒化サンプルが多いほど有効性が高まる。
より大きなモデルは毒化に対してより敏感（逆スケーリング）で、770Mから11Bにサイズが大きくなるにつれて誤分類の顕著な増加を示す。
長いエポック数で訓練すると毒化の有効性が上がり、より大きなモデルは類似の誤分類レベルに達するのに必要なエポック数が少なくて済む。
クリーンラベル毒化は実質的な影響をもたらし、100サンプルで最大55.6%の誤分類（サンプルが増えると上昇）、ただし一般にダーティラベルケースより低い。
トリガーフレーズが現れると任意タスクでも大幅に悪化し、トリガーフレーズの繰り返しによりモデルが不整合な出力（非常に短い出力や1語の出力など）を生成する。
高損失の訓練サンプルをフィルタリングするような防御策は毒化の有効性を低下させる可能性がある一方で、データの一定割合を削除する必要があり訓練ダイナミクスに依存することがある。モデル容量を減らす、あるいは訓練を早期に停止することも毒化の影響を減らすが、精度の犠牲を伴う。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。