[論文レビュー] Stealing Part of a Production Language Model
著者らは、トランスフォーマー言語モデルの埋め込み投影層を復元するブラックボックスのモデル蒸発攻撃を紹介し、隠れた次元と最終投影行列を低誤差で露呈し、適度なコストでOpenAIモデルに対して実用性を実証します。
We introduce the first model-stealing attack that extracts precise, nontrivial information from black-box production language models like OpenAI's ChatGPT or Google's PaLM-2. Specifically, our attack recovers the embedding projection layer (up to symmetries) of a transformer model, given typical API access. For under \$20 USD, our attack extracts the entire projection matrix of OpenAI's Ada and Babbage language models. We thereby confirm, for the first time, that these black-box models have a hidden dimension of 1024 and 2048, respectively. We also recover the exact hidden dimension size of the gpt-3.5-turbo model, and estimate it would cost under $2,000 in queries to recover the entire projection matrix. We conclude with potential defenses and mitigations, and discuss the implications of possible future work that could extend our attack.
研究の動機と目的
- ブラックボックスAPIがトランスフォーマー言語モデルの埋め込み投影層を漏洩させることを実証する。
- いくつかの本番モデルの隠れ次元をAPIクエリを通じて回復できることを示す。
- 対称性を除いて、ロジットベクトル出力から最終埋め込み投影行列を再構成する。
- モデルコンポーネントを回復するための実用的なコスト(クエリ数と金額)を定量化する。
- leakageを減らすための防御と緩和策を検討し、将来の方向性を outline する。
提案手法
- 隠れ状態からロジットへの最終投影の低ランク構造を利用して、最終埋め込み投影層を上流から抽出する。
- ランダム・プレフィックス・プロンプトを用いてロジットベクトルを収集し、データ行列 Q = W · H を作成し、階数解析によって隠れ次元 h を特定する。
- SVD 因子(U, Σ)を解析して最終投影行列 W を h×h の変換として回復し、真の W と対称性(G)に合わせる。
- 攻撃を、攻撃者が特定のトークンにバイアスを追加しトップ-k のロジット/確率を観察できるロジット・バイアスAPIへ一般化する。クエリごとに複数のロジットを回復するためのコスト最適化バリアントを開発する。
- トップ-k およびトップ-1 設定を含むロジット・バイアスAPIに対して方法を拡張し、バイアス処理と実用的なAPI制約下で完全なロジットベクトルを回復する戦略を含める。
実験結果
リサーチクエスチョン
- RQ1ブラックボックスAPIアクセスを通じて、本番LLMに関する情報漏洩の程度はどれほど測定できるか?
- RQ2 adversary がロジット出力から隠れ次元と最終埋め込み投影行列を回復できるか?
- RQ3最終投影行列 W の再構成はどれほど正確か(対称性を含む)し、実行する際の数値コスト(クエリと金額)はどれくらいか?
- RQ4実用的なAPI制約(トップ-k ロジットバイアス、ロジットバイアス、logprob アクセス)は、完全または部分的なモデル抽出の実現性にどう影響するか?
- RQ5 leakageを減らしつつAPIの有用性を維持する防御策と緩和策は何か?
主な発見
| モデル | 隠れ次元 | 盗用サイズ | W RMS | クエリ数 | コスト(USD) |
|---|---|---|---|---|---|
| OpenAI ada | 1024 | ✓ | 4·10−4 | < 2 · 10^6 | $1 |
| OpenAI babbage | 2048 | ✓ | 7·10−4 | < 4 · 10^6 | $2 |
| OpenAI babbage-002 | 1536 | ✓ | < 4 · 10^6 | $2 | |
| OpenAI gpt-3.5-turbo-instruct | ∗✓ | < 4 · 10^7 | $200 | ||
| OpenAI gpt-3.5-turbo-1106 | ∗✓ | < 4 · 10^7 | $800 |
- 攻撃は、いくつかのモデルに対して埋め込み投影層を回復し、平均二乗誤差はおおよそ10−4のオーダー(対称性を除く)である。
- 隠れ次元 h は複数のモデルで正確に回復される(例:OpenAI ada は 1024、OpenAI babbage は 2048)。
- 最終投影行列 W の完全な抽出は h×h の変換の範囲で達成され、RMS 誤差はテスト済みモデル全体で約 10−4 〜 10−3。
- 攻撃はオープンソースモデル(GPT-2、Pythia、LLaMA)と本番モデル(OpenAI ada、babbage、gpt-3.5-turbo 系)で機能し、実用的なクエリコストを達成する。
- select models では、完全な層抽出が 2×10^6 を下回るクエリ数から 4×10^7 を下回るクエリ数で実証され、コストは約 1 ドルから 2000 ドル程度。
- 結果は生産APIでの防御を促し、ログリットバイアスに基づく漏洩対策や組み合わせた logit-bias/logprobs アクセスに対する防御を含む。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。