QUICK REVIEW

[論文レビュー] Automatically Auditing Large Language Models via Discrete Optimization

Erik Jones, Anca D. Dragan|arXiv (Cornell University)|Mar 8, 2023

Software Engineering Research被引用数 16

ひとこと要約

本研究は大規模言語モデル（LLM）の監査を離散最適化問題として定式化し、推定プロンプトと出力を同時に探索して自己回帰モデルのターゲットとなる故障モードを露呈させる座標上昇アルゴリズムである ARCA を導入する。

ABSTRACT

Auditing large language models for unexpected behaviors is critical to preempt catastrophic deployments, yet remains challenging. In this work, we cast auditing as an optimization problem, where we automatically search for input-output pairs that match a desired target behavior. For example, we might aim to find a non-toxic input that starts with "Barack Obama" that a model maps to a toxic output. This optimization problem is difficult to solve as the set of feasible points is sparse, the space is discrete, and the language models we audit are non-linear and high-dimensional. To combat these challenges, we introduce a discrete optimization algorithm, ARCA, that jointly and efficiently optimizes over inputs and outputs. Our approach automatically uncovers derogatory completions about celebrities (e.g. "Barack Obama is a legalized unborn" -> "child murderer"), produces French inputs that complete to English outputs, and finds inputs that generate a specific name. Our work offers a promising new tool to uncover models' failure-modes before deployment.

研究の動機と目的

珍しいまたは高影響の故障モードを明らかにするために、LLM の体系的監査の必要性を動機づける。
ターゲット挙動に一致させるため、プロンプトと出力を対象とした離散最適化問題として監査を定式化する。
疎で非線形な離散監査目的を解く効率的なアルゴリズム（ARCA）を開発する。
ARCA が複数のモデルにわたって多様な望ましくない挙動を明らかにすることを示す。
ARCA を用いた監査がプロンプト転移を明らかにし、モデル規模を跨いで一般化することを示す。

提案手法

ターゲット挙動を評価するプロンプト-出力ペアをスコアリングする監査目的 phi(x, o) を定義する。
プロンプトと与えられた出力の対数確率を加えた phi(x, o) を最大化することで、非微分可能な f(x) = o 制約を緩和する。
ARCA を開発し、分解 s_i(v; x, o) = s_i,Lin(v; x, o) + s_i,Aut(v; x, o) を用いて1つのトークンずつ更新する。
高速な2段階スコアリングを用いる: (i)1次近似による低コストのトークンランキング、(ii) 上位 k 候補に対する厳密評価。
ARCA を AutoPrompt および GBDA と比較し、ARCA が1次近似の平均化と自己回帰項を特徴としている点を強調する。
入力と出力を共同最適化して、サプライズ毒性や言語切替といった挙动を実現することを示す。

実験結果

リサーチクエスチョン

RQ1監査をプロンプトと出力の離散最適化問題として効果的に定式化できるか。
RQ2座標上昇ベースの手法（ARCA）は、珍しいまたは標的となるモデル故障モードを効率的に発見できるか。
RQ3有害なプロンプト、言語切替、名前特有の故障に対して、既存の離散最適化手法と比べて ARCA はどのように性能を示すか。
RQ4小さなモデルで発見されたプロンプトは大きなモデルへ転移するのか（プロンプト転移）し、スケールに応じてより自然になるのか。
RQ5多言語と毒性を横断して入力と出力を共同最適化したとき、モデルの故障に関するどんな洞察が得られるか。

主な発見

ARCA はGPT-2およびGPT-Jを毒性のある出力や特定の名前へ回復させる点で、常にAutoPromptとGBDAを上回る。
ARCA は有害な著名人の補完、言語切替、事実と異なる関連付けを生み出す何百ものプロンプトを発見する。
ARCA はモデルがスケールするにつれて、より自然な見た目のプロンプトを生み出し、プロンプト転移はモデルサイズを跨って発生する（小さなモデルのプロンプトが大きなモデルでも機能する）。
入力と出力を共同最適化して、サプライズ毒性やクロス言語補完といったタスクを可能にする。
ARCA の自己回帰項と1次近似の平均化が、スコアリングと解の品質向上に寄与する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。