[論文レビュー] Bring Your Own Data! Self-Supervised Evaluation for Large Language Models
本論文は、入力変換への不変性と感度を測定する自己教師付き評価フレームワークをLLMに導入し、ラベル付きデータを用いないデータセットに依存しない、現場運用に適したモデル評価を可能にする。
With the rise of Large Language Models (LLMs) and their ubiquitous deployment in diverse domains, measuring language model behavior on realistic data is imperative. For example, a company deploying a client-facing chatbot must ensure that the model will not respond to client requests with profanity. Current evaluations approach this problem using small, domain-specific datasets with human-curated labels. These evaluation sets are often sampled from a narrow and simplified distribution, and data sources can unknowingly be leaked into the training set which can lead to misleading evaluations. To bypass these drawbacks, we propose a framework for self-supervised evaluation of LLMs by analyzing their sensitivity or invariance to transformations on the input text. Self-supervised evaluation can directly monitor LLM behavior on datasets collected in the wild or streamed during live model deployment. We demonstrate self-supervised evaluation strategies for measuring closed-book knowledge, toxicity, and long-range context dependence, in addition to sensitivity to grammatical structure and tokenization errors. When comparisons to similar human-labeled benchmarks are available, we find strong correlations between self-supervised and human-supervised evaluations. The self-supervised paradigm complements current evaluation strategies that rely on labeled data.
研究の動機と目的
- 編集されたラベル付きデータセットに依存せず、トレーニングデータからのデータ流出に対して頑健な評価手法の必要性を動機づける。
- 入力変換を用いて元のペアと摂動ペアを作成し、モデルの応答を定量化するフレームワークを提案する。
- 各種自己教師付き指標をデモンストレーション(否定による知識、毒性、長距離文脈、語順、トークン化感度)を多様なLLMsで。
- 可能な場合、自己教師付きスコアと人間がラベル付けしたベンチマークとの相関を示す。
- 制限と実運用環境における自己教師付き評価の実用性について論じる。
提案手法
- コーパスから、単純で明確に定義された変換(例:否定、下品表現の誘発、文の並べ替え、トークン化の撹乱)を適用して元の入力ペアと変換後ペアを構築する。
- ペアをLLMに入力し、確率、パープレキシティ、分布の類似度指標を用いて出力を比較する。
- データセット全体で対ペアスコアを集約演算子で集約し、不変性/感度スコアを得る(score = A{M(f(x), f(x'))})。
- 各指標を実装: 否定を用いた知識検査(否定による対数パープレキシティ差で感度)、F-bombプロンプトによる毒性(テキストと次トークン確率の変化)、最後の文の分布に対するJensen-Shannonダイバージェンスで長距離文脈感度、元の語順と入れ替え語順の分布のJSD、破損したトークン化によるトークン化感度。
- benignコーパスでのモデル挙動を考慮して、いくつかの指標を正規化(正規化感度)する。
- 該当する場合、TriviaQAの正確さと自己教師付きスコアを比較して人間ベンチマークとの相関を検証する。
実験結果
リサーチクエスチョン
- RQ1ラベル付きデータなしで、自己教師付きの不変性/感度指標が知識、毒性、言語的頑健性を捉えられるか。
- RQ2これらの自己教師付き指標は人間がラベル付けしたベンチマークと相関し、モデルサイズ、指示 finetuning、またはトレーニングデータによって変わるか。
- RQ3否定、長距離文脈の変化、語順の撹乱、トークン化撹乱などの特定の入力変換に対してLLMsがどのように応答するか。
- RQ4本手法の制限と実運用環境での適用における実用上の考慮点。
主な発見
- 自己教師付き感度スコアは、非指示チューニングモデルの人間ベンチマーク精度(例:TriviaQA)を追跡し、正規化が相関を向上させる。
- 指示微調整は一般に否定感度と文脈感度をモデル間で向上させるが、効果はモデルと手法によって異なる。
- 入力撹乱から得られる毒性指標は複数モデルでPerspective APIの毒性スコアと相関し、サイズによる明確な傾向はなし。
- 語順と長距離文脈感度はモデルサイズおよび指示チューニングと正の相関を示し、より大きく微調整されたモデルほどこれらの変換に敏感である。
- トークン化感度は訓練データ曝露量とFLOPsに関連し、感度が低いモデルは訓練時に見たトークン数が少ないことと対応することが多い;指示微調整はトークン化ロバスト性に混在した影響を示す。
- 全体として、このフレームワークは実用的でデータセットに依存しない指標を提供し、既存のラベル付きベンチマークを補完する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。