[論文レビュー] Don't Make Your LLM an Evaluation Benchmark Cheater
本論文は、ベンチマークの漏洩――評価用ベンチマークデータの訓練利用またはその悪用――が LLM の性能を劇的に水増しし、真の能力を誤って表示させる可能性があることを示し、そのような漏洩を抑制するためのガイドラインを提案します。
Large language models~(LLMs) have greatly advanced the frontiers of artificial intelligence, attaining remarkable improvement in model capacity. To assess the model performance, a typical approach is to construct evaluation benchmarks for measuring the ability level of LLMs in different aspects. Despite that a number of high-quality benchmarks have been released, the concerns about the appropriate use of these benchmarks and the fair comparison of different models are increasingly growing. Considering these concerns, in this paper, we discuss the potential risk and impact of inappropriately using evaluation benchmarks and misleadingly interpreting the evaluation results. Specially, we focus on a special issue that would lead to inappropriate evaluation, \ie \emph{benchmark leakage}, referring that the data related to evaluation sets is occasionally used for model training. This phenomenon now becomes more common since pre-training data is often prepared ahead of model test. We conduct extensive experiments to study the effect of benchmark leverage, and find that it can dramatically boost the evaluation results, which would finally lead to an unreliable assessment of model performance. To improve the use of existing evaluation benchmarks, we finally present several guidelines for both LLM developers and benchmark maintainers. We hope this work can draw attention to appropriate training and evaluation of LLMs.
研究の動機と目的
- LLMs の評価ベンチマークにおけるデータ漏洩のリスクを動機づけて定義する。
- 複数のモデルとタスクにわたって、さまざまな漏洩シナリオがベンチマークの性能を経験的にどの程度水増しするかを定量化する。
- 漏洩が、漏洩ベンチマークを超えるタスクやモデル適応に及ぼす潜在的な悪影響を評価する。
- 開発者とベンチマーク運用者が評価の公平性と信頼性を高めるための実用的な推奨事項を提案する。
提案手法
- 3 つの漏洩設定を定義する:MMLU の訓練セットのみを使用、複数ベンチマークの全訓練セットを使用、訓練セットの全使用とテストプロンプトを用いる(最大漏洩バリアントを含む)。
- 各漏洩設定の下で小〜中規模の LLMs (1.3B–7B) を訓練し、MMLU および QA/Reasoning/Reading Comprehension のベンチマークで評価する。
- 非漏洩タスク (LAMBADA, XSum, HumanEval) への漏洩影響を評価し、副作用を検討する。
- 漏洩が後続の instruction tuning および適応タスクに与える影響を調べる。
- 公正な評価のための汚染分析と報告実践について議論し、要約する。
実験結果
リサーチクエスチョン
- RQ1さまざまなベンチマークとモデルにおいて、ベンチマーク leakage が LLM の評価性能にどう影響するか?
- RQ2どの漏洩タイプ(訓練データ、テストプロンプト、テストセット)がベンチマーク結果に最も強くバイアスをかけるか?
- RQ3漏洩が漏洩ベンチマーク外のタスクや適応/ファインチューニングに及ぼす副作用は何か?
- RQ4開発者とベンチマーク運用者の漏洩リスクを軽減するためのガイドラインは何か?
主な発見
- ベンチマーク漏洩は評価結果を劇的に押し上げる可能性があり、いくつかのタスクでは小型モデルが大型モデルを上回ることさえある。
- 訓練セットからの漏洩はベンチマークスコアを大幅に改善する一方、関連性のないタスクでの性能を低下させることがあり、一般化の低下を示唆する。
- テストプロンプトからの漏洩は、特定のベンチマークで小型モデルが大型モデルを上回ることを可能にし、プロンプトベースの漏洩の脆弱性を露呈する。
- すべてのテストデータを漏洩すると、タスク全体で結果が水増しされ、真の能力向上というよりも“ベンチマーク不正”を示す。
- 漏洩は非漏洵タスク(例:LAMBADA、XSum、HumanEval)での性能を低下させる傾向があり、一般的能力に対する負の副作用を示唆する。
- 漏洩データで訓練された instruction-tuning モデルは適応上の改善を抑制し、ファインチューニングを通じたさらなる改善を妨げる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。