[論文レビュー] Investigating Data Contamination in Modern Benchmarks for Large Language Models
この論文はIRベースの汚染検出とTS推測プロトコルを導入し、LLMベンチマークにおけるデータリークの可能性を評価する。商用モデルは欠落したベンチマーク情報を推測できることを示し、データ汚染の可能性を示唆しています。
Recent observations have underscored a disparity between the inflated benchmark scores and the actual performance of LLMs, raising concerns about potential contamination of evaluation benchmarks. This issue is especially critical for closed-source models and certain open-source models where training data transparency is lacking. In this paper we study data contamination by proposing two methods tailored for both open-source and proprietary LLMs. We first introduce a retrieval-based system to explore potential overlaps between evaluation benchmarks and pretraining corpora. We further present a novel investigation protocol named extbf{T}estset extbf{S}lot Guessing ( extit{TS-Guessing}), applicable to both open and proprietary models. This approach entails masking a wrong answer in a multiple-choice question and prompting the model to fill in the gap. Additionally, it involves obscuring an unlikely word in an evaluation example and asking the model to produce it. We find that certain commercial LLMs could surprisingly guess the missing option in various test sets. Specifically, in the TruthfulQA benchmark, we find that LLMs exhibit notable performance improvement when provided with additional metadata in the benchmark. Further, in the MMLU benchmark, ChatGPT and GPT-4 demonstrated an exact match rate of 52\% and 57\%, respectively, in guessing the missing options in benchmark test data. We hope these results underscore the need for more robust evaluation methodologies and benchmarks in the field.
研究の動機と目的
- ベンチマークデータのデータリークが事前学習データへ影響する懸念の中で、堅牢な評価ベンチマークを動機付ける。
- オープンソースとクローズドソースのLLM双方の汚染検出手法を開発する。
- 事前学習コーパスと人気ベンチマークとの重複を定量化する。
- 追加のベンチマークメタデータが汚染テストでのモデル性能にどのように影響するかを評価する。
提案手法
- PyseriniベースのBM25検索システムを構築し、事前学習コーパス(The Pile, C4)とベンチマーク(MMLU, TruthfulQA, HellaSwag, WindoGrande, OpenbookQA, PIQA)の間の重複を特定する。
- TS推測を提案する:(i)キーワードをマスキングしてモデルに埋めさせる質問ベースの推測;(ii)誤りの選択肢をマスキングして欠落部分を埋めさせる質問‑マルチプルチョイス推測。
- 3つのトップk検索設定(k=1,5,10)を評価し、13-gramトークン化を用いて重複を評価する。
- プロンプトテンプレートとメタデータのヒント(例:タイプ、カテゴリ、URL)を使用して、モデルがベンチマークデータを悪用するかを検証する。
- つまらない相関を減らすフィルタリングを適用(例:Yes/Noオプション、Rouge-L類似性閾値)。
- BM25、Avg. F1、SacreBLEU、Rouge-L、BLEURT、GPTscoreベースの意味的類似性などの指標を用いてアウトカムを報告する。
実験結果
リサーチクエスチョン
- RQ1現代のベンチマークは、評価を汚染するほど事前学習コーパスと重複している可能性があるか。
- RQ2オープンソースおよびクローズドソースのLLMは、共通ベンチマークにおけるTS推測で汚染を示すか。
- RQ3ベンチマークメタデータ(タイプ、カテゴリ、URL)を追加すると、汚染シナリオでモデルの性能に寄与するか。
- RQ4TS推測の結果は、モデル間での実際のベンチマークタスクの性能とどのように相関するか。
主な発見
| Benchmark | Query Type | BM25 | Avg. F1 |
|---|---|---|---|
| MMLU | question only | 20.23 | 0.24 |
| MMLU | label only | 13.04 | 0.07 |
| MMLU | question w. label | 25.12 | 0.31 |
| TruthfulQA | question only | 19.32 | 0.14 |
| TruthfulQA | answer. only | 10.32 | 0.15 |
| TruthfulQA | question w. label | 30.22 | 0.31 |
- 事前学習コーパスとベンチマークの間には検出可能な重複があり、n-gram手法だけでは完全には捉えきれない。
- TS推測により、商用LLMが欠落したベンチマーク要素を推測できることが多く、潜在的な汚染を示唆する。
- TruthfulQAでは、メタデータがモデルの推測性能を向上させ、ベンチマークが豊富なメタデータを公開するとリークリスクが高まることを示唆する。
- MMLUでは、ChatGPTとGPT-4が特定の設定下で欠落した選択肢を推測する際に、それぞれ57%と57%の正解一致を達成した。
- GPTscoreベースのテキスト類似性は従来の表面的指標より人間の判断に近くなる傾向だが、リソース要求が大きい。
- TS推測の結果は、モデルバージョン間で小さな性能差を示しており(例:GPT-4 vs. ChatGPT)、汚染は必ずしもモデル規模に strictに結びつかない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。