[論文レビュー] HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam
HLE-Verifiedは検証済みで改訂機能を備えたベンチマークを提供し、前方のLLMを評価するための透明な欠陥分類とコミュニティ改良のためのオープンデータを提供する。
Humanity's Last Exam (HLE) has become a widely used benchmark for evaluating frontier large language models on challenging, multi-domain questions. However, community-led analyses have raised concerns that HLE contains a non-trivial number of noisy items, which can bias evaluation results and distort cross-model comparisons. To address this challenge, we introduce HLE-Verified, a verified and revised version of HLE with a transparent verification protocol and fine-grained error taxonomy. Our construction follows a two-stage validation-and-repair workflow resulting in a certified benchmark. In Stage I, each item undergoes binary validation of the problem and final answer through domain-expert review and model-based cross-checks, yielding 668 verified items. In Stage II, flawed but fixable items are revised under strict constraints preserving the original evaluation intent, through dual independent expert repairs, model-assisted auditing, and final adjudication, resulting in 1,143 revised-and-certified items. The remaining 689 items are released as a documented uncertain set with explicit uncertainty sources and expertise tags for future refinement. We evaluate eight state-of-the-art language models on HLE and HLE-Verified, observing an average absolute accuracy gain of 7--10 percentage points on HLE-Verified. The improvement is particularly pronounced on items where the original problem statement and/or reference answer is erroneous, with gains of 30--40 percentage points. Our analyses further reveal a strong association between model confidence and the presence of errors in the problem statement or reference answer, supporting the effectiveness of our revisions. Overall, HLE-Verified improves HLE-style evaluations by reducing annotation noise and enabling more faithful measurement of model capabilities. Data is available at: https://huggingface.co/datasets/skylenage/HLE-Verified
研究の動機と目的
- HLEの注釈ノイズを低減する厳密で監査可能な検証プロトコルを提供する。
- 元の評価意図を保持しつつ欠除項目を分類・修復する。
- 金標準・改訂版・不確定項目のサブセットを構造化メタデータとともに公開し透明性を確保する。
提案手法
- 項目を問題(Problem)、解答(Answer)、推論(Rationale)に分解し、部品ごとに有効性チェックを適用する。
- ステージI:二者択一の専門家検証とモデル支援再現(pass@8)で検証済みアイテムの金標準サブセット(668件)を作成。
- ステージII:修復可能なアイテムに対する独立した専門家による修復と、モデル支援提案を用いた最終審定を経て改訂アイテム(1,143件)を作成。
- 不確定アイテム(689件)は将来のコミュニティ改良のために明示的な不確実性記述を残したまま保持。
- 公開には詳細なメタデータ、欠陥分類、改訂 traces を含み、監査性を確保する。

実験結果
リサーチクエスチョン
- RQ1高難度ベンチマークの公開後検証は、測定されたモデル性能にどれだけ影響を与えるか。
- RQ2HLEのような多領域ベンチマークで一般的な失敗モードは何で、タスクの意図を変更せずにどのように修正できるか。
- RQ3部品ごとの検証は領域横断でより忠実なモデル評価を生み出すか。
- RQ4改訂ベンチマークは較正と信頼度指標評価にどのような影響を与えるか。
主な発見
| Model | Δ Acc(Revised Subset) |
|---|---|
| Gemini-3-pro | +29.94 |
| GPT-5.2 | +38.04 |
| Claude-Opus4.5 | +32.94 |
| Grok-4.1 fast-reasoning | +34.82 |
| Claude-Opus4.6 | +30.13 |
| DeepSeek-V3.2 | +39.58 |
- 8つの最先端LLMは、HLE-Verifiedで平均7–10ポイントの正確度向上を示し、HLEと比較して平均的に改善。
- 元々欠陥だが修復可能なアイテムでは、モデルの正確度が30–40ポイント向上し、元のHLEにおけるベンチマークノイズが大きいことを示唆。
- 改訂サブセットで較正誤差が低下し、信頼度評価がより忠実化。
- モデルの信頼度と問題文・参照解答の誤りの存在との強い関連があり、改訂の有効性を裏付け。
- データセットは金標準(668件)、改訂済み(1,143件)、不確定(689件)のサブセットと構造化メタデータを伴って公開。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。