[論文レビュー] Benchmarking Foundation Models with Language-Model-as-an-Examiner
論文は Language-Model-as-an-Examiner (LMExam) を導入し、質問生成と評価を行う knowledgeable LM を用いて基盤モデルをベンチマークし、漏洩と自動化の問題に対処し、分散型 ピア審査アプローチを提案します。
Numerous benchmarks have been established to assess the performance of foundation models on open-ended question answering, which serves as a comprehensive test of a model's ability to understand and generate language in a manner similar to humans. Most of these works focus on proposing new datasets, however, we see two main issues within previous benchmarking pipelines, namely testing leakage and evaluation automation. In this paper, we propose a novel benchmarking framework, Language-Model-as-an-Examiner, where the LM serves as a knowledgeable examiner that formulates questions based on its knowledge and evaluates responses in a reference-free manner. Our framework allows for effortless extensibility as various LMs can be adopted as the examiner, and the questions can be constantly updated given more diverse trigger topics. For a more comprehensive and equitable evaluation, we devise three strategies: (1) We instruct the LM examiner to generate questions across a multitude of domains to probe for a broad acquisition, and raise follow-up questions to engage in a more in-depth assessment. (2) Upon evaluation, the examiner combines both scoring and ranking measurements, providing a reliable result as it aligns closely with human annotations. (3) We additionally propose a decentralized Peer-examination method to address the biases in a single examiner. Our data and benchmarking results are available at: http://lmexam.xlore.cn.
研究の動機と目的
- オープンエンドQAベンチマークにおけるテスト漏洩と評価自動化の問題に対処する。
- 言語モデルが知識豊富な審查者として質問を生成し回答を評価するフレームワークを提案する。
- 広さと深さの問いを用いた評価信頼性を高め、スコアリングとランキングの指標の両方を用いる。
- 審査員の偏りを緩和する分散型ピア審査機構を導入する。
提案手法
- LM を審査者として用い、事前定義された分類法(Google Trends カテゴリ)に従って多様なドメインの質問を生成する。
- Bloom’s taxonomy を用いて質問を認知レベル(記憶、理解、分析)で分類する。
- 知識の深さを評価するために複数ラウンドのフォローアップ質問を実装し、各ラウンドの正確性を算出する。
- Likert尺度のスコアリング(正確性、整合性、事実性、網羅性)と、ランキングベースの(ペアワイズ)評価指標を採用する。
- 分散型の Peer-examination を導入し、複数の LM が審査者として機能し、投票結果が最終スコアを決定する。
実験結果
リサーチクエスチョン
- RQ1言語モデルを審査者とすることで、生成された質問とフォローアップを通じて基盤モデルを広く深く掘り下げる probing を提供できるか。
- RQ2審査者ベースのスコアリングとランキングは従来の指標より人間の注釈と整合するか。
- RQ3ピア審査は審査員の偏りを減らし、評価の公正性を改善するか。
- RQ4記憶、理解、分析の問いに対する性能において、モデルのスケールとファインチューニングがどのように影響するか。
- RQ5LM が生成する質問におけるデータ漏洩の蔓延度はどの程度で、データセット設計とピア評価で緩和可能か。
主な発見
- GPT-4 を中央集権型審査者として用いた場合、従来の指標(例: ROUGE、BLEU、BERTScore)より人間の判断と高い相関を示す。
- LMExamQA は 1,000 ドメイン、各ドメイン 10 問で 10,000 問を構成し、モデル間および認知レベルで測定可能なパフォーマンス差を生む。
- 5ショット prompting は、非-SFT モデルの記憶に比べ、上位レベルの問い(分析)で相対的な利得が大きい。
- 微調整済みモデル(例: ChatGPT、Vicuna)は中央集権的ランキングでほぼ完璧なスコアを示す傾向があり、ランキングの方が絶対スコアより識別力が高い。
- 複数の審査者によるピア審査は審査員の偏りを緩和し、より公正な評価結果を生み出す。
- マルチラウンドのQA において、より深い問いはモデルを大きく挑戦させ、複数のモデルでパフォーマンス低下を観察した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。