[論文レビュー] FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets
FLASKはLLMアラインメントの細かな技能ベース評価プロトコルを導入し、指示を12の技能に分解し4つの能力に跨らせ、人間評価者とEval LM評価者を併用し、専門タスク用のハードサブセットを追加して、人的–モデル相関を強化し、モデルの性能ギャップについて洞察を得る。
Evaluation of Large Language Models (LLMs) is challenging because instruction-following necessitates alignment with human values and the required set of skills varies depending on the instruction. However, previous studies have mainly focused on coarse-grained evaluation (i.e. overall preference-based evaluation), which limits interpretability since it does not consider the nature of user instructions that require instance-wise skill composition. In this paper, we introduce FLASK (Fine-grained Language Model Evaluation based on Alignment Skill Sets), a fine-grained evaluation protocol for both human-based and model-based evaluation which decomposes coarse-level scoring to a skill set-level scoring for each instruction. We experimentally observe that the fine-graininess of evaluation is crucial for attaining a holistic view of model performance and increasing the reliability of the evaluation. Using FLASK, we compare multiple open-source and proprietary LLMs and observe a high correlation between model-based and human-based evaluations. We publicly release the evaluation data and code implementation at https://github.com/kaistAI/FLASK.
研究の動機と目的
- LLMアラインメントのタスク非依存で細粒度な評価フレームワークを技能セットに基づいて定義する。
- 指示を4つの能力の下で12の特定技能に分解し、解釈性を向上させる。
- 領域と難易度のメタデータを含む多様な評価データセットを1,740インスタンス組成する。
- ヒューマン評価とモデルベースの評価の信頼性を示し、オープンソースと商用LLM間の性能ギャップを明らかにする。
提案手法
- 4つの能力に跨る12の技能を定義する:論理思考、背景知識、問題処理、ユーザーアラインメント。
- 各指示を必須技能・領域・難易度で注釈し、1,740インスタンスを122データセットから収集する。
- 評価者が各技能を1–5のルーブリックで評価し、参照解答と技能特有のルーブリックを使用する;Eval LMに推論を生成させることができる。
- 人間評価者とEval LMの両方を用いて評価を行い、人間とモデルベースのスコア間の相関を分析する。
- 89の専門レベルインスタンスに対してインスタンス特化ルーブリックを導入することで、より精緻な評価を可能にするFLASK-Hardを導入する。
実験結果
リサーチクエスチョン
- RQ1細粒度の技能ベース評価は粗粒度指標よりLLMアラインメントについてより解釈可能な洞察を提供するのか?
- RQ2多様なモデルとタスクにわたり、技能固有のルーブリックを用いた場合、人間評価とモデル評価の相関はどの程度高いのか?
- RQ3定義された技能セットと領域におけるオープンソースと商用LLMの相対的強みとギャップは何か?
- RQ4より細粒度の評価はスタイル変更への頑健性を高め、モデルベース評価の偏りを減らすのか?
- RQ5モデル規模は異なる技能と難易度レベルでの性能にどのような影響を与えるのか?
主な発見
| Metric | Spearman rho | Kendall tau | Pearson r |
|---|---|---|---|
| ROUGE-L | 0.333 | 0.240 | 0.289 |
| Skill-agnostic ( GPT-3.5 ) | 0.360 | 0.267 | 0.450 |
| FLASK ( GPT-3.5 ) | 0.424 | 0.330 | 0.449 |
| Skill-agnostic ( Claude ) | 0.352 | 0.264 | 0.391 |
| FLASK ( Claude ) | 0.432 | 0.334 | 0.458 |
| Skill-agnostic (GPT-4) | 0.641 | 0.495 | 0.673 |
| FLASK (GPT-4) | 0.680 | 0.541 | 0.732 |
| – Reference Answer | 0.516 | 0.429 | 0.566 |
| – Rationale | 0.634 | 0.523 | 0.683 |
| – Score Rubric | 0.646 | 0.512 | 0.696 |
- 細粒度評価は、粗粒度手法より人間とモデルベース評価の相関を高める。
- GPT-4は最も高い跨手法相関を示すが、オープンソースモデルにはいくつかの技能で依然として大きなギャップがある。
- オープンソースモデルは論理思考と背景知識で商用モデルに遅れをとり、問題処理技能は模倣可能である。
- 一部の技能(例:論理的正確さと論理的効率)は、顕著な改善のためにより大きなモデルサイズを要する一方、他は早く飽和する。
- FLASK-Hardは専門タスクで著しい劣化を明らかにし、最先端の商用モデルでも改善の余地があることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。