QUICK REVIEW

[論文レビュー] Instruction-Following Evaluation for Large Language Models

Jeffrey Zhou, Tianjian Lu|arXiv (Cornell University)|Nov 14, 2023

Topic Modeling被引用数 26

ひとこと要約

IFEval は、検証可能な指示に基づいて LLM を自動的に評価するベンチマークで、人間やモデルベースの判断への依存を減らします。

ABSTRACT

One core capability of Large Language Models (LLMs) is to follow natural language instructions. However, the evaluation of such abilities is not standardized: Human evaluations are expensive, slow, and not objectively reproducible, while LLM-based auto-evaluation is potentially biased or limited by the ability of the evaluator LLM. To overcome these issues, we introduce Instruction-Following Eval (IFEval) for large language models. IFEval is a straightforward and easy-to-reproduce evaluation benchmark. It focuses on a set of "verifiable instructions" such as "write in more than 400 words" and "mention the keyword of AI at least 3 times". We identified 25 types of those verifiable instructions and constructed around 500 prompts, with each prompt containing one or more verifiable instructions. We show evaluation results of two widely available LLMs on the market. Our code and data can be found at https://github.com/google-research/google-research/tree/master/instruction_following_eval

研究の動機と目的

安全性と信頼性のための LLM における指示遵守の標準化された評価の必要性を動機づける。
客観的で自動的な評価を可能にする検証可能な指示を導入する。
検証可能な指示を含むプロンプトのデータセットを構築し、人気モデルのベースライン結果を提供する。

提案手法

応答で客観的に検証可能な指示を定義する。
25 種類の指示を含む、1 つ以上の検証可能な指示を含む約 500 のプロンプトを作成する。
検証の端点ケースを考慮して厳密および緩やかな指示遵守精度の指標を提案する。
2 つのモデル（GPT-4 と PaLM 2 S）でプロンプトレベルと指示レベルの評価を使用する。
ベースプロンプト、Few-shot フィルタリング、および言い換えステップを含むプロンプト合成手順を説明する。

Figure 1: Instructions such as “write at least 25 sentences” can be automatically and objectively verified. We build a set of prompts with verifiable instructions, for evaluating the instruction-following ability of large language models.

実験結果

リサーチクエスチョン

RQ1検証可能な指示を使用して指示遵守精度を客観的に測定できるか？
RQ2さまざまな指示カテゴリはモデルの指示遵守にどのように影響するか？
RQ3検証可能な指示に対して、広く入手可能な LLM の基準となる指示遵守性能はどの程度か？
RQ4厳密な検証基準と緩やかな検証基準は実際にどう比較されるか？

主な発見

モデル	プロンプトレベル厳密精度（%）	指示レベル厳密精度（%）	プロンプトレベル緩い精度（%）	指示レベル緩い精度（%）
GPT-4	76.89	83.57	79.30	85.37
PaLM 2 S	43.07	55.76	46.95	59.11

IFEval は検証可能なプロンプトの広範な集合に対する指示遵守を自動検証可能にする。
GPT-4 はベースラインで厳密および緩やかな指標の両方で PaLM 2 S より高い精度を達成する。
端点ケースと検証の課題のため、厳密な精度は緩やかな精度より低くなる。
指示カテゴリごとに指示遵守にばらつきがあることが、詳細なカテゴリ分析で示されている。
評価フレームワークは再現可能で、著者はコードとプロンプトを公開している。
2 つの評価指標（厳密と緩い）の現場でのバランスを取るのに役立つ。

Figure 2: Instruction-level strict-accuracy of each model, separated by each instruction category.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。