[論文レビュー] Through the Lens of Core Competency: Survey on Evaluation of Large Language Models
この調査は、LLM評価を4つの基本的能力(知識、推論、信頼性、安全性)を中心に整理し、それぞれの定義、ベンチマーク、指標、および多様なタスクを統合する拡張可能なフレームワークを提供します。
From pre-trained language model (PLM) to large language model (LLM), the field of natural language processing (NLP) has witnessed steep performance gains and wide practical uses. The evaluation of a research field guides its direction of improvement. However, LLMs are extremely hard to thoroughly evaluate for two reasons. First of all, traditional NLP tasks become inadequate due to the excellent performance of LLM. Secondly, existing evaluation tasks are difficult to keep up with the wide range of applications in real-world scenarios. To tackle these problems, existing works proposed various benchmarks to better evaluate LLMs. To clarify the numerous evaluation tasks in both academia and industry, we investigate multiple papers concerning LLM evaluations. We summarize 4 core competencies of LLM, including reasoning, knowledge, reliability, and safety. For every competency, we introduce its definition, corresponding benchmarks, and metrics. Under this competency architecture, similar tasks are combined to reflect corresponding ability, while new tasks can also be easily added into the system. Finally, we give our suggestions on the future direction of LLM's evaluation.
研究の動機と目的
- 従来のNLPベンチマークが現代のLLMsに対してなぜ不十分であるかを明確化し、能力ベースの評価フレームワークを動機づける。
- 四つの基本的能力(知識、推論、信頼性、安全性)とそのサブコンポーネントを定義する。
- 540件以上の評価タスクを集約・分類してコア能力に対応づけ、代表的なベンチマークを特定する。
- 能力とタスクの多対多の関係を示し、新しいタスクの追加を可能にする拡張可能なプロジェクトを提案する。
- 将来の方向性(潜在的な新しい能力や評価の方向性を含む)についての指針を提供する。
提案手法
- 学術界と産業界で用いられるLLM評価の540件以上のタスクの調査と統合。
- 四つの基本的能力とサブ能力の定義と分類。
- タスクを能力へマッピングし、整然とした評価と拡張性を実現。
- 各能力(知識、推論、信頼性、安全性)における代表的なベンチマークとデータセットの議論。
- タスク–能力の関係を示す拡張可能なプロジェクト(GitHub)を提供し、今後の更新を支援。
- 評価範囲を拡大するための将来の方向性と、感情などの潜在的追加能力の可能性の概要。
実験結果
リサーチクエスチョン
- RQ1多様なLLM評価タスクを、簡潔で拡張可能な能力フレームワークの下でいかに統一できるか。
- RQ2知識、推論、信頼性、安全性を最もよく捉える定義、ベンチマーク、指標は何か。
- RQ3新しいタスクをフレームワークを乱さず評価システムに組み込むには。
- RQ4コア能力フレームワークをLLM評価へ適用する際、研究者を支援する実践的ガイダンスとツールは何か。
主な発見
- Four core competencies for LLM evaluation are proposed: knowledge, reasoning, reliability, and safety.
- A systematic aggregation of 540+ evaluation tasks is organized into a competency-based taxonomy.
- The framework supports combining tasks by competency and adding new tasks within the system.
- An extensible project is provided to model the many-to-many relationships between competencies and tasks for community use.
- The paper discusses future directions, including potential additions such as sentiment competency, and highlights the need for regularly updated test sets to prevent leakage and reflect real-world use.
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。