QUICK REVIEW

[論文レビュー] KoLA: Carefully Benchmarking World Knowledge of Large Language Models

Jifan Yu, Xiaozhi Wang|arXiv (Cornell University)|Jun 15, 2023

Topic Modeling被引用数 24

ひとこと要約

KoLA は、既知データと進化データを用いた知識重視の4レベル分類法、対照スコアリングシステム、および自己対照指標を用いて、19タスクで28のLLMを評価する。四半期ごとに更新を提供し、進捗を追跡する。

ABSTRACT

The unprecedented performance of large language models (LLMs) necessitates improvements in evaluations. Rather than merely exploring the breadth of LLM abilities, we believe meticulous and thoughtful designs are essential to thorough, unbiased, and applicable evaluations. Given the importance of world knowledge to LLMs, we construct a Knowledge-oriented LLM Assessment benchmark (KoLA), in which we carefully design three crucial factors: (1) For extbf{ability modeling}, we mimic human cognition to form a four-level taxonomy of knowledge-related abilities, covering $19$ tasks. (2) For extbf{data}, to ensure fair comparisons, we use both Wikipedia, a corpus prevalently pre-trained by LLMs, along with continuously collected emerging corpora, aiming to evaluate the capacity to handle unseen data and evolving knowledge. (3) For extbf{evaluation criteria}, we adopt a contrastive system, including overall standard scores for better numerical comparability across tasks and models and a unique self-contrast metric for automatically evaluating knowledge-creating ability. We evaluate $28$ open-source and commercial LLMs and obtain some intriguing findings. The KoLA dataset and open-participation leaderboard are publicly released at https://kola.xlore.cn and will be continuously updated to provide references for developing LLMs and knowledge-related systems.

研究の動機と目的

Bloom’s taxonomy に触発された四段階の認知分類法（Knowledge Memorization, Understanding, Applying, Creating）で世界知識をモデル化する。
Wikipedia subset を用いた既知データと最近公開された記事を用いた進化データを組み合わせて、記憶と新しい知識への適応をテストし、LLMs を公正に評価する。
標準化スコアを用いた対照評価フレームワークを提供し、クロス-タスクの比較可能性と知識創造の評価を行う自己対照指標を提供する。
KoLA の季節を四半期ごとに提供し、進展を追跡し、LLM の知識システムを改善するための実用的な診断を提供する。

提案手法

四段階の認知知識分類法（KM, KU, KA, KC）を採用して、 memorization, understanding, applying, creating knowledge を含む19タスクを構成する。
既知データは Wikipedia/Wikidata5M から、進化データは最近公開された記事から取得して、記憶と更新能力をテストする。
タスク全体で標準化スコアを用いた対照的評価システムを実装し、クロスモデル比較可能性を実現し、知識創造を評価する自己対照指標を用意する。
Foreknowledge K あり/なしのモデル出力を対比させて KC を自動評価する、Rouge-L ベースの類似度指標を用いて混合 KC スコアを算出する設計。

実験結果

リサーチクエスチョン

RQ1LLMs は世界知識の記憶・理解・適用・創造においてどのように異なるか？
RQ2モデルサイズとアラインメントが、既知データ対進化データの様々な知識能力に与える影響は？
RQ3標準化されたクロス-タスクスコアは、多様なLLM間で公正で解釈可能なリーダーボードを提供できるか？
RQ4自己対照指標は知識創造を効果的に評価し、誤情報の影響を減らすか？

主な発見

サイズが大きいベースモデルは、非アラインメント時により多くの知識を記憶する傾向があり、KM に対して著しいサイズ効果を示す。
アラインメントと指示チューニングは高次の能力（KA, KC）を強化するが、生の記憶（KM）を低下させる可能性があり、低レベルの記憶にはアラインメント税を生み出す。
商用モデルは標準化 KoLA スコアで一般にオープンソースモデルより優れており、オープンソースモデルは全体的な性能が劣る。
指示チューニング後にはモデルサイズと高次能力との相関が高まる一方、KM 記憶の向上はそれほど顕著でない。
KoLA の進化データシーズンは未見の知識の評価をより公平にし、モデルの発展を時間とともに追跡できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。