QUICK REVIEW

[論文レビュー] Assessing Large Language Models on Climate Information

Jannis Bulian, Mike S. Schäfer|arXiv (Cornell University)|Oct 4, 2023

Topic Modeling被引用数 17

ひとこと要約

本論文は気候情報に対するLLMの評価フレームワークを原則に基づいて提示し、表現的適合性と認識論的適合性を分離して検討し、モデルは流暢だが内容の質が遅れており、特に正確性・網羅性・不確実性の点で問題がある、という発見を示す。

ABSTRACT

As Large Language Models (LLMs) rise in popularity, it is necessary to assess their capability in critically relevant domains. We present a comprehensive evaluation framework, grounded in science communication research, to assess LLM responses to questions about climate change. Our framework emphasizes both presentational and epistemological adequacy, offering a fine-grained analysis of LLM generations spanning 8 dimensions and 30 issues. Our evaluation task is a real-world example of a growing number of challenging problems where AI can complement and lift human performance. We introduce a novel protocol for scalable oversight that relies on AI Assistance and raters with relevant education. We evaluate several recent LLMs on a set of diverse climate questions. Our results point to a significant gap between surface and epistemological qualities of LLMs in the realm of climate communication.

研究の動機と目的

気候情報を対象とするLLMを評価するための、科学的コミュニケーションを取り入れたフレームワークを開発する。
情報がどのように提示されるか（表現的適合性）と、それが科学的知識をどれだけ正確に反映しているか（認識論的適合性）を評価する。
教育を受けた評価者を前提とする、評価品質を高めるスケーラブルな人間-in-ザ-ループプロトコル（AI Assistance）を提供する。
気候情報の伝達における強みと限界を特定するため、いくつかの最近のLLMを比較する。

提案手法

表現的および認識論的側面を横断する8つの評価次元を定義し、最大30の異なる出力問題を特定する。
Wikipedia由来のプロンプト、Skeptical Scienceの神話、Google Trendsの質問から300問のデータセットを組み立てる。
LLM（主にGPT-4）に3-4文の段落で回答させ、要点と裏付け証拠を抽出する。
AI Assistanceを用いて評価者を補助し、短いチュートリアルと資格付与の後、教育を受けた非専門評価者から評価を収集する。
モデル間での評価を分析する（例：GPT-4、ChatGPT-3.5、InstructGPT系、PaLM2、Falcon-180B-Chat）表現的 vs 認識論的パフォーマンスを評価する。
引用元と認識論的品質の整合性を検討するため、アトリビューションベースの評価（AIS）を探る。

Figure 12: Screenshot of the last of 4 tutorial questions with the correct answer selected.

実験結果

リサーチクエスチョン

RQ1現在のLLMは気候情報に関して、表現的適合性（スタイル、明瞭さ、言語的正確性、トーン）と認識論的適合性（正確さ、特異性、網羅性、不確実性）という点でどう性能を示すか？
RQ2AI Assistanceが人間の評価者のLLM出力の問題検出能力と全体的な評価品質に与える影響は？
RQ3アトリビューションベースの評価（AIS）はモデル出力の認識論的品質と相関するか？
RQ4多様な質問ソースにおいて、異なるLLMが局地的・最新・総合的な気候情報を提供する能力はどう比較されるか？
RQ5LLMを用いた気候情報の伝達の限界と潜在的な改善点は何か？

主な発見

LLMsは流暢で表層品質は高いが、認識論的品質はモデル全体で遅れをとっている。
トーンと実用的側面には顕著な弱点が認められ、提示が強くても影響する。
正確さ・特異性・網羅性・不確実性は概して平均を下回り、3-4文程度の短い回答では完全なカバーが難しい。
AI Assistanceは評価者が検出する問題の数を増やし、評価品質を向上させる。
アトリビューションベースの信号（AIS）は全体の認識論的品質を信頼性高く予測しないため、より広い評価手法の必要性を示している。
Falcon-180B-Chatは、試験対象モデルの中で認識論的品質の点で優れた性能を示す。

Figure 13: Screenshot of the instructions to the raters, provided at the beginning of the first rating session.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。