Skip to main content
QUICK REVIEW

[論文レビュー] Assessing Large Language Models on Climate Information

Jannis Bulian, Mike S. Schäfer|arXiv (Cornell University)|Oct 4, 2023
Topic Modeling被引用数 17
ひとこと要約

本論文は気候情報に対するLLMの評価フレームワークを原則に基づいて提示し、表現的適合性と認識論的適合性を分離して検討し、モデルは流暢だが内容の質が遅れており、特に正確性・網羅性・不確実性の点で問題がある、という発見を示す。

ABSTRACT

As Large Language Models (LLMs) rise in popularity, it is necessary to assess their capability in critically relevant domains. We present a comprehensive evaluation framework, grounded in science communication research, to assess LLM responses to questions about climate change. Our framework emphasizes both presentational and epistemological adequacy, offering a fine-grained analysis of LLM generations spanning 8 dimensions and 30 issues. Our evaluation task is a real-world example of a growing number of challenging problems where AI can complement and lift human performance. We introduce a novel protocol for scalable oversight that relies on AI Assistance and raters with relevant education. We evaluate several recent LLMs on a set of diverse climate questions. Our results point to a significant gap between surface and epistemological qualities of LLMs in the realm of climate communication.

研究の動機と目的

  • 気候情報を対象とするLLMを評価するための、科学的コミュニケーションを取り入れたフレームワークを開発する。
  • 情報がどのように提示されるか(表現的適合性)と、それが科学的知識をどれだけ正確に反映しているか(認識論的適合性)を評価する。
  • 教育を受けた評価者を前提とする、評価品質を高めるスケーラブルな人間-in-ザ-ループプロトコル(AI Assistance)を提供する。
  • 気候情報の伝達における強みと限界を特定するため、いくつかの最近のLLMを比較する。

提案手法

  • 表現的および認識論的側面を横断する8つの評価次元を定義し、最大30の異なる出力問題を特定する。
  • Wikipedia由来のプロンプト、Skeptical Scienceの神話、Google Trendsの質問から300問のデータセットを組み立てる。
  • LLM(主にGPT-4)に3-4文の段落で回答させ、要点と裏付け証拠を抽出する。
  • AI Assistanceを用いて評価者を補助し、短いチュートリアルと資格付与の後、教育を受けた非専門評価者から評価を収集する。
  • モデル間での評価を分析する(例:GPT-4、ChatGPT-3.5、InstructGPT系、PaLM2、Falcon-180B-Chat)表現的 vs 認識論的パフォーマンスを評価する。
  • 引用元と認識論的品質の整合性を検討するため、アトリビューションベースの評価(AIS)を探る。
Figure 12: Screenshot of the last of 4 tutorial questions with the correct answer selected.
Figure 12: Screenshot of the last of 4 tutorial questions with the correct answer selected.

実験結果

リサーチクエスチョン

  • RQ1現在のLLMは気候情報に関して、表現的適合性(スタイル、明瞭さ、言語的正確性、トーン)と認識論的適合性(正確さ、特異性、網羅性、不確実性)という点でどう性能を示すか?
  • RQ2AI Assistanceが人間の評価者のLLM出力の問題検出能力と全体的な評価品質に与える影響は?
  • RQ3アトリビューションベースの評価(AIS)はモデル出力の認識論的品質と相関するか?
  • RQ4多様な質問ソースにおいて、異なるLLMが局地的・最新・総合的な気候情報を提供する能力はどう比較されるか?
  • RQ5LLMを用いた気候情報の伝達の限界と潜在的な改善点は何か?

主な発見

  • LLMsは流暢で表層品質は高いが、認識論的品質はモデル全体で遅れをとっている。
  • トーンと実用的側面には顕著な弱点が認められ、提示が強くても影響する。
  • 正確さ・特異性・網羅性・不確実性は概して平均を下回り、3-4文程度の短い回答では完全なカバーが難しい。
  • AI Assistanceは評価者が検出する問題の数を増やし、評価品質を向上させる。
  • アトリビューションベースの信号(AIS)は全体の認識論的品質を信頼性高く予測しないため、より広い評価手法の必要性を示している。
  • Falcon-180B-Chatは、試験対象モデルの中で認識論的品質の点で優れた性能を示す。
Figure 13: Screenshot of the instructions to the raters, provided at the beginning of the first rating session.
Figure 13: Screenshot of the instructions to the raters, provided at the beginning of the first rating session.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。