[論文レビュー] Assessing Large Language Models on Climate Information
本論文は気候情報に対するLLMの評価フレームワークを原則に基づいて提示し、表現的適合性と認識論的適合性を分離して検討し、モデルは流暢だが内容の質が遅れており、特に正確性・網羅性・不確実性の点で問題がある、という発見を示す。
As Large Language Models (LLMs) rise in popularity, it is necessary to assess their capability in critically relevant domains. We present a comprehensive evaluation framework, grounded in science communication research, to assess LLM responses to questions about climate change. Our framework emphasizes both presentational and epistemological adequacy, offering a fine-grained analysis of LLM generations spanning 8 dimensions and 30 issues. Our evaluation task is a real-world example of a growing number of challenging problems where AI can complement and lift human performance. We introduce a novel protocol for scalable oversight that relies on AI Assistance and raters with relevant education. We evaluate several recent LLMs on a set of diverse climate questions. Our results point to a significant gap between surface and epistemological qualities of LLMs in the realm of climate communication.
研究の動機と目的
- 気候情報を対象とするLLMを評価するための、科学的コミュニケーションを取り入れたフレームワークを開発する。
- 情報がどのように提示されるか(表現的適合性)と、それが科学的知識をどれだけ正確に反映しているか(認識論的適合性)を評価する。
- 教育を受けた評価者を前提とする、評価品質を高めるスケーラブルな人間-in-ザ-ループプロトコル(AI Assistance)を提供する。
- 気候情報の伝達における強みと限界を特定するため、いくつかの最近のLLMを比較する。
提案手法
- 表現的および認識論的側面を横断する8つの評価次元を定義し、最大30の異なる出力問題を特定する。
- Wikipedia由来のプロンプト、Skeptical Scienceの神話、Google Trendsの質問から300問のデータセットを組み立てる。
- LLM(主にGPT-4)に3-4文の段落で回答させ、要点と裏付け証拠を抽出する。
- AI Assistanceを用いて評価者を補助し、短いチュートリアルと資格付与の後、教育を受けた非専門評価者から評価を収集する。
- モデル間での評価を分析する(例:GPT-4、ChatGPT-3.5、InstructGPT系、PaLM2、Falcon-180B-Chat)表現的 vs 認識論的パフォーマンスを評価する。
- 引用元と認識論的品質の整合性を検討するため、アトリビューションベースの評価(AIS)を探る。

実験結果
リサーチクエスチョン
- RQ1現在のLLMは気候情報に関して、表現的適合性(スタイル、明瞭さ、言語的正確性、トーン)と認識論的適合性(正確さ、特異性、網羅性、不確実性)という点でどう性能を示すか?
- RQ2AI Assistanceが人間の評価者のLLM出力の問題検出能力と全体的な評価品質に与える影響は?
- RQ3アトリビューションベースの評価(AIS)はモデル出力の認識論的品質と相関するか?
- RQ4多様な質問ソースにおいて、異なるLLMが局地的・最新・総合的な気候情報を提供する能力はどう比較されるか?
- RQ5LLMを用いた気候情報の伝達の限界と潜在的な改善点は何か?
主な発見
- LLMsは流暢で表層品質は高いが、認識論的品質はモデル全体で遅れをとっている。
- トーンと実用的側面には顕著な弱点が認められ、提示が強くても影響する。
- 正確さ・特異性・網羅性・不確実性は概して平均を下回り、3-4文程度の短い回答では完全なカバーが難しい。
- AI Assistanceは評価者が検出する問題の数を増やし、評価品質を向上させる。
- アトリビューションベースの信号(AIS)は全体の認識論的品質を信頼性高く予測しないため、より広い評価手法の必要性を示している。
- Falcon-180B-Chatは、試験対象モデルの中で認識論的品質の点で優れた性能を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。