QUICK REVIEW

[논문 리뷰] Assessing Large Language Models on Climate Information

Jannis Bulian, Mike S. Schäfer|arXiv (Cornell University)|2023. 10. 04.

Topic Modeling인용 수 17

한 줄 요약

본 논문은 기후 정보에 대한 LLM의 원칙적 평가 프레임워크를 제시하며, 표현적 적합성과 인식론적 적합성을 구분하고, 모델이 유창하지만 콘텐츠 품질은 특히 정확성, 완전성, 불확실성 면에서 뒤처진다는 것을 밝힌다.

ABSTRACT

As Large Language Models (LLMs) rise in popularity, it is necessary to assess their capability in critically relevant domains. We present a comprehensive evaluation framework, grounded in science communication research, to assess LLM responses to questions about climate change. Our framework emphasizes both presentational and epistemological adequacy, offering a fine-grained analysis of LLM generations spanning 8 dimensions and 30 issues. Our evaluation task is a real-world example of a growing number of challenging problems where AI can complement and lift human performance. We introduce a novel protocol for scalable oversight that relies on AI Assistance and raters with relevant education. We evaluate several recent LLMs on a set of diverse climate questions. Our results point to a significant gap between surface and epistemological qualities of LLMs in the realm of climate communication.

연구 동기 및 목표

과학 커뮤니케이션 정보를 반영한 프레임워크를 개발하여 LLM을 기후 정보에 대해 평가한다.
정보가 어떻게 제시되는지 (표현적 적합성)와 그것이 과학 지식을 얼마나 정확하게 반영하는지(인식론적 적합성)를 모두 평가한다.
교육받은 평가자의 품질을 높이기 위한 확장 가능한 인간-루프 프로토콜(AI Assistance)을 제공한다.
다양한 최신 LLM을 비교하여 기후 커뮤니케이션의 강점과 한계를 파악한다.

제안 방법

표현적 및 인식론적 측면에 걸친 여덟 가지 평가 차원을 정의하여 최대 30개의 서로 다른 출력 문제를 식별한다.
Wikipedia-derived 프롬프트, Skeptical Science의 신화, Google Trends 질문에서 300개 질문 데이터셋을 구성한다.
LLM(GPT-4 주로)을 3-4문단의 문장으로 질문에 답하도록 프롬프트하고 핵심 요점과 뒷받침 증거를 추출한다.
짧은 튜토리얼과 자격 요건 후 교육받은 비전문 평가자로부터 평가를 수집하고 평가자들을 돕기 위해 AI Assistance를 사용한다.
모델별 평가를 분석하여 (예: GPT-4, ChatGPT-3.5, InstructGPT 변형들, PaLM2, Falcon-180B-Chat) 표현적 성능과 인식론적 성능을 비교한다.
인용 원천과 인식론적 품질 간의 정합성을 검토하기 위해 AIS( attribution-based evaluation )를 탐구한다.

Figure 12: Screenshot of the last of 4 tutorial questions with the correct answer selected.

실험 결과

연구 질문

RQ1현대의 LLM이 기후 정보에 대해 표현적 적합성(스타일, 명확성, 언어적 정확성, 어조) 대비 인식론적 적합성(정확성, 특이성, 완전성, 불확실성) 측면에서 얼마나 잘 수행하는가?
RQ2AI-Assistance가 인간 평가자의 LLM 출력의 문제를 탐지하는 능력과 전체 평가 품질에 미치는 영향은 어떻게 되는가?
RQ3인용 기반 평가(AIS)가 모델 출력의 인식론적 품질과 상관관계가 있는가?
RQ4다양한 질문 출처 전반에 걸쳐 지역화된 최신의 포괄적 기후 정보를 다양한 LLM이 어떻게 전달하는가?
RQ5LLMs를 사용한 기후 정보 전달의 한계와 개선 가능성은 무엇인가?

주요 결과

LLMs는 유창하고 표면적 품질이 강하지만, 인식론적 품질은 모델 전반에 걸쳐 뒤처진다.
표현이 강한 경우에도 어조 및 실용적 측면에서 뚜렷한 약점이 나타난다.
정확성, 특이성, 완전성, 불확실성은 일반적으로 평균 이하이며, 짧은 3-4문장 답변은 전체 커버리지를 어렵게 한다.
AI Assistance는 평가자가 발견하는 문제 수를 늘려 평가 품질을 향상시킨다.
인용 기반 신호(AIS)는 전체 인식론적 품질을 신뢰성 있게 예측하지 못하며, 더 폭넓은 평가 접근법의 필요성을 시사한다.
Falcon-180B-Chat은 테스트된 모델들 중 인식론적 품질에서 강력한 성능을 보이는 것으로 나타났다.

Figure 13: Screenshot of the instructions to the raters, provided at the beginning of the first rating session.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.