QUICK REVIEW

[논문 리뷰] SciAssess: Benchmarking LLM Proficiency in Scientific Literature Analysis

Hengxing Cai, Xiaochen Cai|arXiv (Cornell University)|2024. 03. 04.

Library Science and Information Systems인용 수 13

한 줄 요약

SciAssess는 다양한 분야의 과학 문헌에서 기억력, 이해력, 분석을 평가하기 위해 대형 언어 모델(Large Language Models)을 평가하는 벤치마크로, 엄격한 품질 관리 및 다중 모달 고려사항을 갖추고 있다.

ABSTRACT

Recent breakthroughs in Large Language Models (LLMs) have revolutionized scientific literature analysis. However, existing benchmarks fail to adequately evaluate the proficiency of LLMs in this domain, particularly in scenarios requiring higher-level abilities beyond mere memorization and the handling of multimodal data. In response to this gap, we introduce SciAssess, a benchmark specifically designed for the comprehensive evaluation of LLMs in scientific literature analysis. It aims to thoroughly assess the efficacy of LLMs by evaluating their capabilities in Memorization (L1), Comprehension (L2), and Analysis \& Reasoning (L3). It encompasses a variety of tasks drawn from diverse scientific fields, including biology, chemistry, material, and medicine. To ensure the reliability of SciAssess, rigorous quality control measures have been implemented, ensuring accuracy, anonymization, and compliance with copyright standards. SciAssess evaluates 11 LLMs, highlighting their strengths and areas for improvement. We hope this evaluation supports the ongoing development of LLM applications in scientific literature analysis. SciAssess and its resources are available at \url{https://github.com/sci-assess/SciAssess}.

연구 동기 및 목표

과학 문헌 분석에서 LLM의 기억화, 이해 및 분석 능력을 평가하기 위한 벤치마크를 정의한다.
실세계 문헌의 도전 과제를 반영하기 위해 광범위한 과학 분야와 작업을 포함한다.
신뢰성을 보장하기 위해 엄격한 품질 관리, 익명화 및 저작권 준수 조치를 구현한다.

제안 방법

Bloom의 분류학에 맞춘 3단계 능력 프레임워크: Memorization (L1), Comprehension (L2), 및 Analysis/Reasoning (L3).
참/거짓, 객관식, 표 추출, 제약된 생성, 개방형 생성 등 다양한 작업 유형.
일반 화학, 합금 재료, 유기 재료, 신약 발견 및 생물학을 포괄하는 도메인 범위를 확장하여 광범위한 대표성을 확보한다.
공개적으로 이용 가능한 출판물과 데이터베이스에서 원시 데이터를 소싱하여 현재 과학 연구를 반영한다.
정확성을 보장하기 위한 전문가 교차 검증, 프라이버시 및 저작권 준수를 위한 민감 정보 익명화 선별을 포함한다.

실험 결과

연구 질문

RQ1과학 텍스트에서 기억화, 이해 및 추론에 있어 현재 LLM의 능력과 한계는 무엇인가?
RQ2다양한 과학 도메인과 다중 모달 데이터 소스에서 LLM의 성과는 어떠한가?
RQ3문헌 분석에서 최첨단 LLM이 가장 도전받는 영역은 기억화, 이해, 분석 중 무엇인가?
RQ4SciAssess와 같은 벤치마크가 과학 문헌 분석용 LLM의 개발과 배치에 어떤 정보를 제공할 수 있는가?
RQ5과학 도메인에서 신뢰성 있고 법적으로 준수하는 벤치마킹을 보장하기 위해 어떤 품질 관리 관행이 필요한가?

주요 결과

SciAssess는 LLM들(GPT-4, GPT-3.5, Gemini 등)을 평가하고 강점과 개선 영역을 식별한다.
벤치마크는 문헌 분석의 구체적 역량을 진단하기 위해 세 가지 점진적 능력 수준(L1–L3)을 통합한다.
폭넓은 도메인과 다섯 가지 유형의 문제를 사용하여 과학 텍스트의 다양한 도전을 포착한다.
이 프레임워크는 과학 문헌을 분석, 합성 및 추론하는 LLM의 역량 향상을 촉진하는 것을 목표로 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.