QUICK REVIEW

[논문 리뷰] Through the Lens of Core Competency: Survey on Evaluation of Large Language Models

Ziyu Zhuang, Qiguang Chen|arXiv (Cornell University)|2023. 08. 15.

Topic Modeling인용 수 11

한 줄 요약

이 연구는 LLM 평가를 네 가지 핵심 역량—지식, 추론, 신뢰성, 안전성—주변으로 구성하며 정의, 벤치마크, 지표, 그리고 다양한 작업을 통합하는 확장 가능한 프레임워크를 제공합니다.

ABSTRACT

From pre-trained language model (PLM) to large language model (LLM), the field of natural language processing (NLP) has witnessed steep performance gains and wide practical uses. The evaluation of a research field guides its direction of improvement. However, LLMs are extremely hard to thoroughly evaluate for two reasons. First of all, traditional NLP tasks become inadequate due to the excellent performance of LLM. Secondly, existing evaluation tasks are difficult to keep up with the wide range of applications in real-world scenarios. To tackle these problems, existing works proposed various benchmarks to better evaluate LLMs. To clarify the numerous evaluation tasks in both academia and industry, we investigate multiple papers concerning LLM evaluations. We summarize 4 core competencies of LLM, including reasoning, knowledge, reliability, and safety. For every competency, we introduce its definition, corresponding benchmarks, and metrics. Under this competency architecture, similar tasks are combined to reflect corresponding ability, while new tasks can also be easily added into the system. Finally, we give our suggestions on the future direction of LLM's evaluation.

연구 동기 및 목표

전통적인 NLP 벤치마크가 현대 LLM에 대해 왜 미흡한지 밝히고 역량 기반 평가 프레임워크의 필요성을 제시한다.
네 가지 핵심 역량(지식, 추론, 신뢰성, 안전성) 및 그 하위 구성요소를 정의한다.
core 역량으로 매핑하기 위해 540개가 넘는 평가 과제를 수집·분류하여 대표 벤치마크를 식별한다.
다대다 관계를 보여주고 새 과제를 추가할 수 있는 확장 가능한 프로젝트를 제안한다.
향후 LLM 평가의 방향에 대한 지침을 제공하고 잠재적 신규 역량 및 평가 방향을 포함한다.

제안 방법

학계와 산업계에서 LLM 평가에 사용된 540+ 과제에 대한 조사와 종합.
네 가지 핵심 역량 및 하위 역량의 정의와 분류 체계.
과제의 역량 매핑을 통해 일관된 평가와 확장 가능성을 가능하게 한다.
각 역량(지식, 추론, 신뢰성, 안전성)에 대한 대표 벤치마크와 데이터셋의 논의.
커뮤니티 사용을 위한 과제–역량 관계를 모델링하고 향후 업데이트를 지원하는 확장 가능한 프로젝트(GitHub) 제공.
평가 범위를 넓히기 위한 향후 방향과 잠재적 추가 역량(예: 감정) 제안을 개요.

실험 결과

연구 질문

RQ1다양한 LLM 평가 과제를 간결하고 확장 가능한 역량 프레임워크 아래서 어떻게 통합할 수 있는가?
RQ2지식, 추론, 신뢰성, 안전성을 가장 잘 포착하는 정의, 벤치마크, 지표는 무엇인가?
RQ3새 과제를 어떻게 평가 시스템에 도입하되 프레임워크를 방해하지 않도록 할 수 있는가?
RQ4핵심 역량 프레임워크를 LLM 평가에 적용하는 데 필요한 실질적 지침과 도구는 무엇인가?

주요 결과

네 가지 핵심 역량이 LLM 평가를 위한 제안이론으로 제시된다: 지식, 추론, 신뢰성, 안전성.
540+ 평가 과제를 체계적으로 수집하여 역량 기반 분류로 정리한다.
프레임워크는 역량별로 과제를 결합하고 시스템 내에서 새 과제를 추가하는 것을 지원한다.
확장 가능한 프로젝트를 제공하여 역량과 과제 간 다대다 관계를 커뮤니티가 사용할 수 있도록 모델링한다.
향후 방향으로 감정 역량과 같은 잠재적 추가를 포함하고, 누출 방지 및 실제 사용을 반영하기 위한 정기 업데이트된 시험 세트의 필요성을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.