[논문 리뷰] TELeR: A General Taxonomy of LLM Prompts for Benchmarking Complex Tasks
논문은 TELeR를 소개하는데, 일반적인 네 차원 계통학(Turn, Expression, Level of Details, Role)으로 LLM에 복잡한 작업을 수행하도록 prompting 하여 연구 간 표준화된 벤치마킹을 가능하게 한다. 또한 프롬프트 분류를 설명하기 위한 두 가지 사용 사례를 시연하고 의미 있는 비교를 위해 프롬프트 카테고리 보고를 촉진한다.
While LLMs have shown great success in understanding and generating text in traditional conversational settings, their potential for performing ill-defined complex tasks is largely under-studied. Indeed, we are yet to conduct comprehensive benchmarking studies with multiple LLMs that are exclusively focused on a complex task. However, conducting such benchmarking studies is challenging because of the large variations in LLMs' performance when different prompt types/styles are used and different degrees of detail are provided in the prompts. To address this issue, the paper proposes a general taxonomy that can be used to design prompts with specific properties in order to perform a wide range of complex tasks. This taxonomy will allow future benchmarking studies to report the specific categories of prompts used as part of the study, enabling meaningful comparisons across different studies. Also, by establishing a common standard through this taxonomy, researchers will be able to draw more accurate conclusions about LLMs' performance on a specific complex task.
연구 동기 및 목표
- 정의되지 않았거나 복잡한 작업에서 LLM을 벤치마킹할 때 표준화된 프롬프트의 필요성을 동기 부여한다.
- Turn, Expression, Level of Details, 그리고 Role(TELeR)에 따라 프롬프트를 분류하는 일반적 계통학을 제안한다.
- TELeR가 공통 표준에 프롬프트를 고정시켜 연구 간 의미 있는 비교를 가능하게 하는 방법을 시연한다.
- TELeR 하에서 프롬프트 분류를 설명하기 위해 실제 사용 사례(메타리뷰 생성을 위한 사용 사례와 narrative 브레이딩)를 선보인다.
제안 방법
- 작업 명세 세부 정보, 맥락, 상호작용 스타일 등을 포함하여 복잡한 작업에 중요한 프롬프트 엔지니어링 요인을 정의한다.
- Turn, Expression, Role, 그리고 Level of Details(레벨 0-6)라는 네 차원을 바탕으로 TELeR 계통학을 개발한다.
- TELeR 차원과 Directive 및 Data를 결합하면 다양한 프롬프트 구성 구성이 산출되는 방법을 설명한다.
- 두 개의 복잡한 작업에 대해 레벨별 예시 프롬프트를 제공하여 계통학의 적용 가능성을 보여준다.

실험 결과
연구 질문
- RQ1일반 계통학(TELeR)이 복잡한 작업에 대한 LLM 벤치마킹에서 프롬프트를 기술하는 방식을 표준화할 수 있는가?
- RQ2TELeR 차원이 정의되지 않았거나 추상적이며 다단계 작업에서 LLM 성능에 어떤 영향을 미치는가?
- RQ3TELeR가 독립적인 벤치마킹 연구들 간의 apples-to-apples 비교를 가능하게 하는가?
- RQ4실용적 사용 사례(메타리뷰 생성 및 내러티브 브레이딩)가 프롬프트 분류에서 계통학의 유용성을 입증하는가?
주요 결과
- TELeR는 프롬프트를 분류하는 통합 표준을 제공하고 복잡한 작업에서 LLM 성능의 연구 간 의미 있는 비교를 가능하게 한다.
- 프롬프트 설계의 중요한 요소인 Turn, Expression, Level of Details, 및 Role이 복잡한 작업에서 성능 차이를 야기한다.
- 레벨 기반 상세화(0에서 6)로 작업 지시의 세분성을 포착하고 결과에 영향을 준다.
- 두 가지 사용 사례는 TELeR 카테고리가 메타리뷰 생성 및 내러티브 브레이딩 프롬프트에 어떻게 매핑되는지 보여준다.
- 저자들은 재현성과 연구 간 비교 가능성을 높이기 위해 사용된 정확한 프롬프트 카테고리의 보고를 권고한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.