QUICK REVIEW

[논문 리뷰] Models Know Models Best: Evaluation via Model-Preferred Formats

Joonhak Lee, Sungmok Jung|arXiv (Cornell University)|2026. 01. 30.

Topic Modeling인용 수 0

한 줄 요약

논문은 LLM 평가 결과가 형식에 따라 달라짐(기호 기반 대 클로즈)함을 보이고, 모델 선호 신호를 사용해 문제 인스턴스별로 최적 형식을 선택하는 동적, 모델 주도 형식 정렬 방법을 도입해 제로샷 정확도를 향상시킨다.

ABSTRACT

Performance of Large Language Models (LLMs) on multiple-choice tasks differs markedly between symbol-based and cloze-style evaluation formats. The observed discrepancies are systematically attributable to task characteristics: natural language continuation benefits from likelihood scoring, whereas explicit comparison is better suited to symbol-based selection. These trends are consistent across various decoder-based LLMs, indicating model-agnostic effects. To address these inconsistencies, a dynamic format-alignment strategy is introduced that employs a lightweight classifier trained on latent model-preference signals. In contrast to human-designed heuristics, which often degrade performance, this approach uses model-generated signals to determine the optimal format for each problem instance. The proposed method achieves substantial and consistent improvements in zero-shot accuracy across reasoning and knowledge benchmarks, better revealing the models' latent capabilities.

연구 동기 및 목표

다중 선택 과제에서 평가 형식이 LLM 성능에 어떤 영향을 미치는지 이해한다.
가능도 기반 연속과 명시적 비교 중 어떤 작업 특성이 선호되는지 식별한다.
모델 선호 신호로 안내되는 형식 정렬 방법을 개발하여 평가 정확도를 향상시킨다.
이 접근법이 디코더 기반 LLM 전반에 걸쳐 모델에 구애받지 않는 적용 가능성을 시연한다.

제안 방법

다수의 LLM 및 벤치마크에 걸쳐 기호 기반 평가 형식과 클로즈 스타일 평가 형식을 비교한다.
잠재 모델 선호 신호에 대해 학습된 경량 분류기를 도입하여 문제별 형식을 선택한다.
각 인스턴스에 대해 최적의 평가 형식을 결정하기 위한 동적 형식 정렬 전략을 사용한다.
모델 선호 주도 형식 선택을 사용한 제로샷 정확도 향상을 시연한다.
이 접근 방식이 모델에 구애받지 않으며 인간이 설계한 휴리스틱을 넘어 향상된다는 것을 보여준다.

실험 결과

연구 질문

RQ1평가 형식이 지식 및 추론 과제에서 LLM 성능에 어떤 영향을 미치는가?
RQ2경량 분류기가 모델 선호 신호를 활용해 주어진 문제에 대한 최적의 평가 형식을 선택할 수 있는가?
RQ3동적 형식 정렬 평가 전략이 디코더 기반 LLM 전반의 제로샷 정확도를 향상시키는가?
RQ4모델 선호 주도 형식이 LLM 평가에 있어 인간이 설계한 휴리스틱보다 더 효과적인가?
RQ5이 방법이 서로 다른 벤치마크 및 모델 계열에 걸쳐 견고한가?

주요 결과

기호 기반 형식과 클로즈-스타일 형식은 작업 특성으로 인해 서로 다른 성능을 보인다.
가능도 점수는 자연어 연속에 이익을 주고, 명시적 비교는 다른 형식에 적합하다.
모델 학습 분류기는 잠재 형식 선호를 감지하여 평가를 안내할 수 있다.
동적 형식 정렬 방법은 벤치마크 전반에서 상당한 제로샷 정확도 향상을 가져온다.
결과는 모델에 구애받지 않는 이점과 잠재적 능력을 더 정확하게 드러냄을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.