[论文解读] Models Know Models Best: Evaluation via Model-Preferred Formats
论文表明LLM评估结果取决于格式(符号型与填空型),并引入一种动态的、由模型驱动的格式对齐方法,通过使用模型偏好信号为每个问题实例选择最佳格式,从而提升零样本准确性。
Performance of Large Language Models (LLMs) on multiple-choice tasks differs markedly between symbol-based and cloze-style evaluation formats. The observed discrepancies are systematically attributable to task characteristics: natural language continuation benefits from likelihood scoring, whereas explicit comparison is better suited to symbol-based selection. These trends are consistent across various decoder-based LLMs, indicating model-agnostic effects. To address these inconsistencies, a dynamic format-alignment strategy is introduced that employs a lightweight classifier trained on latent model-preference signals. In contrast to human-designed heuristics, which often degrade performance, this approach uses model-generated signals to determine the optimal format for each problem instance. The proposed method achieves substantial and consistent improvements in zero-shot accuracy across reasoning and knowledge benchmarks, better revealing the models' latent capabilities.
研究动机与目标
- 理解评估格式如何影响多项选择任务中LLM的性能。
- 识别有利于基于概率的继续推断与显式比较的任务特征。
- 开发一个由模型偏好信号引导的格式对齐方法以提升评估准确性。
- 证明该方法在解码器为基础的LLMs上的模型无关适用性。
提出的方法
- 比较符号型和填空式评估格式在多种LLMs和基准上的表现。
- 引入一个在潜在模型偏好信号上训练的轻量级分类器以选择针对特定问题的格式。
- 使用动态格式对齐策略为每个实例确定最优评估格式。
- 展示基于模型偏好驱动的格式选择在零样本准确性上的提升。
- 表明该方法具有模型无关性,且优于人类设计的启发式方法。
实验结果
研究问题
- RQ1评估格式如何影响知识与推理任务中LLM的性能?
- RQ2是否可以利用轻量级分类器来利用模型偏好信号为给定问题选择最佳评估格式?
- RQ3动态、格式对齐的评估策略是否提升解码器型LLMs的零样本准确性?
- RQ4基于模型偏好驱动的格式是否比人为设计的启发式方法更有效地评估LLMs?
- RQ5该方法在不同基准和模型家族中是否具备鲁棒性?
主要发现
- 符号型与填空式格式因为任务特性而导致不同的表现。
- 似然性评分有利于自然语言的继续生成;显式比较更适合其他格式。
- 经模型训练的分类器能够检测潜在的格式偏好以引导评估。
- 动态格式对齐方法在基准上实现了显著的零样本准确性提升。
- 结果表明具有模型无关的益处,并更准确地揭示潜在能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。