[论文解读] Evaluating Human-Language Model Interaction
HALIE 是一个框架,用于在目标、视角和标准上评估人类与 LM 的交互,结果显示在五个任务中,非交互表现更好并不总能带来更好的交互结果。
Many real-world applications of language models (LMs), such as writing assistance and code autocomplete, involve human-LM interaction. However, most benchmarks are non-interactive in that a model produces output without human involvement. To evaluate human-LM interaction, we develop a new framework, Human-AI Language-based Interaction Evaluation (HALIE), that defines the components of interactive systems and dimensions to consider when designing evaluation metrics. Compared to standard, non-interactive evaluation, HALIE captures (i) the interactive process, not only the final output; (ii) the first-person subjective experience, not just a third-party assessment; and (iii) notions of preference beyond quality (e.g., enjoyment and ownership). We then design five tasks to cover different forms of interaction: social dialogue, question answering, crossword puzzles, summarization, and metaphor generation. With four state-of-the-art LMs (three variants of OpenAI's GPT-3 and AI21 Labs' Jurassic-1), we find that better non-interactive performance does not always translate to better human-LM interaction. In particular, we highlight three cases where the results from non-interactive and interactive metrics diverge and underscore the importance of human-LM interaction for LM evaluation.
研究动机与目标
- 定义一个多维框架(HALIE),用于评估超越最终输出的人-LM 交互。
- 将交互建模为一个具备状态、动作和提示的系统,以捕捉交互过程。
- 在三个维度(目标、视角、标准)上开发衡量指标,以评估交互痕迹。
- 在五个任务上实现 HALIE,以研究 LM 在交互环境中的表现。
- 提供指南并发布数据,以支持未来的交互式 LM 评估。
提出的方法
- 将系统定义为 LM + UI + 构建提示并调用 LM 的系统逻辑。
- 将交互表示为由用户-系统提示和 LM 响应生成的状态-动作对的轨迹。
- 提出 HALIE 的三条评估维度:目标(过程+输出)、视角(第一人称 用户 vs 第三方)、以及标准(质量 vs 偏好)。
- 设计五个交互任务(社交对话、问答、填字游戏、摘要、隐喻生成)并实现任务特定的交互系统。
- 评估四个 LM(TextDavinci, TextBabbage, Davinci, Jumbo)以比较交互性能与非交互性能。
- 分析交互轨迹,找出非交互的优势并不转化为更好交互性能的案例。
实验结果
研究问题
- RQ1RQ1:对非交互性能的优化是否会在实际使用的交互环境中转化为更好的交互性能?
- RQ2RQ2:在交互式 LM 互动中,第一人称(用户)评估与第三方评估有何异同?
- RQ3RQ3:在交互使用中,质量指标是否与用户偏好一致,还是偏好可能与质量存在分歧?
- RQ4不同任务(从社交对话到隐喻生成)如何揭示交互与非交互评估之间的分歧?
主要发现
| Model | Fluency | Sensibleness | Specificity | Humanness | Interestingness | Inclination | Reuse |
|---|---|---|---|---|---|---|---|
| TextDavinci | 93 \u00b1 1.0 | 94 \u00b1 1.0 * * | 83 \u00b1 1.6 * | 37 \u00b1 2.0 | 36 \u00b1 2.0 | 91 \u00b1 1.2 | 4.09 \u00b1 .14 * * |
| TextBabbage | 90 \u00b1 1.4 | 84 \u00b1 1.7 * | 81 \u00b1 1.8 * | 29 \u00b1 2.1 | 30 \u00b1 2.1 | 88 \u00b1 1.5 | 3.35 \u00b1 .16 * |
| Davinci | 92 \u00b1 1.3 | 89 \u00b1 1.4 * | 92 \u00b1 1.3 * * | 24 \u00b1 2.0 | 27 \u00b1 2.0 | 91 \u00b1 1.3 | 3.80 \u00b1 .17 |
| Jumbo | 89 \u00b1 1.3 | 86 \u00b1 1.5 | 84 \u00b1 1.5 | 24 \u00b1 1.8 | 32 \u00b1 2.0 | 87 \u00b1 1.4 | 3.21 \u00b1 .20 * |
- 更好的非交互性能并不总是转化为跨任务的更好交互性能。
- 在问答任务中,某些在非交互准确度较低的模型在某些领域的交互角色中可以表现优于其他模型。
- 第一人称用户评估在摘要等输出上可能与第三方标注存在分歧。
- 用户可能认为模型比实际提高任务表现更有帮助(如填字游戏)。
- 指令微调模型在许多质量指标上通常得分更高,但可能会失去特异性。
- 在对话中,用户在许多指标上偏好 TextDavinci,但在具体性上更偏好 Davinci,凸显了偏好驱动的模型选择。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。