Skip to main content
QUICK REVIEW

[论文解读] Towards Ecologically Valid Research on Language User Interfaces

Harm de Vries, Dzmitry Bahdanau|arXiv (Cornell University)|Jul 28, 2020
Topic Modeling参考文献 46被引用 42
一句话总结

该论文认为,许多 LUI 基准缺乏生态有效性,并提出一个生态有效的研究方法,详细说明五种常见偏差以及改进现实性和适用性的建议。

ABSTRACT

Language User Interfaces (LUIs) could improve human-machine interaction for a wide variety of tasks, such as playing music, getting insights from databases, or instructing domestic robots. In contrast to traditional hand-crafted approaches, recent work attempts to build LUIs in a data-driven way using modern deep learning methods. To satisfy the data needs of such learning algorithms, researchers have constructed benchmarks that emphasize the quantity of collected data at the cost of its naturalness and relevance to real-world LUI use cases. As a consequence, research findings on such benchmarks might not be relevant for developing practical LUIs. The goal of this paper is to bootstrap the discussion around this issue, which we refer to as the benchmarks' low ecological validity. To this end, we describe what we deem an ideal methodology for machine learning research on LUIs and categorize five common ways in which recent benchmarks deviate from it. We give concrete examples of the five kinds of deviations and their consequences. Lastly, we offer a number of recommendations as to how to increase the ecological validity of machine learning research on LUIs.

研究动机与目标

  • 识别在哪些人群和任务中,LUI 将比替代方案更有用且更易用。
  • 倡导使用 Wizard-of-Oz 仿真进行生态有效的数据收集与评估过程。
  • 提出在现实、人工参与环节的设置中训练和评估 LUIs 的具体方法论。
  • 突出会降低生态有效性的常见偏差,并提供改进办法与指南。

提出的方法

  • 定义一个理想的生态有效 LUI 研究程序,涉及人群识别、WoZ 数据收集、模型训练和人机互动评估。
  • 使用 Wizard-of-Oz 仿真收集在全面系统训练前就能反映部署条件的数据。
  • 将训练好的模型与传统界面或替代方案进行比较,以评估用户满意度和生产力。
  • 回顾现有基准,以具体例子说明偏离生态有效性的情形。
  • 建议在数据收集、模型评估和任务设计阶段采取切实可行的步骤,以提高生态有效性。

实验结果

研究问题

  • RQ1什么构成生态有效的 LUI 研究,如何将其付诸操作?
  • RQ2哪些常见偏差会降低 LUI 基准的生态有效性,它们的后果是什么?
  • RQ3研究人员如何设计能推广到现实世界 LUI 使用案例的基准与评估程序?
  • RQ4有哪些建议可以提高当前和未来 LUI 研究的生态有效性?
  • RQ5数据收集、建模与评估应如何与 LUI 的部署场景保持一致?

主要发现

  • 五种常见偏差会降低生态有效性:合成语言、人工任务、未与潜在用户合作、脚本/提示以及单轮界面。
  • Wizard-of-Oz 数据收集有助于近似部署并实现生态有效的训练数据。
  • 生态有效评估需要人机环节评估,以捕捉交互动态和从错误中恢复。
  • 许多基准依赖不反映目标用户或真实任务的数据或提示,限制对实际 LUIs 的迁移性。
  • 建议包括围绕真实人群和任务设计任务和数据集,并在适当情况下使用更少数据的生态有效评估。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。