Skip to main content
QUICK REVIEW

[论文解读] TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages

Jonathan H. Clark, Eunsol Choi|arXiv (Cornell University)|Mar 10, 2020
Topic Modeling被引用 100
一句话总结

TyDi QA 引入一个跨11种语言的 QA 基准,包含204K 的问答对,旨在测试多语言信息检索问答而不翻译。

ABSTRACT

Confidently making progress on multilingual modeling requires challenging, trustworthy evaluations. We present TyDi QA---a question answering dataset covering 11 typologically diverse languages with 204K question-answer pairs. The languages of TyDi QA are diverse with regard to their typology---the set of linguistic features each language expresses---such that we expect models performing well on this set to generalize across a large number of the world's languages. We present a quantitative analysis of the data quality and example-level qualitative linguistic analyses of observed language phenomena that would not be found in English-only corpora. To provide a realistic information-seeking task and avoid priming effects, questions are written by people who want to know the answer, but don't know the answer yet, and the data is collected directly in each language without the use of translation.

研究动机与目标

  • 利用在语言类型上多样的语言来激发多语言问答评估,以提升对英语以外的泛化能力。
  • 提供一个高质量、真实信息检索的问答数据集,直接在每种语言中收集。
  • 定量评估数据质量并进行仅以英语数据无法完成的语言特定语言学分析。

提出的方法

  • 组装覆盖11种语言、包含204K对问答的 TyDi QA。
  • 直接在每种语言中收集问题和答案,不进行翻译,以避免引导效应。
  • 确保问题来自非寻求答案的用户,以反映现实的信息需求。
  • 进行定量数据质量分析和语言现象的定性语言学分析。
  • 提供一个适合评估多语言问答模型和跨语言泛化的基准。

实验结果

研究问题

  • RQ1跨语言类型多样的语言中,QA数据的质量和语言覆盖范围如何?
  • RQ2每种语言中的信息检索问题在语言学上与英语基准有何差异?
  • RQ3单一的基准体系是否能促进QA模型在多种世界语言上的泛化?

主要发现

  • 该数据集在11种语言中包含204K对问答。
  • 问题由希望知道答案的人撰写,并直接在每种语言中收集,不进行翻译。
  • 本文提供定量数据质量分析和定性语言学分析,揭示英语语料库中不存在的现象。
  • TyDi QA 的设计目标是支持现实的信息检索任务并降低引导效应。
  • 该数据集使得评估多语言模型在跨语言类型多样语言上的泛化能力成为可能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。