Skip to main content
QUICK REVIEW

[论文解读] The Touché23-ValueEval Dataset for Identifying Human Values behind Arguments

Nailia Mirzakhmedova, Johannes Kiesel|arXiv (Cornell University)|Jan 31, 2023
Hate Speech and Cyberbullying Detection被引用 22
一句话总结

论文介绍 Touché23-ValueEval,一个包含 9,324 条论点的数据集,标注了 54 种价值,跨 20 个价值类别,扩展自 Webis-ArgValues-22,覆盖多样的来源和语言。它报告了基线结果,显示 BERT 在更大数据集上有益,并提供发布日期/发行细节及伦理考量。

ABSTRACT

We present the Touché23-ValueEval Dataset for Identifying Human Values behind Arguments. To investigate approaches for the automated detection of human values behind arguments, we collected 9324 arguments from 6 diverse sources, covering religious texts, political discussions, free-text arguments, newspaper editorials, and online democracy platforms. Each argument was annotated by 3 crowdworkers for 54 values. The Touché23-ValueEval dataset extends the Webis-ArgValues-22. In comparison to the previous dataset, the effectiveness of a 1-Baseline decreases, but that of an out-of-the-box BERT model increases. Therefore, though the classification difficulty increased as per the label distribution, the larger dataset allows for training better models.

研究动机与目标

  • 激发识别论点背后的人类价值,以实现基于价值的分析、比较和生成在自然语言处理中的应用。
  • 通过扩展论点来源和体裁(超越以美国为中心的 Webis-ArgValues-22),弥合跨文化价值检测的差距。
  • 提供一个公开数据集用于 SemEval-2023 Task 4 ValueEval,并评估数据集规模对模型性能的影响。

提出的方法

  • 组装 9,324 条论点,来自六个多样化来源,包括宗教文本、政治话语、社论和在线平台。
  • 使用众包工作者对每条论点在 54 种价值、20 个二级价值类别进行标注,并将标注与 MACE 融合。
  • 通过将具有相同结论的论点放在同一划分中,确保训练/验证/测试的分离,避免训练测试泄漏。
  • 提供一个具备不同写作风格和道德推理的补充数据集,用于健壮性测试。
  • 复用并扩展自 Webis-ArgValues-22 研究的标注框架,以保持一致性。
  • 评估基线模型(包括基于 BERT 的方法),以将性能与之前的 Webis-ArgValues-22 结果进行比较。
Figure 1: The employed value taxonomy of 20 value categories and their associated 54 values (shown as black dots), the levels 2 and 1 from Kiesel et al. ( 2022 ) . Categories that tend to conflict are placed on opposite sites. Illustration adapted from Schwartz ( 1994 )
Figure 1: The employed value taxonomy of 20 value categories and their associated 54 values (shown as black dots), the levels 2 and 1 from Kiesel et al. ( 2022 ) . Categories that tend to conflict are placed on opposite sites. Illustration adapted from Schwartz ( 1994 )

实验结果

研究问题

  • RQ1更大且更具多样性的数据集是否能提升对论点背后人类价值的自动检测?
  • RQ2不同来源和体裁中价值分布有何差异,对跨文化价值检测有何影响?
  • RQ3从 Webis-ArgValues-22 扩展到 Touché23-ValueEval 时,基线模型的性能差异为何?

主要发现

  • Touché23-ValueEval 数据集包含 9,324 对前提–结论对,标注有 54 种价值和 20 个价值类别。
  • 94% 的论点至少有 2 种价值,89% 的论点有超过 2 种价值类别。
  • 基线 1-Baseline 分类器在更大数据集上表现更差,而现成的 BERT 模型则显示出性能提升。
  • 价值分布在主要来源之间大致相似,其中 Universalism: Concern 和 Be just 这两个类别较为频繁。
  • 补充数据集在价值类别分布上展现出源特定差异。
  • 基线实验表明数据集扩展有助于训练更好的模型,特别有利于基于 BERT 的方法。
Figure 2: Fraction of arguments in the complete dataset having a specific number of assigned values (out of 54) or value categories (out of 10) or more.
Figure 2: Fraction of arguments in the complete dataset having a specific number of assigned values (out of 54) or value categories (out of 10) or more.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。