QUICK REVIEW

[论文解读] Argument from Old Man's View: Assessing Social Bias in Argumentation

Maximilian Spliethöver, Henning Wachsmuth|arXiv (Cornell University)|Nov 24, 2020

Topic Modeling参考文献 40被引用 9

一句话总结

本文通过在五个英语辩论门户网站上训练词嵌入并使用WEAT评估偏见，研究了计算论辩中的社会偏见。所有语料库均显示出一致的性别与种族偏见，偏好欧洲裔美国人和男性身份，其中debate.org的偏见程度最高，凸显了在NLP研究中需要更多具有代表性和平衡性的论辩数据集。

ABSTRACT

Social bias in language - towards genders, ethnicities, ages, and other social groups - poses a problem with ethical impact for many NLP applications. Recent research has shown that machine learning models trained on respective data may not only adopt, but even amplify the bias. So far, however, little attention has been paid to bias in computational argumentation. In this paper, we study the existence of social biases in large English debate portals. In particular, we train word embedding models on portal-specific corpora and systematically evaluate their bias using WEAT, an existing metric to measure bias in word embeddings. In a word co-occurrence analysis, we then investigate causes of bias. The results suggest that all tested debate corpora contain unbalanced and biased data, mostly in favor of male people with European-American names. Our empirical insights contribute towards an understanding of bias in argumentative data sources.

研究动机与目标

调查用于计算论辩（CA）研究的大规模英语辩论门户网站中是否存在社会偏见。
比较不同论辩语料库中偏见的程度与性质，特别是关于性别与种族的偏见。
识别导致论辩文本中观察到的社会偏见的语言模式和用户贡献。
评估在偏见检测方法中使用姓名作为社会群体代理的可靠性。
为论辩数据源中的偏见提供基础性见解，呼吁未来CA研究中采用更具代表性和平衡性的数据集。

提出的方法

在五个辩论门户网站（4forums.com、convinceme.net、createdebate.com、debate.org和ChangeMyView）的语料特定数据上训练自定义词嵌入模型（使用带有负采样的skip-gram模型）。
应用WEAT（词移动距离）度量方法，量化代表社会群体的词集之间的偏见（例如，男性与女性姓名、欧洲裔美国人与非裔美国人姓名之间的对比）。
对debate.org语料库中的文本按用户提供的人口统计信息（如年龄、性别）进行分组，以分析不同用户群体对偏见的贡献。
进行词共现分析，识别与身份词（如姓名）共现的语言术语，揭示偏见在语言中的编码方式。
在WEAT测试中使用Caliskan等人（2017）提供的标准化词典定义社会群体，包括使用姓名作为社会身份代理的列表。
在三个主要语料库（IAC、debate.org和CMV）上评估结果，比较偏见水平和代表性失衡情况。

实验结果

研究问题

RQ1现有论辩数据源中存在哪些类型的社会偏见？不同辩论门户网站在偏见方面有何差异？
RQ2特定用户群体（如年长用户、具有特定姓名者）的贡献如何影响语料的整体社会偏见？
RQ3哪些语言表达或共现模式最可能导致论辩文本中观察到的社会偏见？
RQ4以姓名作为社会群体代理在WEAT评估中在多大程度上扭曲了偏见检测结果？
RQ5身份词出现频率的代表性失衡在多大程度上影响了论辩语料中偏见检测的可靠性和有效性？

主要发现

在评估的三个论辩语料库——debate.org、CMV和IAC中均表现出显著的社会偏见，且一致偏好男性和欧洲裔美国人身份，而非女性和非裔美国人身份。
debate.org语料在WEAT评估中表现出最高的偏见水平，其次是CMV，而IAC的偏见最低，表明不同语料在数据收集和用户人口统计方面存在显著差异。
所有语料库中均观察到身份词的代表性失衡，女性和非裔美国人姓名的出现频率较低，增加了统计波动和偏见扭曲的风险。
共现分析显示，'palin'和'obama'等姓名与政治或刻板印象术语（如'conservative'、'president'）强烈关联，表明公众人物可能扭曲群体层面的偏见关联。
使用姓名作为社会群体代理导致偏见结果不可预测，因为公众人物可能无法代表更广泛的社会群体，从而在WEAT评估中产生误导性关联。
本研究发现，基于姓名的词典在统计上不可靠，因其频率低且上下文特异性高，从而削弱了在此背景下WEAT结果的有效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。