[论文解读] FairFil: Contrastive Neural Debiasing Method for Pretrained Text Encoders
FairFil 是一种针对预训练句子编码器的事后神经去偏方法,使用通过对比学习训练的公平过滤器在减少偏见的同时保留语义内容,而无需重新训练编码器。
Pretrained text encoders, such as BERT, have been applied increasingly in various natural language processing (NLP) tasks, and have recently demonstrated significant performance gains. However, recent studies have demonstrated the existence of social bias in these pretrained NLP models. Although prior works have made progress on word-level debiasing, improved sentence-level fairness of pretrained encoders still lacks exploration. In this paper, we proposed the first neural debiasing method for a pretrained sentence encoder, which transforms the pretrained encoder outputs into debiased representations via a fair filter (FairFil) network. To learn the FairFil, we introduce a contrastive learning framework that not only minimizes the correlation between filtered embeddings and bias words but also preserves rich semantic information of the original sentences. On real-world datasets, our FairFil effectively reduces the bias degree of pretrained text encoders, while continuously showing desirable performance on downstream tasks. Moreover, our post-hoc method does not require any retraining of the text encoders, further enlarging FairFil's application space.
研究动机与目标
- 动机:在预训练文本编码器中需要降低句子级别的社会偏见,超越仅在词级的去偏。
- 提出一个神经去偏框架(FairFil),从固定编码器输出去偏嵌入。
- 开发对比学习目标,在去除偏见的同时保留语义信息。
- 纳入去偏正则化项,进一步在去偏嵌入中最小化关于敏感词的信息。
提出的方法
- 在预训练编码器 E 之上学习一个公平过滤器网络 f,将 z = E(x) 映射到去偏的 d = f(z)。
- 通过将敏感词替换为具有语义等效替换的词,生成在不同偏置方向上的增强句子 x'。
- 使用 InfoNCE 对比损失进行训练,以最大化 (x, x') 对的 d 与 d' 之间的互信息。
- 添加去偏正则化项,通过 CLUB 边界最小化 d 与敏感词嵌入 w^p 之间的互信息,鼓励从 d 中移除偏见信息。
- 将 f 参数化为单层神经网络;InfoNCE 得分函数 g 为两层网络;q_theta(w|d) 作为用于 CLUB 估计的高斯变分模型。
- 使用基于批次的训练设置,样本数为 128,学习率为 1e-5,在固定训练语料上训练最多 10 个 epoch。
实验结果
研究问题
- RQ1神经后置公平过滤器是否能够在不重新训练编码器的情况下降低预训练文本编码器的句子级偏见?
- RQ2使用语义增强句子的对比学习是否在去除偏见的同时保留语义内容?
- RQ3针对敏感词信息的去偏正则是否在不损害下游性能的前提下改进去偏效果?
主要发现
- FairFil 在预训练 BERT 上减少 SEAT 偏差度量,并且与 Sent-Debias 相比提升或保持下游任务准确率。
- FairFil 在多个偏差模板和主题上平均 SEAT 效应量低于 Sent-Debias。
- 去偏正则进一步降低偏见,但可能对下游性能略有权衡,表明公平性与代表性之间的权衡。
- FairFil 展示了数据效率,在较小的训练数据分区(低至 20%)也能有效减少偏见。
- 与词级去偏基线相比,FairFil 实现了显著更低的偏见,表明句子级去偏的优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。