Skip to main content
QUICK REVIEW

[论文解读] Universal Text Representation from BERT: An Empirical Study

Xiaofei Ma, Zhiguo Wang|arXiv (Cornell University)|Oct 17, 2019
Topic Modeling参考文献 17被引用 40
一句话总结

本研究通过实证分析将 BERT 的激活表示作为句子与段落表示的通用文本嵌入,展示了层选择、池化和微调对不同任务性能的影响,并指出在问答任务上与全监督的同域 BERT 存在显著差距。

ABSTRACT

We present a systematic investigation of layer-wise BERT activations for general-purpose text representations to understand what linguistic information they capture and how transferable they are across different tasks. Sentence-level embeddings are evaluated against two state-of-the-art models on downstream and probing tasks from SentEval, while passage-level embeddings are evaluated on four question-answering (QA) datasets under a learning-to-rank problem setting. Embeddings from the pre-trained BERT model perform poorly in semantic similarity and sentence surface information probing tasks. Fine-tuning BERT on natural language inference data greatly improves the quality of the embeddings. Combining embeddings from different BERT layers can further boost performance. BERT embeddings outperform BM25 baseline significantly on factoid QA datasets at the passage level, but fail to perform better than BM25 on non-factoid datasets. For all QA datasets, there is a gap between embedding-based method and in-domain fine-tuned BERT (we report new state-of-the-art results on two datasets), which suggests deep interactions between question and answer pairs are critical for those hard tasks.

研究动机与目标

  • 研究当 BERT 层激活被用作通用文本嵌入时,哪些语言信息被捕获。
  • 在下游任务和探测任务上评估句子级嵌入,并与最先进模型进行比较。
  • 在学习排序设置下对问答数据集进行段落级嵌入评估,以评估迁移性。
  • 确定实现最佳嵌入性能的有效池化策略和层组合。

提出的方法

  • 从不同的 BERT 编码器层提取嵌入,并应用逻辑回归头来评估任务性能。
  • 评估池化方法(CLS、SEP、mean、max),以确定哪种方法能产生最佳句子表示。
  • 在自然语言推断数据(MNLI、SNLI)上微调 BERT,以研究对嵌入的影响。
  • 将来自多层的嵌入结合起来,并评估简单的读出(逻辑回归、MLP),以检验线性可分性是否足够。
  • 在四个问答数据集上使用学习排序设置评估段落嵌入,并采用查询与段落嵌入之间的各种交互方案。

实验结果

研究问题

  • RQ1在基准任务中,BERT 激活作为通用句子嵌入的表现有多好?
  • RQ2层深和池化策略如何影响基于 BERT 的嵌入在语言信息(句法、语义、表层信息)上的质量?
  • RQ3预训练与微调后的 BERT 对句子任务嵌入质量有何影响?
  • RQ4将来自多层的嵌入结合是否能提升性能,简单线性读出是否就足够?
  • RQ5在学习排序下,BERT 段落级问答的嵌入表现如何,与 BM25 和完全微调的 BERT 相比?

主要发现

  • 顶层嵌入通常优于低层嵌入,但中间层在某些语义探测任务上表现出色。
  • 在所有任务类别中,BERT 隐藏状态的均值池化始终优于 CLS、SEP 和最大池化。
  • 在 NLI 数据上微调 BERT 可以提升嵌入质量,尤其是语义相似性和蕴含任务。
  • 将顶层与底层的嵌入结合可获得最佳的句子级表现,增加更多层或超越逻辑回归读出带来的收益有限。
  • 对于段落级问答,领域内微调的 BERT 取得最佳结果;BERT 嵌入在事实型数据集上优于 BM25,但在非事实型数据集上表现不佳;多层池化和交互方案提升了性能,领域内微调提供了最强的增益。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。