[论文解读] Document Ranking with a Pretrained Sequence-to-Sequence Model
本文提出了一种基于T5的新型序列到序列微调方法,用于文档重排序,通过生成'true'或'false'作为目标标记来预测相关性。该方法通过利用模型的潜在语义知识进行流畅生成,在低数据设置下优于基于BERT的分类模型,实现了TREC Robust04上的最先进零样本迁移性能,并展现出卓越的数据效率。
This work proposes a novel adaptation of a pretrained sequence-to-sequence model to the task of document ranking. Our approach is fundamentally different from a commonly-adopted classification-based formulation of ranking, based on encoder-only pretrained transformer architectures such as BERT. We show how a sequence-to-sequence model can be trained to generate relevance labels as "target words", and how the underlying logits of these target words can be interpreted as relevance probabilities for ranking. On the popular MS MARCO passage ranking task, experimental results show that our approach is at least on par with previous classification-based models and can surpass them with larger, more-recent models. On the test collection from the TREC 2004 Robust Track, we demonstrate a zero-shot transfer-based approach that outperforms previous state-of-the-art models requiring in-dataset cross-validation. Furthermore, we find that our approach significantly outperforms an encoder-only model in a data-poor regime (i.e., with few training examples). We investigate this observation further by varying target words to probe the model's use of latent knowledge.
研究动机与目标
- 探索使用预训练序列到序列模型,将文档重排序从分类方法转变为生成方法。
- 评估序列到序列模型是否能利用潜在语义知识以提升重排序性能,特别是在数据稀缺的场景下。
- 探究不同目标词选择对模型性能的影响,以检验模型对语义和语言知识的使用情况。
- 在不同数据可用性条件下,比较序列到序列模型与标准BERT分类模型在文档重排序中的有效性。
- 在未见过的测试集合(如TREC Robust04)上展示零样本迁移能力,且无需在数据集内进行超参数调优。
提出的方法
- 将模型微调为在给定查询-文档对时生成'true'或'false'作为输出标记,输入格式为:'Query: q Document: d Relevant:'。
- 在推理阶段,通过softmax归一化的'true'标记logit计算相关性概率,从而实现基于相关性得分的排序。
- 选择单个子词标记(如'true'、'false')作为目标词,以避免子词聚合的复杂性并保持可解释性。
- 该方法将文档相关性视为文本生成任务,使模型能够利用预训练所引入的语义和句法知识。
- 探针实验通过改变目标词,测试模型对语义相关性、极性以及语言结构的依赖程度。
- 实验在MS MARCO段落重排序和TREC Robust04上进行,包括对数据稀缺性和目标词配置的消融研究。
实验结果
研究问题
- RQ1能否通过将相关性预测视为文本生成任务,有效将类似T5的序列到序列模型适配于文档重排序?
- RQ2在训练数据有限的情况下,序列到序列方法是否优于基于BERT的分类模型?
- RQ3模型在多大程度上依赖于潜在语义知识,而非记忆化的标签映射?
- RQ4不同目标词选择(如反义词、同义词或无关词)如何影响模型性能和鲁棒性?
- RQ5模型是否能实现零样本迁移至未见过的测试集合(如TREC Robust04),且无需在数据集内进行超参数调优?
主要发现
- 在MS MARCO段落重排序任务中,基于T5的方法在大模型和低数据设置下,表现与或优于基于BERT的模型。
- 仅使用2k个训练样本时,T5模型显著优于BERT,展现出更优的数据效率。
- 在TREC Robust04上,零样本迁移方法优于此前需要在数据集内进行交叉验证的最先进模型。
- 基线配置('true'/'false')在2k和20k数据设置下均取得最高有效性,表明其与模型预训练的强对齐性。
- 使用无关或子词标记(如'_ab'、'_de')进行探针测试时,性能显著下降,证实了模型对语义和语言知识的依赖。
- 当目标词具有语义相关性(如'apple'和'orange')时,模型表现优于极性对比词(如'hot'和'cold'),表明其具备超越二元分类的细微语义理解能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。