Skip to main content
QUICK REVIEW

[论文解读] Training-Induced Bias Toward LLM-Generated Content in Dense Retrieval

William Xion, Nejdl Wolfgang|arXiv (Cornell University)|Feb 11, 2026
Topic Modeling被引用 0
一句话总结

论文表明密集检索器中的源偏见不是固有的,而是在监督微调,尤其是 MS MARCO 或者LLM 生成数据中出现;困惑度对解释偏见解释有限。

ABSTRACT

Dense retrieval is a promising approach for acquiring relevant context or world knowledge in open-domain natural language processing tasks and is now widely used in information retrieval applications. However, recent reports claim a broad preference for text generated by large language models (LLMs). This bias is called "source bias", and it has been hypothesized that lower perplexity contributes to this effect. In this study, we revisit this claim by conducting a controlled evaluation to trace the emergence of such preferences across training stages and data sources. Using parallel human- and LLM-generated counterparts of the SciFact and Natural Questions (NQ320K) datasets, we compare unsupervised checkpoints with models fine-tuned using in-domain human text, in-domain LLM-generated text, and MS MARCO. Our results show the following: 1) Unsupervised retrievers do not exhibit a uniform pro-LLM preference. The direction and magnitude depend on the dataset. 2) Across the settings tested, supervised fine-tuning on MS MARCO consistently shifts the rankings toward LLM-generated text. 3) In-domain fine-tuning produces dataset-specific and inconsistent shifts in preference. 4) Fine-tuning on LLM-generated corpora induces a pronounced pro-LLM bias. Finally, a retriever-centric perplexity probe involving the reattachment of a language modeling head to the fine-tuned dense retriever encoder indicates agreement with relevance near chance, thereby weakening the explanatory power of perplexity. Our study demonstrates that source bias is a training-induced phenomenon rather than an inherent property of dense retrievers.

研究动机与目标

  • 评估无监督密集检索器是否固有偏好LLM生成内容,还是偏见在训练中产生。
  • 检查不同微调语料(MS MARCO、域内人工书写、域内LLM生成)对检索偏好影响。
  • 通过衡量检索器中心困惑度与相关性对齐,测试基于困惑度的解释。

提出的方法

  • 在不同训练阶段评估多种密集检索器家族(E5、Contriever、AugTriever):无监督、MS MARCO 微调、域内微调(人工与LLM生成)。
  • 使用来自SciFact和NQ320K的成对人工书写与Llama2生成段落,结合 Relative Delta 指标量化源偏见。
  • 在四个GPU上使用标准InfoNCE对比损失进行微调,固定超参数以确保可比性。
  • 附加一个检索器中心的语言模型头以测量 Perplexity-Relevance Agreement (PRA) 并与相关信号进行比较。
  • 分析偏见在不同训练阶段和语料上的演变,并将困惑度重新解释为一个解释因素。

实验结果

研究问题

  • RQ1RQ1: 无监督的密集检索器是否表现出持续的偏向LLM的偏见,还是偏见主要在有监督微调期间产生?
  • RQ2RQ2: 在 MS MARCO、域内人工数据或域内LLM生成数据上进行微调,如何影响检索偏好方向和强度?
  • RQ3RQ3: 基于困惑度的解释(包括检索器中心的困惑度)是否能解释观察到的源偏见?

主要发现

  • 无监督检索器表现出数据集相关、前后不一致的偏见,而非普遍的偏向LLM。
  • 在 MS MARCO 上的有监督微调在所有情境中一致将排序向LLM生成文本偏移。
  • 域内微调会产生数据集与模型相关的偏移,可能偏向人工或LLM或混合。
  • 在LLM生成语料上进行微调在各数据集上表现出明显的偏向LLM。
  • 检索器中心的困惑度测量与偶然性一致,挑战困惑度作为偏见的稳健预测因子。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。