[논문 리뷰] Training-Induced Bias Toward LLM-Generated Content in Dense Retrieval
이 논문은 Dense retriever에서 소스 편향이 고유한 것이 아니라 감독된 미세 조정, 특히 MS MARCO나 LLM 생성 데이터에서 나타난다는 것을 보여주고, perplexity가 이 편향을 거의 설명하지 못한다.
Dense retrieval is a promising approach for acquiring relevant context or world knowledge in open-domain natural language processing tasks and is now widely used in information retrieval applications. However, recent reports claim a broad preference for text generated by large language models (LLMs). This bias is called "source bias", and it has been hypothesized that lower perplexity contributes to this effect. In this study, we revisit this claim by conducting a controlled evaluation to trace the emergence of such preferences across training stages and data sources. Using parallel human- and LLM-generated counterparts of the SciFact and Natural Questions (NQ320K) datasets, we compare unsupervised checkpoints with models fine-tuned using in-domain human text, in-domain LLM-generated text, and MS MARCO. Our results show the following: 1) Unsupervised retrievers do not exhibit a uniform pro-LLM preference. The direction and magnitude depend on the dataset. 2) Across the settings tested, supervised fine-tuning on MS MARCO consistently shifts the rankings toward LLM-generated text. 3) In-domain fine-tuning produces dataset-specific and inconsistent shifts in preference. 4) Fine-tuning on LLM-generated corpora induces a pronounced pro-LLM bias. Finally, a retriever-centric perplexity probe involving the reattachment of a language modeling head to the fine-tuned dense retriever encoder indicates agreement with relevance near chance, thereby weakening the explanatory power of perplexity. Our study demonstrates that source bias is a training-induced phenomenon rather than an inherent property of dense retrievers.
연구 동기 및 목표
- 비감독(Dense retrievers)이 고유하게 LLM-생성 콘텐츠를 선호하는지 여부와 편향이 학습 중에 발생하는지 평가한다.
- 다양한 미세 조정 코퍼스(MS MARCO, 도메인 내 인간 작성 데이터, 도메인 내 LLM생성 데이터)가 검색 선호도에 어떤 영향을 미치는지 확인한다.
- 퍼플렉시티 기반 설명을 테스트하기 위해 Retriever-centr ic perplexity 및 관련성 정합성을 측정하고 이를 확인한다.
제안 방법
- 다양한 Dense retriever 계열(E5, Contriever, AugTriever)을 서로 다른 학습 단계에서 평가한다: 비감독, MS MARCO 미세 조정, 도메인 내 미세 조정(인간 작성 및 LLM 생성).
- SciFact와 NQ320K에서 사람 작성과 Llama2-생성 문장을 상대 델타(Relative Delta) 지표로 이용하여 소스 편향을 정량화한다.
- 일반적인 InfoNCE 대조손실로 네 개의 GPU에서 고정 하이퍼파라미터로 미세 조정하여 비교 가능성을 보장한다.
- 소유의 Retriever 중심의 언어 모델링 헤드를 추가하여 Perplexity-Relevance Agreement (PRA)를 측정하고 관련도 신호와 비교한다.
- 학습 단계와 말뭉치에 걸친 편향의 변화를 분석하고 perplexity를 설명 요인으로 재해석한다.
실험 결과
연구 질문
- RQ1RQ1: 비감독(Dense retrievers)이 일관된 pro-LLM 편향을 보이나, 편향은 주로 감독된 미세 조정 중에 나타나는가?
- RQ2RQ2: MS MARCO, 도메인 내 인간 작성 데이터, 또는 도메인 내 LLM 생성 데이터에 대한 미세 조정이 검색 선호도의 방향과 크기에 어떤 영향을 미치는가?
- RQ3RQ3: perplexity 기반의 설명(검색기 중심의 perplexity 포함)이 관찰된 소스 편향을 설명하는가?
주요 결과
- 비감독 retrievers는 데이터 세트에 의존적이고 일관되지 않은 편향을 보이며, 보편적인 pro-LLM 선호가 아니라는 점을 보여준다.
- MS MARCO에 대한 감독 미세 조정은 설정에 관계없이 일관되게 순위를 LLM-생성 텍스트 쪽으로 이동시킨다.
- 도메인 내 미세 조정은 데이터 세트 및 모델에 따라 편향이 달라져 인간 쪽이 더 유리하거나 LLM 쪽이 유리하거나 혼합된 변화가 나타난다.
- LLM 생성 코퍼스에 대한 미세 조정은 데이터 세트에 걸쳐 뚜렷한 pro-LLM 편향을 유발한다.
- 검색기 중심 perplexity 측정은 우연과 일치하는 경향이 있어 perplexity를 편향의 강력한 예측자로 보기 어렵다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.