[논문 리뷰] Large language models can accurately predict searcher preferences
이 논문은 대형 언어 모델이 현실 사용자 선호도와 사람의 수준에 가까운 정확도로 일치하는 관련성 라벨을 생성할 수 있음을 보이고, 일부 제3자 라벨러보다 우수하며 랭킹 모델 학습의 확장성을 가능하게 한다.
Relevance labels, which indicate whether a search result is valuable to a searcher, are key to evaluating and optimising search systems. The best way to capture the true preferences of users is to ask them for their careful feedback on which results would be useful, but this approach does not scale to produce a large number of labels. Getting relevance labels at scale is usually done with third-party labellers, who judge on behalf of the user, but there is a risk of low-quality data if the labeller doesn't understand user needs. To improve quality, one standard approach is to study real users through interviews, user studies and direct feedback, find areas where labels are systematically disagreeing with users, then educate labellers about user needs through judging guidelines, training and monitoring. This paper introduces an alternate approach for improving label quality. It takes careful feedback from real users, which by definition is the highest-quality first-party gold data that can be derived, and develops an large language model prompt that agrees with that data. We present ideas and observations from deploying language models for large-scale relevance labelling at Bing, and illustrate with data from TREC. We have found large language models can be effective, with accuracy as good as human labellers and similar capability to pick the hardest queries, best runs, and best groups. Systematic changes to the prompts make a difference in accuracy, but so too do simple paraphrases. To measure agreement with real searchers needs high-quality "gold" labels, but with these we find that models produce better labels than third-party workers, for a fraction of the cost, and these labels let us train notably better rankers.
연구 동기 및 목표
- LLM이 실제 사용자 선호도에서 골드 표준 관련성 라벨을 재현할 수 있는지 평가한다.
- LLM 생성 라벨을 골드 표준 평가자 및 제3자 라벨러와 정확도와 신뢰성 측면에서 비교한다.
- 프롬프트 설계 및 특성(설명, 서사, 측면, 다중 평가자)이 레이블 품질에 미치는 영향을 분석한다.
- LLM 기반 레이블링의 가능성을 평가하여 개선된 랭킹 모델을 학습한다.
제안 방법
- 훈련된 평가자의 골드 라벨을 ground truth로 사용하는 TREC-Robust 2004 데이터 사용.
- 0–2 척도으로 라벨을 생성하기 위해 다양한 특성 구성의 내부 GPT-4 프롬프트를 적용.
- 골드와의 MAE 및 코헨의 카파를 포함한 문서 수준 관련성과 쌍대 선호도에 대해 AUC로 라벨 품질 평가.
- 역할, 설명, 서사, 측면, 다중 평가자 등 프롬프트 특성 효과 및 프롬프트 길이/의역 민감도 분석.
- 랭크 기반 메트릭(RBO)을 사용한 쿼리 및 시스템 순서에 대한 영향 측정 및 인간 라벨링과의 비교.
- 부트스트래핑으로 95% 신뢰구간(CI)을 보고하고 통계적으로 유의한 차이를 식별.
실험 결과
연구 질문
- RQ1LLM이 TREC-Robust 데이터에 대한 골드 표준 관련성 라벨을 재현할 수 있는가?
- RQ2프롬프트 특성과 구성 요소가 LLM 라벨링 정확도 및 골드 라벨과의 일치에 어떤 영향을 미치는가?
- RQ3LLM 생성 라벨이 전문가 라벨을 넘어 1차 실제 사용자 선호도와 일치하는가?
- RQ4LLM 기반 라벨링이 인간 라벨링과 비교하여 다운스트림 랭킹 성능에 미치는 영향은 무엇인가?
주요 결과
- LLMs는 골드 라벨과 상당한 일치를 달성할 수 있으며; 카파(Cohen’s kappa)는 프롬프트에 따라 0.20에서 0.64 사이이다.
- 이진 관련성 여부 결과에 대해 모델이 관련성 높음/매우 관련으로 라벨링하면 신뢰도가 강하게 나타난다.
- 측면(주제성 및 신뢰성)을 포함하면 일치도가 현저히 향상되어 카파에서 약 +0.21의 증가가 발생한다.
- 프롬프트 설계와 약간의 의역도 정확도에 큰 영향을 미치며 프롬프트 문구에 민감함을 시사한다.
- LLMs는 골드 라벨과의 일치에서 대중노동자보다 우수한 성과를 보이고 비용 및 확장성 측면의 이점을 제공한다.
- LLM 표기 데이터를 사용하여 더 효과적인 랭킹 모델을 학습할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.