[논문 리뷰] Perspectives on Large Language Models for Relevance Judgment
이 관점 논문은 IR에서 관련 판단에 대해 대형 언어 모델(LLM)의 사용을 토론하고, 인간–기계 협업 스펙트럼을 제시하며, LLM 판단과 인간 평가자의 예비 비교를 보고한다. 또한 오픈 이슈, 위험 및 완전 또는 부분 자동화된 테스트 컬렉션으로 가는 가능 경로를 논의한다.
When asked, large language models (LLMs) like ChatGPT claim that they can assist with relevance judgments but it is not clear whether automated judgments can reliably be used in evaluations of retrieval systems. In this perspectives paper, we discuss possible ways for LLMs to support relevance judgments along with concerns and issues that arise. We devise a human--machine collaboration spectrum that allows to categorize different relevance judgment strategies, based on how much humans rely on machines. For the extreme point of "fully automated judgments", we further include a pilot experiment on whether LLM-based relevance judgments correlate with judgments from trained human assessors. We conclude the paper by providing opposing perspectives for and against the use of~LLMs for automatic relevance judgments, and a compromise perspective, informed by our analyses of the literature, our preliminary experimental evidence, and our experience as IR researchers.
연구 동기 및 목표
- IR의 Cranfield 패러다임에 따른 평가 도전 과제와 인간 판단 비용을 동기화하고 프레이밍한다.
- 관련 판단에 대한 인간–기계 협업 스펙트럼을 제시하여 가능성과 비용을 평가한다.
- 수행 가능한 기존 접근 방식(수동, 크라우드, AI 지원, 완전 자동화)과 그 거래를 조사한다.
- LLM과 인간 판단 간의 예비 실증적 일치를 입증한다.
- LLM 기반 관련 평가의 향후 방향 및 개방 이슈, 위험을 개관한다.
제안 방법
- 관련 판단 및 자동 지원에 대한 문헌을 검토하고 종합한다.
- 수동에서 완전 자동 판단까지의 네 단계 인간–기계 협업 스펙트럼을 제안한다.
- TREC-8 및 TREC-DL 2021에서 LLM 기반 판단(GPT-3.5 및 YouChat)을 인간 평가자와 비교하는 파일럿 실행 가능성 실험을 수행한다.
- 다수의 예시 프롬프트를 사용한 GPT-3.5로 TREC-DL 2021의 재판정을 수행하고 원래의 인간 판단과 비교한다.
- LLM 기반 판단의 편향, 사실성 및 신뢰성 문제와 인간 검증 전략에 대해 논의한다.
실험 결과
연구 질문
- RQ1다양한 테스트 컬렉션에서 훈련된 인간 평가자와 의미 있게 일치하는 관련 판단을 LLM이 생성할 수 있는가?
- RQ2LLM을 사용한 관련 판단의 비용-품질 트레이드오프는 인간 평가자와 비교하여 어떠한가?
- RQ3관련 판단의 신뢰성과 효율성을 극대화하기 위해 인간–기계 협업은 어떻게 구성되어야 하는가?
- RQ4테스트 컬렉션에 의존할 때 발생하는 편향, 망상, 진실성 같은 개방 리스크는 무엇인가?
- RQ5전적으로 자동화된 LLM 기반 평가가 실행 가능한가, 어떤 조건 하에서?
주요 결과
- LLMs는 인간 평가자와 부분적으로 일치하는 경향을 보이며, 특정 비관련 사례에서 더 높은 일치도를 보이고 관련 사례에서는 컬렉션 및 모델에 따라 혼합된 결과를 보인다.
- GPT-3.5는 한 구성에서 TREC-8에서 관련 대 비관련에 대해 Cohen의 kappa 0.38을 달성했고, 같은 작업에서 YouChat은 더 낮은 일치를 보였다.
- TREC-DL 2021에서 YouChat은 고도로 관련된(등급 3) 사례에서 더 높은 일치를 보였으며(0.49 카파), 비관련 사례에서는 더 낮은 일치도(이진 형식의 0.42)를 보였다.
- 2021년 TREC-DL에서 고도로 관련된 질문-패시지 쌍에서 YouChat의 일치도가 비관련 쌍보다 더 양호했다(상세: 100개 중 96대 42).
- 재재판정 실험에서의 비용 차이를 보여주며, GPT-3.5 판단은 한 판단당 약 USD 0.01의 비용이 들고 설정에서 총 합계 USD 111.90를 지출했다.
- 여러 개의 개방 이슈를 강조하며, 편향, 사실성, 추론 및 LLM 기반 판단의 품질 보증 필요성과 모델 간 상관도를 줄일 수 있는 개인화되거나 다변화된 LLM의 가능성을 제안한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.