Skip to main content
QUICK REVIEW

[論文レビュー] Perspectives on Large Language Models for Relevance Judgment

Guglielmo Faggioli, Laura Dietz|arXiv (Cornell University)|Apr 13, 2023
Topic Modeling参考文献 80被引用数 8
ひとこと要約

このパースペクティブス論文はIRにおける関連性判断に大規模言語モデル(LLM)を用いることを論じ、人的-機械協働スペクトルを提示し、LLM判断と人間評価者を比較した予備的パイロットを報告する。オープンな課題、リスク、完全または部分的自動化されたテストコレクションへ向けた潜在的な道筋について論じる。

ABSTRACT

When asked, large language models (LLMs) like ChatGPT claim that they can assist with relevance judgments but it is not clear whether automated judgments can reliably be used in evaluations of retrieval systems. In this perspectives paper, we discuss possible ways for LLMs to support relevance judgments along with concerns and issues that arise. We devise a human--machine collaboration spectrum that allows to categorize different relevance judgment strategies, based on how much humans rely on machines. For the extreme point of "fully automated judgments", we further include a pilot experiment on whether LLM-based relevance judgments correlate with judgments from trained human assessors. We conclude the paper by providing opposing perspectives for and against the use of~LLMs for automatic relevance judgments, and a compromise perspective, informed by our analyses of the literature, our preliminary experimental evidence, and our experience as IR researchers.

研究の動機と目的

  • Cranfieldパラダイムと人間判断のコストを踏まえたIRの評価課題を動機づけ、枠組みを設定する。
  • 関連性判断の人間–機械協働スペクトラムを提案し、実現可能性とコストを評価する。
  • 既存のアプローチ(手動、クラウド、AI支援、完全自動化)とそのトレードオフを調査する。
  • LLMと人間判断の協同に関する Preliminary empirical な証拠を提供する。
  • LLMベースの関連性評価のオープンな課題、リスク、および将来の方向性を概説する。

提案手法

  • 関連性判断と自動支援に関する文献をレビュー・統合する。
  • manual から完全自動判断までの4レベルの人間–機械協働スペクトラムを提案する。
  • TREC-8とTREC-DL 2021でLLMベースの判断(GPT-3.5とYouChat)を人間評価者と比較する実証的なパイロット実験を実施する。
  • few-shotプロンプト設定を用いてGPT-3.5でTREC-DL 2021を再評価し、元の人間判断と比較する。
  • LLMベースの判断のバイアス、事実性、信頼性の懸念と人間による検証戦略について論じる。

実験結果

リサーチクエスチョン

  • RQ1LLMsは訓練された人間評価者と異なるテストコレクションにおいて意味のある整合性を示す関連性判断を生み出せるのか。
  • RQ2LLMを用いた関連性判断のコスト–品質トレードオフは人間評価者と比較してどうか。
  • RQ3関連性判断の信頼性と効率を最大化するために人間–機械協働をどう構築すべきか。
  • RQ4テストコレクションに依存する際のバイアス、現実検証、真実性といったオープンリスクは何か。
  • RQ5完全自動のLLMベース評価は実現可能か、どの条件下で可能か。

主な発見

  • LLMsは人間評価者と部分的な一致を示し、特定の非関連ケースで高い整合性を示す一方、関連ケースではコレクションとモデルに依存して結果が混在する。
  • GPT-3.5はTREC-8の関連 vs 非関連である設定で0.38のコーエンのκを達成、一方YouChatは同じタスクでより低い一致を示した。
  • TREC-DL 2021では、YouChatは高度に関連する(grade 3)ケースでより高い一致性を示し(0.49κ)、非関連ケースでは(0.42の連結形式で)一様ではなかった。
  • TREC-DL 2021の高度に関連する質問–パッセージ対に対してYouChatの方がより良い整合性を示す傾向が見られた(100件中96件)一方非関連は42件だった。
  • 著者らはTREC-DL 2021の再判断実験でコスト差を示し、GPT-3.5判断は1判断あたり約USD 0.01、合計USD 111.90の費用となった。
  • 本論文はバイアス、事実性、推論、LLMベース判断の品質保証の必要性など複数のオープン課題を強調し、個別化または多様化したLLMがモデル間の相関を低減する可能性にも言及する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。