[論文レビュー] A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look
この研究は four relevance-assessment approaches(完全に manual と UMBRELA を用いた LLM 支援の三つの variante を比較)を大規模な TREC 2024 RAG Track 評価で比較し、自動生成された判断と manual の判断が高度に相関し、ヒューマン・イン・ザ・ループアプローチには明確な利点は見られない。
The application of large language models to provide relevance assessments presents exciting opportunities to advance information retrieval, natural language processing, and beyond, but to date many unknowns remain. This paper reports on the results of a large-scale evaluation (the TREC 2024 RAG Track) where four different relevance assessment approaches were deployed in situ: the "standard" fully manual process that NIST has implemented for decades and three different alternatives that take advantage of LLMs to different extents using the open-source UMBRELA tool. This setup allows us to correlate system rankings induced by the different approaches to characterize tradeoffs between cost and quality. We find that in terms of nDCG@20, nDCG@100, and Recall@100, system rankings induced by automatically generated relevance assessments from UMBRELA correlate highly with those induced by fully manual assessments across a diverse set of 77 runs from 19 teams. Our results suggest that automatically generated UMBRELA judgments can replace fully manual judgments to accurately capture run-level effectiveness. Surprisingly, we find that LLM assistance does not appear to increase correlation with fully manual assessments, suggesting that costs associated with human-in-the-loop processes do not bring obvious tangible benefits. Overall, human assessors appear to be stricter than UMBRELA in applying relevance criteria. Our work validates the use of LLMs in academic TREC-style evaluations and provides the foundation for future studies.
研究の動機と目的
- 大規模な TREC 風評価において、自動的に生成された LLM ベースの関連性判断(UMBRELA 経由)が、完全に manual な NIST 判断とどう比較されるかを評価する。
- LLM の関与レベルの異なる場合におけるコストと品質のトレードオフを定量化する。
- 人間と LLM 判断の体系的な差異と IR 評価への意味を特徴づける。
提案手法
- TREC 2024 RAG Track の検索タスクにおいて、UMBRELA を用いて自動的な関連性ラベルを 301 トピック分生成する。
- Kendall’s tau 相関を用いて、UMBRELA ベースの判断により誘導されたシステムランキングを、完全 manual な NIST 判断と比較する。
- LLM 関与シナリオを 3 つ評価する:完全自動、手動後編集、手動フィルタリング。
- nDCG@20、nDCG@100、Recall@100 のランレベルおよびトピック別相関を分析する。
- LLM ベースのアプローチによって達成されたプール規模と評価削減を定量化する記述統計を提示する。
実験結果
リサーチクエスチョン
- RQ1自動的に生成された LLM ベースの関連性評価は、ランレベルのシステムランキングにおいて NIST アセッサをどの程度置換できるか。
- RQ2関連性評価における LLM の関与レベルを変化させた場合のコストと品質のトレードオフは?
- RQ3人間の判断と LLM ベースの判断の質的または定量的な差異は存在するか、またそれらは LLM の関与レベルによって影響されるか?
主な発見
- 自動生成された UMBRELA 判断は、nDCG@20、nDCG@100、および Recall@100 におけるランレベルのランキングで、完全 manual 評価と高度に相関する。
- LLM の支援は、完全 manual 評価との相関を高めず、ハイブリッドな人間–LLM アプローチに明確な有益性を提供しない。
- 人間は UMBRELA より厳格な関連性基準を適用する傾向があり、LLM が推論するものを低評価したり、LLM が行う推論を見逃すケースがいくつかある。
- トピックのサブセットを減らしても、UMBRELA と manual とのランレベル相関は依然として強く、安定したランキングにはごく少数のトピック(いくつかの分析では約10 トピック)が必要であることを示唆している。
- 全体として、この研究は TREC 風の評価での LLM ベースの関連性評価の使用を支持し、この目的のための人間を介在させるプロセスの付加価値を疑問視している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。