[論文レビュー] UMBRELA: UMbrela is the (Open-Source Reproduction of the) Bing RELevance Assessor
UMBRELAは、GPT-4oを使用してBingの関連性評価を再現するオープンソースのツールキットで、TREC DL Tracks (2019–2023) 全体で人間の判断と高い相関があるのを検証し、検索評価パイプラインへの統合を可能にします。
Copious amounts of relevance judgments are necessary for the effective training and accurate evaluation of retrieval systems. Conventionally, these judgments are made by human assessors, rendering this process expensive and laborious. A recent study by Thomas et al. from Microsoft Bing suggested that large language models (LLMs) can accurately perform the relevance assessment task and provide human-quality judgments, but unfortunately their study did not yield any reusable software artifacts. Our work presents UMBRELA (a recursive acronym that stands for UMbrela is the Bing RELevance Assessor), an open-source toolkit that reproduces the results of Thomas et al. using OpenAI's GPT-4o model and adds more nuance to the original paper. Across Deep Learning Tracks from TREC 2019 to 2023, we find that LLM-derived relevance judgments correlate highly with rankings generated by effective multi-stage retrieval systems. Our toolkit is designed to be easily extensible and can be integrated into existing multi-stage retrieval and evaluation pipelines, offering researchers a valuable resource for studying retrieval evaluation methodologies. UMBRELA will be used in the TREC 2024 RAG Track to aid in relevance assessments, and we envision our toolkit becoming a foundation for further innovation in the field. UMBRELA is available at https://github.com/castorini/umbrela.
研究の動機と目的
- LLMベースの関連性判断が検索評価において人間の評価と同等であることを示す。
- LLMベースの関連ラベリングを再現・研究するためのオープンソースで拡張可能なツールキットを提供する。
- 複数のTREC DLトラックにおいて、LLM由来の判断と従来の人間判断との相関を検証する。
提案手法
- GPT-4oを用い、ゼロショットDNAプロンプティングで関連スコア(0–3)を割り当てることでThomas et al. 2024を再現する。
- Query-passageペアに対してDescriptive, Narrative, and Aspects (DNA)プロンプティングフレームワークを適用する。
- TREC DL Track 2019–2023の人間qrelsをゴールドラベルとして使用し、UMBRELAで再評価する。
- 特定のトラックでは非正規の重複を除外して、近似重複のパッセージを扱う。
- Cohen’s kappa、Kendall tau、Spearman rho、nDCG@10を用いて、人間とLLM判断の一致とランキング相関を評価する。
実験結果
リサーチクエスチョン
- RQ1複数のTREC DLトラックに渡るクエリに対して、GPT-4oはパッセージの人間の関連判断を再現できるか?
- RQ2LLM由来の判断は、合意と検索システムのランキングの観点で人間の判断と相関するか?
- RQ3オープンソースのUMBRELAツールキットは、検索評価パイプラインへの統合において効果的かつ拡張可能か?
主な発見
- Cohen’s kappa(四段階)はトラック間で0.3081から0.3730までの範囲であり、人間の判断との合意は妥当から中程度を示す。
- Binary Cohen’s kappaはトラック間で0.4176から0.4990の範囲で、中程度の合意を示す。
- Kendall tauとSpearman rhoの人間とLLM判断の相関は一貫して高く(例:tau ~0.87–0.94、rho ~0.97–0.99、トラック間で)。
- LLMベースの評価は、nDCG@10を用いた人間の真の評価と比較してランキングで高い相関を示す。
- 結果は先行研究を再現・拡張しており、GPT-4oを実用的な関連度アセッサとして裏付け、コミュニティ向けのオープンソースツールを提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。