[論文レビュー] Large language models can accurately predict searcher preferences
本論文は、大規模言語モデルが実際のユーザー好みに人間に近い精度で一致する関連性ラベルを生成できることを示し、一部の第三者ラベラーを上回り、ランキングモデルのスケーラブルな訓練を可能にする。
Relevance labels, which indicate whether a search result is valuable to a searcher, are key to evaluating and optimising search systems. The best way to capture the true preferences of users is to ask them for their careful feedback on which results would be useful, but this approach does not scale to produce a large number of labels. Getting relevance labels at scale is usually done with third-party labellers, who judge on behalf of the user, but there is a risk of low-quality data if the labeller doesn't understand user needs. To improve quality, one standard approach is to study real users through interviews, user studies and direct feedback, find areas where labels are systematically disagreeing with users, then educate labellers about user needs through judging guidelines, training and monitoring. This paper introduces an alternate approach for improving label quality. It takes careful feedback from real users, which by definition is the highest-quality first-party gold data that can be derived, and develops an large language model prompt that agrees with that data. We present ideas and observations from deploying language models for large-scale relevance labelling at Bing, and illustrate with data from TREC. We have found large language models can be effective, with accuracy as good as human labellers and similar capability to pick the hardest queries, best runs, and best groups. Systematic changes to the prompts make a difference in accuracy, but so too do simple paraphrases. To measure agreement with real searchers needs high-quality "gold" labels, but with these we find that models produce better labels than third-party workers, for a fraction of the cost, and these labels let us train notably better rankers.
研究の動機と目的
- 実ユーザーの嗜好から金標準の関連性ラベルをLLMsが再現できるかを評価する。
- 精度と信頼性の観点から、LLM生成ラベルを金標準の評価者および第三者ラベラーと比較する。
- 説明、ナラティブ、アスペクト、複数のジャッジなど、プロンプト設計と特徴がラベリング品質に与える影響を分析する。
- LLMベースのラベリングが改善されたランキングモデルの訓練に与える潜在能力を評価する。
提案手法
- 訓練済み評価者からの金標準ラベルを真値として、TREC-Robust 2004データを用いる。
- 内部開発のGPT-4プロンプトをさまざまな特徴設定で適用し、0–2スケールのラベルを生成する。
- 金標準に対するMAEとコーエンのκでラベル品質を評価し、文書レベルの関連性およびペアワイズ好みに対するAUCを併用する。
- 役割、説明、ナラティブ、アスペクト、複数のジャッジといったプロンプト特徴の効果と、プロンプト長さ/言い換え感度を分析する。
- ランキングベースの指標(RBO)を用いてクエリとシステムの並び順への影響を測定し、人間ラベリングと比較する。
- ブートストラップ法を用いて95%信頼区間を報告し、統計的に有意な差を特定する。
実験結果
リサーチクエスチョン
- RQ1LLMsはTREC-Robustデータの金標準の関連性ラベルを再現できるか?
- RQ2プロンプト特徴と設定は、LLMのラベリング精度と金標準ラベルとの一致にどう影響するか?
- RQ3LLM生成ラベルは、専門家ラベルを超えてファーストパーティの実ユーザー嗜好と一致しますか?
- RQ4人間ラベリングと比較した場合、LLMベースのラベリングが下流のランキング性能に与える影響はどの程度か?
主な発見
- LLMsは金標準ラベルとかなりの一致を達成できる;コーエンのκはプロンプトに応じて0.20から0.64の範囲。
- 関連あり/関連なしという2値アウトカムのラベルは、モデルが関連性あり/高い関連性を割り当てる場合に強い信頼性を示す。
- アスペクト(トピカリティと信頼性)を含めると一致が著しく向上し、κで約+0.21程度が見られる。
- プロンプト設計や小さな言い換えさえも精度に重大な影響を及ぼすことが示され、プロンプト表現への感度を示している。
- LLMsは金標準ラベルへの一致においてクラウドワーカーを上回ることができ、費用とスケーラビリティの利点を提供する。
- LLMラベル付きデータは、より効果的なランキングモデルの訓練に利用できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。