[論文レビュー] Verbosity Bias in Preference Labeling by Large Language Models
論文は LLM 評価における冗長性バイアスを調査し、GPT-4 は長い回答を好む傾向があり、LLM と人間の間にズレが存在することを示す;また、精度のパリティに基づく冗長性バイアスを定量化する指標を提案する。
In recent years, Large Language Models (LLMs) have witnessed a remarkable surge in prevalence, altering the landscape of natural language processing and machine learning. One key factor in improving the performance of LLMs is alignment with humans achieved with Reinforcement Learning from Human Feedback (RLHF), as for many LLMs such as GPT-4, Bard, etc. In addition, recent studies are investigating the replacement of human feedback with feedback from other LLMs named Reinforcement Learning from AI Feedback (RLAIF). We examine the biases that come along with evaluating LLMs with other LLMs and take a closer look into verbosity bias -- a bias where LLMs sometimes prefer more verbose answers even if they have similar qualities. We see that in our problem setting, GPT-4 prefers longer answers more than humans. We also propose a metric to measure this bias.
研究の動機と目的
- 他の LLM で LLM を評価する際に生じるバイアス、特に冗長性バイアスに焦点を当てて検討する。
- GPT-4 が人間より長い回答を好むかどうかを評価する。
- 精度のパリティに基づく冗長性バイアスを測定する定量的指標を開発する。
- 既存の人間フィードバックデータセットを用いて LLM の冗長性嗜好と人間の嗜好を比較する。
提案手法
- GPT-4 が長さの異なる回答のペアを選択する実験を実施し、冗長性の嗜好を評価する。
- HH-RLHF データセットを用いて人間のフィードバックと比較することで GPT-4 の判断を分析し、整合性を比較する。
- 等機会と精度パリティの概念を用いて冗長性バイアスを定式化する。
- 肯定的には冗長な回答を好むことを示す正の符号付き冗長性バイアス指標を定義し、簡潔さを好む場合は負とする。
- 提供データから GPT-4 および GPT-3.5 の冗長性バイアス値を提示する。
- 語数差が判断にどのように関連するかを示す距離ベースのプロットを用いる。
実験結果
リサーチクエスチョン
- RQ1LLM、特に GPT-4 は評価タスクで長い回答を好むのか。
- RQ2LLM の冗長性嗜好と人間の嗜好の間に乖離があるのか。
- RQ3精度パリティベースの指標を用いて冗長性バイアスを定量化し、モデル間で比較できるのか。
- RQ4RLAIF タイプの評価設定において冗長性バイアスが人間との整合性にどう影響するのか。
主な発見
- GPT-4 は創造的執筆プロンプト全般で長い回答を好む傾向を示す。
- LLM の冗長性嗜好と人間の嗜好には、長い回答を好むか短い回答を好むかによって、測定可能な乖離が存在する。
- 冗長性バイアスを定量化しモデル間を比較するための精度パリティに基づく指標を提案する。
- 提供データ上、GPT-4 の冗長性バイアス値は 0.328、GPT-3.5 は 0.428 であり、依然としてバイアスが残ることを示す。
- HH-RLHF データセットの人間も長い回答を好む傾向があり、人間が長い回答を好む場合に LLM 判断と人間との整合性が低下する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。