[論文レビュー] LLM Critics Help Catch LLM Bugs
本論文では、RLHF適用済みのLLM批評家(CriticGPT)を訓練し、モデルが書いたコードを批評させることでバグ検出を改善し、しばしば人間のレビュアーを上回る。人間と批評家を組み合わせることで幻覚と細かい指摘を減らす。
Reinforcement learning from human feedback (RLHF) is fundamentally limited by the capacity of humans to correctly evaluate model output. To improve human evaluation ability and overcome that limitation this work trains "critic" models that help humans to more accurately evaluate model-written code. These critics are themselves LLMs trained with RLHF to write natural language feedback highlighting problems in code from real-world assistant tasks. On code containing naturally occurring LLM errors model-written critiques are preferred over human critiques in 63% of cases, and human evaluation finds that models catch more bugs than human contractors paid for code review. We further confirm that our fine-tuned LLM critics can successfully identify hundreds of errors in ChatGPT training data rated as "flawless", even though the majority of those tasks are non-code tasks and thus out-of-distribution for the critic model. Critics can have limitations of their own, including hallucinated bugs that could mislead humans into making mistakes they might have otherwise avoided, but human-machine teams of critics and contractors catch similar numbers of bugs to LLM critics while hallucinating less than LLMs alone.
研究の動機と目的
- 大規模言語モデルにおけるRLHFの人間評価の根本的な限界に対処する。
- コードの自然言語批評を生成するようLLM批評家を訓練して、スケーラブルな監視を開発する。
- CriticGPTを人間の批評と比較評価し、人間と機械の協働効果を分析する。
- 包括的な批評と幻覚リスクのバランスを取る推論時サンプリング手法(FSBS)を導入する。
提案手法
- 質問と回答のペアを受け取り、平文の批評を出力する自己回帰的な批評方針を訓練する。
- 契約者が評価した批評から訓練された報酬モデルを用いて、批評方針を最適化するRLHF(PPO)を使用。
- 契約者が微妙なバグを挿入して高品質な評価データを作る敵対的改ざんステップを組み込む。
- サンプリングを制約し、長さ・ハイライト・正確性のバランスを取る批評を選択するために、Force Sampling Beam Search(FSBS)を適用する。
- 包括性、批評に含まれるバグ(CBI)、細かい指摘、全体的な有用性に関する契約者の評価で批評を評価する。
実験結果
リサーチクエスチョン
- RQ1RLHFで訓練されたLLM批評家は、モデルが書いたコードに対する人間評価の正確性と有用性を向上させることができるか。
- RQ2挿入されたバグを検出する際、CriticGPTの批評は人間およびChatGPTの批評とどう比較されるか。
- RQ3LLM批評における包括性と幻覚のトレードオフは何か、FSBSはこれらのトレードオフを回避できるか。
- RQ4人間+CriticGPTの人機チームは、単独の人間または批評家よりも高品質な批評を生成できるか。
- RQ5批評家主導の評価は、コード以外のタスクや現実世界のデータ分布にも一般化するか?
主な発見
- 挿入されたバグを含むコードに対して、CriticGPTの批評はChatGPTおよび人間の批評よりも大幅に好まれる。
- CriticGPTは人間の契約業者より多くの挿入バグを検出し、コードレビューのために支払われた代表的な人間を上回る。
- 人間+CriticGPTのチームは、いずれか単独よりも包括的な批評を作成し、幻覚を減らす。
- FSBSは包括性と幻覚のトレードオフを可能にし、批評の質に関してパレート最適解の選択を可能にする。
- 敵対的改ざんデータでの訓練は、改ざんなしでの訓練より高品質な批評を生み出す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。