Skip to main content
QUICK REVIEW

[論文レビュー] On scalable oversight with weak LLMs judging strong LLMs

Zachary Kenton, Noah Y. Siegel|arXiv (Cornell University)|Jul 5, 2024
Multi-Agent Systems and Negotiation被引用数 6
ひとこと要約

本論文は、ディベート、コンサルティ、直接QAを拡張監督プロトコルとして実証的に比較し、弱いLLMジャッジと強いLLMエージェントを横断する抽出的、閉じた、マルチモーダルタスクで、ディベートがジャッジの精度を向上させるのはいつか、そしてOpenバリアントが訓練信号にどのように影響するかを評価する。

ABSTRACT

Scalable oversight protocols aim to enable humans to accurately supervise superhuman AI. In this paper we study debate, where two AI's compete to convince a judge; consultancy, where a single AI tries to convince a judge that asks questions; and compare to a baseline of direct question-answering, where the judge just answers outright without the AI. We use large language models (LLMs) as both AI agents and as stand-ins for human judges, taking the judge models to be weaker than agent models. We benchmark on a diverse range of asymmetries between judges and agents, extending previous work on a single extractive QA task with information asymmetry, to also include mathematics, coding, logic and multimodal reasoning asymmetries. We find that debate outperforms consultancy across all tasks when the consultant is randomly assigned to argue for the correct/incorrect answer. Comparing debate to direct question answering, the results depend on the type of task: in extractive QA tasks with information asymmetry debate outperforms direct question answering, but in other tasks without information asymmetry the results are mixed. Previous work assigned debaters/consultants an answer to argue for. When we allow them to instead choose which answer to argue for, we find judges are less frequently convinced by the wrong answer in debate than in consultancy. Further, we find that stronger debater models increase judge accuracy, though more modestly than in previous studies.

研究の動機と目的

  • ディープAIエージェント間のディベートが、さまざまなタスクにわたって超人AIを弱いジャッジが監督するのを助けるかどうかを評価する。
  • 情報の非対称性とモダリティの変化の下で、ディベートとコンサルティングと直接QAを比較する。
  • タスクタイプと能力ギャップが、スケーラブル監督プロトコルの有効性にどのように影響するかを評価する。
  • オープンバリアント(オープンコンサルティング/オープンディベート)とアブレーションを調査し、監督の訓練信号の質を理解する。

提案手法

  • 3つのタスクタイプ(抽出式、クローズド、マルチモーダル)にわたって、6つのスケーラブル監督プロトコル(コンサルティ、ディベート、オープンコンサルティ、オープンディベート、記事付きQA、記事なしQA)を評価する。
  • ジャッジ/コンサルタント/ディベータのLLM(Gemma7B、GPT-3.5、Gemini Pro 1.0/1.5)を用い、0-shot〜few-shotプロンプトで性能比較を行う。
  • ディベートを複数ラウンド(デフォルト3)とbest-of-Nサンプリング(デフォルトN=4)で構成し、ジャッジ評価のための議論を生成する。
  • ジャッジの精度を真実ラベルと比較して測定し、タスクタイプ、ジャッジの強み、プロトコルタイプ間で分析する。
  • ターン数、best-of-N、few-shotプロンプト、チェーン・オブ・ソート prompting、ターン順のアブレーションを実施する。
  • コンサルタント/ディベータによる主張の選択が訓練信号にどのように影響するかを、オープンロール設定を分析して理解する。
Figure 1 : Our setup. We evaluate on three types of task (top row). Extractive , where there is a question, two answer options and a source article to extract from, and information-asymmetry, meaning that judges don’t get to see the article. Closed , where there is just a question and two answer opt
Figure 1 : Our setup. We evaluate on three types of task (top row). Extractive , where there is a question, two answer options and a source article to extract from, and information-asymmetry, meaning that judges don’t get to see the article. Closed , where there is just a question and two answer opt

実験結果

リサーチクエスチョン

  • RQ1弱いLLMで判断された場合、ディベートは多様なタスクで一貫してコンサルティより優れているか?
  • RQ2情報不対称の下で、抽出型・クローズド・マルチモーダルタスクにおいて、記事あり/なしの直QAベースラインとディベートはどのように比較されるか。
  • RQ3ターン数、best-of-N、few-shot、チェーン・オブ・ソートなどのプロトコルの詳細がジャッジの精度に与える影響は何か?
  • RQ4オープンコンサルティとオープンディベートは、弱いジャッジが正しいまたは誤ったディベータ信号を拡大する傾向にどのように影響するか?
  • RQ5より強力なディベーターモデルはタスク全体でジャッジの精度を向上させるか、またこの効果は能力ギャップの大きさとともに拡大するか?

主な発見

  • ディベートはすべてのタスクで一貫してコンサルティより上回る。
  • 記事付きQAは、情報をジャッジが利用可能な場合に一般に最も高いジャッジ精度を生む;ディベートは主に情報不対称の抽出タスクで改善を示す。
  • オープンコンサルティでは、ジャッジはコンサルタントが正解を選んだか誤答を選んだかに関係なく、コンサルタントの説に同等に納得してしまい、誤った行動を助長する危険がある;オープンディベートは主人公が不正解であることを示すことでこれを緩和する。
  • より強力なディベータはタスクを横断してジャッジの精度を向上させ、スケーラブルオーバサイトの目的と整合していることを示すが、タスクとジャッジの強さによって効果は異なる。
  • ターン数を減らすこと、best-of-Nの変更、チェーン・オブ・ソート promptingの追加による有意な影響は少ないことがアブレーションで示されており、これらの変動に対して結果は頑健である。
Figure 2 : Assigned-role results: mean judge accuracy (y-axis) split by task type (facet), judge model (x-axis), protocol (colour). Higher is better. 95% CI calculated aggregated over tasks of same type ( Appendix D for details). The QA with article protocol (purple) can only be applied for extracti
Figure 2 : Assigned-role results: mean judge accuracy (y-axis) split by task type (facet), judge model (x-axis), protocol (colour). Higher is better. 95% CI calculated aggregated over tasks of same type ( Appendix D for details). The QA with article protocol (purple) can only be applied for extracti

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。