Skip to main content
QUICK REVIEW

[論文レビュー] Self-critiquing models for assisting human evaluators

William H. Saunders, Catherine Vance Yeh|arXiv (Cornell University)|Jun 12, 2022
Topic Modeling被引用数 46
ひとこと要約

この論文は、大規模言語モデルを微調整してモデル出力の自然言語批評を生成し、そのような批評が人間により多くの欠陥を見つけるのに役立ち、モデルサイズとともにスケールし、批評条件付きの再精錬による自己改善を可能にすることを示している。

ABSTRACT

We fine-tune large language models to write natural language critiques (natural language critical comments) using behavioral cloning. On a topic-based summarization task, critiques written by our models help humans find flaws in summaries that they would have otherwise missed. Our models help find naturally occurring flaws in both model and human written summaries, and intentional flaws in summaries written by humans to be deliberately misleading. We study scaling properties of critiquing with both topic-based summarization and synthetic tasks. Larger models write more helpful critiques, and on most tasks, are better at self-critiquing, despite having harder-to-critique outputs. Larger models can also integrate their own self-critiques as feedback, refining their own summaries into better ones. Finally, we motivate and introduce a framework for comparing critiquing ability to generation and discrimination ability. Our measurements suggest that even large models may still have relevant knowledge they cannot or do not articulate as critiques. These results are a proof of concept for using AI-assisted human feedback to scale the supervision of machine learning systems to tasks that are difficult for humans to evaluate directly. We release our training datasets, as well as samples from our critique assistance experiments.

研究の動機と目的

  • 自然言語の批評を通じてAI支援の人間評価を実現し、高リスクなモデル出力に対するスケーラブルな監視を動機づける。
  • モデル生成の批評が、人間とモデルが作成した要約の両方の欠陥を人間が見つけるのに役立つことを示す。
  • 批評の質がモデルサイズに伴ってどうスケールするか、そして批評がモデル出力をどのように再精練できるかを調査する。
  • 生成器・識別器・批評能力を比較し、GDCギャップを測定する枠組みを提案する。

提案手法

  • 基礎タスクと結合批評タスクを対象に、教師あり学習を用いてトランスフォーマーデコーダーモデルを微調整する。
  • 基礎タスク・批評・補助タスクのデモンストレーションを収集・活用して、批評機能を備えたモデルを訓練する。
  • 基礎タスクと批評タスクを結合してモデルを訓練し、批評能力を生成能力と整合させる。
  • モデル生成・人間生成の出力を横断して、人間のラベラーを通じて批評の有用性を評価する。
  • 複数のモデルサイズを比較し、自己批評と識別性能を分析してスケーリングを評価する。

実験結果

リサーチクエスチョン

  • RQ1モデル作成の批評は、支援なしの場合よりも要約の欠陥を人間がより多く特定するのに役立つか?
  • RQ2より大きなモデルはより有用な批評を生み出し、自己批評性能も向上するか?
  • RQ3モデル生成の批評は回答の後後の再精練を改善するか?
  • RQ4スケールしたときに生成器・識別器・批評能力はどのように比較され、どんなギャップが残るか?

主な発見

  • モデルが書いた批評は、モデル生成および人間生成の出力のより多くの批評を人間が見つけるのに大幅に役立つ。
  • 批評の有用性は、出力を批評するのが難しくなる場合でも、一般にモデルサイズとともにスケールする。
  • 批評はモデル自身の再精練を可能にし、批評主導の再精練は大規模モデルでは直接の再精練を上回ることがある。
  • 測定可能な generator–discriminator–critique (GDC) ギャップがあり、批評の改善は識別とのギャップを完全には埋められない。
  • 本研究は、批評支援実験からのトレーニングデータセットとサンプルを公開する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。