[论文解读] Self-critiquing models for assisting human evaluators
该论文对大语言模型进行微调,以输出对模型输出的自然语言批评,并显示此类批评有助于人类发现更多缺陷、随模型规模增长,以及通过以评议为条件的再精炼实现自我改进。
We fine-tune large language models to write natural language critiques (natural language critical comments) using behavioral cloning. On a topic-based summarization task, critiques written by our models help humans find flaws in summaries that they would have otherwise missed. Our models help find naturally occurring flaws in both model and human written summaries, and intentional flaws in summaries written by humans to be deliberately misleading. We study scaling properties of critiquing with both topic-based summarization and synthetic tasks. Larger models write more helpful critiques, and on most tasks, are better at self-critiquing, despite having harder-to-critique outputs. Larger models can also integrate their own self-critiques as feedback, refining their own summaries into better ones. Finally, we motivate and introduce a framework for comparing critiquing ability to generation and discrimination ability. Our measurements suggest that even large models may still have relevant knowledge they cannot or do not articulate as critiques. These results are a proof of concept for using AI-assisted human feedback to scale the supervision of machine learning systems to tasks that are difficult for humans to evaluate directly. We release our training datasets, as well as samples from our critique assistance experiments.
研究动机与目标
- 通过使 AI 辅助的人类评估成为可能,激发对高风险模型输出的可扩展监管。
- 证明模型生成的批评帮助人类发现模型摘要和人类撰写的摘要中的缺陷。
- 研究批评质量如何随模型规模增长以及批评如何改进模型输出。
- 提出一个框架来比较生成器、判别器和批评能力,并测量 GDC 差距。
提出的方法
- 使用监督学习对基础任务和联合批评任务进行变换器解码器模型的微调。
- 收集并利用基础任务、批评和辅助任务的演示来训练具备批评能力的模型。
- 在基础任务和批评任务上联合训练模型,以使批评能力与生成能力保持一致。
- 通过人类标注者对模型生成与人类生成的输出进行评估,以衡量批评的有用性。
- 通过比较多种模型规模并分析自我批评与判别性能来评估可扩展性。
实验结果
研究问题
- RQ1模型生成的批评是否能帮助人类比无需帮助时发现更多摘要中的缺陷?
- RQ2更大规模的模型是否会产生更有帮助的批评以及更好的自我批评性能?
- RQ3模型生成的批评是否能改进后续对答案的再精炼/改进?
- RQ4在扩展时,生成器、判别器和批评能力的比较如何,以及还存在哪些差距?
主要发现
- 模型生成的批评显著帮助人类在模型输出和人类生成的输出中发现更多批评。
- 批评的有用性通常随着模型规模而增加,即使输出更难批评时也是如此。
- 批评促进模型自我再精炼,基于批评的再精炼在较大模型上甚至可优于直接再精炼。
- 存在可衡量的生成器–判别器–批评(GDC)差距,批评的改进尚未完全弥合与判别之间的差距。
- 本研究发布了训练数据集和来自批评辅助实验的样本。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。