[论文解读] BlenderBot 3: a deployed conversational agent that continually learns to responsibly engage
BlenderBot 3 是一个具有互联网访问和长期记忆的175B参数的开放域对话模型,公开部署以研究从有机用户互动中持续学习并具备安全机制。
We present BlenderBot 3, a 175B parameter dialogue model capable of open-domain conversation with access to the internet and a long-term memory, and having been trained on a large number of user defined tasks. We release both the model weights and code, and have also deployed the model on a public web page to interact with organic users. This technical report describes how the model was built (architecture, model and training scheme), and details of its deployment, including safety mechanisms. Human evaluations show its superiority to existing open-domain dialogue agents, including its predecessors (Roller et al., 2021; Komeili et al., 2022). Finally, we detail our plan for continual learning using the data collected from deployment, which will also be publicly released. The goal of this research program is thus to enable the community to study ever-improving responsible agents that learn through interaction.
研究动机与目标
- 将 BlenderBot 3 (BB3) 作为一个具有互联网访问和长期记忆的175B参数对话模型进行介绍。
- 展示面向公开可访问代理的部署设计、用户界面和安全机制。
- 在多样化对话任务上进行训练与微调,包括知识支撑数据与安全导向数据。
- 展示利用部署中收集的数据进行持续学习的计划,以提升责任感和实用性。
- 公开发布模型权重、代码、数据集及可重复的持续学习研究计划。
提出的方法
- 基于模块化的变换器架构,通过输入令牌控制的顺序模块执行诸如互联网搜索、知识支撑、记忆生成和最终回答生成等任务。
- 基于 R2C2 和 OPT 预训练骨干,提供三种 BB3 尺寸(3B、30B、175B),并在广泛对话数据集上进行面向任务的微调。
- 在大规模多任务微调中,针对问答、知识支撑、任务导向和安全相关对话数据集(表2及相关文本)使用特定控制令牌来指定模块。
- 在部署阶段增加了分离的安全分类器和基于关键词的防护措施,以过滤不安全输出。
- 公开部署带有网页用户界面、反馈机制和数据共享条款,以实现可重复的持续学习研究。
- 计划发布实时部署交互和更新的模型快照,以及关于从人类反馈中学习(FITS)和导演式安全指引的 companion 研究。
实验结果
研究问题
- RQ1如何训练一个具备互联网访问的大型开放域对话模型,在多样化任务上实现稳健表现?
- RQ2哪些部署与安全机制对于从有机用户互动中进行负责任的持续学习最为有效?
- RQ3从部署中进行持续学习在多大程度上能够随着时间推移提升有用性和安全性?
- RQ4哪些数据、反馈类型与学习架构最能支持稳健、可扩展的持续改进?
- RQ5相较于早期的 BlenderBot 版本与开放域聊天机器人,BB3 在开放基准和真实世界使用中的表现如何?
主要发现
- BB3 在定性评估中超越现有公开可得的聊天室机器人和 BlenderBot 前身。
- 作者发布模型权重、代码、模型卡和对话数据集,以实现可重复的研究。
- 多层次的安全策略结合独立的安全分类器与运行时检查,降低不安全生成。
- 一个全面的部署设计包括一个暴露内部决策步骤和长期记忆状态给用户的用户界面。
- 报告了与有机互动相关的初始部署体验,并给出使用部署数据进行持续学习的计划。
- 伴随工作(FITS 与 Director 方法)展示了利用人类反馈进行持续学习的途径。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。