QUICK REVIEW

[논문 리뷰] BlenderBot 3: a deployed conversational agent that continually learns to responsibly engage

Kurt Shuster, Jing Xu|arXiv (Cornell University)|2022. 08. 05.

Topic Modeling인용 수 98

한 줄 요약

BlenderBot 3은 인터넷 접속과 장기 기억을 갖춘 175B 매개변수의 오픈도메인 대화 모델로, 안전 메커니즘을 갖춘 채로 공개 배포되어 유기적 사용자 상호작용으로 인한 지속 학습을 연구합니다.

ABSTRACT

We present BlenderBot 3, a 175B parameter dialogue model capable of open-domain conversation with access to the internet and a long-term memory, and having been trained on a large number of user defined tasks. We release both the model weights and code, and have also deployed the model on a public web page to interact with organic users. This technical report describes how the model was built (architecture, model and training scheme), and details of its deployment, including safety mechanisms. Human evaluations show its superiority to existing open-domain dialogue agents, including its predecessors (Roller et al., 2021; Komeili et al., 2022). Finally, we detail our plan for continual learning using the data collected from deployment, which will also be publicly released. The goal of this research program is thus to enable the community to study ever-improving responsible agents that learn through interaction.

연구 동기 및 목표

BlenderBot 3(BB3)를 인터넷 접속 및 장기 기억을 갖춘 175B 매개변수 대화 모델로 소개한다.
공개적으로 접근 가능한 에이전트를 위한 배치 설계, 사용자 인터페이스 및 안전 메커니즘을 시연한다.
지식 기반 데이터 및 안전 중심 데이터를 포함한 다양한 대화 태스크에 대한 학습 및 미세 조정을 탐구한다.
배포에서 수집된 데이터를 활용한 지속 학습 계획을 제시하여 책임성과 유용성을 향상시킨다.
공개적이고 재현 가능한 지속 학습 연구를 위해 모델 가중치, 코드, 데이터 세트 및 계획을 공개한다.

제안 방법

순차 모듈이 입력 토큰으로 제어되는 모듈형 트랜스포머 아키텍처로 인터넷 검색, 지식 기반화, 기억 생성, 최종 응답 생성을 수행한다.
R2C2 및 OPT 프리트레인 백본 위에 구축된 세 가지 BB3 사이즈(3B, 30B, 175B)로, 다양한 대화 데이터셋에 대한 태스크별 미세 조정을 수행한다.
특수 제어 토큰을 사용하여 모듈을 지정하는 대형 다-task 미세 조정을 통해 QA, 지식 기반화, 태스크 지향 및 안전 관련 대화 데이터셋을 활용한다(표 2 및 관련 텍스트 참조).
배포 시 안전 출력을 필터링하기 위해 별도의 안전 분류기와 키워드 기반 안전장치를 추가한다.
재현 가능한 지속 학습 연구를 가능하게 하는 웹 UI, 피드백 메커니즘 및 데이터 공유 조건을 갖춘 공개 배포.
실제 배치 인터랙션 및 업데이트된 모델 스냅샷의 공개 계획과 함께 인간 피드백(FITS) 학습 및 감독자 스타일의 안전 가이드에 관한 보조 연구를 포함한다.

실험 결과

연구 질문

RQ1인터넷 접속이 가능한 대형 오픈 도메인 대화 모델을 어떻게 다양한 태스크에서 견고하게 학습시킬 수 있는가?
RQ2자연스러운 사용자 상호작용에서의 책임 있는 지속 학습을 위한 배치 및 안전 메커니즘은 무엇인가?
RQ3배포로부터의 지속 학습이 시간에 따라 유용성과 안전성을 얼마나 향상시킬 수 있는가?
RQ4강건하고 확장 가능한 지속적 개선을 지지하는 데이터, 피드백 유형 및 학습 아키텍처는 무엇인가?
RQ5BB3가 이전 BlenderBot 버전과 오픈 도메인 챗봇에 대해 공개 벤치마크 및 실제 사용에서 어떻게 비교되는가?

주요 결과

BB3는 정성적 평가에서 기존에 공개되어 있는 챗봇 및 BlenderBot 선행 모델들보다 우수한 성과를 보인다.
저자들은 재현 가능한 연구를 가능하게 하기 위해 모델 가중치, 코드, 모델 카드 및 대화 데이터세트를 공개한다.
별도의 안전 분류기와 런타임 검사의 다층 안전 전략이 안전하지 않은 생성물을 줄이는 데 기여한다.
사용자 인터페이스를 포함해 내부 의사결정 단계와 장기 기억 상태를 사용자에게 노출하는 포괄적 배치 설계를 제시한다.
유기적 상호작용을 통한 초기 배치 경험과 함께 배포 데이터를 활용한 지속 학습 계획이 보고된다.
동반 연구(FITS 및 Director 접근법)는 인간 피드백을 활용한 지속 학습 방법을 제시한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.