[논문 리뷰] Recipes for Safety in Open-domain Chatbots
이 논문은 인간-및모델 루프 프레임워크와 오픈 도메인 챗봇의 독성 행동을 줄이기 위한 baked-in safety 접근법을 제시하고, 다양한 안전 전략을 비교하며 안전성 대 몰입도(engagingness)를 평가한다. 또한 Bot-Adversarial Dialogue Safety (BAD)를 도입하고 기존 방법에 대한 효과를 분석한다.
Models trained on large unlabeled corpora of human interactions will learn patterns and mimic behaviors therein, which include offensive or otherwise toxic behavior and unwanted biases. We investigate a variety of methods to mitigate these issues in the context of open-domain generative dialogue models. We introduce a new human-and-model-in-the-loop framework for both training safer models and for evaluating them, as well as a novel method to distill safety considerations inside generative models without the use of an external classifier at deployment time. We conduct experiments comparing these methods and find our new techniques are (i) safer than existing models as measured by automatic and human evaluations while (ii) maintaining usability metrics such as engagingness relative to the state of the art. We then discuss the limitations of this work by analyzing failure cases of our models.
연구 동기 및 목표
- 대형 인간 상호작용 말뭉치로 훈련된 오픈 도메인 대화 모델에서 공격적, 편향적, 안전하지 않은 행동을 완화하는 방법을 조사한다.
- 두 단계 모델과 엔드투엔드 접근법에서 unsafe utterance 탐지, safe utterance 생성, 민감 주제 회피, 성 편향 완화를 비교한다.
- 새로운 안전 방법(Bot-Adversarial Dialogue Safety 및 Baking-in Safety)을 도입하고 안전성과 몰입도 간의 트레이드오프를 평가한다.
제안 방법
- Unsafe Utterance Detection의 평가 및 두 단계 모델에서의 배치(안전 분류기를 레이어로서).
- 데이터 전처리, 안전 빔 차단, 안전성 및 스타일 제어, 그리고 baking-in safety를 포함한 Safe Utterance Generation 기법을 개발한다.
- 민감 주제 회피와 성 편향 완화를 보완적 안전 전략으로 탐구한다.
- Bot-Adversarial Dialogue Safety (BAD) 데이터 수집을 도입하고 사람들이 악의적으로 봇을 탐지하도록 자극하여 unsafe 응답을 유도해 분류기를 개선한다.
- 안전 고려를 생성 모델에 증류하여 배포 시 외부 안전 분류기가 더 이상 필요하지 않게 한다.
실험 결과
연구 질문
- RQ1다중 턴의 오픈 도메인 대화에서 안전 분류기가 unsafe 콘텐츠를 견고하게 탐지할 수 있는가?
- RQ2엔드투엔드 Safe-Generation 접근법( baked-in safety 포함)이 실세계의 참여도 및 안전성 지표에서 두 단계의 안전 파이프라인을 능가하는가?
- RQ3민감 주제 회피 및 성 편향 완화가 안전성과 몰입도에 미치는 영향은 무엇인가?
- RQ4Bot-Adversarial Dialogue Safety가 기존 분류기 대비 안전 모델의 강건성을 어떻게 향상시키는가?
주요 결과
- 두 단계의 안전 모델이 탐지기와 함께 기존 안전 분류기보다 안전성에서 우수하고 몰입도를 유지한다.
- 안전이 생성기에 주입되는 baked-in safety 모델은 테스트 시 외부 분류기의 필요를 줄이고 몰입도 유지와 함께 안전성을 향상시킨다.
- 데이터 베이스팅 및 안전 인지 학습은 모델이 악성 사전 학습 데이터에 노출되더라도 안전한 출력을 완화할 수 있다.
- BOT-Adversarial Dialogue Safety 데이터 수집은 대량의 적대적 대화 데이터를 생성하여 더 강건한 안전 분류기를 학습하도록 한다(예: 5k conversations 및 ~70k utterances).
- 데이터 필터링 및 제어 기반 전략은 몰입도에 큰 악영향 없이 안전성과 스타일에 영향을 줄 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.