Skip to main content
QUICK REVIEW

[논문 리뷰] Learning to Select Knowledge for Response Generation in Dialog Systems

Rongzhong Lian, Min Xie|arXiv (Cornell University)|2019. 02. 13.
Topic Modeling참고 문헌 21인용 수 23
한 줄 요약

이 논문은 대화 시스템에서 응답 생성을 향상시키기 위해 지식에 대한 이전(발화 전용) 및 이후(발화와 응답 모두) 분포를 함께 학습하는 새로운 엔드 투 엔드 신경망 모델을 제안한다. 학습 중에 이러한 분포 간의 KL 발산을 최소화함으로써, 추론 시 참값 응답이 없어도 적절한 지식을 선택할 수 있도록 학습되며, Persona-Chat과 Wizard-of-Wikipedia에서 자동 평가 및 인간 평가 모두에서 기존의 기준 모델들을 크게 능가한다.

ABSTRACT

End-to-end neural models for intelligent dialogue systems suffer from the problem of generating uninformative responses. Various methods were proposed to generate more informative responses by leveraging external knowledge. However, few previous work has focused on selecting appropriate knowledge in the learning process. The inappropriate selection of knowledge could prohibit the model from learning to make full use of the knowledge. Motivated by this, we propose an end-to-end neural model which employs a novel knowledge selection mechanism where both prior and posterior distributions over knowledge are used to facilitate knowledge selection. Specifically, a posterior distribution over knowledge is inferred from both utterances and responses, and it ensures the appropriate selection of knowledge during the training process. Meanwhile, a prior distribution, which is inferred from utterances only, is used to approximate the posterior distribution so that appropriate knowledge can be selected even without responses during the inference process. Compared with the previous work, our model can better incorporate appropriate knowledge in response generation. Experiments on both automatic and human evaluation verify the superiority of our model over previous baselines.

연구 동기 및 목표

  • 기존 엔드 투 엔드 대화 모델이 정보가 부족한 응답을 생성하는 데에 한계가 있다는 점을 해결하기 위해 외부 지식을 통합한다.
  • 학습 중에 응답 가이던스 없이 발화 기반의 이전 분포에만 의존함으로써 발생하는 부적절한 지식 선택 문제를 해결한다.
  • 이전 지식 분포와 이후 지식 분포 간의 괴리(차이)를 해소하여, 참값 응답에 접근할 수 없는 추론 단계에서도 정확한 지식 선택이 가능하게 한다.
  • 진짜 응답에서 사용된 지식의 분포를 명시적으로 모델링하여 응답의 관련성과 정보성 향상을 도모한다.

제안 방법

  • 모델은 학습 중에 입력 발화와 참값 응답을 기반으로 지식에 대한 이후 분포를 추론한다.
  • 이전 분포는 발화만으로 학습되며, 이는 추론 시 응답 정보 없이도 지식 선택이 가능하게 한다.
  • 이전 분포와 이후 분포 간의 KL 발산을 최소화함으로써 이전 분포가 이후 분포를 잘 근사하도록 하여 효과적인 지식 선택을 유도한다.
  • 지식 선택은 이전 분포에서 미분 가능한 샘플링을 통해 수행되며, 이는 응답 생성 네트워크와 연결 또는 원소별 병합을 통해 융합된다.
  • 이 프레임워크는 시퀀스 투 시퀀스 아키텍처에 통합되어 Persona-Chat과 Wizard-of-Wikipedia 데이터셋에서 평가된다.
  • 또한 최신 기술 수준의 Transformer 기반 모델인 LIC에 적용하여 지식 검색 메트릭스에서의 성능 향상 여부를 추가로 검증하였다.

실험 결과

연구 질문

  • RQ1이전 지식 분포와 이후 지식 분포를 함께 모델링하면 대화 시스템에서 지식 선택 성능이 향상되는가?
  • RQ2이전 지식 분포와 이후 지식 분포 간의 괴리가 지식 선택과 응답 생성에 어떤 영향을 미치는가?
  • RQ3오직 이전 정보만을 사용해 이후 분포를 근사하도록 학습한 모델가 추론 단계에서 효과적으로 일반화될 수 있는가?
  • RQ4이전 및 이후 분포의 공동 학습이 더 정보가 풍부하고 관련성이 높은 응답 생성에 기여하는가?

주요 결과

  • 제안된 모델은 기준 모델 대비 Persona-Chat 데이터셋에서 지식 검색 F1 스코어를 3배로 향상시켰다.
  • 인간 평가 결과, 이 모델이 생성한 응답은 기준 모델 대비 정보량이 훨씬 많고 맥락적으로 더 관련성이 높았다.
  • MemNet과 LIC과 같은 강력한 기준 모델들보다도 특히 정확한 지식 선택과 그 지식의 의미 있는 응답 통합에서 뛰어난 성능을 보였다.
  • Wizard-of-Wikipedia 데이터셋에서는 응답의 통일성과 지식 기반성, 관련성 및 다양성이 향상되어 더 우아한 응답을 생성하였다.
  • LIC Transformer 모델에 지식 선택 메커니즘이 통합되면서 퍼즐리티 및 지식 검색 메트릭스에서 뚜렷한 성능 향상이 이루어졌다.
  • 제거 실험 결과, 이전 및 이후 분포의 공동 사용이 필수적임을 확인하였으며, 둘 중 하나를 제거하면 성능이 떨어졌다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.