Skip to main content
QUICK REVIEW

[논문 리뷰] Deep Learning Based Chatbot Models

Richárd Csáky|arXiv (Cornell University)|2019. 08. 23.
Topic Modeling참고 문헌 114인용 수 39
한 줄 요약

이 논문은 대화 로봇에 대한 최근 딥 러닝 접근법을 조사하고, 인코더-디코더/트랜스포머 기반 방법을 분석하며, 분위기와 페르소나와 같은 사전 정보를 대화 생성을 개선에 도입하는 것을 제안한다.

ABSTRACT

A conversational agent (chatbot) is a piece of software that is able to communicate with humans using natural language. Modeling conversation is an important task in natural language processing and artificial intelligence. While chatbots can be used for various tasks, in general they have to understand users' utterances and provide responses that are relevant to the problem at hand. In my work, I conduct an in-depth survey of recent literature, examining over 70 publications related to chatbots published in the last 3 years. Then, I proceed to make the argument that the very nature of the general conversation domain demands approaches that are different from current state-of-of-the-art architectures. Based on several examples from the literature I show why current chatbot models fail to take into account enough priors when generating responses and how this affects the quality of the conversation. In the case of chatbots, these priors can be outside sources of information that the conversation is conditioned on like the persona or mood of the conversers. In addition to presenting the reasons behind this problem, I propose several ideas on how it could be remedied. The next section focuses on adapting the very recent Transformer model to the chatbot domain, which is currently state-of-the-art in neural machine translation. I first present experiments with the vanilla model, using conversations extracted from the Cornell Movie-Dialog Corpus. Secondly, I augment the model with some of my ideas regarding the issues of encoder-decoder architectures. More specifically, I feed additional features into the model like mood or persona together with the raw conversation data. Finally, I conduct a detailed analysis of how the vanilla model performs on conversational data by comparing it to previous chatbot models and how the additional features affect the quality of the generated responses.

연구 동기 및 목표

  • 지난 3년간 챗봇에 관한 70편 이상의 논문을 조사하고 종합한다.
  • 오픈 도메인 대화는 표준 아키텍처를 넘는 사전 지식(priors)이 필요하다고 주장한다.
  • 대화 데이터셋에서 Transformer 기반 챗봇을 실험해 성능을 평가한다.
  • 대답 품질을 향상시키기 위해 분위기, 페르소나 및 기타 사전 지식을 도입하는 아이디어를 제안한다.

제안 방법

  • 인코더-디코더 및 Transformer 모델을 포함한 역사적·현대적 챗봇 문헌을 검토한다.
  • seq2seq 프레임워크에서 데이터 전처리, 단어 임베딩, 어휘 처리를 설명한다.
  • Cornell Movie-Dialog Corpus와 OpenSubtitles 코퍼스에서 Transformer 기반 챗봇을 실험적으로 학습한다.
  • 인코더-디코더 모델에 분위기와 페르소나와 같은 추가 입력을 보강한다.
  • 기본 Transformer 성능을 이전 챗봇 모델과 비교하고 사전 지식의 영향력을 분석한다.

실험 결과

연구 질문

  • RQ1오픈 도메인 대화를 위한 현재 신경망 챗봇 아키텍처의 한계는 무엇인가?
  • RQ2Transformer 기반 아키텍처를 챗봇 환경에 효과적으로 적용할 수 있는가?
  • RQ3분위기 및 페르소나와 같은 사전 지식이 생성된 응답의 품질과 적합성을 향상시키는가?
  • RQ4맥락과 대화 이력이 Transformer 기반 챗봇에 어떤 영향을 미치는가?
  • RQ5지식 베이스와 맥락 정보를 챗봇에 통합하기 위한 효과적인 전략은 무엇인가?

주요 결과

  • Transformer 기반 챗봇은 Cornell 및 OpenSubtitles 코퍼스와 같은 대화 데이터셋에서 학습될 수 있다.
  • 추가 입력(분위기, 페르소나)을 통합하여 응답의 관련성 및 자연스러움을 향상시킬 수 있다.
  • 맥락과 대화 이력은 인코딩에 도전 과제를 제기하며 계층적 또는 기억 중심 전략이 필요하다.
  • 대화 모델의 평가가 여전히 복잡하며 전통적인 지표(BLEU, perplexity)가 항상 인간의 판단과 일치하지 않는다.
  • 본 연구는 학습 설정과 이전 챗봇 모델과의 질적 비교를 다룬다.
  • 향후 연구는 손실 함수 문제, 시간적 조건화, 대화 시스템의 기억 문제를 해결하는 방법을 제시한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.