Skip to main content
QUICK REVIEW

[논문 리뷰] Question Embeddings Based on Shannon Entropy - Solving intent classification task in goal-oriented dialogue system

Aleksandr Perevalov, Даниил Сергеевич Курушин|arXiv (Cornell University)|2019. 03. 04.
Topic Modeling참고 문헌 8인용 수 2
한 줄 요약

이 논문은 저자원, 도메인 특화 대화 시스템에서의 의도 분류 성능을 향상시키기 위해 샤논 엔트로피 기반의 새로운 질문 임베딩 방법을 제안한다. 데이터셋 내 질문들 내에서 단어의 엔트로피 분포를 계산하고, 잘라낸 특이값 분해(Truncated SVD)를 적용함으로써, 기존의 TF-IDF, word2vec, FastText보다 우수한 성능을 보이는 압축된 밀집 벡터를 생성한다. 이는 레이블이 1,300개 뿐인 학생 질문 데이터셋에서 F1 스코어가 2% 높아지는 데 기여한다.

ABSTRACT

Question-answering systems and voice assistants are becoming major part of client service departments of many organizations, helping them to reduce the labor costs of staff. In many such systems, there is always natural language understanding module that solves intent classification task. This task is complicated because of its case-dependency - every subject area has its own semantic kernel. The state of art approaches for intent classification are different machine learning and deep learning methods that use text vector representations as input. The basic vector representation models such as Bag of words and TF-IDF generate sparse matrixes, which are becoming very big as the amount of input data grows. Modern methods such as word2vec and FastText use neural networks to evaluate word embeddings with fixed dimension size. As we are developing a question-answering system for students and enrollees of the Perm National Research Polytechnic University, we have faced the problem of user's intent detection. The subject area of our system is very specific, that is why there is a lack of training data. This aspect makes intent classification task more challenging for using state of the art deep learning methods. In this paper, we propose an approach of the questions embeddings representation based on calculation of Shannon entropy.The goal of the approach is to produce low dimensional question vectors as neural approaches do and to outperform related methods, described above in condition of small dataset. We evaluate and compare our model with existing ones using logistic regression and dataset that contains questions asked by students and enrollees. The data is labeled into six classes. Experimental comparison of proposed approach and other models revealed that proposed model performed better in the given task.

연구 동기 및 목표

  • 레이블이 제한된 저자원, 도메인 특화 대화 시스템에서의 의도 분류 과제를 해결하기 위해.
  • 딥러닝 모델의 데이터 집약적인 성향을 피하는 밀집형, 저차원 텍스트 표현 방법을 개발하기 위해.
  • 데이터 부족 상황에서 기존의(예: TF-IDF) 및 현대적인(예: word2vec, FastText) 임베딩 방법보다 의도 분류 성능을 뛰어나게 하기 위해.
  • 차원 수를 줄이면서도 의미적 정확성을 유지하는 확장성 있고 효율적인 벡터 표현을 만들기 위해.

제안 방법

  • 해당 방법은 데이터셋 내 모든 질문들에서 각 단어의 분포에 대한 샤논 엔트로피를 계산한다.
  • 엔트로피 값에 기반하여 단어 벡터를 구성함으로써, 신경망을 사용하지 않고도 문맥적 의미 패턴을 포착한다.
  • 엔트로피 기반 행렬의 차원을 200차원으로 줄이기 위해 잘라낸 특이값 분해(Truncated SVD)를 적용한다.
  • 각 질문 내의 엔트로피 기반 단어 벡터들을 평균하여 질문 임베딩을 형성한다.
  • 최종 벡터 표현은 일对다 전략을 사용한 로지스틱 회귀 분류기의 입력으로 사용된다.
  • 5겹 교차검증과 F1 스코어를 주요 평가 지표로 사용하여 방법을 평가한다.

실험 결과

연구 질문

  • RQ1소규모 도메인 특화 데이터셋에서 샤논 엔트로피 기반 임베딩 방법이 TF-IDF, word2vec, FastText보다 더 높은 의도 분류 성능을 달성할 수 있는가?
  • RQ2TF-IDF에 비해 차원 수를 크게 줄였을 때, 엔트로피 기반 방법은 높은 성능을 유지하는가?
  • RQ3균형 잡힌 클래스를 가진 일반 목적 데이터셋(예: IMDB 리뷰)에서 이 방법은 어떻게 성능을 보이는가?
  • RQ4이 방법은 저자원 환경에서의 클래스 불균형 문제를 효과적으로 다룰 수 있는가?
  • RQ5엔트로피 기반 표현은 다양한 NLP 작업 간에 강건하고 일반화 가능한가?

주요 결과

  • 제안된 샤논 엔트로피 방법은 학생 질문 데이터셋에서 F1 스코어 0.74를 기록하여, TF-IDF(0.72), word2vec(0.67), FastText(0.63)를 모두 초월했다.
  • 이 방법은 TF-IDF보다 2% 높은 F1 스코어를 기록했으며, 동일한 데이터셋에서 word2vec보다 7% 향상된 성능을 보였다.
  • FastText는 데이터 부족으로 인해 가장 낮은 F1 스코어 0.63을 기록했다.
  • IMDB 데이터셋에서는 TF-IDF의 F1 스코어 0.90을 동일하게 유지했지만, 차원 수가 훨씬 낮아진 상태(200 대비 8,623)에서 성능을 냈다.
  • 엔트로피 기반 표현이 계산 비용을 줄이며 의미 정보를 효율적으로 유지할 수 있음을 입증했다.
  • PRIV 클래스는 클래스 불균형으로 인해 잘 분류되지 않아, 향후 연구에서 분류 체계 재설계가 필요할 것으로 제안된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.