QUICK REVIEW

[논문 리뷰] Incorporating Commonsense Knowledge into Abstractive Dialogue Summarization via Heterogeneous Graph Networks

Xiachong Feng, Xiaocheng Feng|arXiv (Cornell University)|2020. 10. 20.

Topic Modeling참고 문헌 30인용 수 23

한 줄 요약

이 논문은 대화 요약의 질을 향상시키기 위해 유저 발화, 발화자, 그리고 ConceptNet로부터의 공통 지식을 통합한 통합 이종 그래프를 구축하는 대화 이종 그래프 네트워크(D-HGN)를 제안한다. 이 요소들을 전용 메시지 융합 및 노드 임베딩 모듈을 갖춘 별도의 노드 유형으로 모델링함으로써, D-HGN는 SAMSum에서 최신 기술 수준의 성능을 달성하고, ADSC와 같이 새로운 도메인에도 효과적으로 일반화됨을 보여주며, 대화 이해에 있어 구조화된 공통 지식의 가치를 입증한다.

ABSTRACT

Abstractive dialogue summarization is the task of capturing the highlights of a dialogue and rewriting them into a concise version. In this paper, we present a novel multi-speaker dialogue summarizer to demonstrate how large-scale commonsense knowledge can facilitate dialogue understanding and summary generation. In detail, we consider utterance and commonsense knowledge as two different types of data and design a Dialogue Heterogeneous Graph Network (D-HGN) for modeling both information. Meanwhile, we also add speakers as heterogeneous nodes to facilitate information flow. Experimental results on the SAMSum dataset show that our model can outperform various methods. We also conduct zero-shot setting experiments on the Argumentative Dialogue Summary Corpus, the results show that our model can better generalized to the new domain.

연구 동기 및 목표

기존 대화 요약 모델이 공통 지식을 忽시하는 한계를 해결함으로써 대화 맥락의 깊은 이해를 방해한다는 점을 다루기 위해.
대규모 공통 지식을 활용해 암묵적인 의도를 포착하고 비연속적인 발화 간의 다리를 놓는 데서 개괄적 요약 향상의 잠재력을 탐색하기 위해.
발화, 발화자, 지식을 이종 그래프 내의 별도의 노드로 모델링하여 정보 흐름과 표현 학습을 향상시키기 위해.
예를 들어 논쟁적 대화와 같은 새로운 도메인에서 미세조정 없이도 일반화 능력을 평가하기 위해.
표현 학습을 향상시키기 위해 전용 모듈인 메시지 융합 및 노드 임베딩을 설계하기 위해.

제안 방법

발화, 발화자, ConceptNet의 공통 지식을 포함하는 세 가지 노드 유형을 가진 이종 대화 그래프(HDG)를 구축한다.
의미적 유사도 및 관계 매칭을 통해 발화를 관련 지식 노드와 연결하는 이원 그래프 구축 과정을 사용한다.
발화자 노드를 이종 엔티티로 도입하여 발화자별 맥락을 모델링하고 정보 전파를 향상시킨다.
발화자 및 지식 이웃으로부터 온 메시지를 융합하는 메시지 융합 모듈을 구현하여 발화 표현을 풍부화시킨다.
발화 노드에 위치 및 구조적 인식을 주입하는 노드 임베딩 모듈을 적용하여 대화 순서와 맥락을 유지한다.
요약 생성을 위해 교차 어텐션을 사용하는 시퀀스-투-시퀀스 프레임워크를 기반으로 D-HGN 모델을 엔드 투 엔드로 훈련시킨다.

실험 결과

연구 질문

RQ1ConceptNet로부터의 공통 지식을 통합하면 대화 요약의 품질과 개괄적 성향이 향상되는가?
RQ2발화자를 이종 노드로 모델링할 경우 대화 표현 및 요약 성능에 어떤 영향을 미치는가?
RQ3이종 그래프 구조를 사용할 경우 동종 그래프 접근 방식보다 더 나은 정보 통합이 이루어지는가?
RQ4공통 지식을 사용할 경우, 미세조정 없이도 새로운 도메인으로 일반화할 수 있는가?
RQ5모델의 어텐션 가중치는 핵심 지식과 대화 맥락을 어떻게 이해하고 있는가?

주요 결과

SAMSum 데이터셋에서 D-HGN는 모든 베이스라인 모델 중 가장 높은 ROUGE 점수를 기록하였으며, ROUGE-L F1 점수는 24.78로 다음으로 우수한 모델보다 1.25점 높았다.
제거 실험 결과, 공통 지식을 제거한 D-HGN(w/o knowledge)의 경우 개괄성 지표가 0.78점 감소하여, 더 깊이 있고 의미 있는 요약 생성에 있어 공통 지식의 역할을 확인하였다.
발화자 노드를 제거한 D-HGN(w/o speaker)의 경우 정확도가 1.12점 감소하여, 이종성 모델링의 중요성을 입증하였다.
논쟁적 대화 요약 코퍼스에서의 제로샷 평가에서 D-HGN는 22.75의 최고 ROUGE-L 점수를 기록하여, 심지어 공통 지식을 통합한 동종 그래프 모델보다도 뛰어난 성능을 보였다.
t-SNE 시각화 결과, D-HGN가 D-GAT보다 더 분명하고 구분 가능한 노드 표현을 학습하는 것으로 확인되어 더 나은 의미적 분리가 이루어졌음을 시사하였다.
사례 연구 결과, D-HGN가 '생일 party'와 같은 관련 지식 노드를 정확히 주시하여 더 공식적이고 정보가 풍부한 요약을 생성함을 확인하였으며, '케이크'와 같은 핵심 정보도 포함하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.