QUICK REVIEW

[논문 리뷰] Automated Text Summarization Base on Lexicales Chain and graph Using of WordNet and Wikipedia Knowledge Base

Mohsen Pourvali, Mohammad Saniee Abadeh|arXiv (Cornell University)|2012. 03. 15.

Topic Modeling참고 문헌 14인용 수 25

한 줄 요약

이 논문은 어휘 사슬, WordNet, 위키백과를 활용하여 문장 중요도 검출을 향상시키는 다중 문서 요약 접근법을 제안한다. 단어의 의미를 해석하고, 어휘 사슬을 구성 및 정리하며, 주제를 탐지하고 이를 바탕으로 텍스트를 분할함으로써, DUC01 및 DUC02 벤치마크에서 최신 기술을 능가하는 요약 성능 향상을 달성한다.

ABSTRACT

The technology of automatic document summarization is maturing and may provide a solution to the information overload problem. Nowadays, document summarization plays an important role in information retrieval. With a large volume of documents, presenting the user with a summary of each document greatly facilitates the task of finding the desired documents. Document summarization is a process of automatically creating a compressed version of a given document that provides useful information to users, and multi-document summarization is to produce a summary delivering the majority of information content from a set of documents about an explicit or implicit main topic. The lexical cohesion structure of the text can be exploited to determine the importance of a sentence/phrase. Lexical chains are useful tools to analyze the lexical cohesion structure in a text .In this paper we consider the effect of the use of lexical cohesion features in Summarization, And presenting a algorithm base on the knowledge base. Ours algorithm at first find the correct sense of any word, Then constructs the lexical chains, remove Lexical chains that less score than other, detects topics roughly from lexical chains, segments the text with respect to the topics and selects the most important sentences. The experimental results on an open benchmark datasets from DUC01 and DUC02 show that our proposed approach can improve the performance compared to sate-of-the-art summarization approaches.

연구 동기 및 목표

정보 과부하 문제를 해결하기 위해 다중 문서 요약을 자동화하는 것.
어휘 유사성인 어휘 사슬을 활용하여 요약 정확도를 향상시키는 것.
WordNet과 위키백과와 같은 외부 지식을 통합하여 더 나은 의미 이해를 도모하는 것.
어휘 사슬을 기반으로 주제를 탐지하고 이를 바탕으로 텍스트를 주제별로 분할하여 문장 선택을 향상시키는 것.
표준 DUC 벤치마크에서 접근법을 평가하고 기존 방법들에 비해 열등하지 않음을 입증하는 것.

제안 방법

정확한 어휘 사슬 형성을 보장하기 위해 WordNet을 활용해 단어의 의미를 해석하는 것.
WordNet과 위키백과의 의미 유사도를 기반으로 문장 간 관련 단어들을 연결하여 어휘 사슬을 구성하는 것.
전체 텍스트의 유사성에 기여도가 낮은 어휘 사슬을 기반으로 제거하는 것.
어휘 사슬의 분포와 빈도를 분석하여 주요 주제를 탐지하는 것.
어휘 사슬 클러스터를 기반으로 텍스트를 주제별 섹션으로 분할하는 것.
사슬 점수와 문장 위치를 조합하여 각 섹션에서 가장 정보량이 많은 문장을 선택하는 것.

실험 결과

연구 질문

RQ1WordNet과 위키백과에서 유도된 어휘 사슬이 다중 문서 요약에서 주목할 만한 내용의 검출에 기여하는가?
RQ2외부 지식 기반의 통합이 문장 중요도 추정 정확도를 어떻게 향상시키는가?
RQ3어휘 사슬을 기반으로 한 주제 인식 기반 분할이 요약의 통일성과 정보량을 어느 정도 향상시키는가?
RQ4제안된 방법이 표준 벤치마크에서 최신 기술 요약 시스템을 능가하는가?
RQ5의미 해석이 어휘 사슬 형성과 요약 품질 향상에 얼마나 효과적인가?

주요 결과

제안된 방법은 기존 최신 기술 대비 DUC01 및 DUC02 벤치마크 데이터셋에서 향상된 성능을 달성하였다.
WordNet과 위키백과의 지식 통합은 어휘 사슬 형성 정확도와 의미적 유사성 향상에 크게 기여하였다.
어휘 사슬 기반 주제 탐지로 인해 문서가 주제 단위로 효과적으로 분할되어 요약의 관련성 향상이 이루어졌다.
저점수 어휘 사슬의 정리가 주목할 만한 내용에 집중하는 데 기여하여 중복을 줄였다.
의미 해석 통합으로 어휘 관계의 정확한 식별이 가능해져 종합적인 요약 품질 향상이 이루어졌다.
특히 의미의 다양성과 동의어 처리에 있어 다중 문서 요약 작업에서 강건성과 확장성을 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.