Skip to main content
QUICK REVIEW

[論文レビュー] Automated Text Summarization Base on Lexicales Chain and graph Using of WordNet and Wikipedia Knowledge Base

Mohsen Pourvali, Mohammad Saniee Abadeh|arXiv (Cornell University)|Mar 15, 2012
Topic Modeling参考文献 14被引用数 25
ひとこと要約

本稿では、語彙的鎖(lexical chains)、WordNet、Wikipedia を活用して文の重要度検出を向上させる、複数文書要約手法を提案する。語の意味のあいまいさを解消し、語彙的鎖を構築・ pruning し、トピックを検出・文書をそれに応じてセグメント化することで、DUC01 および DUC02 ベンチマークにおいて、最先端の手法を上回る要約性能を実現する。

ABSTRACT

The technology of automatic document summarization is maturing and may provide a solution to the information overload problem. Nowadays, document summarization plays an important role in information retrieval. With a large volume of documents, presenting the user with a summary of each document greatly facilitates the task of finding the desired documents. Document summarization is a process of automatically creating a compressed version of a given document that provides useful information to users, and multi-document summarization is to produce a summary delivering the majority of information content from a set of documents about an explicit or implicit main topic. The lexical cohesion structure of the text can be exploited to determine the importance of a sentence/phrase. Lexical chains are useful tools to analyze the lexical cohesion structure in a text .In this paper we consider the effect of the use of lexical cohesion features in Summarization, And presenting a algorithm base on the knowledge base. Ours algorithm at first find the correct sense of any word, Then constructs the lexical chains, remove Lexical chains that less score than other, detects topics roughly from lexical chains, segments the text with respect to the topics and selects the most important sentences. The experimental results on an open benchmark datasets from DUC01 and DUC02 show that our proposed approach can improve the performance compared to sate-of-the-art summarization approaches.

研究の動機と目的

  • 情報過多を軽減するため、複数文書要約の自動化を目的とする。
  • 語彙的結束性を語彙的鎖を通じて活用することで、要約の正確性を向上させる。
  • WordNet や Wikipedia からの外部知識を統合し、より良い意味的理解を実現する。
  • 語彙的鎖からのトピック検出とそれに基づく文書セグメンテーションにより、文の選択を向上させる。
  • 標準的な DUC ベンチマーク上でアプローチを評価し、既存手法を上回ることを示す。

提案手法

  • WordNet を用いて語の意味のあいまいさを解消し、正確な語彙的鎖の構築を保証する。
  • WordNet および Wikipedia からの意味的類似度を用いて、文間をつなげる関連語を用いて語彙的鎖を構築する。
  • 全体の文書結束性への寄与度に基づき、スコアが低い語彙的鎖をフィルタリングする。
  • 語彙的鎖の出現頻度と分布を分析することで、支配的トピックを検出する。
  • 語彙的鎖のクラスタに基づき、文書をトピック固有のセクションにセグメント化する。
  • 鎖スコアと文の位置を組み合わせて、各セグメントから最も情報量の多い文を選択する。

実験結果

リサーチクエスチョン

  • RQ1WordNet および Wikipedia から導出される語彙的鎖は、複数文書要約における顕著な内容の検出を改善できるか?
  • RQ2外部知識ベースの統合は、文の重要度推定の正確性をどのように向上させるか?
  • RQ3語彙的鎖に基づくトピックに配慮したセグメンテーションは、要約の整合性と情報量をどの程度向上させるか?
  • RQ4提案手法は、標準ベンチマークにおいて最先端の要約システムを上回るか?
  • RQ5意味のあいまいさ解消は、語彙的鎖の構築と要約品質の向上にどの程度効果をもたらすか?

主な発見

  • 提案手法は、既存の最先端手法と比較して、DUC01 および DUC02 ベンチマークデータセットで改善された性能を達成した。
  • WordNet および Wikipedia の知識統合により、語彙的鎖の構築精度と意味的結束性が顕著に向上した。
  • 語彙的鎖に基づくトピック検出により、文書が主題単位に効果的にセグメント化され、要約の関連性が向上した。
  • 低スコアの語彙的鎖の pruning により、顕著な内容に焦点が向かうようになり、重複が減少した。
  • 意味のあいまいさ解消の統合により、語彙的関係の正確な同定が可能になり、全体の要約品質が向上した。
  • 特に意味のばらつきや同義語の処理において、本手法は多文書要約タスクにおいて頑健でスケーラブルな性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。