Skip to main content
QUICK REVIEW

[論文レビュー] Calculating the similarity between words and sentences using a lexical database and corpus statistics

Atish Pawar, Vijay Mago|arXiv (Cornell University)|Feb 15, 2018
Topic Modeling参考文献 18被引用数 63
ひとこと要約

この論文は、WordNetとドメイン特有のコーパス統計を用いて語と文の意味的類似度を計算するエッジベースの手法を提案し、標準ベンチマークで高い相関を達成する(語の Pearson ~0.8753、文の ~0.8794)。

ABSTRACT

Calculating the semantic similarity between sentences is a long dealt problem in the area of natural language processing. The semantic analysis field has a crucial role to play in the research related to the text analytics. The semantic similarity differs as the domain of operation differs. In this paper, we present a methodology which deals with this issue by incorporating semantic similarity and corpus statistics. To calculate the semantic similarity between words and sentences, the proposed method follows an edge-based approach using a lexical database. The methodology can be applied in a variety of domains. The methodology has been tested on both benchmark standards and mean human similarity dataset. When tested on these two datasets, it gives highest correlation value for both word and sentence similarity outperforming other similar models. For word similarity, we obtained Pearson correlation coefficient of 0.8753 and for sentence similarity, the correlation obtained is 0.8794.

研究の動機と目的

  • 語彙データベースの構造とコーパス統計を組み合わせて意味的類似度測定を改善する。
  • 類義語の曖昧さを解消して類似度計算の精度を向上させる。
  • 語レベルの類似度と文の構造を統合して頑健な文の類似度指標を形成する。
  • 情報量とコーパス駆動統計を用いてドメイン適応性を示す。

提案手法

  • WordNetを用いて最短経路距離と階層情報を指数減衰関数で扱い語の類似度を計算する。
  • 語意解消(最大類似度)を適用して比較のための適切なシンセットを選択する。
  • 階層的距離のスケーリングにより下位-上位概念を含むハイポニミー/ハイペルミニーを組み込む(双曲関数g(h)を用いる)。
  • 任意でドメインコーパスからの語情報量を取り入れ、測定をドメイン特異的にする。
  • 文を動的な意味ベクトルとして形成し、文間で語を整列させて類似度のベクトルの大きさを計算する。
  • ベンチマークの類似度値に基づくゼータ正規化を導入して最終的な文の類似度をスケーリングする。
  • 必要に応じて語順の類似度成分を追加し、統語的配置を考慮する。

実験結果

リサーチクエスチョン

  • RQ1WordNetベースのエッジ距離をコーパス統計と組み合わせて語の類似度をより正確に測れるか。
  • RQ2動的でドメイン適応された意味表現は固定語彙アプローチを超えて文の類似度を改善できるか。
  • RQ3語義解消がこの枠組みの語と文の類似度の精度にどのような影響を与えるか。
  • RQ4提案手法は Rubenstein & Goodenough のベンチマークおよび平均的な人間の類似度データセットに対してどの程度性能を示すか。

主な発見

  • Rubenstein & Goodenough ベンチマークで語の類似度が Pearson 0.8753 の相関を達成。
  • 同じベンチマークで文の類似度が相関 0.8794 を達成。
  • 本手法は標準ベンチマークおよび平均的人間の類似度データセットにおいて、いくつかの従来モデルを上回る。
  • ドメイン特定のコーパス統計と統合することで手法の頑健性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。