QUICK REVIEW

[論文レビュー] Semantic Similarity Based on Corpus Statistics and Lexical Taxonomy

Jay J. Jiang, David W. Conrath|ArXiv.org|Sep 20, 1997

Topic Modeling参考文献 19被引用数 2,224

ひとこと要約

統合エンティティとして、WordNetベースの分類法とコーパス統計を新しいエッジ強度と情報量フレームワークに統合する意味的類似性指標を提案し、従来モデルより人間の判断との相関が高い。

ABSTRACT

This paper presents a new approach for measuring semantic similarity/distance between words and concepts. It combines a lexical taxonomy structure with corpus statistical information so that the semantic distance between nodes in the semantic space constructed by the taxonomy can be better quantified with the computational evidence derived from a distributional analysis of corpus data. Specifically, the proposed measure is a combined approach that inherits the edge-based approach of the edge counting scheme, which is then enhanced by the node-based approach of the information content calculation. When tested on a common data set of word pair similarity ratings, the proposed approach outperforms other computational models. It gives the highest correlation value (r = 0.828) with a benchmark based on human similarity judgements, whereas an upper bound (r = 0.885) is observed when human subjects replicate the same task.

研究の動機と目的

ポリセミーとタクソノミー構造が存在する状況で意味的類似性を測定する難しさを動機づける。
エッジベースとノードベース（情報量）の両方のアプローチを活用する結合モデルを開発する。
情報量計算時のデータスパース性を扱うためにコーパス由来の確率をエッジ強度に組み込み、意味的距離を計算する。
WordNetの名詞語義を用いた人間の意味的類似判断とモデルを評価する。
パラメータの感度を評価し、類似性測定におけるタクソノミー関連バイアスについて議論する。

提案手法

概念の情報量（IC）を定義し、最下共支配概念（最小共通祖先）を介して概念間の類似性を計算する（式1–式3）。
LSとしてエッジ強度を子/親の対数尤度の負としてモデル化し、これをICの差と関係づける（式12）。
深さ、局所密度、リンクタイプを取り入れた結合エッジ重みを計算する（式13）。
概念間の最短経路上のエッジ重みの和として意味的距離を導出する（式14）。
距離を人間判断との比較のための距離-類似性変換へと特化する（式10）。
IC計算時のデータスパースを扱うためにGood-Turing平滑化を用いてSemCorから概念頻度を推定する。

実験結果

リサーチクエスチョン

RQ1エッジベースの階層的距離と情報量ベースのノード類似性を統合することで、人間の意味判断との整合性を高められるか。
RQ2密度、深さ、リンクタイプの因子は提案された結合類似度にどのように影響するか。
RQ3結合モデルは標準の名詞ペアデータセットでResnik（1995）のノードベースおよびエッジベースの方法を上回るか。
RQ4α（深さの影響）およびβ（密度の影響）のパラメータ設定に対する感度はどの程度か。

主な発見

Similarity Method	Correlation (r)	Human Judgement (replication)
Node Based (Information Content)	0.7941
Edge Based (Edge Counting)	0.6004
Combined Distance Model	0.8282

結合距離モデルは人間判断との相関が0.828と高く、ノードベース（0.794）およびエッジベース（0.600）を上回る。
最適なパラメータ設定はα＝0.5、β＝0.3であり、βは密度が目立つが支配的ではない影響を示す。
Good-Turing平滑化を用いたSemCorの意味的頻度推定は、語彙頻度のみよりも概念確率をより正確に提供する。
誤分類されたファーネス-ストーブのペアを除去すると、すべてのモデルの相関が大幅に改善される（例：結合モデルで0.8654から等に改善? Table 4の本文に注意）。問題となるペアを除外することで顕著な利得が得られる。
情報量を意思決定因子としてエッジ強度と組み合わせることで、ResnikのICアプローチより有意な利得を示すことを示している。
提案された重み付けスキームの下でこの手法は有効な指標であり、計量特性と整合している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。