QUICK REVIEW

[論文レビュー] Normalized Web Distance and Word Similarity

Rudi Cilibrasi, Paul Vitányi|ArXiv.org|May 25, 2009

Advanced Text Analysis Techniques参考文献 27被引用数 26

ひとこと要約

本稿では、集計されたウェブ検索統計を利用することで、圧縮を伴わない実用的手法として、語の類似度を測定するための正規化ウェブ距離（NWD）を導入している。検索エンジンからの検索ヒット数を情報理論的距離の近似として用いることで、NWDは0から1の間の類似度スコアを達成し、人間がアノテートした意味的整合性（例：WordNet）と強い一致を示す実証的検証がなされている（平均正解率0.8725）。

ABSTRACT

There is a great deal of work in cognitive psychology, linguistics, and computer science, about using word (or phrase) frequencies in context in text corpora to develop measures for word similarity or word association, going back to at least the 1960s. The goal of this chapter is to introduce the normalizedis a general way to tap the amorphous low-grade knowledge available for free on the Internet, typed in by local users aiming at personal gratification of diverse objectives, and yet globally achieving what is effectively the largest semantic electronic database in the world. Moreover, this database is available for all by using any search engine that can return aggregate page-count estimates for a large range of search-queries. In the paper introducing the NWD it was called `normalized Google distance (NGD),' but since Google doesn't allow computer searches anymore, we opt for the more neutral and descriptive NWD. web distance (NWD) method to determine similarity between words and phrases. It

研究の動機と目的

手動で整備された知識ベースに依存せずに、語や語句間の意味的類似度をスケーラブルかつ自動的に測定する手法を開発すること。
膨大で構造のないウェブを、低コストで大規模な意味的データベースとして活用し、語の類似度を計算すること。
自然言語処理におけるアライメントベースや特徴工学に基づく手法の計算効率の良い代替手段を提供すること。
WordNetなどの人間がアノテートした意味的類似度ベンチマークと比較して、NWD手法の妥当性を検証すること。

提案手法

NWDは、ウェブ検索エンジンからの検索ヒット数を用いて語の類似度を計算し、これらを情報理論的確率の代理として扱う。
情報理論から導かれた正規化距離の公式を適用し、ウェブページの頻度を用いてコルモゴロフ複雑度を近似する。
主な構成要素には、個々の語の頻度（P(x)）、共起頻度（P(x,y)）、および全体のウェブサイズ推定値（N）があり、これらを用いて正規化距離を計算する。
NWDの公式は以下の通りである：eG(x,y) = [max{log P(x), log P(y)} - log P(x,y)] / [max{log P(x), log P(y)}]（語xとyに対して）。
アンカータームとベクトル化を用いて、新しい語を固定された参照語の集合に対して比較し、繰り返しのクエリをキャッシュすることで効率を向上させる。
ランダム化試行を用いて、NWDに基づく分類結果と人間がアノテートした意味的整合性との比較による妥当性の検証がなされている。

実験結果

リサーチクエスチョン

RQ1ウェブ検索統計は、語間の意味的類似度を信頼的かつスケーラブルな代理指標として提供できるか？
RQ2NWDに基づく類似度は、WordNetのような人間がアノテートした意味的類似度とどの程度相関するか？
RQ3インデックス化されたウェブコーパスのサイズが変化しても、NWD手法は安定性を保つか？
RQ4NWDは手動での特徴工学なしに、自動分類タスクにおいて効果的に使用できるか？

主な発見

NWD手法は、語の類似度分類において平均正解率0.8725を達成し、人間がアノテートした意味的整合性と強い一致を示した。
縮小されたウェブインデックス（元の半分のサイズ）でテストしたところ、'horse'と'rider'のNWDスコアは0.443から0.460にわずかに変化したが、コーパスサイズの変動に強いことが示された。
100回のランダム化試行において標準偏差が約0.1169であったため、性能が75％未満に下がるような稀な事象が発生しなかった。
クエリキャッシュにより、100回の実験で必要なウェブ検索回数が49,600回にまで削減され、計算効率が優れていることが示された。
三角不等式を満たさない真の距離ではないが、相対的な意味的関係を正しく捉えている—例として'man'と'centaur'は近いが、'centaur'と'horse'も近いが、'man'と'horse'は遠く離れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。