QUICK REVIEW

[論文レビュー] Disambiguating Noun Groupings with Respect to WordNet Senses

Philip Resnik|ArXiv.org|Nov 29, 1995

Natural Language Processing Techniques参考文献 17被引用数 52

ひとこと要約

本稿では、感覚アノテート済みコーパスを必要とせず、WordNetの意味素に単語群の意味を割り当てる知識ベースの手法を提示する。人間がアノテートしたテストセットにおいて58.6%および60.5%の正解率を達成し、人間の上限に非常に近い優れた性能を示すとともに、誤った意味割り当てを効果的に抑制している。

ABSTRACT

Word groupings useful for language processing tasks are increasingly available, as thesauri appear on-line, and as distributional word clustering techniques improve. However, for many tasks, one is interested in relationships among word {\em senses}, not words. This paper presents a method for automatic sense disambiguation of nouns appearing within sets of related nouns --- the kind of data one finds in on-line thesauri, or as the output of distributional clustering algorithms. Disambiguation is performed with respect to WordNet senses, which are fairly fine-grained; however, the method also permits the assignment of higher-level WordNet categories rather than sense labels. The method is illustrated primarily by example, though results of a more rigorous evaluation are also presented.

研究の動機と目的

教師あり学習を用いないオンラインの同義語辞書や分散的クラスタリングから得られる単語群に対して、意味素の整合性を保つために、単語レベルの関係が意味素レベルの整合性を損なう問題に取り組むこと。
感覚アノテート済み学習データを必要とせず、WordNetの細分化された意味素の違いを活用する後処理的意味あいまい性解消手法を開発すること。
情報検索におけるクエリ拡張などの応用を念頭に、正しい意味素に高い信頼度、誤った意味素に低い信頼度を割り当てる能力を評価すること。
分散的単語クラスタリング（単語レベルで動作する）と、正確な自然言語処理タスクに不可欠な意味素レベルの意味関係との間のギャップを埋めること。

提案手法

本手法は、単語群内の他の語との意味的類似度に基づき、意味素への割り当てに対する信頼度スコアを計算するメンバーシップ関数 φ を用いる。
意味的類似度は、WordNetの階層的構造、特にシングレット間の最短パスに基づいて計算され、パス長と関連度測定値に注目する。
本手法は、各単語群を文脈とみなして、ターゲット語の各可能な意味素がその文脈にどの程度適合するかを、WordNetの意味素分類体系を用いて評価する。
信頼度ベースのフィルタリング戦略を適用し、信頼度が低い判断は評価から除外することで、信頼性の高い人間アノテート事例に集中する。
アルゴリズムは、人間のジャッジが意味選択と信頼度（0–4スケール）を評価する強制選択タスクを用いて評価される。
結果は、ランダムベースライン（33–35%）と人間の上限（65–69%）と比較され、人間の判断に対する相対的性能を評価する。

実験結果

リサーチクエスチョン

RQ1感覚アノテート済みコーパスを必要とせず、知識ベースの手法が単語群の意味素を効果的に解消できるか。
RQ2人間の判断と比較して、単語群内の単語に意味素を割り当てる際、この手法はどの程度の性能を示すか。
RQ3情報検索などの応用において、誤った意味素の割り当てを正しく割り当てるよりも効果的に抑制できるか。
RQ4本手法は、手作業で整備された同義語辞書エントリに限らず、分散的クラスタリングによって生成された単語群に対しても拡張可能か。

主な発見

Judge 1 によるテストケースで、アルゴリズムは34.8%のランダムベースラインを著しく上回る58.6%の正解率を達成した。
Judge 2 では、アルゴリズムは33.3%のランダムベースラインと68.6%の人間上限を考慮に入れた上で60.5%の正解率を達成した。
本手法は、誤った意味素を著しく抑制する能力を示しており、これは、誤った関連性が性能を低下させる情報検索におけるクエリ拡張などの応用において極めて重要である。
評価結果から、意味的に曖昧または関連のない語を含む単語群であっても、WordNetの意味的階層を利用することで矛盾を解消できることが示された。
意味素の細分化された性質ゆえに、同音異義語の意味あいまい性解消よりもはるかに困難であるにもかかわらず、結果は前向きである。
本研究は、WordNetの意味的知識と分散的パターンを組み合わせることで、NLPシステムにおける意味素レベルの意味あいまい性解消を向上させることの可能性を裏付けている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。