QUICK REVIEW

[論文レビュー] Enriching very large ontologies using the WWW

Eneko Agirre, Olatz Ansa|ArXiv.org|Oct 17, 2000

Natural Language Processing Techniques参考文献 22被引用数 255

ひとこと要約

この論文は、語の意味の多義性の増加とトピック的関係の欠如というWordNetの課題を解決するために、ウェブドキュメントを用いてトピックシグネチャーや意味の階層的クラスタを生成することを提案する。各概念に対してウェブドキュメントを取得し、共起語を抽出することで、意味の識別性能を向上させるトピックシグネチャーを生成する。SemCor上で手動による検証を経て91%の正例を達成し、優れた結果を得た。

ABSTRACT

This paper explores the possibility to exploit text on the world wide web in order to enrich the concepts in existing ontologies. First, a method to retrieve documents from the WWW related to a concept is described. These document collections are used 1) to construct topic signatures (lists of topically related words) for each concept in WordNet, and 2) to build hierarchical clusters of the concepts (the word senses) that lexicalize a given word. The overall goal is to overcome two shortcomings of WordNet: the lack of topical links among concepts, and the proliferation of senses. Topic signatures are validated on a word sense disambiguation task with good results, which are improved when the hierarchical clusters are used.

研究の動機と目的

『bat』と『baseball』、『fork』と『dinner』のような関連概念間の明示的なトピック的リンクの欠如をWordNetが抱える問題として解決すること。
ウェブデータからのトピック的一致性に基づいて意味を階層的にクラスタリングすることで、WordNetにおける意味の多義性の増加を軽減すること。
意味の識別タスクを用いた評価を通じて、自動的に得られた意味的知識の有用性を検証すること。
WordNetのような大規模オントロジーを拡張するためのスケーラブルなソースとしてウェブを使用する可能性を検討すること。
ウェブからの大規模かつトピック的なドキュメントコレクションを活用することで、トピックシグネチャーの品質と関連性を向上させること。

提案手法

同義語、説明文、近縁語に基づくクエリ戦略を用いて、各WordNet概念のウェブドキュメントを取得し、前回のクエリが失敗した場合には段階的にフォールバックする。
ドキュメントからトピック的に関連する語を抽出することでトピックシグネチャーを構築し、語の頻度と共起統計を用いる。
クラスタリングアルゴリズムを用いて、同じトピックシグネチャーを持つ概念をグループ化することで、与えられた語彙形（lemma）の意味の階層的クラスタを構築する。
SemCorコーパスにおける意味の識別タスクを通じてトピックシグネチャーとクラスタを検証し、ゴールスタンダードの意味タグを用いる。
短いインデックスやカバーパagesなどの低品質ドキュメントを除去するフィルタリング技術を適用し、ウェブデータのバイアスを低減する。
同義語、説明語、NEAR演算子を組み合わせたマルチステージクエリ戦略を用いることで、検索精度を向上させる。

実験結果

リサーチクエスチョン

RQ1ウェブドキュメントを用いて、WordNetの概念間のトピック的関係を反映するトピックシグネチャーを効果的に生成できるか？
RQ2トピックシグネチャーに基づく意味の階層的クラスタリングは、WordNetにおける意味の多義性の増加に与える影響を軽減できるか？
RQ3自動的に得られたトピックシグネチャーとクラスタは、意味の識別性能をどの程度向上させるか？
RQ4ウェブ検索の品質は、トピックシグネチャーと意味クラスタの信頼性にどのように影響するか？
RQ5大規模オントロジーの意味的拡張にウェブを用いる際の主な課題は何か？

主な発見

平均して1意味あたり670件のドキュメントを効果的に取得でき、手動による検証の結果、上位10件の例のうち91%が正しく識別された。
ウェブドキュメントから得たトピックシグネチャーは、意味の識別性能の向上に有効であり、特に階層的クラスタリングと組み合わせた場合に顕著であった。
トピックシグネチャーの品質は、ノイズが多く、バイアスが強く、コンテンツが薄いウェブドキュメントの影響を受けており、特に『boy』のような感受性の高いまたは曖昧な語では顕著であった。
クエリ構築が主なボトルネックであった。異なる語の意味に対して一貫性のない検索性能が見られ、再現性の高いリCALLとPRECISIONのバランスが取れていなかった。
ノイズとバイアスを低減するためには、フィルタリング技術と改善されたクエリ戦略が不可欠である。
本手法は、ウェブを用いて大規模オントロジーを拡張する可能性を示しており、トピックシグネチャーによりより優れたトピック的一致性と意味クラスタリングが可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。