Skip to main content
QUICK REVIEW

[論文レビュー] "I don't believe in word senses"

Adam Kilgarriff|arXiv (Cornell University)|Dec 23, 1997
Natural Language Processing Techniques被引用数 103
ひとこと要約

この論文は、語の意味が根本的な意味的単位ではなく、コーパス内での引用のクラスタから導かれる抽象的概念であると主張している。語の意味の存在は、特定のタスクや目的に依存する。自然言語処理(NLP)における固定された辞書ベースの語の意味の仮定に反論し、代わりに語の意味の解釈を、事前に定義された語彙的エントリではなく、文脈に適した実際の言語使用のクラスタに基づくべきだと提唱している。

ABSTRACT

Word sense disambiguation assumes word senses. Within the lexicography and linguistics literature, they are known to be very slippery entities. The paper looks at problems with existing accounts of `word sense' and describes the various kinds of ways in which a word's meaning can deviate from its core meaning. An analysis is presented in which word senses are abstractions from clusters of corpus citations, in accordance with current lexicographic practice. The corpus citations, not the word senses, are the basic objects in the ontology. The corpus citations will be clustered into senses according to the purposes of whoever or whatever does the clustering. In the absence of such purposes, word senses do not exist. Word sense disambiguation also needs a set of word senses to disambiguate between. In most recent work, the set has been taken from a general-purpose lexical resource, with the assumption that the lexical resource describes the word senses of English/French/..., between which NLP applications will need to disambiguate. The implication of the paper is, by contrast, that word senses exist only relative to a task.

研究の動機と目的

  • NLPおよび語彙学において、語の意味が離散的で安定的かつ普遍的に適用可能な意味的単位であるという仮定を批判すること。
  • 言語学的および計算科学研究において、「語の意味」という概念に原理的根拠が欠如していることに対処すること。
  • コーパス内引用(実際の文脈における語の使用)を基本単位とし、語の意味はこれらの引用のクラスタから導かれる抽象的概念であるという代替的オントロジーを提唱すること。
  • 語の意味が言語に内在するものではなく、辞書作成やNLPアプリケーションといった特定の目的に応じて構築されるものであることを主張すること。
  • 言語使用の多様性とアプリケーションのニーズを考慮すると、一様で普遍的な語の意味のセットはNLPにとって現実的でもなければ必要でもないとする。

提案手法

  • コーパス内引用を基本的なデータ単位とみなす。語の意味という抽象的概念ではなく、語彙的オントロジーの主な対象として引用を扱う。
  • 語の意味は、意味的および文法的に類似した引用のクラスタとして生じると提案。共通するパターンと意味の類似性に基づく。
  • BNCや音楽ジャーナリズムのコーパスなどの実データを用いて、語の使用が分野によってどのように異なるかを示し、意味形成に与える影響を実証的に示す。
  • 「ハンドバッグ」を動詞として用いるような非標準的または創造的な語の使用は、生成的に予測可能ではなく、歴史的・文脈的要因に依存しており、明示的な語彙的エントリを必要とする。
  • 普遍的な意味のインベントリに依存するのではなく、必要に応じて新しい語彙的エントリ(例:「verbally handbag」)を追加するタスク特化型で階層的な語彙を提案。
  • 語の意味の解釈を、事前に存在する意味を探す作業ではなく、特定のアプリケーションに適した使用クラスタを特定するプロセスとして再定式化する。

実験結果

リサーチクエスチョン

  • RQ1語の意味を離散的で安定的単位とみなすという立場は、語彙学およびNLPにおいて理論的かつ実証的根拠があるのか。
  • RQ2過去30年間にわたり、「語の意味」を確固たる根拠に基づいて定義しようとする試みが失敗した理由は何か。
  • RQ3コーパス内引用とそのクラスタリングは、実際の語の意味形成とどのように関係しているか。
  • RQ4語の意味は、編集方針、ユーザーのニーズ、分野特化した使用状況によってどれほど決定づけられるのか。それとも、言語的性質そのものに由来するのか。
  • RQ5NLPシステムが、普遍的辞書からの固定エントリではなく、使用クラスタからのタスクに依存する抽象的概念として語の意味を扱うことで、より良い意味の解釈が可能になるか。

主な発見

  • 語の意味は根本的な意味的単位ではなく、コーパス内引用のクラスタから導かれる抽象的概念であり、独立した存在論的立場を持たない。
  • 「語の意味」という概念は理論的に不安定であり、言語学的・計算科学研究において確固たる根拠を持たない。
  • 辞書に収録された語の意味は、普遍的な意味的原則ではなく、編集方針と想定ユーザーのニーズによって形作られる。
  • 非標準的または創造的な語の使用(例:「ハンドバッグ」を動詞として用いる)は生成的に予測可能ではなく、特定の歴史的・語句的パターンに起因することが多い。
  • 異なるコーパス(例:BNC と 音楽ジャーナリズム)では、同じ語に対して異なる顕著な意味が得られるため、意味の集合は文脈依存的であることが示された。
  • NLPシステムは普遍的な意味インベントリに依存すべきではなく、特定のタスクに応じて、未表現または新しい使用法を含む新しいエントリを語彙に追加すべきである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。