Skip to main content
QUICK REVIEW

[論文レビュー] Discovery of Linguistic Relations Using Lexical Attraction

Deniz Yüret|ArXiv.org|May 27, 1998
Bayesian Modeling and Causal Inference参考文献 41被引用数 95
ひとこと要約

この論文では、情報理論を用いて、主語-動詞や目的語-述語などの言語的関係を、単語同士の直接的な関係として確率的枠組みで表現する語彙的引きつけモデルを導入する。学習と処理を交互に実行することで、原始的なテキストから出発し、コンテンツ語の文法的関係を60%の正確度と50%の再現度で同定する。これは、局所最適解に陥りやすく、表現が不十分なため、元の入力から改善が得られなかった先行の非教師あり手法に比べて優れている。

ABSTRACT

This work has been motivated by two long term goals: to understand how humans learn language and to build programs that can understand language. Using a representation that makes the relevant features explicit is a prerequisite for successful learning and understanding. Therefore, I chose to represent relations between individual words explicitly in my model. Lexical attraction is defined as the likelihood of such relations. I introduce a new class of probabilistic language models named lexical attraction models which can represent long distance relations between words and I formalize this new class of models using information theory. Within the framework of lexical attraction, I developed an unsupervised language acquisition program that learns to identify linguistic relations in a given sentence. The only explicitly represented linguistic knowledge in the program is lexical attraction. There is no initial grammar or lexicon built in and the only input is raw text. Learning and processing are interdigitated. The processor uses the regularities detected by the learner to impose structure on the input. This structure enables the learner to detect higher level regularities. Using this bootstrapping procedure, the program was trained on 100 million words of Associated Press material and was able to achieve 60% precision and 50% recall in finding relations between content-words. Using knowledge of lexical attraction, the program can identify the correct relations in syntactically ambiguous sentences such as ``I saw the Statue of Liberty flying over New York.''

研究の動機と目的

  • 人間が言語をどのように習得するかを理解し、言語理解が可能なプログラムを開発すること。
  • 初期の文法や語彙集がなくても、原始的なテキストから言語的構造を習得するシステムを開発すること。
  • 情報理論を用いて、語の関係を確率的語彙的引きつけとして形式化すること。
  • 語の関係を明示的に表現することで、自己強化的学習と文法的曖昧性の解消が可能になることを示すこと。
  • 文構造形式主義の限界、特に学習が局所最適解に閉じ込められることを克服すること。

提案手法

  • 語彙的引きつけは、2つの語の文法的関係の尤度として定義され、情報理論的原則を用いて形式化される。
  • システムは、許容される木構造の上に一様分布を用い、構文解析の尤度ではなく、語レベルの関係の学習に焦点を当てる。
  • 学習と処理が交互に実行される:処理部は検出された規則性を用いて構造を強制し、その構造が学習部がより高次のパターンを検出できるようにする。
  • 早期の一般化を避けることで、原始的なテキストからの頑健な学習が可能になる。
  • 品詞ではなく語レベルの表現を用いることで、一般的な使用と特異な使用の両方を検出可能になる。
  • 構造的フィードバックを処理部から得て、語彙的引きつけの推定値を段階的に改善する。

実験結果

リサーチクエスチョン

  • RQ1初期の文法や品詞タグがなくても、原始的なテキストから言語的関係を直接学習できるか?
  • RQ2情報理論を用いて語彙的引きつけを形式化し、長距離の語の関係を表現できるか?
  • RQ3交互に実行される学習と処理は、自己強化的学習による文法的構造の習得を可能にするか?
  • RQ4過去の非教師あり構文解析手法が原始的なテキストで失敗する理由は何か?表現の選択がその問題を緩和できるか?
  • RQ5語彙的引きつけの知識のみで、文法的曖昧性を解消できるか?

主な発見

  • 1億語の原始的なAPテキストを用いた学習後、コンテンツ語間の関係を60%の正確度と50%の再現度で同定した。
  • 先行の非教師ありパーサーとは異なり、このモデルは原始的なテキスト上で測定可能な改善を示し、過去の研究で見られた停滞を回避した。
  • 品詞ではなく語レベルの表現を用いることで、一般的な使用と特異な使用の両方を検出可能になった。
  • 早期の一般化がなかったため、システムは逆転不能な局所最適解に陥らなかった。
  • 『I saw the Statue of Liberty flying over New York』のような文で、語彙的引きつけを活用して文法的曖昧性を効果的に解消した。
  • フレームワークは、語の関係を明示的に表現することで学習を簡素化し、自己強化的学習を可能にすることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。