QUICK REVIEW

[論文レビュー] Unsupervised Language Acquisition: Theory and Practice

Alexander Clark|ArXiv.org|Dec 10, 2002

Natural Language Processing Techniques参考文献 279被引用数 79

ひとこと要約

本稿では、分布的および統計的モデルを用いて、タグなしおよびタグ付きテキストから構文的カテゴリ、語彙素過程、文脈自由文法を学習する画期的な教師なしアルゴリズムを提示する。自然言語の構造が先天的な言語的知識なしに経験的に学習可能であることを示すことで、刺激の貧困からの反証を挑戦し、言語習得の経験主義的モデルを支持する。

ABSTRACT

In this thesis I present various algorithms for the unsupervised machine learning of aspects of natural languages using a variety of statistical models. The scientific object of the work is to examine the validity of the so-called Argument from the Poverty of the Stimulus advanced in favour of the proposition that humans have language-specific innate knowledge. I start by examining an a priori argument based on Gold's theorem, that purports to prove that natural languages cannot be learned, and some formal issues related to the choice of statistical grammars rather than symbolic grammars. I present three novel algorithms for learning various parts of natural languages: first, an algorithm for the induction of syntactic categories from unlabelled text using distributional information, that can deal with ambiguous and rare words; secondly, a set of algorithms for learning morphological processes in a variety of languages, including languages such as Arabic with non-concatenative morphology; thirdly an algorithm for the unsupervised induction of a context-free grammar from tagged text. I carefully examine the interaction between the various components, and show how these algorithms can form the basis for a empiricist model of language acquisition. I therefore conclude that the Argument from the Poverty of the Stimulus is unsupported by the evidence.

研究の動機と目的

自然言語が先天的な言語的知識なしに学習可能かどうかを調査し、刺激の貧困からの反証に挑戦すること。
生テキストから構文的カテゴリ、語彙素、文脈自由文法を学習する実用的な教師なしアルゴリズムを開発すること。
統計的および分布的学習技術を用いて、経験主義的言語習得モデルの実現可能性を検討すること。
形式的言語理論が提示する学習の障壁を克服できることを示し、ゴールドの定理における理論的限界を是正すること。
教師なし環境下で、曖昧で希少な語を分布的情報に基づいて信頼性高く分類できることを示すこと。

提案手法

ラベルなしテキストからの分布的情報を利用して、共起パターンによって曖昧語や希少語を扱う構文的カテゴリを誘導する。
統計的モデルを用いて、アラビア語のような言語における非連結的語彙素構造を含む複雑な語彙素過程を、語形のパターン発見によって教師なしで学習する。
タグ付きテキストから文脈自由文法を教師なしで誘導するための新規アルゴリズムを採用し、品詞および構造的情報を活用する。
複数の学習モジュールを統合した一貫性のあるフレームワークを構築し、その相互作用を分析して強固な言語習得を実現する。
形式的言語学習におけるゴールドの定理が課す制限を回避するため、記号的文法ではなく統計的文法に依存する。
分布的類似性とクラスタリングを用いて、事前のアノテーションなしに語を構文的カテゴリにグループ化する。

実験結果

リサーチクエスチョン

RQ1分布的パターンのみを用いて、ラベルなしテキストから構文的カテゴリを信頼性高く誘導できるか？
RQ2アラビア語における非連結的語彙素構造を含め、生語形から教師なしで語彙素過程を学習できるか？
RQ3明示的な構文的監視なしに、タグ付きテキストから文脈自由文法を誘導できるか？
RQ4これらのアルゴリズムの成功は、刺激の貧困からの反証を根底から覆すものか？
RQ5統計的学習手法を用いて、完全に教師なしの経験主義的言語習得モデルを構築できるか？

主な発見

提示されたアルゴリズムは、ラベルなしテキストから構文的カテゴリを効果的に誘導でき、分布的クラスタリングにより曖昧語や希少語を的確に処理する。
統計的モデルは、事前の言語的アノテーションなしに、生語形からアラビア語の非連結的語彙素構造を含む複雑な語彙素過程を学習可能である。
タグ付きテキストから教師なしで文脈自由文法を誘導するアルゴリズムが実証され、明示的な構文的監視なしに構造的パターンを回復可能であることが示された。
構文的・語彙素的・文法的学習モジュールの統合により、一貫性のある経験主義的言語習得モデルが支持された。
結果として、先天的な言語的知識の必要性が否定され、刺激の貧困からの反証は経験的および理論的根拠を欠いていることが示された。
ゴールドの定理は、記号的文法ではなく統計的文法が用いられる場合、自然言語の学習を妨げない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。