QUICK REVIEW

[論文レビュー] Exposure and Emergence in Usage-Based Grammar: Computational Experiments in 35 Languages

Jonathan Dunn|arXiv (Cornell University)|Nov 2, 2022

Language and cultural evolution被引用数 1

ひとこと要約

本稿では、35ヶ国語における言語入力への露出が、構造の出現および退行を引き起こす計算モデルを提示している。登録固有のコーパスを段階的に露出させることで、構造語彙（constructicon）の成長は語彙より遅く、露出が増えるにつれてレジスタ間の文法が収束し、忘却率が出現率と一致する。これは、動的で露出に依存する文法構造形成および崩壊のモデルを支持する。

ABSTRACT

[article abstract:] This paper uses computational experiments to explore the role of exposure in the emergence of construction grammars. While usage-based grammars are hypothesized to depend on a learner’s exposure to actual language use, the mechanisms of such exposure have only been studied in a few constructions in isolation. This paper experiments with (i) the growth rate of the constructicon, (ii) the convergence rate of grammars exposed to independent registers, and (iii) the rate at which constructions are forgotten when they have not been recently observed. These experiments show that the lexicon grows more quickly than the grammar and that the growth rate of the grammar is not dependent on the growth rate of the lexicon. At the same time, register-specific grammars converge onto more similar constructions as the amount of exposure increases. This means that the influence of specific registers becomes less important as exposure increases. Finally, the rate at which constructions are forgotten when they have not been recently observed mirrors the growth rate of the constructicon. This paper thus presents a computational model of usage-based grammar that includes both the emergence and the unentrenchment of constructions. [dataset abstract:] This dataset consists of three zip folders containing the main analysis represented in the related publication as well as a number of separate corpus files that serve as the raw input to grammar learning.

研究の動機と目的

使用ベースの文法における、実際の言語使用への露出が構造の出現をどのように駆動するかを調査すること。
言語およびレジスタ間で語彙の成長と構造語彙の成長の関係を検討すること。
露出が増えるにつれて、登録固有の文法がどのように収束するかをモデル化すること。
最近の観察がなければ構造がどのように退行するかをシミュレートし、忘却を出現と関連付けること。

提案手法

本研究では、35ヶ国語の3つの異なるレジスタから得た同等のコーパスに、計算的構造文法（CxG）を適用する。
露出を10万語単位で段階的に100万語から200万語まで増加させ、言語露出の発達段階を模擬する。
各露出レベルでの固有の構造数の追跡により、構造語彙の成長を測定する。
各露出レベルでの構造語彙の類似性を、言語間およびレジスタ間比較により、登録固有の文法の収束を評価する。
最近の露出ウィンドウで観察されなかった構造の活性化減衰を用いて、忘却をモデル化する。これは、時間経過に伴う忘却を模擬する。
すべての実験は、心理言語学的または身体的データにアクセスしない、知覚に基づく、コーパス駆動のモデルを用いて実施され、コーパス内の分布的パターンにのみ焦点を当てる。

実験結果

リサーチクエスチョン

RQ1言語およびレジスタ間で、構造語彙の成長速度は語彙の成長速度とどのように比較されるか？
RQ2露出が増えるにつれて、登録固有の文法はどの程度、類似した表現に収束するか？
RQ3露出が段階的に増加する条件下で、構造の退行（忘却）速度は出現速度とどのように関係するか？
RQ4構造語彙の成長は語彙の成長に依存しているのか、それとも独立した経路をたどるのか？
RQ5頻度の高いコア構造（コア構造）は、周辺の構造よりも、レジスタ間でより高い一致を示すか？

主な発見

構造語彙は語彙よりも遅く成長しており、これは、言語やレジスタが多様であっても、文法的構造の出現は個々の語の出現よりも遅いことを示している。
語彙の成長と構造語彙の成長の間に有意な相関関係は認められず、構造語彙が語彙の単なる拡張であるのではなく、抽象化と一般化を通じて発展することを示唆している。
露出が増えるにつれて、登録固有の文法はより類似した表現に収束し、200万語で訓練された文法は100万語や50万語で訓練されたものよりも類似度が高い。
高頻度の構造で定義されるコア構造語彙は、全構造語彙よりもレジスタ間で高い一致を示しており、文脈を超えた共通の文法的基盤があることを示している。
最近の観察がなければ構造がどの程度忘却されるかの速度が、その構造の出現速度と一致しており、使用ベースの文法における学習と忘却の対称的ダイナミクスを示している。
レジスタ間の文法の収束は、露出が増えるにつれてより抽象的・一般化された構造の習得によって駆動されており、これは構造語彙の語彙に対する遅い成長を説明している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。