Skip to main content
QUICK REVIEW

[論文レビュー] Systematicity between Forms and Meanings across Languages Supports Efficient Communication

Doreen Osmelak, Yang Xu|arXiv (Cornell University)|Jan 23, 2026
Language and cultural evolution被引用数 0
ひとこと要約

本論文は CETL を導入し、form-meaning の系統性に基づく学習可能性ベースの複雑さ指標を提案する。実証済みの動詞および代名詞のパラダイムは、内部の形構造を活用することで従来の IB models を超えて効率を最適化することを示す。

ABSTRACT

Languages vary widely in how meanings map to word forms. These mappings have been found to support efficient communication; however, this theory does not account for systematic relations within word forms. We examine how a restricted set of grammatical meanings (e.g. person, number) are expressed on verbs and pronouns across typologically diverse languages. Consistent with prior work, we find that verb and pronoun forms are shaped by competing communicative pressures for simplicity (minimizing the inventory of grammatical distinctions) and accuracy (enabling recovery of intended meanings). Crucially, our proposed model uses a novel measure of complexity (inverse of simplicity) based on the learnability of meaning-to-form mappings. This innovation captures fine-grained regularities in linguistic form, allowing better discrimination between attested and unattested systems, and establishes a new connection from efficient communication theory to systematicity in natural language.

研究の動機と目的

  • 言語が form-meaning の mappings において単純さと正確さのバランスを取る理由を説明する。
  • 統一的な情報理論的フレームワークを提案し、 systematicity を efficiency モデルに取り入れる。
  • 内部構造を捉える学習可能性ベースの複雑さ指標(CETL)を開発する。
  • typologically diverse languages の動詞および代名詞のパラダイムで CETL を評価する。
  • Information Bottleneck (IB) アプローチと比較し、識別力の優越性を示す。

提案手法

  • 意味 m_t を surface forms w に写像する seq2seq ニューラルエンコーダ(LSTM)を用いて form w を文字列としてモデル化する。
  • p_cog(t) をコーパス頻度から定義し、コミュニケーションのニーズを意味ターゲットに重み付けする。
  • 学習中のクロスエントロピーの減衰を通じて複雑さを定量化する(CETL)は T_max 学習エポック間で測定される。
  • 意味をカテゴリ特徴で表現し、重み付きハミング距離 d(u,t) によって類似性を測る。
  • 精度を情報ボトルネック框架(IB)のベイズデコーディングで評価し、CETL の学習可能性ベースの測度と比較する。
  • 構造的および形態のみの順列を用いて反事実パラダイムを生成し、効率性と自然さを検証する。
Figure 1: Turkish pronouns show systematic form-meaning mappings: person is consistently marked by prefixes (e.g., s- for second person), number by suffixes. Language evolution research demonstrates that such systematicity supports learnability . Our model connects these findings, proposing that lea
Figure 1: Turkish pronouns show systematic form-meaning mappings: person is consistently marked by prefixes (e.g., s- for second person), number by suffixes. Language evolution research demonstrates that such systematicity supports learnability . Our model connects these findings, proposing that lea

実験結果

リサーチクエスチョン

  • RQ1 attested paradigms の効率性(CETL)が動詞および代名詞領域の counterfactual な代替より優れているか?
  • RQ2より自然な syncretism パターンは CETL(学習可能性)低下と関連しているか(低い CETL = 高い学習可能性)?
  • RQ3CETL は attested systems を counterfactual より IB モデルより優れて識別できるか?
  • RQ4内部形構造(systematicity)が言語間の伝達効率性にどのように寄与するか?

主な発見

  • Attested paradigms は動詞および代名詞の両方で most counterfactual permutations より効率的である(低い CETL and higher accuracy)。
  • Afro-Asiatic verbs における CETL と unnaturalness の正の相関が自然さ仮説を支持する(r = 0.5745, p < 2.2e-16)。
  • CETL は attested paradigms を構造的パーミュテーションより効率的と識別する IB モデルを上回り、自然さ(代名詞と動詞での相関 > 0.8)と強く相関する。
  • CETL は文字列としてエンコードすることで形の体系性を検出でき、IB には検出できない細かな規則性を捉える。
  • ドメインを横断して、attested paradigms は counterfactuals より複雑さと正確さのトレードオフが良く、自然言語の効率駆動設計を支持する。
Figure 2: Communication model, adapted from Zaslavsky et al. ( 2018 , 2021b ) . Our model encodes the form $w$ as a sequence, and decodes it as an atomic unit.
Figure 2: Communication model, adapted from Zaslavsky et al. ( 2018 , 2021b ) . Our model encodes the form $w$ as a sequence, and decodes it as an atomic unit.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。