QUICK REVIEW

[論文レビュー] Emergence of Phonemic, Syntactic, and Semantic Representations in Artificial Neural Networks

Pierre Orhan, Pablo Diego-Simón|arXiv (Cornell University)|Jan 26, 2026

Language Development and Disorders被引用数 0

ひとこと要約

本論文は、自己教師あり音声・テキストモデルが訓練中の活性化に音素的、語彙意味論的、および統語的サブ空間を形成することを示しており、共通の線形プローブによって明らかになり、発現は順序立てて現れ、人間の学習と比較してデータ要求のギャップがある。

ABSTRACT

During language acquisition, children successively learn to categorize phonemes, identify words, and combine them with syntax to form new meaning. While the development of this behavior is well characterized, we still lack a unifying computational framework to explain its underlying neural representations. Here, we investigate whether and when phonemic, lexical, and syntactic representations emerge in the activations of artificial neural networks during their training. Our results show that both speech- and text-based models follow a sequence of learning stages: during training, their neural activations successively build subspaces, where the geometry of the neural activations represents phonemic, lexical, and syntactic structure. While this developmental trajectory qualitatively relates to children's, it is quantitatively different: These algorithms indeed require two to four orders of magnitude more data for these neural representations to emerge. Together, these results show conditions under which major stages of language acquisition spontaneously emerge, and hence delineate a promising path to understand the computations underpinning language acquisition.

研究の動機と目的

言語習得を支える神経表象を説明する統一的な計算フレームワークを動機づける。
訓練中のニューラル活性化において、音素的、語彙意味論的、および統語的表象が出現するかを調査する。
モダリティおよびモデル間で、これらの言語構造の幾何と出現の順序を特徴づける。
データ効率性を評価し、モデルにおける出現が人間の言語習得とどのように比較されるかを検討する。

提案手法

Hewitt and Manning (2019) の Structural Probe を一般化して、モデルの活性化から音素的、語彙意味論的、統語的サブスペースを抽出する。
活性化距離を言語的ターゲット距離に合わせるため、線形変換 B（可視化用に 2D、評価用に 200D）を適合させる。
ターゲット距離と射影距離とのスピアマン相関を、音素、語彙意味論、統語のレベルで評価してプローブの性能を測定する。
プロービングデータセットを構築する：統語には UD-EWT、語彙意味論には WordNet の名詞、音素ベースの表現は TTS 合成音声のアライメントを用いて派生させる。
モデルサイズおよび事前学習条件を横断して、テキストモデル（Pythia, Llama2）と音声モデル（Wav2Vec 2.0）を比較する。
訓練チェックポイントおよび事前学習ステップを横断してプローブスコアを追跡することで出現を評価する。

実験結果

リサーチクエスチョン

RQ1音声モデルとテキストモデルの活性化において、音素的・語彙意味論的・統語的構造が分離可能なサブスペースとして出現するか。
RQ2訓練中のこれらの言語表象の出現順序はどうなるか、データ量はそれにどう影響するか。
RQ3モデルタイプ（テキスト vs. 音声）とモデルサイズは、これらの構造の出現と幾何にどのような影響を与えるか。
RQ4音響的手掛かりは音声モデルの意味表象を混乱させる程度はどの程度か、コントロール条件はこれをどう扱うか。
RQ5人間の言語習得に類似した発達軌道と結果が得られるか。

主な発見

音素的構造は音声モデルにおいて明確なサブスペースとして回復可能であり、発音様式のような幾何（例：母音の関係）がプレトレーニングの中〜後半層で出現する。
語彙意味論的構造は、テキストおよび音声モデルの両方で検出可能だが、組織化はより控えめで、モデルサイズとデータ露出に強く依存する。
統語表象は音声モデルとテキストモデルの両方で回復可能であり、モデルサイズが大きくなるとスコアは高止まりするが、音声データの手掛かりにより音声モデルの出現はより速い。
チェックポイントをまたいで、音素出現が部分的な語彙意味論出現に先行し、それがさらに統語出現に先行する、連続的な発達経路を示す。
音声モデルは、人間の子どもよりはるかに多くの入力データを必要として、同等の表象に到達することができ、データ効率のギャップを明らかにする。
コントロールは、音声モデルの意味論的および統語的構造が音響的手掛かりだけによるものではないことを示し、テキストモデルはより強力で明確な意味論的・統語的構造を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。