QUICK REVIEW

[論文レビュー] Can neural networks acquire a structural bias from raw linguistic data?

Alex Warstadt, Samuel R. Bowman|arXiv (Cornell University)|Jul 14, 2020

Natural Language Processing Techniques参考文献 33被引用数 29

ひとこと要約

この論文は、rawな言語データ上で事前学習されたニューラルネットワークであるBERTが、自己教師あり学習を通じて構造的帰納的バイアスを獲得するかどうかを調査している。4つの言語現象における貧困の刺激実験設計を用い、BERTは主語補助動詞の逆転、反映代名詞の束縛、埋め込み動詞の時制検出の3分野で構造的バイアスを示した一方、NPI許可では線形一般化を好むことから、構造的バイアスがrawデータから単独で出現しうることを強く示唆している。

ABSTRACT

We evaluate whether BERT, a widely used neural network for sentence processing, acquires an inductive bias towards forming structural generalizations through pretraining on raw data. We conduct four experiments testing its preference for structural vs. linear generalizations in different structure-dependent phenomena. We find that BERT makes a structural generalization in 3 out of 4 empirical domains---subject-auxiliary inversion, reflexive binding, and verb tense detection in embedded clauses---but makes a linear generalization when tested on NPI licensing. We argue that these results are the strongest evidence so far from artificial learners supporting the proposition that a structural bias can be acquired from raw data. If this conclusion is correct, it is tentative evidence that some linguistic universals can be acquired by learners without innate biases. However, the precise implications for human language acquisition are unclear, as humans learn language from significantly less data than BERT.

研究の動機と目的

BERTのようなニューラルネットワークが、raw言語データ上で自己教師あり事前学習を経て構造的帰納的バイアスを発達させられるかどうかをテストすること。
そのようなバイアスが、アーキテクチャ的制約やラベル付き教師信号ではなく、raw入力内の統計的規則性から生じるかどうかを評価すること。
BERTが、構造依存的文法的現象において、階層的な文法的構造に基づく一般化を行うか、それとも表面的な線形パターンに基づくかを調査すること。
言語普遍性がデータから学習可能であるという実証的証拠を提供し、人間の言語習得における貧困の刺激仮説に挑戦すること。

提案手法

構造的一般化と線形一般化の両方に曖昧な4つの二値分類タスクにBERTを微調整する。
テンプレートと語彙リストを用いて、主語補助動詞の逆転、反映代名詞の束縛、NPI許可、埋め込み動詞の時制検出のための訓練データおよびホールドアウトテストデータを生成する。
貧困の刺激設計を適用：構造的ルールと線形ルールが逆説的な予測を下すデータで学習させ、その後、一般化を解消する最小対の例でテストする。
ホールドアウト例に対するBERTの予測をプローブし、その背後にある帰納的バイアス（構造的か線形か）を推定する。
主語補助動詞の逆転タスクにおいて、相対代名詞と補助動詞の隣接性などの表面的混同要因を制御する。
自己教師あり事前学習のないベースラインモデルと比較し、先行研究の結果を用いて、低事前学習状態における線形好みの代理として用いる。

実験結果

リサーチクエスチョン

RQ1BERTは、rawデータ上で事前学習した後、構造依存的文法的現象を一般化する際に構造的帰納的バイアスを示すか？
RQ2ニューラルネットワークは、明示的な教師信号やアーキテクチャ的制約なしに、階層的文法的一般化を好むようになることができるか？
RQ3どの言語的分野でBERTは構造的一般化を線形一般化よりも好むのか、逆にどの分野で線形パターンを好むのか？
RQ4BERTの観察された行動が、偶然の表面的相関によるものであり、真の構造的一般化によるものではない可能性はどの程度か？
RQ5これらの結果は、人間の言語習得における貧困の刺激仮説にどの程度挑戦するか？

主な発見

BERTは、4つの実証的分野のうち3つ—主語補助動詞の逆転、反映代名詞の束縛、埋め込み動詞の時制検出—で構造的帰納的バイアスを示している。
NPI許可タスクでは、BERTは線形一般化を好むため、すべての構造依存的現象が同じ方法で構造的バイアスを引き起こすわけではないことが示唆されている。
ランダムな表面一般化が3つの分野で構造的予測と一致する確率は約5％であり、偶然の一致の可能性は低い。
自己教師あり事前学習のないベースラインモデルは線形一般化を好む傾向にあり、事前学習が構造的バイアスの獲得の鍵であることが示唆される。
これらの結果は、自己教師あり学習によるraw言語データからの構造的バイアスの出現が、これまでで最も包括的な証拠を提供している。
これらの発見は、一部の言語普遍性がデータから学習可能である可能性を示唆し、言語習得における先天的バイアスの必要性を疑問視するものである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。