Skip to main content
QUICK REVIEW

[論文レビュー] Revisiting the poverty of the stimulus: hierarchical generalization without a hierarchical bias in recurrent neural networks

R. Thomas McCoy, Robert Frank|arXiv (Cornell University)|Feb 25, 2018
Natural Language Processing Techniques参考文献 19被引用数 47
ひとこと要約

本論文は、再帰型ニューラルネットワークが固有の階層バイアスなしに階層的な質問生成を学習できるかを検証し、注意機構を持つ1つのGRUが階層的に一般化する一方、入力に同意指示がある場合に特に顕著であることを明らかにした。

ABSTRACT

Syntactic rules in natural language typically need to make reference to hierarchical sentence structure. However, the simple examples that language learners receive are often equally compatible with linear rules. Children consistently ignore these linear explanations and settle instead on the correct hierarchical one. This fact has motivated the proposal that the learner's hypothesis space is constrained to include only hierarchical rules. We examine this proposal using recurrent neural networks (RNNs), which are not constrained in such a way. We simulate the acquisition of question formation, a hierarchical transformation, in a fragment of English. We find that some RNN architectures tend to learn the hierarchical rule, suggesting that hierarchical cues within the language, combined with the implicit architectural biases inherent in certain RNNs, may be sufficient to induce hierarchical generalizations. The likelihood of acquiring the hierarchical generalization increased when the language included an additional cue to hierarchy in the form of subject-verb agreement, underscoring the role of cues to hierarchy in the learner's input.

研究の動機と目的

  • 限られたデータから、非階層的バイアスを持つRNNが階層的な質問形成を学習できるかを評価する。
  • 主語–動詞一致の有無にかかわらず、複数のRNNアーキテクチャを言語の断片に対して評価する。
  • 階層への入力手がかりが階層的一般化の出現にどのように影響するかを調査する。
  • アーキテクチャの種類と初期化が一般化挙動に与える影響を分析する。

提案手法

  • シーケンス・ツー・シーケンスRNN(エンコーダー–デコーダー)を用いて、宣言文とそれらの質問形をモデル化する。
  • SRN、GRU、LSTMの6つのアーキテクチャを、注意機構の有無とともに、2つの言語断片(no-agreementとagreement)に渡ってテストする。
  • 各アーキテクチャあたり100ネットワークを訓練し(合計1200)、120,000文で訓練する。テストセットは10,000文、一般化セットも10,000文を評価する。
  • 2つのタスクを訓練する:identity(IDENT)と質問形成(QUEST)。一般化セットには、線形と階層の仮説を識別するために除外された文タイプが含まれる。
  • 線形と階層的に異なる場合に、一般化セットの最初の出力補助語を調べて、予測が階層的ルールと線形ルールのどちらに沿うかを評価する。

実験結果

リサーチクエスチョン

  • RQ1GRU/LSTM/GRU-with-attentionネットワークは、明示的な階層バイアスなしに階層的な主語-助動詞倒置を学習できるか?
  • RQ2階層的手がかり(主語–動詞一致)を提供することで、階層的一般化の可能性は高まるか?
  • RQ3異なるRNNアーキテクチャと初期化は、階層的一般化の結果にどのように影響するか?
  • RQ4ネットワークが人間の統語的一般化エラーと比べてどのような誤差を犯すか、そしてそれらが学習バイアスについて何を示すか?

主な発見

  • 全ての6つのアーキテクチャのうち、vanilla SRNを除くものはテストセットで正確度が94%以上を達成した;最高は99.9%(LSTM without attention)。
  • 一般化セットでは、最高のアーキテクチャ(GRU with attention)でも正確に答えられた質問は約13%だった。
  • 入力に同意を加えることで、アーキテクチャを問わず階層的一般化の確率が高まった。
  • 初期化は各アーキテクチャで精度にばらつきを生み、ランダムな初期値間でバイアスが一様に強くないことを示している。
  • 注意機構を持つGRUは階層的一般化への定性的な移行を示した。他のアーキテクチャでは線形規則が優勢だったのに対し、GRU.concatにおいて注意機構が違いを生んだ。
  • GRU with attentionは線形順序を超える情報を符号化し、一般化が純粋な線形表現よりも階層的な手掛かりに依存していたことを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。