QUICK REVIEW

[論文レビュー] Rearranging the Familiar: Testing Compositional Generalization in Recurrent Networks

João Loula, Marco Baroni|arXiv (Cornell University)|Jul 19, 2018

Natural Language Processing Techniques参考文献 14被引用数 18

ひとこと要約

この論文は、RNNが『SCAN』データセットを用いて、'around' や 'right' などのよく知られた機能語を新しい文脈で再結合する能力、すなわち構文的一般化のテストを行う。見過ごされたパターンに対しては高い性能を示すが、新しい組み合わせに構文的ルールを適用する必要がある際には体系的な一般化に失敗し、特定の例への広範な露出に依存するだけで、抽象的なルールを学習していないことが判明する。

ABSTRACT

Systematic compositionality is the ability to recombine meaningful units with regular and predictable outcomes, and it's seen as key to humans' capacity for generalization in language. Recent work has studied systematic compositionality in modern seq2seq models using generalization to novel navigation instructions in a grounded environment as a probing tool, requiring models to quickly bootstrap the meaning of new words. We extend this framework here to settings where the model needs only to recombine well-trained functional words (such as "around" and "right") in novel contexts. Our findings confirm and strengthen the earlier ones: seq2seq models can be impressively good at generalizing to novel combinations of previously-seen input, but only when they receive extensive training on the specific pattern to be generalized (e.g., generalizing from many examples of "X around right" to "jump around right"), while failing when generalization requires novel application of compositional rules (e.g., inferring the meaning of "around right" from those of "right" and "around").

研究の動機と目的

再帰的ニューラルネットワーク（RNN）が、トレーニングで学習した機能語を新しい文脈で再結合する際、体系的に一般化できるかどうかを調査すること。
従来のseq2seqモデルにおける構文的一般化に関する研究を拡張し、新規動詞の学習ではなく機能語に焦点を当てる。
訓練データの量と構造が体系的一般化を可能にするか、妨げるかを評価すること。
RNNが、特定の組み合わせを事前に経験していない状態で、既知の要素のみに基づいて新しい語の組み合わせの意味を推論できるかどうかを特定すること。

提案手法

研究は、フレーズ構造文法によってテンプレートから命令を生成する言語駆動型ナビゲーション環境である『SCAN』データセットを用いる。
実験では、'look around right' のような他のプリミティブでトレーニングした後、'jump around right' のような新しいプリミティブに適用される機能的テンプレート 'around right' の一般化を分離して評価する。
3つの制御された実験では、目的のテンプレートのトレーニング例の数を変化させ、ホールドアウトされた命令に対するゼロショット一般化性能を測定する。
性能は、新しい命令を正しい行動シーケンスにマッピングする正答率で評価され、誤差推定にはブートストラップを用いた95%信頼区間が使用される。
モデルは合計10万件のトレーニングプレゼンテーションで訓練され、条件ごとに異なる例数を設定することで、サンプル複雑性の影響を分離する。
フレームワークは、個々の語の意味が既に分かっている条件下で一般化をテストし、課題を構文的ルール適用に限定する。

実験結果

リサーチクエスチョン

RQ1RNNは、トレーニング中にその組み合わせを一度も見ない状態で、よく知られた機能語（例：'jump around right'）の新しい組み合わせの意味を一般化できるか？
RQ2特定のテンプレート（例：'Primitive around right'）に対する露出が増えることでモデルの性能が向上するか、それともその組み合わせが明示的に例示されていないために制限を受けるか？
RQ3モデルの一般化は体系的な構文的合成に基づいているのか、それとも特定のトレーニング例の記憶に依存しているのか？
RQ4複雑なテンプレートの異なるトレーニング例の数が、モデルが新しいプリミティブに一般化する能力にどのように影響するか？

主な発見

RNNは 'around right' テンプレートの1つの例でのトレーニング後、新しいプリミティブ（例：'jump around right'）に対してほぼ完璧な一般化を達成しており、類推による一般化能力が一部存在することが示唆される。
既知の要素（'around' と 'right'）から、特定の組み合わせがトレーニングに存在しない新しい組み合わせへの一般化では性能が低く、体系的構文的合成の失敗が示される。
一般化正答率は、目的のテンプレートのトレーニング例数が増えるに従い徐々に上昇し、512例でピークに達する。これは、ルール学習ではなく統計的証拠に依存していることを示唆する。
個々の要素に長期間さらされても、目的の組み合わせがトレーニングに存在しない場合、モデルは一般化に失敗し、構文的一般化が欠如していることが示される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。