Skip to main content
QUICK REVIEW

[論文レビュー] Generalization without systematicity: On the compositional skills of sequence-to-sequence recurrent networks

Brenden M. Lake, Marco Baroni|arXiv (Cornell University)|Oct 31, 2017
Natural Language Processing Techniques被引用数 77
ひとこと要約

この論文は SCAN タスクにおける seq2seq RNN のゼロショット一般化を検証し、構成性を評価する。訓練とテストがわずかに異なる場合にはネットワークが一般化するが、系統的な構成一般化には失敗し、機械翻訳の概念実証を示す。

ABSTRACT

Humans can understand and produce new utterances effortlessly, thanks to their compositional skills. Once a person learns the meaning of a new verb "dax," he or she can immediately understand the meaning of "dax twice" or "sing and dax." In this paper, we introduce the SCAN domain, consisting of a set of simple compositional navigation commands paired with the corresponding action sequences. We then test the zero-shot generalization capabilities of a variety of recurrent neural networks (RNNs) trained on SCAN with sequence-to-sequence methods. We find that RNNs can make successful zero-shot generalizations when the differences between training and test commands are small, so that they can apply "mix-and-match" strategies to solve the task. However, when generalization requires systematic compositional skills (as in the "dax" example above), RNNs fail spectacularly. We conclude with a proof-of-concept experiment in neural machine translation, suggesting that lack of systematicity might be partially responsible for neural networks' notorious training data thirst.

研究の動機と目的

  • SC A N タスクに対する RNN ベースの seq2seq モデルのゼロショット一般化を基盤となるナビゲーション命令ドメインで評価する。
  • プリミティブと修飾語の新規組み合わせへの一般化、およびより長いアクション列への一般化がどの程度達成されるかを調査する。
  • 単一のプリミティブ命令から、そのすべての合成形へモデルが一般化できるかを検証する。
  • SCAN を超えるニューラルネットワークの系統的構成性に対する含意を探る(機械翻訳の実証実験を例示)。

提案手法

  • 入力命令と出力アクション列を用いた、監督付き系列対系列の解析タスクとしてSCANを用いる。
  • 広範な再帰アーキテクチャ(SRN、LSTM、GRU)を、注意機構の有無を問わず、ハイパーパラメータ検索を行い評価する(1–2 層、隠れユニット 25–400、ドロップアウト 0–0.5)。
  • Adam 最適化器を用いて 100,000 試行で訓練する;教師 forcing とフリーランニングデコーディングを比較する。
  • いくつかの分割(ランダムサブセット、長いアクション列、単一プリミティブからの合成一般化)でゼロショット一般化を評価する。
  • 翻訳における新語を用いた一般化を評価する、小規模な機械翻訳の概念実証実験を実施する。
  • エンコーダの表現とデコーダの挙動を分析し、失敗モードと記憶・注意機構の役割を理解する。

実験結果

リサーチクエスチョン

  • RQ1コマンド空間のサブセットで訓練した場合、seq2seq 再帰モデルは新規の構成命令へ一般化できるか?
  • RQ2訓練中に見られなかった長いアクション列や、長い出力を要する命令へ一般化できるか?
  • RQ3プリミティブ命令(例: turn left, jump)の意味を、そのすべての合成形へどの程度拡張できるか?
  • RQ4これらの一般化パターンは機械翻訳など別の seq2seq タスクにも拡張されるか,より広い制限を示すか?

主な発見

  • テスト命令が訓練中に見られた要素の合成である場合、モデルは良く一般化する(ランダムサブセット分割)。
  • 長いアクション列への一般化は限定的で、必要な列長が増えるにつれて性能が低下する。注意付きモデルでも。
  • Turn-left は primitive commands から学習する際に jump より遥かに良く一般化する。プリミティブ間で構成学習に不均衡があることを示唆。
  • より多くの合成例を加えるとプリミティブ命令からの一般化は改善されるが、依然として体系的な規則ベースの一般化には及ばない。
  • 機械翻訳のパイロットでは、新語(daxy)を導入すると未見の構造で翻訳が著しく低下し、構造的構成性にはデータ量が多く必要であることを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。