QUICK REVIEW

[論文レビュー] Systematic Generalization: What Is Required and Can It Be Learned?

Dzmitry Bahdanau, Shikhar Murty|arXiv (Cornell University)|Nov 30, 2018

Topic Modeling参考文献 33被引用数 25

ひとこと要約

この論文は、学習時に部分集合のみを用いても、すべての可能なオブジェクトペアについて推論できるかをテストする合成データセット（SQOOP）を用いて、視覚的質疑応答（VQA）における体系的一般化を調査している。手動で設計されたツリー構造のレイアウトを持つモジュラーニューラルネットワーク（NMN）は、汎用モデルやエンドツーエンドNMNと比べ、体系的一般化が著しく優れている。後者では、しばしば非構成的で非最適なレイアウトを学習し、一般化性能を損なう。これは、頑健な体系的推論を達成するためには、明示的な帰納的バイアスや正則化項の導入が不可欠であることを示唆している。

ABSTRACT

Numerous models for grounded language understanding have been recently proposed, including (i) generic models that can be easily adapted to any given task and (ii) intuitively appealing modular models that require background knowledge to be instantiated. We compare both types of models in how much they lend themselves to a particular form of systematic generalization. Using a synthetic VQA test, we evaluate which models are capable of reasoning about all possible object pairs after training on only a small subset of them. Our findings show that the generalization of modular models is much more systematic and that it is highly sensitive to the module layout, i.e. to how exactly the modules are connected. We furthermore investigate if modular models that generalize well could be made more end-to-end by learning their layout and parametrization. We find that end-to-end methods from prior work often learn inappropriate layouts or parametrizations that do not facilitate systematic generalization. Our results suggest that, in addition to modularity, systematic generalization in language understanding may require explicit regularizers or priors.

研究の動機と目的

モジュラーニューラルネットワークアーキテクチャ（NMN）が、視覚的質疑応答において、汎用ニューラルモデルよりも強い体系的一般化を達成できるかどうかを評価すること。
モジュールのレイアウトおよびパrametrizationが体系的一般化性能に与える影響を調査すること。
エンドツーエンドでレイアウトとパrametrizationを学習するNMNにおいて、体系的一般化が保持されたり向上したりするかどうかを評価すること。
既存のエンドツーエンド手法が、構成的で体系的な解に収束するのか、それとも非構成的で非最適な解に収束するのかを同定すること。
ニューラルモデルにおける体系的で構成的な推論へ向かう学習をガイドするために、明示的な正則化項や事前分布が必要かどうかを特定すること。

提案手法

著者らは、画像内のランダムにペairedされたオブジェクトについて、空間的関係に関する質問（例：「文字Aが数字5の左にあるか？」）に答える必要がある合成VQAデータセットSQOOPを導入した。
モデルはオブジェクトペアの小さなサブセットで学習されるが、すべての可能なペアで評価され、体系的一般化のテストが行われる。
汎用モデル（例：FiLM, MAC, RelNet）と、手動で設計されたモジュールおよび固定されたレイアウトを用いたモジュラーニューラルネットワーク（NMN）を比較した。
レイアウトの誘導（学習されたパーサーを介して）および質問に対するソフトアテンションによるパrametrization学習を用いたエンドツーエンド版NMNを評価した。
異なるレイアウト構造（例：ツリー対チェーン）および訓練信号の強度の下で、モデルの性能を分析した。
オブジェクトペアの多様性が増加する複数のSQOOPスプリット（例：#rhs/lhs=1 から #rhs/lhs=18）で実験を行い、未観測ペアへのゼロショット一般化を測定した。

実験結果

リサーチクエスチョン

RQ1モジュラーニューラルネットワークアーキテクチャ（NMN）は、視覚的質疑応答において、汎用ニューラルモデルよりも強い体系的一般化を達成できるか？
RQ2モジュールの構造的レイアウト（例：ツリー対チェーン）は、体系的一般化性能にどのように影響するか？
RQ3データからレイアウトまたはパrametrizationを学習するエンドツーエンド手法は、体系的一般化を保持するのか、それとも非構成的解に収束するのか？
RQ4エンドツーエンドNMNの性能は、初期化に敏感であるか。特に、多くの未観測オブジェクトペアを含む高複雑度設定においては？
RQ5帰納的バイアスや明示的な正則化項は、ニューラルモデルにおける体系的一般化に果たす役割は何か？

主な発見

手動で設計されたツリー構造のレイアウトを持つモジュラーニューラルネットワーク（NMN）は、FiLM、MAC、RelNetなどの汎用モデルと比べ、未観測オブジェクトペアにおいて顕著に優れた一般化性能を示した。
NMNの性能はレイアウトに強く依存しており、特に難易度の高いスプリット（#rhs/lhs=18）において、ツリー構造のレイアウトはチェーン構造のレイアウトよりもはるかに強い一般化性能を示した。
レイアウトやパrametrizationを学習するエンドツーエンドNMNは、しばしばツリーに類似した構成的構造に収束せず、代わりに非構成的なチェーンやぼやけたアテンションメカニズムを学習する。
強い監視信号が与えられても、レイアウト誘導手法は初期化に極めて敏感であり、しばしば体系的解を学習できない。これは、明示的な帰納的バイアスの導入が不可欠であることを示唆している。
パrametrization誘導は、簡単なスプリット（#rhs/lhs=2）においては有望な結果を示しており、より豊富な訓練信号や事前分布があれば、エンドツーエンドNMNが体系的行動へと導かれる可能性がある。
これらの結果は、エンドツーエンド学習そのものが体系的一般化に十分であるという仮定を疑問視しており、頑健な構成的推論を達成するためには、明示的な正則化項やアーキテクチャ上の事前分布の導入が不可欠であると示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。