QUICK REVIEW

[論文レビュー] Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks

Yikang Shen, Shawn W. Tan|arXiv (Cornell University)|Oct 22, 2018

Natural Language Processing Techniques被引用数 158

ひとこと要約

ON-LSTM は cumax ベースのゲーティング機構でニューロンを階層的に順序付ける inductive bias を導入し、リカレントネットワーク内で木構造の構成を実現します。言語モデルの改善と教師なし構文解析の向上、長距離の統語および論理推論タスクの能力向上をもたらします。

ABSTRACT

Natural language is hierarchically structured: smaller units (e.g., phrases) are nested within larger units (e.g., clauses). When a larger constituent ends, all of the smaller constituents that are nested within it must also be closed. While the standard LSTM architecture allows different neurons to track information at different time scales, it does not have an explicit bias towards modeling a hierarchy of constituents. This paper proposes to add such an inductive bias by ordering the neurons; a vector of master input and forget gates ensures that when a given neuron is updated, all the neurons that follow it in the ordering are also updated. Our novel recurrent architecture, ordered neurons LSTM (ON-LSTM), achieves good performance on four different tasks: language modeling, unsupervised parsing, targeted syntactic evaluation, and logical inference.

研究の動機と目的

言語における潜在的階層的（構成要素的）構造を学習するためのバイアスを動機付ける。
長期情報と短期情報を、順序付けられたゲーティングを介して割り当てるニューラルユニットを提案する。
cumax 活性化を用いてモノトニックなマスターゲートと構造化更新を強制する ON-LSTM を開発する。
言語モデル、教師なし構文解析、ターゲットとなる構文評価、論理推論における改善を示す。

提案手法

cumax() を cummax(softmax(...)) に続けて cumsum させ、ニューロンブロックごとにソフトな二値ゲートを分割できるようにする。
マスター忘却ゲートとマスター入力ゲートを cumax で定義し、高レベルの更新の粒度を決定的に制御する。
更新後のセル状態 c_t を、マスターゲートと標準の LSTM ゲートの組み合わせを用いて計算し、階層的な情報保持を可能にする。
パラメータを削減するために、マスターゲートを D_m = D/C 次元ベクトルにダウンサイジングしてチャンク間でゲーティングを共有する。
PTB 上で言語モデルとして三層の ON-LSTM を訓練し困惑度を評価する。教師なし解析のために期待分割点を用いて潜在的な木を推定する。構文タスクと論理推論データセットの評価を行う。

実験結果

リサーチクエスチョン

RQ1ニューロンの更新の階層を強制する帰納的バイアスは、RNN における潜在的木構造表現の学習を改善するか。
RQ2cumax ベースの構造的ゲーティングは、教師あり木を用いずに長距離依存性のモデリングと構成要素解析を改善できるか。
RQ3ON-LSTM は言語モデル、教師なし解析、ターゲット構文評価、論理推論において標準 LSTM と比較してどう機能するか。

主な発見

ON-LSTM は、同等容量の標準 LSTM よりも困惑度で優れた言語モデリング性能を示す（PTB、三層モデル: 25M パラメータ、検証 58.29±0.10、テスト 56.17±0.12）。
教師なし構文解析では、ON-LSTM の第二層が WSJ テストで最良の F1 を報告された層の中で最先端の結果を達成。
ON-LSTM はより長いシーケンスへの一般化と、ターゲット構文評価における長距離依存性の強化を示す。
ON-LSTM は標準 LSTM と比較して長いシーケンスの論理推論タスクで優れた性能を示し、構造化データの扱いが改善されていることを示唆する。
モデルの帰納的バイアスは人間の統語構造と一致し、階層的表現を必要とする下流タスクに潜在的な利益を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。