Skip to main content
QUICK REVIEW

[論文レビュー] Variable Computation in Recurrent Neural Networks

Yacine Jernite, Édouard Grave|arXiv (Cornell University)|Nov 18, 2016
Neural Networks and Applications被引用数 28
ひとこと要約

本稿では、入力と隠れ状態に応じて各タイムステップごとに計算を動的に調整する Variable Computation RNN (VCRNN) と Variable Computation GRU (VCGRU) を提案する。このアプローチにより、計算量を削減しつつ言語モデリングタスクの性能を向上させることができる。モデルは語の境界や構造的単位においてより多くの計算を割り当てることを学習し、定数計算のベースラインと比較して、より少ない計算量でより良いパープレキシティを達成する。

ABSTRACT

Recurrent neural networks (RNNs) have been used extensively and with increasing success to model various types of sequential data. Much of this progress has been achieved through devising recurrent units and architectures with the flexibility to capture complex statistics in the data, such as long range dependency or localized attention phenomena. However, while many sequential data (such as video, speech or language) can have highly variable information flow, most recurrent models still consume input features at a constant rate and perform a constant number of computations per time step, which can be detrimental to both speed and model capacity. In this paper, we explore a modification to existing recurrent units which allows them to learn to vary the amount of computation they perform at each step, without prior knowledge of the sequence's time structure. We show experimentally that not only do our models require fewer operations, they also lead to better performance overall on evaluation tasks.

研究の動機と目的

  • 逐次データにおける変動する情報フローに対応できない定数計算の再帰的ネットワークの非効率性を是正すること。
  • 事前にシーケンス構造の知識がない状態で、RNN が各タイムステップでいつ、どの程度の計算を行うかを学習するメカニズムを開発すること。
  • データ依存の複雑さに応じて計算量を適応させることで、モデルの性能を向上させるとともに計算コストを削減すること。
  • 変動計算が文字レベルおよびビットレベルの言語モデリングにおいて、より優れた一般化性能と効率性をもたらすことを実証すること。

提案手法

  • 標準の Elman ユニットおよび GRU ユニットを変更し、各タイムステップにおける計算ステップ数を決定する学習可能なスケジューラを追加することで、VCRNN および VCGRU を提案する。
  • 現在の隠れ状態と入力を基に、計算ステップ数 $ m_t $ を予測する微分可能スケジューラネットワークを導入する。
  • 離散的選択 $ m_t $ の微分可能リラクゼーションをコングリート分布を用いて行い、エンドツーエンドの学習を可能にする。
  • モデルの性能(パープレキシティ)と計算コストのバランスを取るための訓練目的関数を採用し、目標平均計算量 $ \bar{m} $ を用いる。
  • 特に無情報領域(沈黙やバッファなど)においてスパarsity(スパarsity)を促進し、効率を高めるために $ m_t $ にペナルティを課す。
  • 微分可能なスケジューラを介してバックプロパゲーションを用いてエンドツーエンドでモデルを訓練し、最適な計算割り当てを学習可能にする。

実験結果

リサーチクエスチョン

  • RQ1再帰的ネットワークは、事前の構造的知識なしに、入力の複雑さに応じて各タイムステップごとに計算量を変化させることを学習できるか?
  • RQ2固定計算の RNN と比較して、変動計算はモデル性能の向上と計算コストの削減をもたらすか?
  • RQ3モデルは、語の境界や語彙素単位といった言語的構造を、適応的計算を通じて発見し、活用できるか?
  • RQ4スケジューラの挙動は、テキストや音声などの逐次データにおける意味的・文法的単位とどのように相関するか?
  • RQ5モデルは、異なる言語やデータタイプ(例:文字レベル、ビットレベル)に一般化可能であり、効率性と正確性を維持できるか?

主な発見

  • PTB データセットにおいて、VCGRU は標準の GRU や LSTM モデルと同等の性能を達成するが、計算量は半分未満にまで削減された。
  • Text8 データセットにおいて、$ \bar{m} $ の値を変化させた VCGRU モデルは、同程度またはより高い計算コストのベースラインを常に上回る性能を示した。
  • VCRNN は、ドイツ語およびチェコ語のテキストにおいて、語の境界や語彙素単位で計算量のピークを示しており、これらの場所により多くの計算を割り当てることを学習していることが裏付けられた。
  • モデルは、文字間の人工的な8ビットおよび24ビットのバッファを無視するよう学習しており、冗長または低情報のセグメントを同定・スキップしていることが示された。
  • Europarl チェコ語およびドイツ語において、ガイド付きおよびアンガイド付きの両方の VCRNN バリエーションが、低い計算負荷で標準の RNN よりも優れたホールドアウト対数尤度を達成した。
  • スケジューラは、おおよそ1語あたり1回の高次元の使用を学習しており、一部のケースでは語素(例:-verkehr, -freundlich)を検出するなど、言語的構造に感受性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。