QUICK REVIEW

[論文レビュー] Grid Long Short-Term Memory

Nal Kalchbrenner, Ivo Danihelka|arXiv (Cornell University)|Jan 7, 2016

Image Retrieval and Classification Techniques被引用数 179

ひとこと要約

本稿では、層および時空間的次元にわたりセルを接続する多次元LSTMアーキテクチャであるグリッドLSTM（Grid LSTM）を提案する。これにより、統合的で深い順序付きモデリングが可能となる。グリッドLSTMは、Wikipediaの文字予測タスクで1.47ビット/文字の最先端性能を達成し、新しい再エンコーダーモデルを用いて、フレーズベースのシステムを上回る性能を示した。

ABSTRACT

Abstract: This paper introduces Grid Long Short-Term Memory, a network of LSTM cells arranged in a multidimensional grid that can be applied to vectors, sequences or higher dimensional data such as images. The network differs from existing deep LSTM architectures in that the cells are connected between network layers as well as along the spatiotemporal dimensions of the data. The network provides a unified way of using LSTM for both deep and sequential computation. We apply the model to algorithmic tasks such as 15-digit integer addition and sequence memorization, where it is able to significantly outperform the standard LSTM. We then give results for two empirical tasks. We find that 2D Grid LSTM achieves 1.47 bits per character on the Wikipedia character prediction benchmark, which is state-of-the-art among neural approaches. In addition, we use the Grid LSTM to define a novel two-dimensional translation model, the Reencoder, and show that it outperforms a phrase-based reference system on a Chinese-to-English translation task.

研究の動機と目的

標準的および深層LSTMアーキテクチャが、順序付きおよび階層的なデータ構造を処理する際の限界を解消すること。
LSTMの接続性を層および時空間的次元にまで拡張することで、深層学習と順序付きモデリングを統合すること。
長期間記憶と正確な順序処理を要するアルゴリズム的タスクにおける性能を向上させること。
文字レベル言語モデルベンチマーク（例：Wikipediaの文字予測）およびニューラル機械翻訳などの実験的ベンチマークで最先端の結果を示すこと。

提案手法

シーケンスおよび時間の次元に加え、ネットワークの層をまたがっても接続するLSTMセルの多次元グリッドを提案する。
各LSTMセルが空間的および時間的両方向の隣接セルからの入力を受ける、新しいアーキテクチャを導入することで、より豊かな特徴伝搬を実現する。
入力データを構造的グリッド（例：1次元グリッドとしてのシーケンス、2次元グリッドとしての画像）とみなすことにより、グリッドLSTMをシーケンスモデリングタスクに適用する。
2次元グリッド構造でソース文を符号化するためのグリッドLSTMを用いた、新しい2次元翻訳モデル「Reencoder」を設計する。
グリッドセル間でパラメータを共有しながら、標準的な時間方向の誤差逆伝播法を用いて、エンドツーエンドでモデルを学習する。
2次元符号化表現から翻訳を生成するための、新しいデコーディング機構をReencoderに採用する。

実験結果

リサーチクエスチョン

RQ1層および時空間的次元にわたってセルを接続する多次元LSTMアーキテクチャが、標準的および深層LSTMモデルを上回る性能を示せるか？
RQ2グリッドLSTMは、長期間記憶と正確な順序モデリングを要するアルゴリズム的タスクにおいて、どの程度性能を向上させられるか？
RQ3グリッドLSTMは、Wikipediaの文字予測などの文字レベル言語モデリングベンチマークで最先端の結果を達成できるか？
RQ4グリッドLSTMは、ニューラル機械翻訳などのシーケンス対シーケンスタスクに効果的に適応可能であり、フレーズベースのベースラインを上回る性能を示せるか？

主な発見

グリッドLSTMは、Wikipediaの文字予測ベンチマークで1.47ビット/文字を達成し、ニューラルアプローチにおける最先端の結果を示した。
15桁の整数加算およびシーケンス記憶タスクにおいて、グリッドLSTMは標準LSTMモデルを顕著に上回った。
グリッドLSTMに基づく新しい2次元翻訳モデル「Reencoder」は、中国語→英語翻訳タスクでフレーズベースの翻訳システムを上回った。
グリッドLSTMの多次元的接続性により、特に長時間シーケンスおよび高次元タスクにおいて、より良好な勾配伝搬と記憶保持が可能となった。
本アーキテクチャは、シーケンス、画像、構造的シーケンスなど多様なデータタイプに強く一般化する能力を示した。
時間的次元を超えてLSTMの接続性を拡張することで、複雑な順序付きタスクにおけるモデリング能力と性能が向上することを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。