QUICK REVIEW

[論文レビュー] Semi-supervised Sequence Learning

Andrew M. Dai, Quoc V. Le|arXiv (Cornell University)|Nov 4, 2015

Topic Modeling参考文献 38被引用数 490

ひとこと要約

本稿では、言語モデルとシーケンスオートエンコーダーを用いた半教師あり事前学習を、再帰的ニューラルネットワークに適用することで、シーケンス分類タスクにおける学習安定性と一般化性能を向上させることを提案する。大規模なラベルなしデータに対して非教師ありの目的関数を用いてLSTMを初期化することで、追加のラベル付きデータなしにIMDB、DBpedia、20 Newsgroups、CIFAR-10の各ベンチマークで最先端または競争力のある結果を達成する。

ABSTRACT

We present two approaches that use unlabeled data to improve sequence learning with recurrent networks. The first approach is to predict what comes next in a sequence, which is a conventional language model in natural language processing. The second approach is to use a sequence autoencoder, which reads the input sequence into a vector and predicts the input sequence again. These two algorithms can be used as a "pretraining" step for a later supervised sequence learning algorithm. In other words, the parameters obtained from the unsupervised step can be used as a starting point for other supervised training models. In our experiments, we find that long short term memory recurrent networks after being pretrained with the two approaches are more stable and generalize better. With pretraining, we are able to train long short term memory recurrent networks up to a few hundred timesteps, thereby achieving strong performance in many text classification tasks, such as IMDB, DBpedia and 20 Newsgroups.

研究の動機と目的

シーケンス分類タスクのための深層LSTMネットワークの学習不安定性と一般化性能の悪さを解消すること。
大規模なラベルなしデータを活用する非教師あり事前学習手法を検討し、教師ありシーケンス学習の性能を向上させること。
オートエンコーダーまたは言語モデルによる事前学習が、ランダム初期化に比べて性能向上と収束速度向上をもたらすかどうかを評価すること。
アマゾンレビューなどの関連ドメインのラベルなしデータを用いた事前学習が、Rotten Tomatoesの感情分類タスクの性能向上に寄与するかを調査すること。
テキストを超えて、画像を1行ずつシーケンスとして処理するなど、非順序的データへの半教師ありシーケンス学習の適用範囲を拡張すること。

提案手法

ラベルなしシーケンス上で再帰的言語モデル（次トークン予測）を学習し、LSTMの重みを事前学習する。
入力シーケンスを固定長のベクトルにエンコードし、共有されたエンコーダ-デコーダ重みを用いて元のシーケンスを再構築するシーケンスオートエンコーダーを実装する。
オートエンコーダーや言語モデルから学習されたエンコーダ重みを、下流の教師ありLSTM分類器の初期化に使用する。
ラベル予測の損失重みをタイムステップ全体で0から1に段階的に増加させる線形ラベルゲインを適用し、初期層への勾配伝搬を改善する。
標準的なバックプロパゲーションスルータイムを用いて、事前学習済みLSTMをラベル付きデータで微調整する。
オートエンコーダーにおける再構築損失にL2損失を用い、画像を1行ずつシーケンスとして処理することで、非テキストデータへの応用を拡張する。

実験結果

リサーチクエスチョン

RQ1言語モデルやシーケンスオートエンコーダーによる非教師あり事前学習が、テキスト分類タスクにおけるLSTMの学習安定性と一般化性能を向上させるか？
RQ2関連ドメインのスケールの大きなラベルなしデータ（例：アマゾンレビュー）を用いた事前学習が、ラベル付きデータを追加せずとも、下流の分類タスク（例：Rotten Tomatoes）の性能向上に寄与するか？
RQ3事前学習と線形ラベルゲインの組み合わせが、長時間系列および深層LSTMにおける性能に与える影響は何か？
RQ4提案された半教師ありアプローチが、ピクセル行シーケンスとして処理される画像のような非テキスト的順序データにも一般化可能か？
RQ5事前学習済みLSTMの性能が、IMDB、DBpedia、CIFAR-10などの標準ベンチマークで最先端モデルと同等またはそれを上回るか？

主な発見

SA-LSTMおよびLM-LSTMモデルは、すべてのベンチマークでランダム初期化LSTMを上回り、SA-LSTMは20 Newsgroupsで15.6%のテスト誤差を達成し、従来手法に比べ顕著な向上を示した。
アマゾンレビューのラベルなしデータを用いてシーケンスオートエンコーダーを事前学習したことで、Rotten Tomatoesの感情分類精度が79.7%から83.3%に向上し、大量のラベル付きデータを追加したのと同等の効果を示した。
DBpediaの文字レベル分類タスクでは、線形ゲインを用いたSA-LSTMが1.19%のテスト誤差を達成し、最先端の畳み込みネットワーク（例：Large ConvNetで1.73%）を上回った。
DBpediaにおいて、線形ラベルゲインをSA-LSTMと組み合わせることで、テスト誤差が1.32%（線形ゲイン付きLSTM）から1.19%に低下し、勾配伝搬の改善が確認された。
CIFAR-10では、2層のLM-LSTMが18.0%のテスト誤差を達成し、非事前学習LSTM（26.0%）およびベースライン畳み込みDBN（21.1%）を上回った。
シーケンスオートエンコーダー手法は標準LSTMよりも学習中に安定しており、事前学習ステップのおかげで数100タイムステップにわたるシーケンスの学習が可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。