QUICK REVIEW

[論文レビュー] Character-Aware Neural Language Models

Yoon Kim, Yacine Jernite|arXiv (Cornell University)|Aug 26, 2015

Natural Language Processing Techniques参考文献 55被引用数 1,023

ひとこと要約

本稿では、単語の埋め込み表現や語彙素性の事前処理を必要とせず、文字レベルの入力を用いて単語表現を生成する、文字に注意を払うニューラル言語モデルを提案する。このモデルは、文字列に対して畳み込みニューラルネットワーク（CNN）とハイウェイネットワークを組み合わせ、その出力をLSTM言語モデルに供給する。最先端の単語レベルモデルと比較して60%少ないパラメータを用いても、英語Penn Treebankでは同等の性能を達成し、アラビア語、チェコ語、ロシア語など語彙素性が豊富な言語においても、単語レベルおよび語素レベルのベースラインを上回る性能を示す。

ABSTRACT

We describe a simple neural language model that relies only on character-level inputs. Predictions are still made at the word-level. Our model employs a convolutional neural network (CNN) and a highway network over characters, whose output is given to a long short-term memory (LSTM) recurrent neural network language model (RNN-LM). On the English Penn Treebank the model is on par with the existing state-of-the-art despite having 60% fewer parameters. On languages with rich morphology (Arabic, Czech, French, German, Spanish, Russian), the model outperforms word-level/morpheme-level LSTM baselines, again with fewer parameters. The results suggest that on many languages, character inputs are sufficient for language modeling. Analysis of word representations obtained from the character composition part of the model reveals that the model is able to encode, from characters only, both semantic and orthographic information.

研究の動機と目的

単語埋め込みや語彙素性の事前処理を一切用いずに、文字レベルの入力に依存するニューラル言語モデルの開発。
文字レベルの構成によってサブワード情報を活用することで、ニューラル言語モデルにおけるレアワード問題を解決すること。
文字レベルの表現のみで、効果的な言語モデリングに十分な意味的および綴り的情報を捉えられるかを検証すること。
特にリソースが限られた言語や語彙素性が複雑な言語環境において、モデルサイズを削減しながら性能を維持または向上させること。
高性能な言語モデルにおいて単語埋め込みが本当に必要かどうかを検証し、従来の単語レベルベクトル入力への依存を問い直すこと。

提案手法

各単語の文字列を処理するための文字レベルCNN（最大時刻プーリングを伴う）が、局所的なn-gramパターンを捉える。
CNNの出力をハイウェイネットワークに通すことで、消失勾配の問題を回避しながらより深い表現学習を可能にする。
得られた文字レベル表現をLSTM再帰ニューラルネットワークに供給し、単語レベルで予測を行う言語モデルとして動作させる。
入力層に単語埋め込みを一切使用せず、クロスエントロピー損失を用いてシーケンスの次の単語を予測する形で、エンドツーエンドで学習する。
文字から直接サブワード構造を学習するため、語彙素性タグ付けや手動による特徴工学を回避する。
推論時においては、頻出単語の文字レベル表現を事前に計算してメモリを確保することで、推論時間を短縮する（メモリの増加を代償に）。

実験結果

リサーチクエスチョン

RQ1単語埋め込みを一切使用せず、文字レベルの入力のみでニューラル言語モデルが競争力のある性能を達成できるか。
RQ2文字レベルの表現のみで、意味的および綴り的情報を十分に捉えることができるか。
RQ3語彙素性が豊富な言語（高頻度の語彙多様性）において、文字レベルモデルが単語レベルおよび語素レベルのベースラインを上回れるか。
RQ4ニューラル言語モデルにおいて単語埋め込みは本当に必要か、それとも文字レベルの構成だけで十分か。
RQ5特にリソースが限られた環境や未知語発生時において、標準的な単語レベル言語モデルと比較して、モデルのパラメータ効率はどの程度か。

主な発見

英語Penn Treebankでは、大規模なアーキテクチャを用いても、60%少ないパラメータでテストパープレキシティが119.2に達し、最先端の性能を達成した。
アラビア語、チェコ語、フランス語、ドイツ語、スペイン語、ロシア語を含む語彙素性が豊富な言語において、Kneser-Neyおよび単語レベル／語素レベルLSTMベースラインを上回った。
文字レベルの構成による一般化能力のおかげで、レアワードの性能が向上し、未知語問題が軽減された。
学習済み表現の分析から、明示的な教師信号なしに、文字レベルモデルが意味的および綴り的特徴を両方ともエンコードしていることが示された。
学習速度は、同等の単語レベルモデル（3000トークン/秒）と比較して遅く（1500トークン/秒）、しかし推論は文字レベル表現の事前計算により高速化可能である。
単語埋め込みと文字レベル出力の連結実験では、性能向上が認められなかったため、文字レベル特徴が十分であれば単語埋め込みは冗長である可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。