QUICK REVIEW

[論文レビュー] Learning to Segment Inputs for NMT Favors Character-Level Processing

Julia Kreutzer, Artem Sokolov|arXiv (Cornell University)|Oct 2, 2018

Natural Language Processing Techniques参考文献 27被引用数 25

ひとこと要約

この論文は、ニューラル機械翻訳（NMT）のエンド・ツー・エンドで学習可能な動的セグメンテーション機構を提案する。固定のサブワードまたは文字レベルのトークン化に代わり、Graves（2016）の「適応的計算時間」に基づく、適応的かつ学習可能なセグメンテーションプロセスを採用している。モデルはハーティングユニットを用いて入力文字を可変長のセグメントにグループ化するのを学習する。実験の結果、モデルは一貫して（ほぼ）文字レベルのセグメンテーションを好むことが示され、サブワードや語彙レベルの代替手法に比べ、純粋な文字レベルのNMTモデルの有効性が裏付けられた。

ABSTRACT

Most modern neural machine translation (NMT) systems rely on presegmented inputs. Segmentation granularity importantly determines the input and output sequence lengths, hence the modeling depth, and source and target vocabularies, which in turn determine model size, computational costs of softmax normalization, and handling of out-of-vocabulary words. However, the current practice is to use static, heuristic-based segmentations that are fixed before NMT training. This begs the question whether the chosen segmentation is optimal for the translation task. To overcome suboptimal segmentation choices, we present an algorithm for dynamic segmentation based on the Adaptative Computation Time algorithm (Graves 2016), that is trainable end-to-end and driven by the NMT objective. In an evaluation on four translation tasks we found that, given the freedom to navigate between different segmentation levels, the model prefers to operate on (almost) character level, providing support for purely character-level NMT models from a novel angle.

研究の動機と目的

ニューラル機械翻訳モデルが、BPE や WordPiece のような固定でヒューリスティックな事前セグメンテーションに依存するのではなく、動的に最適な入力セグメンテーションを学習できるかを調査すること。
パイプラインベースの事前処理の限界、例えば硬直的なセグメンテーション、語彙の不一致、生産システムにおける統合のオーバーヘッドを克服すること。
セグメンテーションが適応的に学習される場合、長時間のシーケンスに起因するにもかかわらず、文字レベルのNMTがサブワードや語彙レベルのモデルを上回る性能を示すかどうかを評価すること。
純粋な文字レベルのモデルが、その頑健性と事前処理の負担の軽減を踏まえて、実用的で効果的であるという実証的および定性的な証拠を提供すること。

提案手法

従来の埋め込み層に代わり、入力文字を逐次処理し、スカラーハーティングユニットを用いてセグメント埋め込みを出力するタイミングを動的に決定する「スマート埋め込み」層を導入する。
ハーティングユニットは、文字ブロックがエンコーダに供給されるべきタイミングを示すゲーティング信号を計算し、可変長のセグメント生成を可能にする。
中間の隠れ状態はハーティング確率で重み付けされ、全メカニズムが完全に微分可能であり、エンド・ツー・エンドで学習可能になる。
モデルは双方向GRUエンコーダとアテンションベースのデコーダを採用しており、入力埋め込み層を除き、RNN、CNN、Transformerアーキテクチャと完全に互換性がある。
セグメンテーションプロセスは微分可能であり、NMTの目的関数と同時に学習されるため、翻訳品質を向上させるセグメンテーションパターンをモデルが学習可能になる。
本手法は、4つの多様な翻訳タスク（IWSLT、CASIA、ASPEC、WMT）で評価され、学習されたセグメンテーションと固定BPE、文字レベルのベースラインを比較した。

実験結果

リサーチクエスチョン

RQ1エンド・ツー・エンドで動的セグメンテーションを学習するNMTモデルは、サブワードレベル、語彙レベル、それとも文字レベルのセグメンテーションを好むのか？
RQ2BPE や WordPiece のような固定セグメンテーション手法と比較して、モデルが入力のセグメンテーションを適応的に学習することで翻訳品質が向上するか？
RQ3学習されたセグメンテーションを用いた純粋な文字レベルのモデルは、BLEUスコアと頑健性の観点から、サブワードベースのモデルをどの程度上回るのか？
RQ4再帰的ゲートとアテンションメカニズムは、文字レベルのモデルでどのような暗黙のセグメンテーションパターンを学習するのか？また、それらは明示的なセグメンテーションとどのように比較されるか？
RQ5動的セグメンテーションを学習できる能力は、サブワードや語彙レベルのアプローチに代えて、純粋な文字レベルのNMTを採用することを正当化するのか？

主な発見

モデルは、全データセットで90％以上のセグメントが1〜3文字の長さであるなど、一貫して（ほぼ）文字レベルのセグメンテーションを学習する。
長時間の入力シーケンスに起因するにもかかわらず、同じモデルアーキテクチャを用いても、動的セグメンテーションを用いた文字レベルのモデルは、サブワードベースのモデルと同等またはそれ以上のBLEUスコアを達成した。
GRUゲートの活性化状態から、空白文字と語の境界が明確に異なるゲーティングパターンを引き起こしていることが明らかになった。これは、モデルが再帰的ダイナミクスを通じて暗黙的にセグメンテーションを学習していることを示している。
モデルは語幹分解能力を示し、'schreibtisch' を 'schreib' と 'tisch' に正しく分割することができた。これは、強力な語彙素の理解が可能であることを示唆している。
動的セグメンテーションメカニズムは、純粋な文字レベルのNMTモデルにすでに存在するセグメンテーション能力を再発見した。これは、パフォーマンス向上のためには明示的なセグメンテーション学習が必ずしも必要ではないことを示している。
結果は、純粋な文字レベルのNMTが、事前処理のオーバーヘッドが少なく、OOVやスペルミスの処理に優れていることから、サブワードベースのシステムに代わる実用的で頑健かつ効率的な代替手段であると支持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。