QUICK REVIEW

[論文レビュー] Local Monotonic Attention Mechanism for End-to-End Speech and Language Processing

Andros Tjandra, Sakriani Sakti|arXiv (Cornell University)|May 23, 2017

Topic Modeling参考文献 20被引用数 32

ひとこと要約

本稿では、エンコーダー状態の局所的ウィンドウに限定して左から右への単調なアライメントを強制する、エンドツーエンド音声および言語処理のためのローカル単調アテンション機構を提案する。動的にアライメント位置を予測し、アテンションをスライディングウィンドウに制限することで、計算コストを低減するとともに、アライメント精度を向上させ、ASR、G2P、機械翻訳のタスクにおいて、グローバルアテンションおよび先行のローカル手法と比較して顕著な性能向上を達成する。

ABSTRACT

Recently, encoder-decoder neural networks have shown impressive performance on many sequence-related tasks. The architecture commonly uses an attentional mechanism which allows the model to learn alignments between the source and the target sequence. Most attentional mechanisms used today is based on a global attention property which requires a computation of a weighted summarization of the whole input sequence generated by encoder states. However, it is computationally expensive and often produces misalignment on the longer input sequence. Furthermore, it does not fit with monotonous or left-to-right nature in several tasks, such as automatic speech recognition (ASR), grapheme-to-phoneme (G2P), etc. In this paper, we propose a novel attention mechanism that has local and monotonic properties. Various ways to control those properties are also explored. Experimental results on ASR, G2P and machine translation between two languages with similar sentence structures, demonstrate that the proposed encoder-decoder model with local monotonic attention could achieve significant performance improvements and reduce the computational complexity in comparison with the one that used the standard global attention architecture.

研究の動機と目的

ASR や機械翻訳のような長序列タスクにおいて、グローバルアテンションの計算非効率性と誤アライメントの問題を解決すること。
自動回帰タスク（音声認識や発音変換など）に不可欠な、左から右への単調なアライメントを強制すること。
計算量を抑えるために、エンコーダー状態の小さな動的ウィンドウに制限したローカルアテンション機構を導入すること。
ウィンドウサイズやアライメント位置の制御戦略を複数検討し、動的ウィンドウサイズや位置予測を含む。
提案手法がグローバルアテンションおよび先行のローカル-m手法を上回る精度と効率性を示すことを実証すること。

提案手法

アテンション機構は、すべてのエンコーダー状態にわたるアテンションではなく、予測されたアライメント位置の周囲の局所的ウィンドウを使用してコンテキストベクトルを計算する。
動的な位置予測モジュールは、デコーダー状態と過去のアライメントに基づいて次のアライメント点を推定し、適応的なウィンドウ配置を可能にする。
アテンション重み分布は、予測位置を中心とする固定サイズのウィンドウ内でのみ計算され、局所性が保証される。
アライメントが前方にのみ移動することを制限することで、ソース系列における後退的なジャンプを防ぎ、単調性が確保される。
ウィンドウサイズと位置は学習可能なパラメータで制御され、勾配降下法によるエンドツーエンド学習が可能になる。
モデルは、局所的ウィンドウ内でのデコーダーとエンコーダーの隠れ状態の適合性を計算するスコア関数を用いたソフトアテンション機構を採用する。

実験結果

リサーチクエスチョン

RQ1ローカルかつ単調なアテンション機構は、エンドツーエンド音声および言語モデルにおけるアライメント精度を向上させることができるか？
RQ2単調性と局所性を強制することで、計算複雑性を低減しながら性能を維持または向上させることができるか？
RQ3ウィンドウサイズやアライメント位置の制御戦略に異なるものを使うと、モデル性能にどのような影響を与えるか？
RQ4可変なソース-ターゲット長比を示すタスクにおいて、動的アライメント位置予測は、固定ステップサイズのローカルアテンションを上回る性能を発揮するか？
RQ5ASR、G2P、機械翻訳において、提案手法はグローバルアテンションおよび先行のローカル手法と比較してどのように差をつけるか？

主な発見

グローバルアテンションと比較して、英語→フランス語翻訳ではBLEUスコアが最大2.2ポイント向上し、インドネシア語→英語翻訳では3.6ポイント向上した。
固定ステップサイズのローカル-mアテンションと比較して、英語→フランス語翻訳で0.8のBLEU向上、インドネシア語→英語翻訳で2.0のBLEU向上を達成した。
エンコーダー状態の小さな局所的ウィンドウにアテンションを制限することで、計算複雑性を顕著に低減した。
動的な位置予測機構により、音声認識やG2Pのような可変長比タスクにおけるより良いアライメントが実現された。
ASR、G2P、機械翻訳を含む多様なタスクにおいて、ローカル単調アテンション機構は一貫した性能向上を示した。
受容 field を制限することで正則化効果を発揮し、汎化性能とアライメントの安定性が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。