QUICK REVIEW

[論文レビュー] Sequence-to-Sequence Models Can Directly Translate Foreign Speech

Ron J. Weiss, Jan Chorowski|arXiv (Cornell University)|Mar 24, 2017

Natural Language Processing Techniques参考文献 32被引用数 54

ひとこと要約

エンドツーエンドのシーケンス対シーケンスモデルは、ソース言語の transcripts を介さずに一つの言語の音声を直接別の言語のテキストへ翻訳し、 cascaded ASR+MT システムを上回る。ASRを用いたマルチタスク学習は性能をさらに向上させる。

ABSTRACT

We present a recurrent encoder-decoder deep neural network architecture that directly translates speech in one language into text in another. The model does not explicitly transcribe the speech into text in the source language, nor does it require supervision from the ground truth source language transcription during training. We apply a slightly modified sequence-to-sequence with attention architecture that has previously been used for speech recognition and show that it can be repurposed for this more complex task, illustrating the power of attention-based models. A single model trained end-to-end obtains state-of-the-art performance on the Fisher Callhome Spanish-English speech translation task, outperforming a cascade of independently trained sequence-to-sequence speech recognition and machine translation models by 1.8 BLEU points on the Fisher test set. In addition, we find that making use of the training data in both languages by multi-task training sequence-to-sequence speech translation and recognition models with a shared encoder network can improve performance by a further 1.4 BLEU points.

研究の動機と目的

カスケード（ASR+MT）における誤差蓄積を避けるためのエンドツーエンド音声翻訳の動機付け。
ソースの transcripts がなくても、注意機構付きの単一の seq2seq が1つの言語の音声を別の言語のテキストへ翻訳できることを実証する。
エンコーダを ASR/MT タスクと共有するマルチタスク学習が翻訳品質を向上させる影響を探る。
エンドツーエンド ST が Fisher Callhome スペイン語–英語翻訳タスクで最先端 BLEU を達成できることを示す。

提案手法

入力音声フレームを出力テキストトークンへ対応づけるため、アテンション機構を備えたエンコーダ–デコーダアーキテクチャの seq2seq モデルを用いる。
畳み込み層と双方向 LSTM エンコーダを用いて、対数メルフィルタバンク特徴を処理し、h1..L の表現を生成する。
アテンション由来のコンテキストベクトル c_k に導かれた多層 LSTM デコーダを用いて、出力トークン y_k を生成する。
翻訳タスクと ASR タスクの両方のエンドツーエンド訓練を、共通のエンコーダを用いたマルチタスク設定で行い、ST の性能を向上させる。
バックエンド訓練は教師強制、適応的最適化（Adam）、勾配ノイズ、外部言語モデルを用いないビーム探索デコーディングを使用する。

実験結果

リサーチクエスチョン

RQ1トレーニング時にソース言語の transcripts なしで、エンドツーエンドの seq2seq モデルは外国語の音声を直接ターゲット言語のテキストへ翻訳できるか？
RQ2音声翻訳と音声認識タスクでエンコーダを共有することは翻訳精度を向上させるか？
RQ3Fisher Callhome スペイン語–英語データにおいて、エンドツーエンド ST は ASR→MT のカスケードとどのように比較されるか？
RQ4デコーダの深さとマルチタスク学習が ST の性能に与える影響は？
RQ5トレーニング戦略（one-to-many 対 many-to-one）がマルチタスク ST/ASR に与える影響は？

主な発見

モデル	Fisher 開発データ	Fisher 开発データ2	Fisher テストデータ	Callhome 開発/テストデータ	Callhome 評価データ
エンドツーエンド ST 3	46.5	47.3	47.3	16.4	16.6
マルチタスク ST / ASR 3	48.3	49.1	48.7	16.8	17.4
ASR → NMT カスケード 3	45.1	46.1	45.5	16.2	16.6
Post et al. 19	–	35.4	–	–	11.7
Kumar et al. 21	–	40.1	40.4	–	–

エンドツーエンドの音声翻訳は、Fisher/test において ASR→NMT カスケードを約1.8 BLEUポイント上回る。
共通エンコーダを用いたマルチタスク ST/ASR は、Fisher データセット全体でさらに約1.4 BLEUポイントの改善をもたらす。
デコーダの深さを最大で4層まで増やすと Fisher/dev の ST 性能（BLEU）が改善されるが、それ以降は効果は薄くなる。
マルチタスク設定で全エンコーダ層を共有すると最良の ST 性能を得られ、エンコーダが中間言語表現を学習していることを示唆する。
エンドツーエンド ST モデルは Fisher dev/test で 46.5–47.3 BLEU、Callhome devtest/evaltest で 16.4–16.6 BLEU を達成し、Fisher で従来のカスケード法を上回る一方、Callhome ではデータサイズのため語彙レベルの MT ベースラインには及ばない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。