QUICK REVIEW

[論文レビュー] Breaking the Data Barrier: Towards Robust Speech Translation via Adversarial Stability Training

Qiao Cheng, Meiyuan Fang|arXiv (Cornell University)|Nov 2, 2019

Natural Language Processing Techniques参考文献 27被引用数 9

ひとこと要約

この論文では、音声認識エラーに対する神経機械翻訳の頑健性を向上させるために、敵対的安定トレーニングを提案する。エンコーダーに敵対的学習を、デコーダーにデータ拡張を同時に適用することにより、クリーンな出力とノイズのあるASR出力の間の性能差を縮小し、ノイズのある入力では最大2.83 BLEUの向上を達成しながら、クリーンなテキストではベースラインに近い性能を維持する。

ABSTRACT

In a pipeline speech translation system, automatic speech recognition (ASR) system will transmit errors in recognition to the downstream machine translation (MT) system. A standard machine translation system is usually trained on parallel corpus composed of clean text and will perform poorly on text with recognition noise, a gap well known in speech translation community. In this paper, we propose a training architecture which aims at making a neural machine translation model more robust against speech recognition errors. Our approach addresses the encoder and the decoder simultaneously using adversarial learning and data augmentation, respectively. Experimental results on IWSLT2018 speech translation task show that our approach can bridge the gap between the ASR output and the MT input, outperforms the baseline by up to 2.83 BLEU on noisy ASR output, while maintaining close performance on clean text.

研究の動機と目的

自動音声認識システムからのノイズのあるテキストを入力とされた神経機械翻訳モデルの性能低下を是正すること。
エンドツーエンドの音声翻訳パイプラインにおいて、クリーンなテキスト入力とノイズのあるASR出力の間のギャップを埋めること。
クリーンで高品質な入力データに対する性能を損なわせることなく、モデルの頑健性を向上させること。
エンコーダーの耐性とデコーダーのノイズ入力への適応性を同時に強化するトレーニングフレームワークを開発すること。

提案手法

ASRエラーに特徴的な摂動に対して頑健性を高めるために、エンコーダーに敵対的学習を適用する。
デコーダーのトレーニング中にデータ拡張を適用し、多様なノイズのある入力パターンをシミュレートする。
敵対的安定目的関数を用いて、エンコーダーとデコーダーを同時に最適化する。
敵対的データと拡張データに加えて標準的なトレーニング信号を維持することで、クリーンなテキストの性能を保つ。
勾配に基づく敵対的例を活用し、モデル最適化中に現実的なASRエラーをシミュレートする。

実験結果

リサーチクエスチョン

RQ1敵対的学習は、自動音声認識からのノイズのある入力に対して神経機械翻訳モデルの頑健性を向上させることができるか？
RQ2エンコーダーの敵対的学習とデコーダーのデータ拡張を併用することで、ノイズのあるASR出力に対する性能にどのような影響を与えるか？
RQ3認識エラーに対する頑健性を向上させながら、クリーンなテキストの性能をどの程度維持できるか？
RQ4提案手法は、クリーンな入力とノイズのある音声翻訳入力の間の性能ギャップを効果的に埋めることができるか？

主な発見

提案手法は、ベースラインと比較して、ノイズのあるASR出力に対する翻訳性能を最大2.83 BLEUポイント向上させる。
クリーンなテキストではベースラインに近い性能を維持しており、高品質な入力に対する顕著な劣化がないことが示された。
敵対的学習とデータ拡張を併用することで、クリーン入力とノイズ入力の間の性能ギャップが効果的に縮小された。
ASR出力のノイズレベルが異なる状況でも一貫した向上効果を示しており、多様な認識エラーに対して頑健であることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。