[論文レビュー] Robust Neural Machine Translation for Clean and Noisy Speech Transcripts
本論文は、同じソースのクリーンなテキストとASRによって生成された(ノイジーな)トランスクリプトの両方を含む混合平行コーパスを用いて学習することで、クリーンでないノイジーな音声トランスクリプトを処理できる統合型ニューラル機械翻訳(NMT)モデルを提案する。主な結果として、両方のデータタイプに対して同時に適応させることで、クリーンデータやノイジーなデータにのみ学習させたモデルよりも優れた性能を両方の入力タイプで達成できることを示している。
Neural machine translation models have shown to achieve high quality when trained and fed with well structured and punctuated input texts. Unfortunately, the latter condition is not met in spoken language translation, where the input is generated by an automatic speech recognition (ASR) system. In this paper, we study how to adapt a strong NMT system to make it robust to typical ASR errors. As in our application scenarios transcripts might be post-edited by human experts, we propose adaptation strategies to train a single system that can translate either clean or noisy input with no supervision on the input type. Our experimental results on a public speech translation data set show that adapting a model on a significant amount of parallel data including ASR transcripts is beneficial with test data of the same type, but produces a small degradation when translating clean text. Adapting on both clean and noisy variants of the same data leads to the best results on both input types.
研究の動機と目的
- クリーンで正しい標点を含むテキストと比較して、ノイジーなASRによって生成された音声トランスクリプトを翻訳する際のニューラル機械翻訳(NMT)の性能低下という課題に対処すること。
- 推論時に入力タイプの監視が不要な状態でも、クリーンな入力とノイジーな入力の両方で良好に動作する統合型NMTシステムを構築すること。
- 同じ平行コーパスのクリーン版とノイジー版を同時に学習させることで、モデルの耐性と一般化性能が向上するかを調査すること。
- 実世界の音声翻訳シナリオにおける、高品質なクリーンテキスト翻訳の性能とASRエラーに対する耐性の間の性能トレードオフをバランスすること。
提案手法
- 同じソース文のクリーンな参照テキストとそれに該当するASRによって生成された(ノイジーな)トランスクリプトを含む混合平行コーパスを用いて、1つのNMTモデルを学習する。
- 同じソース側の平行データを2つの形(クリーンとノイジー)で用いることで、実世界の入力変動を模倣する。
- 両方のデータタイプで同じモデルアーキテクチャとパラメータを共有しながら、標準的なNMT学習手順を適用する。
- 訓練データにポストエディット済みトランスクリプトを組み込むことで、現実的な人間が関与する音声翻訳パイプラインを反映する。
- クリーン入力とノイジー入力の別々のテストセットを用いて、モデルの耐性と一般化性能を評価する。
- 3つの設定でのモデル性能を比較する:クリーンデータのみで学習、ノイジーデータのみで学習、両方を組み合わせて学習。
実験結果
リサーチクエスチョン
- RQ1入力タイプの明示的分類が推論時に不要な状態で、1つのNMTモデルがクリーンなトランスクリプトとノイジーなトランスクリプトの両方を効果的に翻訳できるか。
- RQ2同じデータのクリーン版とノイジー版を同時に学習させることで、各入力タイプにおける翻訳品質にどのような影響を与えるか。
- RQ3ノイジーなASRトランスクリプトで学習させることで、クリーンなテストデータでの性能が低下するか。その低下は緩和可能か。
- RQ4訓練データにポストエディット済みのASRトランスクリプトを含めることで、モデル全体の耐性にどのような影響を与えるか。
主な発見
- ASRによって生成された(ノイジーな)トランスクリプトを含む大量の平行コーパスで学習させることで、ノイジーなテストデータにおける翻訳性能が向上する。
- クリーンデータにのみ学習させたモデルは、クリーンな入力では高い性能を達成するが、ノイジーな入力でテストすると性能が低下する。
- 同じデータのクリーン版とノイジー版を同時に学習させることで、両方の入力タイプにおいて最良の全体的な性能が得られる。
- 混合データで適応させたモデルは、クリーンなテキストでも高い性能を維持するとともに、ASRエラーに対する耐性が著しく向上する。
- 推論時に入力タイプの分類が不要な状態で、本手法は入力の多様性を効果的に処理できる。
- 結果から、実世界の音声翻訳アプリケーションにおいてノイジーなトランスクリプトを訓練データに含めることは有益であることが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。