[論文レビュー] DuTongChuan: Context-aware Translation Model for Simultaneous Interpreting
DuTongChuanは、ストリーミングASR出力から情報単位(IUs)を動的に検出する文脈に配慮したニューラル機械翻訳モデルを提案する。初期のIUsに対しては部分的訳出を適用し、以降のIUsに対しては文脈に配慮した訳出を適用することで、低遅延と滑らかで一貫性のある翻訳の両立を実現する。モデルは中国語-英語翻訳で85.71%、英語-中国語翻訳で86.36%の人的評価スコアを達成し、ほとんどの場合で3秒未満の遅延を実現した。
In this paper, we present DuTongChuan, a novel context-aware translation model for simultaneous interpreting. This model allows to constantly read streaming text from the Automatic Speech Recognition (ASR) model and simultaneously determine the boundaries of Information Units (IUs) one after another. The detected IU is then translated into a fluent translation with two simple yet effective decoding strategies: partial decoding and context-aware decoding. In practice, by controlling the granularity of IUs and the size of the context, we can get a good trade-off between latency and translation quality easily. Elaborate evaluation from human translators reveals that our system achieves promising translation quality (85.71% for Chinese-English, and 86.36% for English-Chinese), specially in the sense of surprisingly good discourse coherence. According to an End-to-End (speech-to-speech simultaneous interpreting) evaluation, this model presents impressive performance in reducing latency (to less than 3 seconds at most times). Furthermore, we successfully deploy this model in a variety of Baidu's products which have hundreds of millions of users, and we release it as a service in our AI platform.
研究の動機と目的
- 同時通訳システムにおける低遅延と高翻訳品質の両立という課題に対処すること。
- 単一発話を超えた文脈的依存関係をモデル化することで、ストリーミング翻訳における話法の一貫性を向上させること。
- 最小限の遅延と高滑らかさを実現することで、実世界の応用における同時翻訳の実用的導入を可能にすること。
- より一貫性の高い翻訳を実現するため、人間の通訳者が用いる「チャンク化」や「サラミ・テクニック」のような戦略を模倣するシステムの開発。
提案手法
- モデルは、リアルタイムでストリーミングASR出力から意味的な言語的セグメント(情報単位:IU)を特定する新規のIU境界検出器を採用する。
- 文の冒頭のIUsに対しては、遅延を最小限に抑えて早期翻訳を可能にするために、部分的訳出が適用される。
- 文の途中や末尾のIUsに対しては、履歴的文脈を活用することで滑らかさと一貫性を向上させる文脈に配慮した訳出が用いられる。
- 遅延と翻訳品質のトレードオフを実現するため、IUの粒度と文脈ウィンドウサイズを動的に制御する。
- ASRストリーミング入力を二重パスNMTデコーダーと統合することで、文境界を待たずに継続的な翻訳が可能になる。
- モデルは大規模な音声対テキスト翻訳コーパスを用いたエンドツーエンド学習と、人間がアノテートした同時通訳データを用いたファインチューニングにより訓練される。
実験結果
リサーチクエスチョン
- RQ1リアルタイム処理中に低遅延を維持しながら、高い滑らかさと一貫性を保つことができる同時翻訳モデルの構築方法は何か?
- RQ2入力音声を翻訳に適した意味的な情報単位(IUs)に分割する最適な方法は何か?
- RQ3ストリーミング環境下で、標準的な部分的訳出と比較して、文脈に配慮した訳出が翻訳品質を顕著に向上させられるか?
- RQ4遅延と人的評価による品質の観点から、本モデルの性能は、既存のwait-kおよびフル文ベースラインと比べてどの程度優れているか?
- RQ5人間のインスピレーションを受けるチャンク化戦略は、文脈レベルの一貫性をどの程度向上させられるか?
主な発見
- 中国語-英語翻訳で85.71%、英語-中国語翻訳で86.36%の人的評価スコアを達成し、高い滑らかさと一貫性を示した。
- 人的評価により、標準的な部分的訳出モデルと比較して、話法の一貫性が顕著に向上したことが確認された。
- エンドツーエンド音声対音声翻訳において、遅延はほとんどの場合3秒未満であり、リアルタイム要件を満たした。
- 文脈に配慮した訳出により、ASRエラーに対しても高い耐性を示し、翻訳の信頼性が向上した。
- モデルはBaiduのAIプラットフォームに正常にデプロイされ、数億人のユーザーが利用しており、実世界でのスケーラビリティが裏付けられた。
- 今後のロバストな同時翻訳研究を支援するため、新しい音声翻訳コーパス(BSTC)を公開した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。