[論文レビュー] Automatic Construction of Discourse Corpora for Dialogue Translation
本論文は、情報検索を用いて単語彙の映画台本と二か国語の字幕をアライメントすることで、会話機械翻訳のための大規模な並列ディス course コーパスを自動的に構築する手法を提案する。この手法は、話者と会話境界のアノテーションでそれぞれ81.79%および98.64%の正確性を達成し、話者ベースの言語モデル適応によって翻訳品質を最大0.5 BLEUポイント向上させ、公開された10万文の中国語-英語会話コーパスを提供する。
In this paper, a novel approach is proposed to automatically construct parallel discourse corpus for dialogue machine translation. Firstly, the parallel subtitle data and its corresponding monolingual movie script data are crawled and collected from Internet. Then tags such as speaker and discourse boundary from the script data are projected to its subtitle data via an information retrieval approach in order to map monolingual discourse to bilingual texts. We not only evaluate the mapping results, but also integrate speaker information into the translation. Experiments show our proposed method can achieve 81.79% and 98.64% accuracy on speaker and dialogue boundary annotation, and speaker-based language model adaptation can obtain around 0.5 BLEU points improvement in translation qualities. Finally, we publicly release around 100K parallel discourse data with manual speaker and dialogue boundary annotation.
研究の動機と目的
- 機械翻訳のための高品質で構造化された並列会話コーパスの不足に対処する。
- 話者タグや会話境界といった豊富な会話構造を有する単語彙の映画台本と、並列文アライメントに適した二か国語の字幕を活用する。
- 単語彙の台本からのディス course レベルのアノテーション(話者、会話セグメント)を、それに対応する二か国語の字幕セグメントに自動的にマッピングするパイプラインを開発する。
- ドメイン適応型言語モデルを用いて、話者情報が会話翻訳品質に与える影響を評価する。
- 手動で検証された中国語-英語会話コーパス(約10万文ペア)を公開し、話者および境界アノテーションを含む。
提案手法
- ウェブから単語彙の映画台本とそれに対応する二か国語の字幕をクロールする。
- シーン/ショットの境界情報を利用して、映画台本から会話境界と話者タグを抽出する。
- 情報検索(IR)アプローチを用いて、台本レベルのディス course アノテーション(話者、会話セグメント)を対応する字幕文にマッピングする。
- 語のアライメントと文レベルの並列性を適用して、台本と字幕セグメント間の正確なマッピングを保証する。
- 生成された並列コーパス上で、5-gram言語モデルを用いてベースラインのMosesベースMTシステムを訓練する。
- 話者性別で訓練データを分割し、MTデコーダーで2つの別個の言語モデルを組み合わせることで、話者ベースの言語モデル適応を実装する。
実験結果
リサーチクエスチョン
- RQ1情報検索アプローチを用いて、単語彙の台本から二か国語の字幕へのディス course レベルのアノテーション(話者および会話境界)を信頼性高く投影できるか?
- RQ2手動で作成されたゴールドスタンダードと比較して、話者および会話境界ラベルの自動アノテーションの正確性はどの程度か?
- RQ3言語モデルに話者アイデンティティを組み込むことで、会話MTの翻訳品質はどの程度向上するか?
- RQ4提案手法は、会話固有のMTシステムの学習に適した大規模で高品質な並列会話コーパスを生成するためにスケーラブルか?
- RQ5ディス course 構造は、ニューラルおよび統計的MTシステムにおける一貫性と流暢さにどのような影響を与えるか?
主な発見
- 台本から字幕への話者タグの自動マッピングは、手動アノテーションと比較して81.79%の正確性を達成した。
- 会話境界の自動アノテーションは98.64%の正確性に達し、IRベースのアライメント手法の高い信頼性を示している。
- 話者ベースの言語モデル適応により、中国語→英語のテストセットで+0.50 BLEUポイント、英語→中国語のテストセットで+0.43 BLEUポイントの翻訳パフォーマンス向上が達成された。
- 提案手法は、豊富なディス course アノテーションを備えた10万文の並列会話コーパスを効果的に生成し、研究利用のための公開を成功した。
- 結果から、話者アイデンティティと会話構造は、会話翻訳における流暢さと一貫性の向上に価値あるシグナルであることが示された。
- 本手法は、容易に入手可能なウェブリソースから、大規模で段階的な並列ディス course コーパスを構築する上でスケーラブルかつ効果的である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。