[論文レビュー] Multilingual Extractive Reading Comprehension by Runtime Machine Translation
本論文は、RC学習データを持たない言語のために、ターゲット言語からRCデータを持つピボット言語へ実行時翻訳を行い、元の言語での回答を整合させて回復することで、抽出型読解RCシステムを構築する。日本語およびフランス語SQuADでバック翻訳ベースラインを上回る。
Despite recent work in Reading Comprehension (RC), progress has been mostly limited to English due to the lack of large-scale datasets in other languages. In this work, we introduce the first RC system for languages without RC training data. Given a target language without RC training data and a pivot language with RC training data (e.g. English), our method leverages existing RC resources in the pivot language by combining a competitive RC model in the pivot language with an attentive Neural Machine Translation (NMT) model. We first translate the data from the target to the pivot language, and then obtain an answer using the RC model in the pivot language. Finally, we recover the corresponding answer in the original language using soft-alignment attention scores from the NMT model. We create evaluation sets of RC data in two non-English languages, namely Japanese and French, to evaluate our method. Experimental results on these datasets show that our method significantly outperforms a back-translation baseline of a state-of-the-art product-level machine translation system.
研究の動機と目的
- 英語のRC資源を活用して、RC学習データを欠く言語で抽出型RCを実現する。
- 翻訳、解答、そしてターゲット言語へ正確に整合させるホワイトボックスNMT+RCパイプラインを提案する。
- 日本語とフランス語のSQuAD評価を通じて有効性を示す。
- 翻訳品質、質問翻訳の重要性、整合ベースの回答回復を分析する。
提案手法
- 双線形アテンションを用いて、ターゲット言語Lからピボット言語Pへ翻訳するアテンティブNMTモデルを訓練する。
- Pで訓練されたRCモデルを、翻訳された文脈と質問に適用してP内の回答スパンを得る。
- NMTのアテンション重みを介してPの回答スパンをLへ整合させ、Lでの開始位置と終了位置をマップして回答を回復する。
- PでBiDAFベースのRCモデルを用いる(Self-Attentionや英語のELMoなどの強化を含む)。
- Wikipediaを基盤とするL–Pの並列コーパスを作成し、手翻訳された質問を過剰サンプリングして質問翻訳を改善する。
- 文脈・質問・回答の両方に対してP-to-L翻訳を用いるバックトランスレーションベースラインと比較する。
実験結果
リサーチクエスチョン
- RQ1英語のRCモデルとホワイトボックスNMT翻訳者を活用して、RC学習データのない言語に対してRCシステムを構築できるか?
- RQ2提案された実行時MTアプローチは、非英語RCタスクにおけるバックトランスレーションベースラインとどのように比較されるか?
- RQ3多言語設定におけるRC精度において、質問翻訳と整合ベースの回復はどのような役割を果たすか?
- RQ4下流のRC性能に最も影響を与える主要な翻訳品質ファクターは何か?
主な発見
| Method | Japanese F1 | Japanese EM | French F1 | French EM |
|---|---|---|---|---|
| Our method | 52.19 | 37.00 | 61.88 | 40.67 |
| Back-translation by Google Translate | 42.60 | 24.77 | 44.02 | 23.54 |
- 本手法は日本語SQuADでF1: 52.19、EM: 37.00を、フランス語SQuADでF1: 61.88、EM: 40.67を達成する。
- バックトランスレーションベースラインは、F1 42.60(Ja)/ 44.02(Fr)およびEM 24.77(Ja)/ 23.54(Fr)と低いスコアにとどまる。
- 質問翻訳の品質と手動翻訳された質問のオーバーサンプリングがRC性能を大幅に改善する。
- アブレーション実験は、Self-Attention/ELMoを除去するか、質問翻訳を省略するのがRC指標を顕著に低下させることを示す。
- 翻訳品質と整合ベースの回復は、ターゲット言語での文脈とグラウンディングの維持に不可欠である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。