Skip to main content
QUICK REVIEW

[論文レビュー] Synthetic Data Augmentation for Zero-Shot Cross-Lingual Question Answering

Arij Riabi, Thomas Scialom|arXiv (Cornell University)|Oct 23, 2020
Topic Modeling参考文献 54被引用数 25
ひとこと要約

本稿では、SQuADで微調整された質問生成モデルと翻訳パイプラインを用いて多言語質問を生成することで、ゼロショット多言語質問応答のための合成データ拡張手法を提案する。この手法は、XQuAD や MLQA といった多言語ベンチマーク上で顕著な性能向上を達成し、新たに最先端の結果を樹立した。さらに、追加のアノテート済みデータを必要とせずに、フランス語、イタリア語、韓国語といった未学習言語に対しても効果的に一般化している。

ABSTRACT

Coupled with the availability of large scale datasets, deep learning architectures have enabled rapid progress on the Question Answering task. However, most of those datasets are in English, and the performances of state-of-the-art multilingual models are significantly lower when evaluated on non-English data. Due to high data collection costs, it is not realistic to obtain annotated data for each language one desires to support. We propose a method to improve the Cross-lingual Question Answering performance without requiring additional annotated data, leveraging Question Generation models to produce synthetic samples in a cross-lingual fashion. We show that the proposed method allows to significantly outperform the baselines trained on English data only. We report a new state-of-the-art on four multilingual datasets: MLQA, XQuAD, SQuAD-it and PIAF (fr).

研究の動機と目的

  • 英語データでのみ学習された多言語質問応答モデルが非英語言語で評価された際の性能ギャップを是正すること。
  • 低リソース言語向けに高コストで希少なアノテート済み多言語QAデータの課題を克服すること。
  • 合成データ生成が多言語QAモデルにおけるクロスリンガル転移能力を向上させることを調査すること。
  • 合成学習データに含まれない言語に対する本手法の一般化能力を評価すること。
  • 質問生成とQAの両方で同じモデルアーキテクチャ(MiniLM)を用いることで、蒸留バイアスを回避し、公平な比較を確立すること。

提案手法

  • SQuADデータセットで微調整された多言語質問生成モデルを用いて、英語の合成質問を生成する。
  • 事前学習済みニューラル機械翻訳システムを用いて、生成された英語質問を複数のターゲット言語に翻訳する。
  • 元のSQuADデータからの対応する答えと組み合わせることで、合成多言語QAサンプルを構築する。
  • 合成多言語データで多言語QAモデル(例:MiniLM、XLM-R)を微調整し、クロスリンガル転移を向上させる。
  • 2段階の訓練設定を採用する:まず英語で質問生成器を訓練し、その後それを用いて複数言語の合成データを生成する。
  • 生成された質問のBLEU-4スコアと下流QA性能の相関関係を測ることで、合成データ品質の影響を評価する。

実験結果

リサーチクエスチョン

  • RQ1追加のアノテート済みデータを必要とせずに、合成データ生成がゼロショット多言語質問応答の性能を向上させられるか?
  • RQ2生成された質問の品質(BLEU-4で測定)は、多言語ベンチマークにおける下流QA性能と相関するか?
  • RQ3提案手法は、合成学習データに含まれない言語(例:フランス語、イタリア語、韓国語)に対しても一般化可能か?
  • RQ4質問生成とQAのモデルアーキテクチャの選択が、特に蒸留バイアスを回避する観点から性能向上に与える影響は何か?
  • RQ5合成データ拡張は、合成データ作成時に観測された言語を超えて、どの程度クロスリンガル転移を向上させるか?

主な発見

  • MiniLMを用いた場合、合成データを用いることでXQuADでExact Matchが29.5から49.5に20ポイント上昇し、MLQAでは26.0から41.4に15.4ポイント上昇し、いずれも新たな最先端性能を達成した。
  • 合成データで微調整したXLM-Rモデルは、PIAF(fr)で新たな最先端性能を達成し、単一言語のCamemBERTでさえも上回った。
  • 韓国語(KorQuAD)やイタリア語(SQuAD-it)といった未学習言語において、ゼロショットベースラインより顕著な向上を示しており、効果的なクロスリンガル一般化が実証された。
  • 生成された質問のBLEU-4スコアとQA性能の間に強いピアソン相関(r = 0.65、p < .001)が観察され、質問の品質がモデル性能に直接影響することが示された。
  • MiniLMのXQuADにおけるEMスコアでは、ベースライン比で60%以上の相対的向上が確認され、合成データがモデルの一般化能力を顕著に向上させていることが示された。
  • 同じモデルアーキテクチャ(MiniLM)をQAとQGの両方で用いることで、Shakeriら(2020)の先行研究を上回る、合成データ拡張手法の真の影響をより公平に評価できた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。