[論文レビュー] Pre-training via Paraphrasing
MARGE は、関連文書を検索して条件付けることによりターゲットを再構築する学習を行う多言語検索ベースの事前学習モデルで、言語を跨ぐ強力なゼロショットおよびファインチューニングされた性能を実現します。
We introduce MARGE, a pre-trained sequence-to-sequence model learned with an unsupervised multi-lingual multi-document paraphrasing objective. MARGE provides an alternative to the dominant masked language modeling paradigm, where we self-supervise the reconstruction of target text by retrieving a set of related texts (in many languages) and conditioning on them to maximize the likelihood of generating the original. We show it is possible to jointly learn to do retrieval and reconstruction, given only a random initialization. The objective noisily captures aspects of paraphrase, translation, multi-document summarization, and information retrieval, allowing for strong zero-shot performance on several tasks. For example, with no additional task-specific training we achieve BLEU scores of up to 35.8 for document translation. We further show that fine-tuning gives strong performance on a range of discriminative and generative tasks in many languages, making MARGE the most generally applicable pre-training method to date.
研究の動機と目的
- 関連文書の多言語的言い換えを活用して、マスク付き言語モデリングを超える事前学習目的を動機づける。
- MARGE を導入する。検索で補強されたシーケンス・ツー・シーケンスモデルで、取得した証拠文書からターゲットテキストを再構成するように訓練される。
- 多くの言語で、翻訳、要約、言い換え、QA におけるゼロショットおよびファインチューニング済みの性能を示す。
- 本モデルが、ランダム初期化から、タスク固有データを事前学習用に用いずに、取得と再構成を共同で学習することを示す。
提案手法
- 取得した文書を符号化し、取得した証拠に条件づけながらターゲットをデコードする多源の seq2seq モデルを定義する。
- コサイン類似度を用いて、関連する取得文書にクロスアテンションをバイアスするよう、文書エンコーダ g によって f(x, z) という関連性スコアラーを学習する。
- 取得文書とその関連性スコアに条件づけたオートエンコーダ風の再構成損失で訓練する。
- シャード内で関連文書を取得・連携してターゲットと証拠の接続性を最大化するバッチを構築する。
- デコード時に、取得文書の関連性 f(xi, zj) を組み込むトレーニング可能なバイアスをクロスアテンションに実装する。
- CC-NEWSとWikipediaで大規模なTransformerベースのアーキテクチャと漸進的な最適化を用いてスケールで事前学習する。
実験結果
リサーチクエスチョン
- RQ1検索ベースの再構成目的は、マスク済み言語モデルの実用的な代替として事前学習に用いることができるか?
- RQ2共同の取得と再構成モデルが、マルチリンガル翻訳、要約、QA においてどの程度ゼロショットおよびファインチューニング済みの性能を達成できるか?
- RQ3言語を跨いだ取得証拠の取り込みは、クロスリンガル転送と文書レベルの生成にどのように影響するか?
- RQ4多言語設定における検索ベースの事前学習の制限とドメイン依存性は何か?
- RQ5データ量が異なる言語や言語的類似性の異なる言語間で、学習された取得コンポーネントはどのように振る舞うか?
主な発見
- MARGE は、タスク特化のファインチューニングなしで文書翻訳の BLEU スコアが最大で 35.8 を達成する。
- 要約および翻訳タスクにおけるゼロショットのクロスリンガル性能は、強力なベースラインと対等である。
- BUCC2018とTatoebaでのクロスリンガル文検索は、他の教師なしモデルを上回る。
- パラフレーズタスク(PAWS-X)は、ゼロショット転移で最先端に近い結果を示す。
- 質問応答(MLQA)は XLM-R と競争力のある結果を示し、中国語で特に強力な性能を発揮。
- MARGE のファインチューニングは、複数言語とタスクに渡ってマスク付き言語モデルと競合する結果を生む。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。